Estadística en Microcomputadores/ANALISIS DE VARIANCIA EN EL SISTEMA ESTAD
CAPITULO 15
ANALISIS DE VARIANCIA EN EL SISTEMA ESTAD
El sistema ESTAD incluye la posibilidad de ejecutar procesos de Análisis de Variancia, con las siguientes características:
- Un factor, con una cantidad igual o desigual de observaciones para cada uno de los grupos definidos por los valores específicos del factor.
- Dos factores, con una cantidad mayor o igual a 1 de observaciones en cada grupo definido por los valores específicos de los factores. Dicha cantidad puede ser desigual en cada grupo, siempre y cuando la variación en la cantidad de observaciones no sea elevada y pueda considerarse aleatoria (no asociada de alguna manera a los valores de los factores).
No se consideran en el sistema las variantes de análisis de covariancia y los casos no paramétricos. Estos últimos pueden realizarse de manera indirecta, en algunos casos, mediante transformaciones previas de los datos a sus valores de rango.
En el Cuadro 15.1 se resumen los procedimientos de cálculo utilizados por el sistema para ejecutar procesos de Análisis de Variancia. Como se aprecia en el Cuadro, el sistema admite en los casos de dos factores la posibilidad de considerar modelos de tipo aditivo o multiplicativo con respecto a los factores.
La ejecución de un proceso de Análisis de Variancia se lleva a cabo mediante el siguiente menú, que aparece al seleccionar el tema en el menú principal del sistema:
PROCESOS
1 - Análisis de variancia
2 - Manejo de Datos
Se aprecia en el menú anterior que es posible llamar a la opción de Manejo de Datos sin tener que volver al menú principal del sistema.
La ejecución de un Análisis de Variancia requiere realizar los siguientes pasos, una vez seleccionado en el menú inicial del tema:
a) Se define el modelo específico a considerar (uno o dos factores y multiplicativo o aditivo, en este segundao caso), mediante el siguiente menú:
MODELOS
1 - Y = Mu + Alfa(X1)
2 - Y = Mu + Alfa(X1) + Beta(X2)
3 - Y = Mu + Alfa(X1) + Beta(X2) + Gama(X1,X2)
Los modelos 1 y 2 son aditivos con respecto a los factores. En cambio, el modelo 3 incluye un término que permite evaluar los efectos sobre la variable respuesta producidos por la interrelación de los factores.
b) Selección de las variables a considerar en el proceso, de las existentes en la memoria de trabajo, siguiendo el procedimiento descripto en . Se ingresan en primer lugar los factores (hasta 2) y, por último, la variable dependiente o respuesta para la cual se realiza el análisis. El proceso de Análisis de Variancia admite la consideración de datos de tipo agrupado.
c) Para cada una de las variables definidas como factores en el paso anterior, se ingresan los valores que permiten definir los diferentes grupos de observaciones. Este ingreso se realiza de manera similar al descripto en el proceso de clasificación ( paso b) de la sección ).
d) Ejecución por el computador del proceso sobre el juego de datos definido y presentación en pantalla de los siguientes resultados:
- Valor medio general de la variable dependiente.
- Para cada grupo en que se clasifican los valores de la variable dependiente:
. Número de observaciones
. Efectos diferenciales sobre la media general debidos a cada factor.
. En el caso de dos factores y un modelo de tipo multiplicativo el efecto diferencial sobre la media general, para cada combinación específica de los dos factores involucrados.
- Tabla resumen de la verificación del grado de significación de los efectos de cada factor sobre los valores de la variable dependiente. En la tabla se incluyen, para cada factor individual y para la interrelación, en el caso multiplicativo, los siguientes elementos:
. Suma de desvíos cuadraticos
. Grados de libertad
. Desvíos cuadráticos medios
. Estadística F
. Niveles de significación de la estadística F
En la misma tabla se incluye la suma de errores cuadráticos resultante del modelo de Análisis de Variancia, así como los grados de libertad correspondientes y el desvío cuadrático respectivo.
Si se está realizando un análisis con dos factores y los datos contienen una cantidad desigual de observaciones en cada grupo se presenta en pantalla el correspondiente mensaje.
e) Ejecución optativa de un proceso complementario, mediante su selección en el siguiente menú:
PROCESOS COMPLEMENTARIOS
1 - Cálculo de Valores Estimados y residuos
2 - Cálculo de Intervalos de Confianza por Grupos
3 - Comparación entre Grupos
La primera opción permite calcular los valores de la variable respuesta estimados por el modelo de Análisis de Variancia, así como los residuos resultantes entre ellos y los valores experimentales, pudiendo almacenarlos en la memoria de trabajo.
La segunda opción permite comparar las medias de la variable respuesta en cada grupo.
Finalmente, la tercera opción posibilita efectuar pruebas sobre la significación de la diferencia entre medias de la variable respuesta para dos grupos de observaciones.
f) Si en el menú anterior se seleccionó la opción 1, se efectúa la definición optativa de las variables de la memoria de trabajo donde se desea almacenar los valores estimados de la variable dependiente y los correspondientes residuos, siguiendo el procedimiento descripto en el punto .
El computador efectua el proceso, presentando en pantalla los valores reales y estimados de la variable Y, así como los correspondientes residuos, para cada observación, almacenando estos dos últimos en las posiciones definidas de la memoria de trabajo.
g) Si en el menú anterior se seleccionó la opción 2, el computador efectua el proceso correspondiente y presenta el pantalla los siguientes resultados, para cada combinación de valores de los factores:
- Promedio de la variable dependiente para las observaciones que se encuentran dentro del grupo.
- Valores mínimo y máximo del intervalo de confianza del promedio.
- Gráfico del intervalo de confianza.
h) Si en el menú anterior se eligió la opción 3, se ingresan
los valores de los factores que definen los dos grupos
para los que se desea verificar los valores de la
variable dependiente. A partir de ello el computador
efectua el proceso, presentando en pantalla el valor de
la estadística de prueba y el correspondiente nivel de
significación .
Como ejemplo de aplicación del procedimiento descripto presentamos en el Cuadro 15.2 la ejecución de un Análisis de Variancia sobre el juego de datos de nacimientos (NATIVBA), cargado previamente en la memoria de trabajo. El proceso consiste en el análisis del tiempo de gestación con respecto a dos factores: la actividad de la madre (si trabaja o no) y su edad. El modelo adoptado en el ejemplo es de tipo multiplicativo, es decir, considera el efecto de la interrelación entre los dos factores, además de los efectos independientes de cada uno de ellos. Los cálculos principales realizados son:
Valores medios y cantidad de observaciones, por grupos:
Edad
15 25 35 Total
=1 38.72 39.29 39.3 39.09
64 97 20 181
Actividad -------------------------------------------
>1 38.17 39.25 39.14 38.84
18 24 7 49
Total 38.60 39.28 39.26 39.04
82 121 27 230
Estimación de efectos diferenciales:
= 39.09 - 39.04 = 0.05
= 38.84 - 39.04 = -.20
= 38.28 - 39.04 = -.76
= 39.28 - 39.04 = 0.24
= 39.26 - 39.04 = 0.22
= 38.72 - 38.60 - 39.09 + 39.04 = 0.07
............
= 39.14 - 38.84 - 39.26 + 39.04 = 0.08
Número promedio de observaciones por grupo:
15 - 248
njk = 2*3 / (1/64+1/97+...+1/24+1/7) = 18.99
Suma de Desvíos Cuadráticos:
p=3 q=3
SD1 = 18.99*3*( (39.09-39.04)2 +...) = 2.44
SD2 = 18.99*2*( (38.60-39.04)2 +...) = 24.37
SD12 = 18.99*( (38.72-38.60-39.09-39.04)2+...) = 2.19
SDe = (39-39.3+39.04)2+(40-38.17+39.04)2 = 2090.72
SDt = SD. = 2119.72
Grados de Libertad:
Factor 1 = 2 - 1 = 1
Factor 2 = 3 - 1 = 2
Interr.12 = (2 - 1)*(3 - 1) = 2
Error = 230 - 2*6 = 224
Total = 1 + 2 + 2 + 224 = 229
Desvíos Cuadráticos Medios:
DM1 = 2.44/1 = 2.44
DM2 = 24.37/2 = 12.19
DM12 = 2.19/2 = 1.1
DMe = 2090.72/224 = 9.33
Estadísticas F:
F1 = 2.44/9.33 = 0.26
F2 = 12.19/9.33 = 1.31
F12 = 1.095/9.33 = 0.12
Niveles de Significación :
= 100*( 1 - FF(0.26) ) = 100*(1 - 0.3843) = 61.57%
Parámetros de FF(): k1 = 1 k2 = 224
= 100*( 1 - FF(1.31) ) = 100*(1 - 0.7276) = 27.24%
Parámetros de FF(): k1 = 2 k2 = 224
= 100*( 1 - FF(0.12) ) = 100*(1 - 0.1155) = 88.45%
Parámetros de FF(): k1 = 2 k2 = 224
CUADRO 15.1 - PROCESO DE ANALISIS DE VARIANCIA
a) Caso de Un Factor (X)
Valores posibles del Factor X: x1, x2, ...,xj, ...,xp
Cada valor xj del factor X define un grupo de nj observaciones de la variable respuesta Y (los nj pueden ser diferentes entre sí). j nj = n
Modelo: yij = + j + ei
siendo:
yij Observación i de la variable Y, asociado a un valor xj del factor X.
Valor esperado de la variable Y.
j Efecto diferencial sobre la variable Y debido al valor
xj del factor X.
ei Error o residuo del modelo en la observación i.
Valores medios de la variable Y:
Media para cada grupo j: yj = 1/nj yij
Media general y = 1/n yij
Estimación de parámetros del modelo
= y
= yj - y
Verificación de la significación de los efectos diferenciales
(si los j son o no = 0):
Causa de Suma de Grados de Desvíos Estad. Nivel
variación Desvíos Libertad Cuadráticos F de
de Y Cuadrat. Medios
Signific
Factor X SDx = kx = DMx = F = 1-FF(F)
nj(yj-y)2 p-1 SDx/kx DMx/DMe
Errores SDe = ke = DMe =
ei (yij-yj)2 n-p SDe/ke
Total SDT = kt =
(yij-y2 n-1
FF(): Función de Probabilidad acumulada de una distribución
"F" con parámetros k1=p-1, k2=n-p
b) Caso de Dos Factores (X,W)
Valores posibles de los factores:
X: x1, x2, ..., xj, ..., xp
W: w1, w2, ..., wk, ..., wq
cada combinación de valores xj, wk de los factores define un
grupo con njk valores de la variable respuesta Y (los
njk pueden ser diferentes entre sí, mientras la
diferencia sea relativamente pequeña y sea de carácter
aleatorio). njk = n
Número medio de observ. por grupo: ng = pq/ (1/njk)
Modelo: yijk = + j + k + jk + ei
siendo:
yijk Observación de la variable Y, asociada a valores xj, wk de los factores.
Valor esperado de la variable Y.
j Efecto diferencial sobre la variable Y debido al valor
xj del factor X.
k Idem, valor wk del factor W.
jk Idem, combinación de valores xj, wk de los factores X e
Y (no se considera en un modelo aditivo).
ei Error o residuo del modelo en la observación i.
Valores Medios de la variable Y:
. Media para cada grupo jk: yjk = 1/njk yijk
. Media para cada valor factor X: yj = 1/q yjk
. Media para cada valor factor Y: yk = 1/p yjk
. Media General: y = 1/pq yjk
Estimación de parámetros del modelo (efectos diferenciales):
= y
j = yj - y
k = yk - y
jk = yjk - yj - yk + y
Verificación de la significación de los Efectos Diferenciales
(si los j, k, jk son o no = 0):
Causa de Suma de Grados de Desvíos Estad. Nivel
variación Desvíos Libertad Cuadráticos F de
de Y Cuadrat. Medios
Signific
Factor X SDx = kx = DMx = Fx= 1-FF(Fx)
ngq (yj-y)2 p-1 SDx/kx DMx/DMe
Factor W SDw = kw = DMw = Fw= 1-FF(Fx)
ngp (yk-y)2 q-1 SDw/kw DMw/DMe
Interrrel. SDxw = kxw = DMxw = Fxw= 1-FF(Fxw)
XW ng (yjk-yj-yk+y)2
(p-1)(q-1) SDw/kw DMw/DMe
Errores SDe = ke = DMe =
ei (yijk-yjk+y)2
n-pq SDe/ke
Total SDT = kt =
(yijk-y2 n-1
En el caso de un modelo aditivo ( jk=0) SDxw y kxw se agregan
a SDe y ke.
FF(): Función de Probabilidad acumulada de una distribución "F" con parámetros k1=kx, kw ó kxw, k2=ke.