Estadística en Microcomputadores/Pruebas no Paramétricas ESTAD

De Wikilibros, la colección de libros de texto de contenido libre.

14.2 PRUEBAS NO PARAMETRICAS

La pruebas no paramétricas incluidas en el sistema ESTAD son las siguientes:

- Una variable Pruebas Chi2, Wilcoxon y Kolmogorov-Smirnov.

- Dos Variables independientes Pruebas de Mann-Whitney y de Kolmogorov-Smirnov.

- Dos Variables relacionadas Pruebas de Wilcoxon y de Correlación de Spearman. En el Cuadro 14.3 se resumen los procedimiento de cálculo utilizados por el sistema para las pruebas enunciadas. Los elementos incluidos en el Cuadro, para cada prueba, son:

- Hipótesis Básica y Alternativa

- Procedimiento de cálculo de la estadística de prueba, en cada caso.

- Expresión de cálculo del nivel de significación . La ejecución de las pruebas no paramétricas incluidas en el sistema involucra llevar a cabo los siguientes pasos, una vez elegida la opción correspondiente en el menú de Pruebas Estadísticas:

a) Selección de la prueba no paramétrica específica a ejecutar, del siguiente menú:

TIPO DE PRUEBA

Una Variable

1 - Chi2

2 - Wilcoxon (1)

3 - Kolmogorov-Smirnov (1)

Dos Variables Independientes

4 - Mann-Whitney

5 - Kolmogorov-Smirnov (2)

Dos Variables Relacionadas

6 - Wilcoxon (2)

7 - Correlac. de Spearman


b) Selección de las variables de la memoria de trabajo a considerar en la prueba. Esta selección se realiza de manera similar a la descripta para las pruebas paramétricas, según que intervengan variables independientes o relacionadas (paso c) de la sección 5.4.2). En el caso se las pruebas no paramétricas no se tienen en cuenta datos de tipo agrupado.

c) Ejecución por el computador de la prueba seleccionada y presentación en pantalla de los resultados correspondientes:

- Variables involucradas

- Número de observaciones de cada variable

- Estadísticas descriptivas de cada variable

- Valor de la estadística de prueba

- Nivel de significación de la prueba

- Mensaje en el caso de que el número de observaciones de las variables sea menor a los límites establecidos en cada prueba, indicando el carácter aproximado del nivel de significación obtenido.

Se consideran seguidamente dos ejemplos de ejecución del proceso descripto, que involucran el juego de datos de nacimientos (NATIVBA), cargado previamente en la memoria de trabajo. En el primer ejemplo, cuyos resultados se incluyen en el Cuadro 14.4 a), se evalúa mediante la prueba de Mann-Whitney si existe diferencia en el nivel de instrucción de la madre (variable de tipo ordinal) según el tipo de hospital utilizado.

Los cálculos efectuados son:

Rangos de las dos muestras:

Muestra 1 Muestra 2

Obs. Valor Rango Obs. Valor Rango

Nro. exper. Nro. exper.


------------------------

1 3 73 1 0 1

2 4 140.5 2 5 181.5

3 3 73 3 5 181.5

4 2 11.5 4 5 181.5

........................ ........................

....................... ........................

137 3 73 87 5 181.5

138 3 73 88 7 223.5

139 4 140.5 89 6 212.5

140 3 73 90 4 140.5


------------------------

Suma de Rangos:

T1 = 12324

Estadística de prueba:

U1 = 140*90+140*(140+1)/2-12324 = 10146

U2 = 140*9-10146 = 2454

U = mínimo (U1,U2) = 2454

Nivel de significación :

Parámetros de la aproximación normal

= 140*90/2 = 6300

= 140*90*(140+90+1)/12 = 492.5

FN(6300) = 1

= 100*2(1 - 1) = 0

En el segundo ejemplo se analiza la relación entre el nivel de instrucción de la madre y el del padre, ambas variables de tipo ordinal, mediante la prueba de Wilcoxon. Los resultados del proceso se muestran en el Cuadro 14.4 b), siendo los cálculos correspondientes los siguientes:

Rangos de las diferencias

Nro.Difer. Diferencia Rango de Dif


14 - 232

1 -3 97.5

2 -1 26.5

3 -2 71

4 2 71

...................................

...................................

105 -2 71

106 2 71

107 -1 26.5

108 2 71


Nro. de observaciones con diferencia distinta de 0 = 108

Estadística de Prueba

SP = 3839.5

SN = 2046.5

S = mínimo (SP,SN) = 2046.5

Nivel de significación

Parámetros de la aproximación normal

= 108*(108+1)/4 = 2943

= 108*109*(2*108+1)/24 = 326.25

FN(2046.5) = .9985

= 100*2*(1-.9985) = 0.3%

CUADRO 14.3 - PRUEBAS NO PARAMETRICAS

1. PRUEBA DE CHI2 SOBRE UNA VARIABLE

Hipótesis

Básica La variable responde a una dada población especificada.

Hipótesis

Alternativa La variable no responde a la población especificada.

Estadística de Prueba Se obtiene una estadística de prueba x2 en función de las frecuencias de una muestra de observaciones de la variable y las frecuencias que se considera corresponden a la población establecida, para un conjunto de m grupos de clasificación:

x2 = (fg - fg')2/fg'

siendo:

fg frecuencia de observaciones de el grupo g para la muestra de observaciones.

fg' Idem, para la población.

Cálculo

de La estadística x2 para muestras de tamaño n que responden a la hipótesis básica sigue una distribución Chi2 con parámetro k = m-1. En consecuencia resulta:

= 1 - FCHI(x2)

Una condición a satisfacer es que las frecuencias esperadas no sean demasiado pequeñas (no deberían ser menores a 5 en más del 20% de los grupos).


2. PRUEBA DE WILCOXON SOBRE UNA VARIABLE

Hipótesis

Básica Mediana = m0

Hipótesis

Alternativas a) Mediana m0

b) m0

c) = m0

Estadística

de Prueba La estadística de prueba S se calcula mediante el siguiente procedimiento:

a) Determinación de la diferencia di entre el valor xi y d0 en cada observación de la muestra considerada: di = xi - m0

b) Se obtienen los rangos pi de los valores absolutos de las diferencias di distintas de cero.

c) Se suman por separado los rangos correspondientes a las diferencias positivas pi+ y negativas pi-:

SP = nd pi+

SN = nd pi- nd=Nro. Difs. positivas o negativas=0

d) La estadística de prueba S resulta: Hipótesis Alt. S

a) SN

b) SP

c) Minimo de (SN,SP)

Cálculo de Para muestras de una variable que cumple la hipótesis básica la estadística de prueba S sigue una distribución Normal, con parámetros:

= nd(nd+1)/4

= nd(nd+1)(2nd+1)/24

Hipótesis alternativas a) y b):

Si FN(S)>0.5: = 1 - FN(S)

Si FN(S)<=0.5: = FN(S)

Hipótesis alternativa c):

= 2 * Valor anterior de

La distribución Normal de la estadística de prueba es aproximada para nd 25.


3. PRUEBA DE KOLMOGOROV-SMIRNOV SOBRE UNA VARIABLE

Hipótesis Básica La variable responde a una dada distribución teórica especificada.

Hipótesis

Alternativa La opuesta

Estadística

de Prueba La estadística de Prueba d se obtiene como la máxima diferencia entre la función de probabilidad acumulada

F(x) empírica para la muestra considerada (ver sección 4.1) y la F(x) de la distribución teórica planteada:

d=Valor máximo de F(x)EXP-F(x)TEOR

Cálculo de Para muestras de una variable que cumple la hipótesis básica planteada la probabilidad de que la diferencia máxima entre ambas funciones supere al valor de la estadística de prueba d resulta:

= Q( n d)

siendo Q() la siguiente función:

Q(a) = (-1)j-1 exp(-2j2a2)

El valor de obtenido resulta una aproximación conservadora para n<20. También ocurre ello cuando los parámetros de la distribución teórica se estiman a partir de la muestra, asi como cuando dicha distribución es de tipo discreto.


4. PRUEBA DE MANN-WHITNEY SOBRE DOS VARIABLES INDEPENDIENTES

X e Y

Hipótesis

Básica Las dos variables corresponden a una misma distribución

Hipótesis

Alternativas a) Distrib(X) > Distrib(Y)

b) Distrib(X) < Distrib(Y)

c) Distrib(X) = Distrib(Y)

Estadística

de Prueba La estadística de prueba U se calcula mediante el siguiente procedimiento:

a) Determinación del rango correspondiente a cada observación de la variable X y de la Y, consideradas en conjunto.

b) Cálculo de la estadística U para cada variable, mediante las expresiones:

Ux=nxny + nx(nx+1)/2 - Tx

Uy = nxny - Ux

siendo:

Tx: Suma de los rangos para las observaciones de la variable X.

c) La estadística de prueba resulta: Hipótesis Alt. U

a) Ux

b) Uy

c) Minimo de (Ux,Uy)

Cálculo

de Para muestras de variables que cumplen la hipótesis básica la estadística U sigue una distribución Normal, con los siguientes parámetros:

= nxny/2

= ( nxny/n(n-1) )((n3-n)/12 - T)

siendo T = (t3-t)/12

t: nro. de observaciones empatadas para un dado rango

(ver sección ).

n=nx+ny

Hipótesis a) y b)

Si FN(U)>=0.5: = 1-FN(U)

Si FN(U)<0.5: = FN(U)

Hipótesis c)

= 2 * para las alternativas anteriores

La distribución Normal de U es aproximada para nx y ny <=10.


5. PRUEBA DE KOLMOGOROV-SMIRNOV SOBRE DOS VARIABLES INDEPENDIENTES X E Y

Hipótesis

Básica Distribución Variable X = Distribución Variable Y

Hipótesis

Alternativa La opuesta

Estadística

de Prueba La estadística de Prueba d se obtiene como la máxima diferencia entre la función de probabilidad acumulada F(x) empírica para la variable X y la equivalente para la variable Y (ver sección 4.1):

d=Valor máximo de F(x)-F(y)

Cálculo de Para muestras de variables que cumplen la hipótesis planteada la probabilidad de que la diferencia máxima entre ambas funciones supere al valor de la estadística de prueba d resulta:

= Q( nxny / (nx+ny) d )

siendo Q() la función definida para la prueba similar sobre una variable.

El valor obtenido de resulta una aproximación para nx o ny<20.

6. PRUEBA DE WILCOXON SOBRE DOS VARIABLES RELACIONADAS X E Y

Hipótesis

Básica Distribución Variable X = Distribución Variable

Y

Hipótesis

Alternativas a) Distrib(X) > Distrib(Y)

b) Distrib(X) < Distrib(Y)

c) Distrib(X) = Distrib(Y)

Estadística

de Prueba La estadística de prueba S se calcula mediante el siguiente procedimiento:

a) Determinación para cada observación de la diferencia

di entre los valores xi e yi de las dos variables:

di = xi - yi

b) Se obtienen los rangos pi de los valores absolutos de las diferencias di distintas de cero.

c) Se suman por separado los rangos correspondientes a las diferencias positivas pi+ y negativas pi-:

SP = nd pi+

SN = nd pi- ,nd=Nro. Diferenc.

posit. o negat.=0

d) La estadística de prueba S resulta:

Hipótesis Alt. S

a) SN

b) SP

c) Minimo de (SN,SP)

Cálculo

de Para muestras de variables que cumplen la hipótesis básica la estadística de prueba S sigue una distribución Normal, con parámetros:

= nd(nd+1)/4

= nd(nd+1)(2nd+1)/24

Hipótesis a) y b):

Si FN(S)>0.5: = 1 - FN(S)

Si FN(S)<=0.5: = FN(S)

Hipótesis c)

= 2 * para hipótesis anteriores

La distribución normal de la estadística de prueba es aproximada para nd<25.


7. PRUEBA SOBRE EL COEFICIENTE DE CORRELACION DE SPEARMAN DE DOS VARIABLES RELACIONADAS

Hipótesis

Básica S = 0

siendo S el coeficiente de correlación de Spearman, con una interpretación similar al coeficiente de correlación pero calculado ahora sobre los rangos de las dos variables, en lugar de los valores originales.

Hipótesis

Alternativas a) S > 0

b) S < 0

c) S = 0

Estadística

de Prueba La estadística de Prueba t se calcula mediante el siguiente procedimiento:

a) Determinación de los rangos de las observaciones de las variables X e Y, en forma separada.

b) Cálculo del coeficiente de correlación de Spearman rS para la muestra, considerando los rangos anteriores:

rS=sx'y'/sx'sy'

donde x' e y' indican los rangos de las variables involucradas.

rS=(Kx+Ky- (xi'-yi')/(2 KxKy)

Kx = n(n2-1)/12 - (tx3-tx)/12

Ky = n(n2-1)/12 - (ty3-ty)/12

c) La estadística de prueba t se obtiene mediante:

t = rS (n-2)/(1-rS2)

Cálculo

de Para muestras de variables que cumplen la hipótesis básica la estadística t sigue una distribución "t" con parámetro k=n-2. Esta distribución es aproximada para muestras con n<10.

El nivel de significación se obtiene de manera similar a la prueba sobre el coeficiente de correlación (ver Cuadro 14.1).


14.3 DETERMINACION DE TAMANOS DE MUESTRA

El sistema ESTAD incluye la posibilidad de determinar el tamaño de la muestra necesaria para obtener una precisión definida en la estimación de una dada estadística de una cierta población. De manera complementaria, el sistema ofrece la posibilidad de establecer la precisión esperable de una muestra de tamaño conocido.

Las estadísticas cuya estimación contempla el sistema son el valor esparado de una dada variable y la fracción de observaciones de la población en las que una dada variable prsenta una característica determinada. Los criterios específicos de cálculo considerados en el sistema para efectuar el proceso en estos dos casos se indican en el Cuadro 14.5. La ejecución del proceso requiere llevar a cabo los siguientes pasos, una vez elegida la opción correspondiente en el Menú inicial del tema Pruebas Estadísticas:

a) Definición la estadística involucrada en el muestreo, mediante su elección en el siguiente menú:

DETERMINACION DE

1 - Valor Esperado de una variable

2 - Fracción respecto al total de Observaciones

b) Ingreso de los siguientes datos para el proceso:

- Nivel de Significación Alfa a utilizar en los cálculos.

- Tamaño de la población de la cual se extraerá la muestra en consideración.

- Desvío Estandar estimado para la población, en el caso de estimación de su valor esperado.

- Fracción prevista para la población, en el caso de que la muestra en consideración involucre su estimación.

- Tolerancia admisible en más o en menos para el valor esperado o para la fracción, según el caso. Si no se ingresa ningún valor para este dato el sistema asume que se desea calcularlo.

- Tamaño de Muestra, cuyo valor es requerido por el sistema en caso de que no se ingrese el valor deseado de tolerancia.

c) El computador efectúa el cálculo del tamaño de muestra o de la tolerancia resultante, mostrando a su finalización en pantalla los siguientes resultados:

- Datos ingresados para el cálculo.

- Tolerancia y Tamaño de Muestra resultantes.

Como ejemplo del proceso descrito se realiza el cálculo del tamaño de muestra necesario para estimar la fracción de ...., mostrándose los resultados obtenidos en el Cuadro 14.6 . Los datos utilizados para ello son los siguientes:

. Nivel de Significación Alfa = 5 %

. Tamaño de la población = Infinito

. Valor estimado de la Fracción = 0.25

. Tolerancia admisible en el valor de la proporción = 0.05

Los cálculos efectuados son:


CUADRO 14.5 - DETERMINACION DE TAMAÑOS DE MUESTRA NOMENCLATURA

N Número de Observaciones (individuos) en la Población.

n Idem, en la Muestra.

Nivel de Significación del muestreo.

t Valor de la variable t para el cual se cumple:

Ft(t) = 1 - /2

s Valor supuesto del desvío estándar de la población.

p Valor supuesto de la fracción de observaciones de la población que cumplen una determinada condición.

d Tolerancia en más o en menos admitida en la estimación mediante una muestra de una dada estadística de la población.


1. ESTIMACION DEL VALOR ESPERADO DE UNA VARIABLE

a) Tamaño de Muestra para una Tolerancia especificada d entre el valor medio x obtenido de la muestra y el Valor esperado de la población:

n = (ts/d)2 / ( 1 + (ts/d)2/N )

b) Tolerancia d en el Valor Esperado resultante de una muestra de tamaño n:

d = ts ( 1 - n/N )/n


2. ESTIMACION DE UNA FRACCION

a) Tamaño de Muestra para una tolerancia especificada d entre la fracción p de observaciones (individuos) de la muestra que cumplen una determinada condición y la equivalente P de la población:

n = (t/d)2 p(1-p) / ( 1 + ( (t/d)2p(1-p) - 1 )/N )

b) Tolerancia d resultante en la fracción resultante de una muestra de tamaño n:

d = t (N-n)p(1-p) / ((N-1)n)