Estadística en Microcomputadores/Ajuste de Distribuciones ESTAD

13.2 AJUSTE DE DISTRIBUCIONES

El sistema contempla el proceso de estimación de valores de los parámetros de una distribución preseleccionada que ajustan a un cierto conjunto de datos experimentales, obteniendo además una evaluación del grado de correspondencia entre ellos y la distribución así definida.

En el sistema ESTAD se ha adoptado para la estimación de parámetros, salvo excepciones, el método denominado de Momentos, indicándose en los Cuadros 13.6 y 13.7 las expresiones de cálculo de los parámetros de cada una de las distribuciones incluidas en el sistema, como función de determinadas estadísticas descriptivas de los datos experimentales analizados. Una vez estimados los parámetros la evaluación del grado de ajuste de la distribución así definida se efectua mediante una prueba basada en el valor de la estadística "Chi2", cuyo procedimiento se incluye en el Cuadro 13.3.

En la opción de Pruebas estadísticas del sistema (Capítulo 14) se incluye la posibilidad de efectuar la prueba de Kolmogorov-Smirnov, también útil para evaluar el grado de ajuste de una distribución a un conjunto de datos experimentales. Asimismo, el sistema permite obtener, de manera indirecta, diversos gráficos de probabilidad para la evaluación empírica del ajuste de distribuciones.

La ejecución de un proceso de ajuste mediante el sistema ESTAD involucra los siguientes pasos, una vez elegida la opción en el menú inicial de Distribuciones de Probabilidad: a) Selección de la distribución a considerar, de manera similar al paso b) de la sección 13.1 .

b) Selección de la variable de la memoria de trabajo a considerar en el proceso de ajuste (dos variables en el caso de la distribución Normal Bidimensional), mediante el procedimiento descripto en . En el proceso se pueden considerar datos de tipo agrupado.

c) Ingreso optativo del valor de los parámetros de la distribución elegida. Esta posibilidad permite efectuar el proceso de ajuste con valores impuestos de algunos o todos los parámetros, los que en ese caso no se estiman en el paso e). Los valores ingresados se verifican según los criterios vistos en el paso c) de la sección 13.1.

En el caso de la distribución Normal Bidimensional se ingresa el valor a considerar de la segunda variable Y para la evaluación del ajuste. Para la distribución Gamma se define si el parámetro se considera o no entero (distribu- ción Erlang), respondiendo a la interrogación correspondiente. d) Ingreso de los valores de clasificación de la variable en análisis, necesarios para la prueba de evaluación del ajuste. Este ingreso se efectua de manera similar al equivalente visto en el proceso de clasificación (sección 12.2).

e) El computador realiza la estimación y presentación en pantalla de los siguientes resultados:

- Valor Medio y Desvío Estándar de los datos analizados

- Valores estimados de los parámetros de la distribución elegida que ajustan a dichos datos. En el caso de que en c) se hayan impuesto valores de los parámetros se presentan éstos.

f) El computador calcula las frecuencias reales y teóricas y muestra en pantalla los resultados de la evaluación del ajuste:

- Para cada intervalo de clasificación, definido por los valores ingresados en d):

.Frecuencia de los datos

.Frecuencia teórica

.Aporte al valor de la estadística "Chi2"

- Valor de la estadística "Chi2" y sus grados de libertad. En el caso de que éstos sean menores que 1 la estadística no se calcula y se presenta el mensaje correspondiente.

- Nivel de significación de la estadística "Chi2.

g) Se puede efectuar un proceso complementario, seleccionando la opción correspondiente en el siguiente menú:

PROCESOS COMPLEMENTARIOS

1 - Graficación del Ajuste

2 - Creación de Archivo con Resultados

h) Si en el menú anterio se elige la opción 1 se muestra en pantalla un gráfico donde se muestran las frecuencias reales de los datos y las teóricas correspondientes, para cada intervalo de clasificación. En el centro de cada intervalo se representa con una barra la frecuencia real y en la misma posición, con un símbolo " ", la frecuencia teórica correspondiente. La impresión del gráfico se puede obtener mediante la tecla "Print Screen".

i) Si en el menú anterior se eleige la opción 2 resulta posible crear un archivo en formato ESTAD con los resultados del proceso de evaluación del ajuste. Las características de dicho arcivo son:

- En su descripción se incluye el nombre de la distribución considerada y los valores estimados de sus parámetros.

- Se definen las siguientes variables:

. Valor x Contiene los valores x correspondientes a cada intervalo de clasificación. Si ésta es por intervalo corresponde al valor medio de cada uno de ellos.

. FrecExpe Contiene la frecuencia experimental correspondiente a cada valro de x.

. FrecTeor Idem, frecuencia teórica.

- Se ingresa en el archivo una observación por cada valor de x definido.

Como ejemplo de aplicación del sistema ESTAD en el ajuste de distribuciones utilizamos este proceso para obtener las características de una distribución log-normal que ajuste a la variable Producto Bruto per cápita (4 - PBN/Cap), del juego de datos socioeconómicos de los países de América Latina (AMERLAT), previamente cargado en la memoria de trabajo.

Los valores estimados de los parámetros resultan, siendo x= y s= :

Para efectuar la prueba de Chi2 se adoptan como límites para definir los intervalos de clasificación a los valores: 500-1000-1500-2000-2500-3000

Los cálculos correspondientes, tomando como ejemplo el intervalo de la variable entre 1500 y 2000 son:

Frecuencia de los datos = 1

Frecuencia teórica = n*( FLOGN(2000)-FLOGN(1500) )

= 20*(0.7485 - 0.546) = 4.05

Contribución a Chi2 = (1 - 4.05)2 / 4.05 = 2.3

Cálculo de para el Chi2 total = 100*(1- FCHI(5.085))

= 100*(1.0.7221)=27.79 %

Los resultados del proceo de ajuste, incluyendo su graficación, se muestran en el Cuadro 13.4 a).

Como segunda parte del ejemplo obtenemos diversos gráficos de probabilidad, que permiten obtener una apreciación visual, no rigurosa pero útil, del grado de ajuste. Para ello debemos efectuar los siguientes procesos:

- Ordenamiento de la variable en consideración (4 - PBN/Cap) de menor a mayor, mediante la opción correspondiente de transformación, dentro del tema Manejo de Datos. Los valores ordenados se colocan en la variable 23-PBNOrd.

- Obtención de los valores de F(x) correspondientes a la distribución Lognormal ajustada, para cada valor de la variable 23-PBNOrd, mediante la opción 1 del Cálculo de funciones de probabilidad. Los valores resultantes se colocan en la variable 24-F(x)Teor.

- Obtención de los valores experimentales de F(x) correspondientes a los valores ordenados contenidos en la variable 23-PBNOrd, utilizando la opción de transformación mediante una función dentro del tema Manejo de Datos. La expresión de transformación definida es:

(I-.5)/20

Los valores transformados se colocan en la variable 25- F(x)Exp

- Obtención de los cuantiles correspondientes a los valores experimentales de F(x) calculados en el paso anterior, mediante la opción de cálculo de x dado F(x), considerando los valores contenidos en la variable 25-F(x)Exp. Los valores resultantes se incluyen en la variable 26-Cuant. A partir de estos cálculos podemos obtener los siguientes gráficos, mediante la opción de graficación del tema Análisis descriptivo de datos:

- Relación entre las F(x) teórica y experimental y los valores de x.

. Variable Independiente: 23-PBNOrd.

. Variables dependientes: 24-F(x)Teor y 25-F(x)Exp.

- Relación entre los valores de F(x) teórica y experimental, para cada observación (Gráfico P-P).

. Variable Independiente: 24-F(x)Teor.

. Variable Dependiente: 25-F(x)Exp.

- Relación entre los valores de x y los cuantiles experimentales (Gráfico Q-Q).

. Variable Indeopendiente: 23-PBNOrd.

. Variable Dependiente: 26-Cuant.

Los gráficos que se obtienen del proceso se incluyen en el Cuadro 13.4 b).

CUADRO 13.3 - VERIFICACION DEL AJUSTE DE DISTRIBUCIONES

El proceso contempla los siguientes pasos, una vez obtenidos los valores estimados de los parámetros de la distribución involucrada:

a) Clasificación de los datos experimentales de la variable considerada, obteniendo el número ni de observaciones, del total n, que cae en cada grupo de clasificación i definido.

b) Obtención del número teórico ni' de observaciones que caería an cada grupo i de clasificación, de acuerdo a la distribución ajustada:

ni = n F(xi - F(xi-1)

siendo xi y xi-1 los valores de x limitantes de cada grupo de clasificación i.

c) Realización de una prueba de tipo Chi2 (ver capítulo 14) para verificar el grado de ajuste entre la clasificación experimental y la teórica. La estadística de prueba x2 se calcula en este caso mediante la expresión:

x2 = (ni - ni')2/ni'

El nivel de significación correspondiente vale:

= 1 - FCHI(x2)

donde FCHI() es la función de probabilidad acumulada de la distribución "Chi2" con parámetro k=m-1-np, siendo np el número de parámetros de la distribución elegida que fueron estimados a partir de los datos experimentales.