Estadística en Microcomputadores/Clasificación de Datos

12.2 CLASIFICACION DE DATOS

La clasificación de un conjunto de observaciones en grupos, de acuerdo a los valores que toman una o dos de sus variables, constituye otra posibilidad dentro del Análisis Básico de Datos considerada por el sistema ESTAD. El procedimiento utilizado para ello es muy sencillo, requiriendo unicamente definir los valores de la o las variables de clasificación con los que se establece cada grupo y, a partir de ello, encasillar cada observación del juego de datos en el grupo correspondiente.

En el Cuadro 15.3 se incluyen los criterios básicos seguidos por el sistema en la clasificación considerando 1 ó 2 variables para la definición de los grupos a los que se asigna cada observación. En el mismo cuadro se incluyen, para cada caso, los criterios para efectuar la prueba de la independencia de la clasificación.

Los pasos para la ejecución de un proceso de clasificación son los siguientes, considerando que se ha seleccionado dicha opción en el menú inicial del Análisis Descriptivo de Datos:

a) Selección de una o dos variables de clasificación, dentro del conjunto de datos que se encuentra en la memoria de trabajo (ver punto ). En el proceso se pueden contemplar datos de tipo agrupado.

b) Ingreso en orden consecutivo, de menor a mayor, de los valores de cada variable definida en el paso anterior, con los que se definen los grupos de clasificación. Para cada par de valores ingresados puede definirse optativamente un intervalo, con el cual el computador establece valores intermedios entre aquellos. En el caso de que ya existan valores previos ingresados éstos se presentan en pantalla, pudiendo utilizarlos nuevamente, respondiendo afirmativamente a la interrogación correspondiente.

Los valores definidos actúan de dos maneras diferentes según el tipo de variable considerada. En variables de tipo cuantitativo ellos constituyen los límites inferiores de cada intervalo consecutivo (se adopta automáticamente un primer intervalo con valores menores al primer valor ingresado). En cambio, con variables cualitativas, ellos pueden ser directamente cada uno de sus posibles valores.

Previo al ingreso de los valores de clasificación, y como ayuda para su definición, se muestran en pantalla los valores mínimo y máximo de las observaciones de la variable involucrada.

c) Si en a) se definió una sola variable de clasificación el computador efectúa el proceso, presentando en pantalla los siguientes resultados, para cada grupo de clasificación:

- Valor (o valores) de la variable de clasificación que define el grupo.

- Número de observaciones que cae dentro del grupo.

- Idem, en porcentajes respecto al total de observaciones.

- Porcentaje acumulado de observaciones hasta ese grupo.

- Histograma de porcentajes en el grupo y acumulados.

d) Si se definieron dos variables de clasificación el computador realiza el proceso, presentando en pantalla un menú de tabulados alternativos, obtenibles de manera consecutiva:

TABULADOS OPTATIVOS

1 - En Número de Observaciones

2 - En Número de Observaciones (Estimado)

3 - En Porcentajes por Total

4 - En Porcentajes por Total (Estimados)

5 - En Porcentajes por Fila

6 - En Porecntajes por Columna

De acuerdo a la opción elegida los tabulados que se obtienen son:

1- Tabla con la cantidad de observaciones que cae en cada grupo de clasificación.

2- Tabla similar a la anterior, pero ahora conteniendo la cantidad estimada de observaciones en cada grupo, suponiendo condiciones de independencia entre las dos variables de clasificación (n'ij en el Cuadro 15.3).

3- Tabla con los porcentajes que representa la cantidad de observaciones reales en cada grupo, con respecto al total.

4- Idem, considerando la cantidad estimada.

5- Tabla con los porcentajes que representa la cantidad de observaciones en cada grupo, con respecto al total de cada fila.

6- Idem, con respecto al total de cada columna.

e) En ambos casos, con una o dos variables de clasificación, resulta posible efectuar un proceso complementario, mediante el siguiente menú:

PROCESOS COMPLEMENTARIOS

1 - Verif.Independencia Clasificación

2 - Grabación Archivo Resultados

f) Si se eligió la opción 1 del menú se efectúa un ensayo de independencia de la clasificación. Los resultados que se obtienen en pantalla a su ejecución son los siguientes:

- Valor de la estadística "Chi2"

- Grados de libertad correspondientes

- Nivel de significación resultante

g) En el caso de elección de la opción 2 del menú resulta posible crear un archivo en el formato del sistema ESTAD con los resultados de la clasificación, útil para procesos posteriores. Para ello es necesario solamente ingresar el nombre del archivo a crear, siguiendo los criterios indicados en , así como una descripción que lo explique sinteticamente. Las características del archivo generado son las siguientes:

- Como descripción del archivo se graba la leyenda: "Resultados Clasificacion".

- Sus variables son:

1- Nombre de la primera variable de clasificación. En ella se graban los límites de clasificación utilizados.

2- Idem, segunda variable de clasificación (si existe).

3- NumObs : Número de observaciones en cada grupo definido por los valores de las variables anteriores.

4- PorcObs : Porcentaje de observaciones en cada grupo respecto al total.

- Cada una de sus observaciones corresponde a un grupo de clasificación.

Consideramos a continuación dos ejemplos del proceso de Clasificación, realizados sobre los datos correspondientes a una muestra de nacimientos (NATIVBA), previamente cargados en la memoria de trabajo.

El primer ejemplo involucra la clasificación de las observaciones según los valores de la variable Peso al nacer (4

- Peso), considerando los siguientes valores límite de clasificación:

.5 - 1 - 1.5 - 2 - 2.5 - 3 - 3.5 - 4 - 4.5

Los resultados del ejemplo se indican en el Cuadro 12.4 a). Como proceso complementario se efectúa la grabación de los resultados de la clasificación, en el archivo CLAPESO, para su utilización en ejemplos de capítulos subsiguientes. Un segundo ejemplo contempla la clasificación de las observaciones según las variables: Edad de la Madre (5 - EdadMad) y Edad del Padre (12 - EdadPad), la primera entre 20 y 45 años, considerando intervalos de 5 años, y la segunda, entre 20 y 50, con el mismo intervalo. Los resultados que se obtienen para este segundo proceso, incluidos en el Cuadro 12.4 b), son: el tabulado según la cantidad de observaciones por grupo de clasificación y el tabulado en porcentajes por fila. Como proceso complementario en este segundo ejemplo se lleva a cabo la verificación de la independencia de la clasificación, con resultados que también se incluyen en el Cuadro 12.4 b). Mediante el sistema ESTAD es posible realizar clasificaciones de más de dos variables, en forma indirecta. Ello se efectua utilizando la opción de selección de observaciones (sección ) en forma previa a la clasificación.

Por ejemplo, si quisieramos obtener la clasificación de las observaciones de nacimientos según las variables Tipo de Hospital, Lugar de residencia y Actividad de la madre deberíamos primero aplicar una condición de selección considerando el hospital de tipo 1 y a partir de ello efectuar la clasificación según las dos variables restantes. Este proceso se repite seleccionando el tipo de hospital 2.

CUADRO 12.3 - PROCESO DE CLASIFICACION

a) Según Una Variable

La definición de los grupos a los que se asignan las observaciones en el juego de datos en el proceso de clasificación puede realizarse según dos criterios:

- Por Intervalo: cada valor de clasificación define el límite inferior de un intervalo. Surge cuando los valores de la variable a clasificar no coinciden con los valores de clasificación definidos, en general en variables de tipo cuantitativo.

- Por Valor: cada valor de clasificación define un grupo de clasificación. surge cuando los valores de la variable a clasificar coinciden con aquellos, en general en variables de tipo cualitativo.

La verificación de la independencia de la clasificación en este caso involucra la ejecución de una prueba de Chi2, como se describe en el Capítulo 14. En este caso se obtiene la siguiente estadística de prueba:

x2 = (ni - ni')2/ni'

siendo m el número de grupos de clasificación definidos, ni el número de observaciones en cada grupo i y ni'=n/m el número esperado de observaciones en cada grupo de clasificación si existiera independencia entre los diferentes grupos. Los grados de libertad para el cálculo del nivel de significación resultan en este caso: k=m-1.

b) Según Dos Variables

La definición de los grupos de clasificación se efectúa de manera similar al caso anterior, pero considerando ahora simultáneamente dos variables.

La verificación de la independencia de la clasificación en este caso también involucra una prueba de Chi2, obteniéndose ahora el valor de l estadística de prueba x2 mediante la expresión:

x2 = (nij - nij')2/nij'

siendo m1 y m2 el número de grupos de clasificación de cada variable, nij el número de observaciones en cada grupo ij y nij' el correspondiente valor esperado en cada grupo, si existe independencia entre las dos variables elegidas para la clasificación:

nij' = (ninj)/n .

donde ni y nj son el número de observaciones en el grupo i de la primera variable y en el j de la segunda, respectivamente.

El número de grados de liberatd para el cálculo del nivel de significación resulta: k=(m1 - 1)(m2 - 1).