Estadística en Microcomputadores/Clasificación de datos

2.2 CLASIFICACION DE DATOS

2.2.1 Proceso básico de clasificación

Igual que el cálculo de estadística descriptivas la clasificación permite sintetizar el comportamiento de una o más variables, sobre la base de un conjunto de observaciones de ellas. En este caso el procedimiento obtiene en esencia cuantas observaciones caen en determinados grupos de clasificación, que se definen de acuerdo a los valores que toman en el juego de datos analizado una o más de sus variables.

El número de variables de clasificación depende de cada aplicación específica, siendo tradicionalmnente de 1 ó 2, aunque con la utilizaciòn de un computador puede considerarse un número mayor. Asimismo, el uso de un computador permite obtener de manera sencilla diversas tabulaciones sobre los mismos datos, con diferentes criterios de clasificación.

La clasificación tiene en general un nivel de síntesis menor que el de las estadísticas descriptivas, pero da una mayor información sobre cómo se distribuyen las observaciones analizadas dentro del intervalo de valores posibles de la variable. Ello resulta útil para apreciar la forma de dicha distribución, el comportamiento de valores extremos o la ubicación del o los valores con mayor preponderancia en el conjunto de observaciones (modo).

Por otra parte, la clasificación de observaciones es una herramienta util en el estudio experimental de distribuciones de probabilidad, ya que la fracción de observaciones que cae en cada grupo, con respecto al total de ellas, es una estimación de la distribución de la población correspondiente a la variable en estudio, como veremos en el capítulo 3.

El aspecto central en un proceso de clasificación es el de la definición de los grupos de clasificación, ya que, a partir de ello, la asignación de cada observación a uno de los grupos se efectua por simple comparación de valores. En el caso de variables cuantitativas es usual definir dichos grupos mediante intervalos consecutivos, caracterizados por sus valores extremos. Por el contrario, en variables de tipo cualitativo, es normal definir los grupos de clasificación asociados a los valores concretos que ellas pueden tomar. La Presentación de los resultados de un proceso de clasificación, además de hacerla en forma tabular, es usual efectuarla mediante un gráfico o Histograma de frecuencias, en el que se representa la cantidad (frecuencia) de observaciones que caen en cada grupo de clasificación, para una variable X o dos variables relacionadas X e Y:

2.2.2 Procesos complementarios

A partir de los resultados de la clasificación es posible evaluar su grado de independencia, es decir si la distribución relativa de observaciones en los diferentes grupos presenta determinadas condiciones, según el numero de variables de clasificación.

En el caso de una variable de clasificación la hipótesis de independencia equivale a considerar la igualdad en la cantidad de observaciones en cada grupo. A su vez, la hipótesis de independencia en el caso de dos (o más) variables de clasificación involucra que la distribución relativa de observaciones según una de ellas no cambia de acuerdo a los diferentes grupos de la otra (u otras) variable.

En ambos casos la hipótesis de independencia se puede verificar mediante una prueba estadística de tipo Chi2 (ver capítulo 4). Dicha prueba evalua las diferencias entre las frecuencias resultantes de la clasificación, con respecto a las que se tendrían suponiendo la independencia en ella. Además de los indicadores que suministra la prueba Chi2 existen otros que tambien evaluan el grado de independencia en los resultados de un proceso de clasificación, como por ejemplo la Estadística Phi y los coeficientes de Cramer, Lambda, de Incertidumbre y de Kendall, entre otros.

Un proceso complementario de una clasificación, con el que es posible verificar la independencia entre las variables, así como ciertas hipótesis de relación entre ellas, es el denominado modelo Log-lineal.

2.2.3 Estadísticas de Datos Clasificados

La clasificación de datos puede combinarse con el cálculo de estadísticas descriptivas, calculando éstas para grupos de observaciones definidos en un cierto juego de datos. La obtención de estadísticas de datos clasificados permite sintetizar similitudes o diferencias entre diversos grupos de observaciones de un dado conjunto de datos, según el grupo de clasificación en el que se encuentran.

El proceso considera, en primer lugar, una clasificación de las observaciones totales, del cual se obtienen aquellas que caen en cada uno de los grupos definidos. A partir de ello, para las observaciones que se encuentran en cada grupo se obtienen las estadísticas deseadas, como si aquellas constituyeran un juego de datos en sí mismo.