Estadística en Microcomputadores/Agrupamiento Jerárquico

De Wikilibros, la colección de libros de texto de contenido libre.

17.3 AGRUPAMIENTO JERARQUICO

El sistema ESTAD incluye la opción de realizar el agrupamiento de un conjunto de observaciones, siguiendo un criterio de tipo jerárquico. Los procedimientos específicos que el sistema utiliza para ello se incluyen en el Cuadro 17.5 . La ejecución de un proceso de agrupamiento requiere efectuar los siguientes pasos, una vez seleccionada la opción correspondiente del menú de Análisis Multivariado:

a) El computador interroga si se desea efectuar el ingreso directo de la matriz de distancias a utilizar en el proceso, en lugar de calcular éstas a partir de datos contenidos en la memoria de trabajo. En caso afirmativo se ingresa:

- Número de observaciones a considerar.

- Distancia entre cada observación y la siguiente.

b) En caso de que se responda negativamente a la pregunta anterior se definen las variables específicas de la memoria de trabajo que se consideran en el análisis. Además de ello se responde a la pregunta de si se considera o no que las variables se normalizan para el proceso. En caso afirmativo no se utilizan los datos originales de las variables seleccionadas sino los normalizados correspondientes, no modificándose en ello los valores contenidos en la memoria de trabajo.

c) Se ingresa el número deseado de grupos y el criterio a utilizar para el cálculo de distancias entre grupos, éste último mediante el siguiente menú:

CRITERIO DE CALCULO DE DISTANCIAS

1 - Distancia Mínima

2 - Distancia Máxima

d) El computador efectua el proceso de agrupamiento, presentando en pantalla a su finalización los siguientes resultados:

- Variables consideradas y si ellas se normalizaron para el proceso.

- Dendograma de la secuencia de consolidación de los grupos, desde las observaciones individuales hasta el número de grupos prefijado.

- Distancia involucrada en cada paso de agrupamiento. En el Cuadro 17.6 se muestra un ejemplo de aplicación de los pasos enunciados al conjunto de datos sobre paises de América Latina (AMERLAT), cargado previamente en la memoria de trabajo. En el ejemplo se considera el agrupamiento de los paises, teniendo en cuenta un conjunto de variables, que se normalizan para el proceso.

Las variables consideradas en el Análisis son las mismas que se utilizaron en el ejemplo de Análisis de Componentes Principales.

CUADRO 17.5 - PROCEDIMIENTO DE AGRUPAMIENTO JERARQUICO

Distancias entre Pares de Observaciones Dado un conjunto de observaciones se conocen las distancias dij entre cada par de ellas. En caso contrario se calculan mediante la expresión:

dij = (xmi - xmj)2

siendo:

k Número de variables en el conjunto de observaciones.

xmi,xmj Valor de la variable Xm en las observaciones i y

j, respectivamente.

Mediante este procedimiento se obtiene una matriz de distancias.

Proceso de Agrupamiento

Inicialmente cada observación constituye un grupo. A partir de ello se van formando consecutivamente nuevos grupos, cada uno de los cuales se constituye por la unión de dos grupos anteriores. Los grupos que se unen en cada paso son los que tienen entre sí la menor distancia.

Cuando un grupo está compuesto por varias observaciones se puede utilizar alguno de los siguientes criterios para calcular la distancia entre el grupo y cada uno de los restantes: Distancia Mínima: se considera la distancia entre las observaciones más próximas entre sí, una en cada grupo. Distancia Máxima: Idem, distancia máxima entre las observaciones más alejadas.

Cuando se crea un nuevo grupo se recalculan, con alguno de los criterios anteriores, las distancias entre él y los grupos restantes, y se ingresan en la matriz de distancias. Al mismo tiempo, desaparecen de dicha matriz de distancias los dos grupos que contribuyen a formar el nuevo grupo.