Estadística en Microcomputadores/Análisis Discriminante Lineal

17.2 ANALISIS DISCRIMINANTE LINEAL

Existen diversos modelos que pueden definirse dentro del Análisis Discriminante, según las hipótesis de partida que se establezcan. El sistema ESTAD considera un modelo de tipo lineal, utilizando para su resolución los procedimientos incluidos en el Cuadro 20.3 .

La ejecución de una aplicación del Análisis Discriminante involucra la realización de los siguientes pasos, una vez elegida la opción correspondiente en el menú de Análisis Multivariado:

a) El computador interroga sobre si se efectua el ingreso directo de las estadísticas descriptivas a utilizar en el proceso, en lugar de considerar datos contenidos en la memoria de trabajo. En caso de una respuesta afirmativa se ingresan los siguientes valores:

- Número de variables a considerar

- Número de grupos de clasificación

- Promedios de las variables en cada grupo de clasificación

- Matriz consolidada de Covariancia (o de Correlación) entre las variables involucradas.

b) En caso de responder negativamente a la pregunta anterior se definen las variables específicas de la memoria de trabajo a considerar en el análisis, siguiendo el procedimiento descripto en . De ellas, la última que se define es la que contiene el grupo de clasificación de cada observación. El proceso admite la consideración de datos agrupados.

c) El computador efectua el proceso y a su finalización presenta en pantalla los siguientes resultados:

- Variables consideradas en el proceso.

- Coeficientes de las funciones de discriminación.

- Matriz de correspondencia entre los grupos estimados y los reales

- Probabilidad de clasificación erronea asociada a cada grupo estimado.

d) Se pueden ejecutar optativamente procesos complementarios, seleccionándolos en el siguiente menú:

PROCESOS COMPLEMENTARIOS

1 - Cálculo de Grupos Estimados

2 - Predicción de Grupos de nuevas Observaciones

3 - Graficación

Mediante la opción 2 se puede estimar el grupo de clasificación para nuevas observaciones.

e) Mediante la opción 1 se obtiene el grupo estimado por el modelo de discriminación para cada una de las observaciones consideradas en el análisis.

Dentro de la opción se efectúa la definición optativa de la posición de la memoria de trabajo donde se desea almacenar el grupo estimado para cada observación. A partir de ello el computador presenta en pantalla los grupos real y estimado, para cada observación, colocando éstos últimos en la posición definida de la memoria de trabajo.

f) Si se eligió la opción 2 se ingresan los valores de las variables involucradas para una nueva observación, presentando el computador en pantalla el correspondiente grupo estimado.

g) Mediante la opción 3 resulta posible obtener gráficos de los datos contenidos en la memoria de trabajo, de manera idéntica al proceso incluido en el Análisis Descriptivo de datos (ver sección ).

En el Cuadro 17.4 se presenta un ejemplo de aplicación del Análisis Discriminante. En este caso se considera el juego de datos sobre paises de América Latina (AMERLAT), cargado previamente en la memoria de trabajo. El objetivo de la aplicación es, considerando como variable de clasificación al Grupo de país, encontrar funciones discriminantes que permitan clasificar a otros paises en un cierto grupo.

Las variables consideradas en el Análisis son: el Producto per Cápita (4-PBN/Cap), las participaciones porcentuales de la agricultura e inductria en el producto bruto (6-%PBAGRIC y 7- %PBIND), el Consumo de Calorías per cápita (18-CAL/CAP), la Esperanza de Vida (19-ESP.VIDA) y como variable que define el grupo correspondiente a cada observación al Grupo de país (1- GRUPO).

Los cálculos principales realizados en el ejemplo son: Valores medios de las variables definidas para el análisis, calculados para cada grupo de país:

Grupo PBN/cap %PBagr %PBind Cal/cap EspVida

1 300 24 13 96 54

2 1155.86 16.75 24.75 105 62.75

3 2592.86 10.86 34 112.43 68.71

Matriz consolidada de Covariancias C:

3974200 24380 57632.9 209414.7 126472.4

24380 318.53 480.76 1760.77 1046.24

C = 57632.9 480.76 1035.24 3403.65 2035.06

209414.7 1760.77 3403.65 13686.3 8177.2

126472.4 1046.24 2035.06 8177.2 4927.29

Funciones Discriminantes:

F1=-2.9046-.0017*PBN/cap-.1679*%PBagr-.0371*%PBind+

.092*Cal/cap-.0464*EspVida

F2=-.5646-.0006*PBN/cap+.0157*%PBagr+.0075*%PBind+

-.0001*Cal/cap+.0226*EspVida

F3=-.9596+.0011*PBN/cap-.0103*%PBagr+.0026*%PBind+

-.0079*Cal/cap+.0004*EspVida

Aplicando estas funciones a la primera observación resulta:

F1=-2.9046-.0017*2520-.1679*%16-.0371*38+

.092*125-.0464*70 = -3.033

F2=-.5646-.0006*2520+.0157*16+.0075*38+

-.0001*125+.0226*70 = 1.046

F3=-.9596+.0011*2520-.0103*16+.0026*38+

-.0079*125+.0004*70 = 25.73

A partir de estos valores de las funciones el grupo estimado de país para la observación 1 resulta el 3.

CUADRO 17.3 - PROCESO DE ANALISIS DISCRIMINANTE LINEAL

Modelo

Se intenta establecer una relación entre un conjunto de k variables independientes X1 a Xk (cuantitativas) y una variable dependiente Y (que puede tomar sólo m valores posibles, definiendo cada uno de ellos un grupo de clasificación de las observaciones de las variables X).

El modelo considerado para ello define m funciones discriminantes lineales con respecto a las variables X1 a Xk (una para cada valor de la variable Y):

FG = aG0+aG1X1+aG2X2+...+aGkXk ,G=1,2,...,m

El valor estimado por el modelo para la variable Y en una observación genérica i resulta:

yi = p si FPi=máximo de (F1i,F2i,..,FPi,..,Fmi)

donde los valores F1i,..., Fmi surgen de aplicar las funciones discriminantes a los valores de las variables independientes para la observación i.

Estimación de los coeficientes aG. del modelo Se requieren para su determinación las siguientes estadísticas correspondientes a n observaciones de las variables involucradas:

. Valores Medios de las variables X1 a Xk dentro de cada grupo definido por los valores de la variable Y:

x1G

x2G

...

xG = xjG G = 1,2, ..., m

...

xkG

. Matriz de Covariancias entre pares de variables X, dentro de cada grupo G definido por los valores de la variable Y.

s11G s12G .... s1kG

s21G s22G .... s2kG

.....................

sG sj1G sj2G .... sjkG G=1,2,...,m

.....................

sk1G sk2G .... skkG

. Matriz consolidada de variancias

s = ( (nG-1)sG )/(n-k)

donde nG es el número de observaciones en el grupo G:

nG = n

A partir de estas estadísticas los valores estimados aG. de los coeficientes de las funciones discriminantes resultan:

aG0 = -0.5 ( xlGslG-1 ) xjG

aGj = xlGslG-1

siendo slG-1 el valor ubicado en la posición lj de la matriz inversa de S. En términos matriciales:

aG0 = -0.5 XG S-1 XG

aG1, aG2,..., aGj,..., aGk = XG S-1

Evaluación del modelo discriminante A partir de la estimación mediante el modelo del grupo correspondiente a cada observación del conjunto de datos considerado se determinan las probabilidades de los grupos reales correspondientes a cada grupo estimado:

Grupo Real

Grupo 1 2 .... j ... m

Estimado

1

2

.

i pij

.

m

Los valores de pij así obtenidos constituyen en general estimadores sesgados de las verdaderas probabilidades. La probabilidad de estimación errónea para cada grupo se obtiene mediante la expresión:

pi = pij - pii