Estadística en Microcomputadores/Análisis de Componentes Principales ESTAD

De Wikilibros, la colección de libros de texto de contenido libre.

17.1 ANALISIS DE COMPONENTES PRINCIPALES

El sistema ESTAD incluye la posibilidad de efectuar un Análisis de Componentes Principales sobre un conjunto de datos multivariados, resumiéndose en el Cuadro 17.1 los procedimientos de cálculo utilizados para ello.

La realización de un proceso de Análisis de Componentes Principales requiere efectuar los siguientes pasos, una vez seleccionada la opción correspondiente en el menú de Análisis Multivariado:

a) El computador interroga si se efectua el ingreso directo de las estadísticas descriptivas a utilizar en el proceso, en lugar de considerar un juego de datos existente en la memoria de trabajo. En caso de responder afirmativamente se ingresan los siguientes elementos:

- Número de variables a considerar

- Para cada variable:

. Valor Medio

. Covariancia (o coeficiente de correlación) entre la variable y cada una de las siguientes.

b) En caso de que se responda negativamente a la interrogación anterior se definen las variables específicas de la memoria de trabajo que se considerarán en el análisis, siguiendo el procedimiento descripto en la sección . En esta definición resulta posible considerar datos de tipo agrupado.

A continuación de ello se responde a la interrogación acerca de si se considera o no que las variables se normalizan para el análisis. En caso afirmativo el proceso no utiliza los datos originales de las variables contenidos en la memoria de trabajo sino los normalizados para cada una de ellas, sin modificar aquellos en la transformación.

c) El computador ejecuta el proceso y a su finalización presenta en pantalla, para el número máximo posible de componentes (igual al número de variables definido en a) o en b), la parte de la variancia de los datos que cada componente explica y el correspondiente porcentaje acumulado. En esta presentación las componentes se ordenan por valor decreciente de variancia explicada.

A partir de ello se ingresa el número de componentes principales para las cuales se obtendrán las funciones lineales que permiten calcular sus valores, para cada observación. d) El computador presenta en pantalla los siguientes resultados:

- Variables consideradas y si ellas se normalizaron para el proceso.

- Matriz de covariancias (o de coeficientes de correlación, si las variables se normalizan) correspondiente a las variables seleccionadas para el proceso.

- Tabla de Variancias para el conjunto total de componentes, similar a la presentada en el paso c).

- Coeficientes de las transformaciones lineales que permiten calcular los valores de las componentes principales seleccionadas, en función de los valores de las variables originales.

e) Se pueden llevar a cabo optativamente procesos complementarios, mediante su selección en el siguiente menú:

PROCESOS COMPLEMENTARIOS

1 - Salida de Coeficientes de Correlación

2 - Cálculo de Valores de las Componentes

3 - Graficación de Variables según Comp. 1 y 2

4 - Graficación

f) La opción 1 permite obtener por pantalla o en otras salidas la matriz de coeficientes de correlación, de manera similar a la que surge en el proceso de Cálculo de Estadísitcas Descriptivas (ver Sección ).

g) La opción 2 permite calcular y almacenar en la memoria de trabajo los valores de las componentes para cada observación del juego de datos analizado. Este proceso se puede realizar si en el paso a) se eligió el uso de datos contenidos en la memoria de trabajo.

Dentro de la opción se define optativamente, para cada componente seleccionada, la posición de la memoria de trabajo donde se incluirán sus valores correspondientes a cada observación del conjunto de datos analizado, siguiendo el procedimiento descripto en .

El computador calcula los valores de las componentes y los presenta en pantalla, almacenándolos también en las posiciones de la memoria de trabajo antes definidas.

h) Mediante la tercera opción se obtiene en pantalla un gráfico donde se muestra la posición de cada una de las variables originales, en función de los valores de los coeficientes de las dos primeras componentes asociadas a dicha variable en la función lineal resultante del análisis. i) Si se elige la opción 4 en el menú de procesos complementarios se pueden efectuar gráficos según dos ejes cartesianos, de manera similar al proceso descripto en la sección .

En el Cuadro 17.2 presentamos un ejemplo de ejecución de un análisis de componentes principales mediante el sistema ESTAD, siguiendo los pasos descriptos. Se considera en este caso el juego de datos correspondientes a los paises de América Latina (AMERLAT), cargado previamente en la memoria de trabajo. El objeto principal del análisis es tratar de obtener un número reducido de componentes que expliquen la mayor parte de la variabilidad contenida en las variables experimentales seleccionadas.

Los cálculos realizados en el ejemplo son los siguientes, en los que se considera una normalización previa de los valores originales de las variables involucradas:

Matriz R de Coeficientes de Correlación entre las variables

definidas para el análisis:

4 6 7 12 14 18 19

4-PBN/cap 1 -.213 .513 .826 -.327 .449 .613

6-%PBagric -.213 1 .335 -.215 .39 .115 -.047

7-%PBind .513 .335 1 .297 .132 .17 .087

12-Energ/cap .826 -.215 .297 1 .263 .267

.563

14-%CrecPobla -.327 .39 .132 .263 1 -.445 -

.586

18-Cal/cap .449 .115 .17 .267 -.445 1 .636

19-EspVida .613 -.047 .087 .563 -.586 .636 1

Vectores y Valores propios de la matriz R (Matrices A y ):

.7728 .1735 .3080 .4997 -.0258 .1499 .0701

.0853

.2593 .5839 -.5161 -.1184 .3026 -.3713 -.2861

1.5824

-.3410 .6397 .1668 .1911 -.6002 -.1450 .1700

1.1146

-.3965 .0939 .4088 .4466 .4588 -.0802 -.5005 =

3.1475

-.0860 .4494 .2289 -.3506 .4512 .5346 .3547

.5124

-.1509 .0423 -.5589 .3835 -.1250 .6756 -.2098

.3762

-.1785 -.0841 -.2811 .4799 .3431 -.2645 .6812

.1905

Variancias de las Componentes, ordenadas de mayor a menor:

Comp Variancia % Acum.Variancia


1 3.1475 44.97

2 1.5824 67.57

3 1.1146 83.49

4 .5124 90.81

5 .3672 96.06

6 .1905 98.78

7 .0853 100

Seleccionando las dos primeras componentes principales ellas permiten explicar el 67.6% de la variancia de las variables originales en los datos. Las funciones de transformación para obtener los valores de dichas componentes principales para cada observación son:

Y1 =.4997*PBN/cap-

.1184*%PBagr+.1911*%PBind+.4466*Energ/cap

-.3506*%CrecPob+.3835*Cal/cap+.4799*EspVida

Y2

=.1735*PBN/cap+.5839*%PBagr+.6397*%PBind+.0939*Energ/cap

+.4494*%CrecPob+.0423*Cal/cap-.0841*EspVida

Por ejemplo, los valores de las dos componentes principales para la primera observación resultan:

y1 =.4997*2520-.1184*16+.1911*38+.4466*1445

-.3506*1.3+.3835*125+.4799*70 = 2.51

Y2 =.1735*2520+.5839*16+.6397*38+.0939*1445

+.4494*1.3+.0423*125-.0841*70 = 0.37

CUADRO 17.1 - ANALISIS DE COMPONENTES PRINCIPALES

Modelo

Dado un conjunto de k variables X1 a Xk, pertenecientes a la misma población, se obtienen nuevas variables Y1 a Yk (componentes) mediante transformaciones lineales:

YP = aP1X1+aP2X2+...+aPkXk p=1,2,...,k

Determinación de los coeficientes aPj Dado un conjunto de n observaciones de las variables X1, X2,...,Xk, se obtiene la matriz de covariancias V (o la de correlaciones R). Calculando los vectores propios AP de esa matriz los elementos de cada uno de ellos constituyen los coeficientes aPj:

aP1

aP2

.....

AP aPj

.....

aPk

A partir de este cálculo la variancia de cada componente YP es el Valor Propio P correspondiente a cada vector propio AP:

V(YP) = P

La suma de las variancias de las componentes son iguales a la suma de las variancias de las variables originales X:

V(YP) = V(Xj)

Asimismo, las componentes son linealmente independientes entre sí, lo que equivale a que los coeficientes de correlación entre pares de ellas sean nulos.

Ordenando las componentes por valor decreciente de variancia se puede definir algunas de ellas como Principales, tales que explican una fracción significativa de la variancia de las variables originales.

Determinación de los Valores y Vectores propios de una

Matriz

Se utiliza el método de Diagonalización de Jacobi (Ver Ref. ). Dada una matriz simétrica V (o R) se efectúan operaciones lineales de transformación que también involucran a una matriz unidad I, del mismo rango.

Mediante dichas transformaciones se busca modificar la matriz V hasta tener valores no nulos unicamente en su diagonal principal. Una vez terminado el proceso se tienen en la diagonal de la matriz transformada V los valores propios de la matriz original y en la transformada de I los vectores propios correspondientes:

1

1

V .

.

.

1

1

1

a11.... ak1

. . .

. . .

. . .

P a1k akk