Estadística en Microcomputadores/Análisis de Componentes Principales
7.2 ANALISIS DE COMPONENTES PRINCIPALES
Dado un conjunto de observaciones correspondientes a un cierto número de variables relacionadas de tipo cuantitativo esta técnica define un número menor de nuevas variables, denominadas Componentes Principales, cuyos valores, calculados como combinación lineal de las anteriores para cada observación, explican una parte significativa de la variabilidad existente en los datos originales.
La utilidad del Análisis de Componentes Principales (ACP) es amplia, aunque sus aplicaciones más usuales son para reducir el número de variables de un dado juego de datos, manteniendo la mayor parte de la información contenida en ellos. Esta reducción de dimensión resulta útil, entre otras aplicaciones, para obtener una representación visual de las diferentes observaciones de un dado conjunto de datos multivariados. Otro uso de la técnica, también relacionado con lo anterior, es como paso previo de otras técnicas de Análisis Multivariado (por ejemplo, Análisis Discriminante o un método de Agrupamiento), aprovechando propiedades específicas de las componentes que se obtienen.
Las más relevantes de dichas propiedades de las componentes son las siguientes:
a) Cada componente Ym se obtiene como combinación lineal de las variables originales en el juego de observaciones considerado:
k
ymi = amjxji m = 1,2,...,p
j=1
siendo:
ymi Valor de la componente Ym para la observación i
xji Idem, variable Xj
amj Coeficiente de proporcionalidad entre la componente Ym y la variable Xj
p Número de componentes
b) Si consideramos el mismo número de componentes que el
de variables originales, la suma de sus respectivas variancias
es igual:
k k
s2(Ym) = s2(Xj)
m=1 j=1
siendo:
s2() Variancia
Ym Componente k
Xj Variable original j
k Número de variables X
A partir de esta propiedad, ordenando las componentes por
valor decreciente de variancia, se obtiene que en general un
número de componentes menor que k explica la mayor parte de la
variancia de las variables originales.
c) Las covariancias (o los coeficientes de correlación)
entre pares de componentes son nulas.
De acuerdo a estas características las componentes
determinan un cambio de ejes de medición con respecto a las
variables originales que, si se considera el mismo número de
componentes que de variables originales, no modifica la
distancia euclidea entre observaciones. La selección de un
número menor de componentes implica que las distancias entre
observaciones medidas a partir de ellos son una proyección de
las distancias originales. Debido a ello el ACP es util como
paso previo a la aplicación de otras técnicas de Análisis
Multivariado, ya que permite disminuir la dimensión de los datos
manteniendo aproximadamente las relaciones de distancia entre
observaciones.
La obtención de los valores de las componentes principales para un dado juego de datos implica: a) Calcular las variancias del total de componentes posibles; b) Obtener los coeficientes amj de las funciones lineales que permiten calcular sus valores para cada observación; c) Ordenar las variancias y seleccionar el número de componentes de mayor variancia.
En estas actividades se usa un concepto importante, el de los Valores y Vectores Propios de una matriz simétrica. Estos elementos se obtienen como resultado de un proceso denominado de diagonalización de la matriz, esto es, su transformación lineal hasta obtener una nueva matriz con elementos no nulos unicamente en su diagonal principal. Existen diversos métodos numéricos para diagonalizar una matriz simétrica, entre los que se destaca el de Jacobi y sus variantes.
A partir de este concepto, dada la matriz de covariancias ( o la de correlaciones) calculada para un dado juego de datos multivariados, las variancias de las componentes son directamente los valores propios de dicha matriz. A su vez, los coeficientes amj son los elementos de los vectores propios de la misma matriz.
Del proceso de diagonalización se obtienen en primer lugar las variancias de todas las posibles componentes. Seleccionando aquellas con mayor variancia acumulada se establece el subconjunto de componentes principales, cuyos correspondientes vectores propios definen las funciones de transformación para obtener sus valores en cada observación.
Los resultados del proceso serán distintos según que consideremos la matriz de covariancias o la de correlaciones, particularmente si las diversas variables del juego de datos involucrado tienen escalas muy diferentes. Si ello ocurre es preferible considerar la matriz de correlaciones, lo que es equivalente a normalizar los datos.
La técnica de ACP nos permite reducir la complejidad de un juego de datos, a costa de perder una parte de la información existente en ellos, pérdida mensurada por la fracción de variancia no explicada por el subconjunto de componentes principales Yk seleccionado. Cuando el número de componentes considerado es dos (o aún tres) el ACP resulta sumamente útil para obtener una representación visual del conjunto multivariado de datos en estudio, graficando para ello las observaciones que lo componen según los correspondientes valores de las dos primeras componentes Y1 e Y2:
En este caso, si la fracción de la variancia total explicada por las dos componentes es importante, podemos sacar conclusiones acerca de la posición relativa de las observaciones, la eventual formación de regiones o grupos, la existencia de observaciones anómalas, etc.
Otra representación posible involucra la graficación de las variables originales, en función de las primeras dos componentes principales. En este caso cada punto corresponde a una de las variables originales Xj, ubicado en función de los coeficientes a1j y a2j correspondientes. Se obtiene así una representación visual del grado de relación entre dichas variables:
La aplicación del ACP requiere que los datos considerados sean de tipo cuantitativo, pero no estrictamente que respondan a una distribución normal multivariada. Sin embargo,la transformación de variables que es la base de la técnica presupone que se cumple dicha condición, principalmente en la estimación de las variancias de las componentes obtenidas. En caso contrario se producirá una distorsión en la estimación de las variancias de las componentes, así como una pérdida de información sobre la variabilidad de los datos originales. Por otra parte, si los datos responden a una distribución normal multivariada es posible aplicar pruebas estadísticas sobre el nivel de significación de las variancias de las componentes.