Estadística en Microcomputadores/Otras técnicas de Análisis Multivariado

7.5 OTRAS TECNICAS DE ANALISIS MULTIVARIADO

7.5.1 Análisis de Proximidades ("Multidimensional Scaling") En la sección 7.2 vimos que unas de las aplicaciones del Análisis de Componentes Principales era la representación gráfica de un conjunto de observaciones de tipo cuantitativo. En dicha representación la separación entre observaciones correspondía aproximadamente a las respectivas distancias euclídeas.

El Análisis de Proximidades (AP) tiene una finalidad similar a la anterior, pero considerando ahora que la distancia entre pares de observaciones, a la que denominamos genéricamente disimilitud, en general de tipo no euclideo. Las únicas condiciones que debe cumplir la disimilitud dij entre dos observaciones i y j son que sea mayor o igual que 0, que sea nula cuando las dos observaciones son coincidentes y que aumente a medida que disminuye la semejanza entre las observaciones (de acuerdo a ello es necesario sólo que sea de tipo ordinal). Esta definición tan general de distancia permite que el AP sea aplicable no sólo a observaciones correspondientes a variables cuantitativas, donde es posible calcular alguna distancia, sino a casos donde sólo se puede establecer algún grado de separación o de diferencia de tipo ordinal entre observaciones.

Dado un conjunto de observaciones multivariadas es necesario definir algún criterio para calcular las disimilitudes entre pares de ellas, sobre la base de los valores de las variables involucradas. Otra posibilidad es obtener directamente las disimilitudes entre pares de individuos de un conjunto de éstos en estudio. Por ejemplo, si tenemos un conjunto de personas, podemos medir el grado de disimilitud dij entre pares de ellas, con la siguiente escala ordinal: (1) Mucha afinidad; (2) Afinidad media; (3) Afinidad baja y (4) No hay afinidad El AP define, dada la matriz de disimilitudes dij para un conjunto de observaciones o individuos, define un número reducido de variables cuantitativas, obteniendo sus valores para cada uno de dichos individuos. La condición que deben cumplir estos valores es que las distancias euclídeas calculadas mediante ellos reproduzcan aproximadamente las dij entre pares de individuos. Si ello se cumple los valores de esas variables resultan útiles para representar el conjunto de individuos en estudio. En el caso más usual, de que las variables que se obtengan sean dos, podemos efectuar dicha representación en un gráfico de dos dimensiones:

Existen diversos métodos desarrollados para encontrar, dadas las dij entre individuos, las coordenadas de representación para cada individuo. Entre ellos, los de mayor aplicación en los programas estadísticos son los métodos de Kruskall y de Guttman. Como resultado de la aplicación de la técnica se determinan los valores de las variables de representación para cada individuo. Además de ello es posible en general obtener la relación resultante entre las disimilitudes dij y las distancias euclídeas que las representan, para cada par de individuos, lo cual es útil para evaluar el grado de adecuación de la aproximación obtenida:

7.5.2 Analisis Factorial

El objetivo básico del Análisis Factorial (AF) es, dado un conjunto de datos multivariados, establecer un número menor de nuevas variables que puedan constituir factores básicos explicativos de los valores de las variables originales. Dichos factores no son variables de carácter experimental, pero se les puede dar un significado dentro del problema en estudio. Por ejemplo, dado un conjunto de variables de conducta medidas sobre una muestra de individuos, puede interesar encontrar un número más reducido de factores asociables a ciertas características psicológicas básicas, aunque éstas no se puedan medir. El resultado principal del AF es el grado de influencia que cada factor definido tiene sobre las variables experimentales, influencia que se precisa mediante los coeficientes bjk de la relación lineal que se supone existe entre las variables Xj y los factores Y1,...,Ym:

m

xji = bjpypi + ei

p=1

siendo:

xji Observación i de la variable Xj.

ypi Observación i del factor Yp.

m Número de factores definido (menor que el número de variables experimentales).

ei Error que surge debido a que se establece un número de factores menor que el de variables, por lo que no se puede explicar toda la variabilidad de éstas.

El AF tiene, de acuerdo a lo visto, una semejanza importante con el Análisis de Componentes Principales, ya que ambas técnicas consideran la definición de nuevas variables de un conjunto de datos multivariados. Sin embargo, existe una diferencia significativa con respecto al uso que se da a esas nuevas variables. En el ACP interesa encontrar los valores de dichas variables (componentes) como representativos del conjunto original de datos, sin darles un significado dentro del proceso en estudio. En el AF, en cambio, interesa encontrar alguna interpretación de las nuevas variables (factores) más general que la de las variables experimentales, considerando para ello los coeficientes que permitirían definir los valores de éstas últimas en función de dichos factores.

Existen diversos métodos para obtener los coeficientes bjp. Entre ellos, uno de los más utilizados en las aplicaciones computacionales se basa en la aplicación del ACP. Otro proceso de aplicación usual en el AF es el denominado de Rotación de los factores. Mediante él se efectúa una transformación de estos factores, a fin de mejorar el grado de relación entre cada uno de ellos y algunas de las variables originales. Existen diversos procedimientos de rotación, como el Varimax o el Quartimax, entre otros.

7.5.3 Correlación Canónica

Esta técnica es una extensión del análisis de correlación entre dos variables, visto en el capítulo 2, ya que tiene por objetivo evaluar el grado de relación entre dos grupos de variables, en un dado juego de datos multivariados. Para ello se definen nuevas variables para cada grupo, como combinación lineal de las respectivas variables originales, obteniendo coeficientes de correlación entre pares de las nuevas variables. Por ejemplo, si se tienen dos grupos A y B de variables en un cierto conjunto de datos, podemos definir nuevas variables YA e YB, una para cada grupo, como combinación lineal de las originales. La técnica nos permite obtener un coeficiente de correlación rAB, que globalmente da una evaluación del grado de relación entre los grupos A y B en el juego de datos considerado. A dichos coeficientes se les pueden aplicar pruebas de significación similares a las vistas para el caso de dos variables.

En las implementaciones computacionales de esta técnica es usual utilizar para resolverla el denominado Modelo Lineal General, descripto en el capítulo 6.

7.5.4 Análisis Multivariado de Variancia

Esta técnica constituye una generalización del Análisis de Variancia visto en el capítulo 6, considerando ahora que en cada experimento u observación se tienen varias variables respuesta para una dada combinación de valores de los factores. En este caso se podría aplicar el Análisis de variancia normal a cada variable respuesta, en forma independiente. No obstante, ello no tiene en cuenta las correlaciones entre las diversas variables respuesta, que pueden afectar la verificación de las significaciones de los efectos producidos en ellas por los factores.

En el Análisis Multivariado de Variancia se establecen modelos que en conjunto pretenden explicar la relación entre las variables respuesta y los factores involucrados. Dichos modelos consideran que los términos de error responden a una distribución normal multivariada.

Los métodos utilizados para la estimación de los efectos debidos a cada factor y para la determinación de su significación constituyen una generalización de los correspondientes al Análisis de Variancia normal. Las estadísticas de prueba que se establecen en este caso responden a distribuciones complejas, que mediante transformaciones adecuadas se llevan a la "F" o a la "Chi2".

7.5.5 Regresión Multivariada

De igual manera que la anterior esta técnica constituye una ampliación de la de Regresión vista en el capítulo 6 al caso de más de una variable dependiente. Es decir que ahora tenemos varias funciones de regresión, interrelacionadas entre sí por el hecho de que las variables dependientes de algunas de ellas son variables independientes en otras, por lo cual no se pueden procesar de manera separada.

Este caso de regresión es frecuente en los análisis de tipo econométrico, utilizándose para su resolución, en general en el caso lineal, variantes del método de cuadrados mínimos que involucran procesos de varias etapas (procesos denominados "two stages", "three stages", etc).