Estadística en Microcomputadores/Regresión mediante una función lineal
6.3. REGRESION MEDIANTE UNA FUNCION LINEAL
6.3.1 El caso básico
En este tipo de regresión se define una función f( ) de tipo lineal, por lo que, si consideramos k variables independientes, el valor de la variable dependiente Y para una observación se explica mediante la expresión:
yi = ao + a1x1i + a2x2i + ... + akxki + ei
siendo ao, a1, a2, ..., ak, coeficientes de la función. Dado un conjunto de valores experimentales de las variables X y de la Y la estimación de los coeficientes del modelo lineal aplicando el método de cuadrados mínimos está resuelta en forma genérica, no requiriéndose efectuar en cada aplicación el proceso de minimización de la suma de residuos cuadráticos. En dicha resolución genérica se obtienen valores estimados de los coeficientes mediante una ecuación matricial que requiere la obtención de la inversa de la matriz de sumas de productos cruzados de las variables, de a pares.
Una generalización de este procedimiento, englobada en lo que se denomina Modelo Lineal General, permite también su utilización para otras técnicas estadísticas que involucran modelos lineales, como el Análisis de Variancia o el Análisis Discriminante.
6.3.2 Regresión Paso a Paso ("Stepwise")
Cuando se está considerando una regresión con varias variables independientes no necesariamente la inclusión de todas en la función de regresión produce la mejor estimación de la variable Y.
Para verificar ello deberían realizarse diversas regresiones con subconjuntos de las variables independientes hasta encontrar aquella combinación específica de ellas que produce el mejor ajuste. Una alternativa a este proceso, que se encuentra incorporada en muchos de los programas estadísticos es la regresión denominada Paso a Paso ("Stepwise").
Esta variante de la regresión lineal múltiple permite establecer automáticamente un subconjunto de variables independientes, del total predefinido, mediante criterios que intentan que en dicho conjunto se incluyan las variables que más influyen en la variación de la variable Y.
La evaluación del grado de significación de las variables independientes se realiza mediante una estadística F que se calcula para cada una de ellas en cada paso del proceso. Previamente al inicio de éste se definen dos valores de dicha estadística, uno máximo y otro mínimo, que son usados para ir estableciendo a lo largo del proceso las variables que entran o salen de la función de regresión.
Los dos criterios alternativos que pueden ser usados para ello son:
a) Inclusión de variables ("forward selection") Según este criterio en cada paso se va introduciendo consecutivamente en la función de regresión aquella variable no incluida en ella con mayor valor de la estadística F por encima del máximo establecido.
Por otra parte, en cada paso del proceso se eliminan de la función de regresión aquellas variables cuyo valor de F es menor al mínimo establecido.
b) Eliminación ("backward")
En este caso se consideran inicialmente todas las variables independientes predefinidas y se elimina en cada paso aquella con una F más baja inferior al valor mínimo establecido.
En cada paso se reingresan a la función aquellas variables cuyo valor de F vuelve a tomar valores mayores que el valor máximo establecido.
6.3.3 Evaluación del ajuste, otros procesos y predicción En el caso específico de la función lineal se pueden ejecutar de manera directa pruebas estadísticas sobre la significación del efecto de cada variable independiente en la función de regresión. Para ello es necesario que se cumpla la condición de que los residuos ei sigan una distribución normal, con variancia constante.
A partir de ello, se puede demostrar que si extrayeramos muestras de la población a la que corresponden las variables Y, X1, ..., Xk, y obtuviéramos la función de regresión para cada una de dichas muestras, los valores estimados a0, a1, a2, ..., ak de los coeficientes de regresión responderían a distribuciones normales. Como consecuencia de esta propiedad podemos definir una prueba estadística sobre el grado de significación de los coeficientes a0, a1, ..., aj, ..., ak, planteando para cada uno la siguiente hipótesis básica:
aj = 0
y como alternativa:
aj = 0
El rechazo en la prueba de la hipótesis básica determina como conclusión que el efecto de la variable Xj sobre la Y es significativo, y lo opuesto, su aceptación.
Dado el supuesto de normalidad de los aj planteado anteriormente, la prueba implica directamente la verificación del valor esperado de una variable normal, vista en el capítulo 5. Para ejecutar dicha prueba se requiere conocer una estimación del desvío estándar de cada coeficiente, la que se obtiene dentro del mismo cálculo matricial con el que se determinan los valores estimados de los coeficientes.
En la ejecución del análisis de variancia para el modelo lineal resulta también posible obtener la variación de la variable dependiente debida a cada una de las variables independientes y su correspondiente significación. Ello resulta de utilidad para resolver modelos de análisis de variancia mediante la ejecución de un proceso de regresión lineal. Otros resultados que s epueden obtener a partir de la resolución del modelo lineal son los coeficientes de correlación parcial entre pares de las variables involucradas, estadísticas útiles para evaluar el grado de relación lineal entre dos variables independiente de la relación que ellas tienen con otras variables, la que puede influir en el valor del coeficiente de correlación simple.
Con respecto a la predicción de valores de la variable dependiente Y ella es directa en el caso de la regresión lineal, pudiendo obtener el intervalo de confianza del valor estimado de la variable, para un nivel de significación prefijado.