Estadística en Microcomputadores/La consideración procesos estadísticos

De Wikilibros, la colección de libros de texto de contenido libre.

9.3 LA CONSIDERACION DE LOS DIVERSOS PROCESOS ESTADISTICOS

En la sección anterior efectuamos la presentación general del sistema ESTAD en sus características globales, completándola ahora con la síntesis de los procesos estadísticos que el sistema permite realizar, siguiendo en ello la clasificación temática definida en la parte A del libro:

- Manejo de datos.

- Análisis Básico de Datos.

- Distribuciones de Probabilidad.

- Pruebas Estadísticas.

- Análisis de Variancia.

- Regresión.

- Análisis Multivariado.

- Series de tiempo.

En esta síntesis se hace también una referencia somera a cómo contemplan cada tema las restantes herramientas estadísticas disponibles, sobre todo en los aspectos en que difieren del sistema ESTAD.


9.3.1 Manejo de Datos

El sistema ESTAD contempla diversos procedimientos para efectuar el manejo de los datos utilizados en los procesos que abarca. Así, permite ingresar manualmente datos al computador mediante el teclado, o utilizar datos provenientes de otras aplicaciones, modificar los datos, crear con ellos archivos en dispositivos de memoria externa, obtener nuevos datos por transformación de los existentes y seleccionar de un conjunto de datos aquellos a considerar en un dado proceso.

Los aspectos más relevantes dentro de este tema son:

a) Estructura de datos y archivos

El sistema considera la estructura de datos matricial típica, siendo una dimensión las variables analizadas y la otra, observaciones de éstas. Dentro de ello permite la consideración de datos agrupados, mediante la definición de una variable específica de la matriz donde se consigna el número de observaciones correspondiente a cada fila.

Con respecto a los restantes sistemas, además de ello, en muchos casos permiten definir variables cualitativas cuyos valores pueden ser de tipo alfabético, en lugar de tipo numérico como es lo usual. Ligado a ello algunos programas permiten definir descripciones alfabéticas en correspondencia con cada valor posible de una variable.

En el sistema ESTAD los juegos de datos que se ingresan al microcomputador pueden ser almacenados en un archivo residente en un soporte de memoria externo (en general discos flexibles o rígidos), ya sea para ser utilizados por un dado proceso estadístico o para su uso en una aplicación futura.

La grabación de los datos dentro de un archivo se efectúa en el sistema utilizando el formato ASCII de grabación, de uso general en los microcomputadores. Ello permite que los archivos de datos sean totalmente transparentes y puedan ser procesados por programas utilitarios que manejan archivos con ese formato, como editores, procesadores de texto y otros (ver Apéndice 2). Algunos sistemas consideran para los archivos un esquema de base de datos. Este esquema permite relacionar diversos conjuntos de observaciones entre sí, con lo cual resulta posible manejar estructuras más complejas que la básica matricial.

Dentro de ello la mayor parte de los programas estadísticos, principalmente los de mayor envergadura, graban los archivos de datos mediante formatos específicos para cada uno de ellos, que en general no son legibles directamente por otros programas. La razón para la utilización de estos formatos de grabación específicos es principalmente la mayor eficiencia en el uso del espacio de memoria externa que ellos permiten.

Tanto el sistema ESTAD como practicamente todos los restantes sistemas estadísticos incluyen facilidades para leer archivos de datos creados por otros programas y para efectuar el proceso inverso, es decir, crear archivos de datos que puedan ser leidos por otros programas. Ello incluye tanto programas de tipo utilitario, (como planillas de cálculo o bases de datos), como programas desarrollados para aplicaciones específicas.

b) Ingreso Manual y Modificación de datos

Los datos que se van a utilizar en un determinado proceso estadístico deben previamente encontrarse disponibles en el computador. Las alternativas para ello son: el ingreso manual de los datos por teclado, su ingreso mediante la adaptación de un archivo externo proveniente de otra aplicación, o la utilización como datos de resultados obtenidos en procesos anteriores realizados con el mismo programa.

La mayor parte de los programas estadísticos prevén como procedimiento básico el ingreso manual de datos o su modificación a través del teclado del equipo. Para ello los programas más simples disponen de facilidades limitadas (por variable o por observación), mientras que los sistemas de mayor envergadura disponen en general de facilidades similares a las de los programas tipo Planilla de Cálculo ("full-screen"). Esta última es la forma de ingreso más flexible y que mejor aprovecha las facilidades propias de los microcomputadores.

c) Transformación de datos

El sistema ESTAD, al igual que la mayor parte de los sistemas estadísticos, permite efectuar transformaciones de datos existentes, considerando las siguientes posibilidades, que ya vimos genéricamente en el Capítulo 1:

- Mediante una función de transformación.

- Normalización.

- Diferencia y corrimiento.

- Recodificación, mediante una tabla de equivalencias.

- Cálculo de Rangos.

- Obtención de variables indicatrices.

d) Selección de datos

En las aplicaciones estadísticas aparece frecuentemente la necesidad de efectuar determinados procesos sólo sobre aquellas observaciones de un conjunto de datos que satisfagan cierta condición. El sistema ESTAD permite efectuar esta selección, definiendo la condición a considerar para ello previamente a la ejecución del proceso involucrado.

Las condiciones que pueden establecerse son en general amplias, involucrando casi siempre funciones de los valores que deben tomar ciertas variables en cada observación o del número de orden de éstas dentro del conjunto de datos analizado.

e) Manejo de datos faltantes

Cuando se generan o recopilan los datos necesarios para una dada aplicación estadística puede ocurrir que no se obtengan algunos valores individuales, ya sea porque no existen en la información disponible o porque falló el proceso de medición correspondiente.

El sistema ESTAD permite que se pueda consignar en un juego de datos si un cierto valor individual de una variable no se conoce y, además, manejar esa situación durante su procesamiento. La modalidad que utiliza para ello es la no consideración en el proceso en curso de la observación que tiene un dato faltante en cualquiera de las variables involucradas.

Otros sistemas estadísticos permiten considerar valores faltantes en los datos mediante criterios que permiten aprovechar en mayor medida observaciones con valores incompletos:

- No consideración del dato faltante en una observación unicamente cuando en una dada parte del proceso esa observación es necesaria.

- Adopción de un cierto valor para el dato faltante (por ejemplo, el promedio de los valores conocidos de la variable o el valor resultante de aplicar un proceso de regresión a las restantes observaciones).


9.3.2 Análisis Descriptivo de datos

El sistema ESTAD contempla este tema de la siguiente manera, para cada uno de los procesos que abarca:

a) Cálculo de Estadísticas Descriptivas

El sistema permite calcular la mayor parte de la estadísticas descriptivas usualeses de una o más variables en un conjunto de observaciones.

En el caso de otros sistemas, además de ello pueden contemplar en algunos casos el cálculo de estadísticas más específicas o de tipo robusto.

b) Clasificación

El sistema ESTAD contiene un proceso de clasificación de las observaciones de una o más variables en un dado juego de datos, según una o dos variables de clasificación. Dentro de este proceso incluye la verificación de la independencia de la clasificación, según una prueba de Chi2.

Un proceso relacionado con el anterior que también se incluye en el sistema es el cálculo de estadísticas para datos clasificados en grupos, según una o dos variables. Algunos de los restantes sistemas contemplan además de ello la posibilidad de efectuar clasificaciones con más de dos variables de clasificación, así como obtener diversos indicadores del grado de independencia o de relación entre variables de clasificación.

c) Graficación de datos

El sistema incluye la posibilidad de obtener graficaciones de datos, considerando para ello dos variables.

Algunos de los restantes sistemas incluyen además de ello la posibilidad de obtener graficaciones según tres variables y, usando algunos criterios específicos, la graficación según más de tres variables.

d) Análisis Exploratorio

El sistema ESTAD no contempla la posibilidad de efectuar procesos de Análisis Exploratorio. En cambio, la mayor parte de los restantes sistemas incluye la ejecución de algunas de las técnicas comprendidas en ese tema.


9.3.3 Distribuciones de Probabilidad

Los procesos por el sistema ESTAD dentro de este tema son los siguientes:

a) Cálculos con funciones de probabilidad Como vimos, este proceso involucra dos casos típicos:

- Cálculo de las funciones de probabilidad para valores dados de x.

- Cálculo de los valores de x para valores dados de la función F(x).

b) Ajuste de distribuciones

Este proceso se incluye en el sistema, considerando dentro de él las prueba de bondad de ajuste de Chi2 y de Kolmogorov-Smirnov. El sistema contempla además la posibilidad de graficar los histogramas experimental y teórico que se obtienen para la verificación del ajuste, mediante la prueba Chi2, así cmo crear archivos de datos con los resultados del proceso de clasificación.

El sistema, por otra parte, permite obtener de manera indirecta graficos de probabilidad.

c) Generacion de valores aleatorios

El sistema contempla dentro de este proceso la generación de valores aleatorios de una muestra de observaciones de una variable. Asimismo, incluye la posibilidad de generar varias muestras de valores aleatorios de una variable, obtenidendo en ese caso como resultado no dichos valores sino estadísitcas descriptivas para cada muestra.


9.3.4 Pruebas Estadísticas

El sistema ESTAD incluye la ejecución de pruebas estadísticas, tanto de tipo paramétrico como no paramétrico. Dentro de ello, en los casos parametricos, contempla también la posibilidad de obtener intervalos de confianza para las estadísticas (o relaciones entre ellas) contempladas en las pruebas.


9.3.5 Análisis de Variancia

El sistema ESTAD incluye la posibilidad de efectuar procesos de análisis de variancia de tipo factorial, considerando uno o dos factores. No contempla en cambio procesos de tipo no paramétrico.

Con respecto a los restantes sistemas, los de un nivel bajo o intermedio de complejidad abarcan en general modelos de variancia de tipo factorial de hasta dos, o eventualmente tres factores, requiriendo una cantidad igual de observaciones por cada combinación de valores de los factores, en el caso de que éstos sean dos o más (Modelos balanceados u ortogonales).

Frente a ello, los programas de mayor envergadura permiten considerar modelos con una cantidad mayor de factores posibles y cantidades desiguales de observaciones en los diferentes grupos (Modelos no balanceados), así como procesos de análisis de covariancia. Para que ello sea posible utilizan en general implementaciones del denominado Modelo Lineal General.

Algunos sistemas consideran los casos no paramétricos de análisis de variancia (Kruskal-Wallis y Friedman).


9.3.6 Regresión

El sistema ESTAD incluye la posibilidad de efectuar procesos de regresión. El tratamiento que hace de estos procesos es el siguiente:

a) Regresión lineal y las transformables a ella

El sistema contempla la ejecución de procesos de regresión lineal, así como de algunos modelos no lineales que son transformables al caso lineal. Algunos de los restantes sistemas, principalmente aquellos de mayor envergadura, incluyen además la posibilidad alternativa de ejecutar procedimientos del tipo paso a paso ("step-wise").

b) Regresión no lineal general

El sistema incluye la posibilidad de ejecutar procesos de regresión considerando funciones no lineales arbitrarias, que se definen en cada caso.

c) Otros procesos

El sistema incluye la evaluación del grado de ajuste logrado por el modelo de regresión, principalmente mediante el cálculo de indicadores de ajuste, la significación de los coeficientes estimados, el Análisis de Variancia y la prueba de Durbin-Watson. Se incluye también la posibilidad de efectuar de manera directa análisis de los residuos obtenidos del proceso de regresión, así como la de guardar dichos residuos o los valores estimados, para usos posteriores.

Un cálculo que también resulta posible en el sistema es el de predicción de valores de la variable Y, para nuevos valores de las variables X.


9.3.7 Análisis Multivariado

El sistema ESTAD contempla los siguientes procesos dentro de este tema:

- Análisis de Componentes Principales

- Análisis Discriminante

- Agrupamiento Jerárquico

Algunos de los restantes sistemas estadísticos contemplan otros procesos, además de los nombrados, como el Análisis de Proximidades, el Análisis Factorial, la Correlación canónica o el Análisis Multivariado de Variancia.


9.3.8 Series de Tiempo

Los procesos dentro de este tema que contempla el sistema ESTAD son los siguientes:

a) Análisis Descriptivo de Series

Dentro de ello el sistema incluye el cálculo de coeficientes de correlación, el suavizamiento de series y la graficación.

b) Modelos de Series de Tiempo

El sistema incluye modelos de Ajuste, Modelos autorregresivos y modelos de descomposición. Los restantes sistemas incluyen dentro de este tema la resolución de modelos autorregresivos mediante la técnica de Box-Jenkins.

Con respecto a los métodos de Descomposición algunos sistemas contemplan el modelo de descomposición denominado CENSUS II.

Asimismo, la mayor parte de los programas de envergadura que abarcan series de tiempo contemplan el proceso de Análisis Espectral.

c) Otros procesos

Los programas estadísticos que incluyen el tratamiento de series de tiempo consideran, en mayor o menor medida, procesos complementarios dentro de los procesos básicos enunciados. Entre ellos podemos mencionar la evaluación del ajuste de los modelos a series experimentales, el análisis de residuos, la predicción de valores futuros de la serie y su eventual graficación y la posibilidad de almacenar series intermedias y residuos obtenidos durante la ejecución de los procesos, para usos posteriores.