Estadística en Microcomputadores/Organización de los datos estadísticos

De Wikilibros, la colección de libros de texto de contenido libre.

1.3. ORGANIZACION DE LOS DATOS ESTADISTICOS

1.3.1 La estructura matricial

En función del concepto de observación, es decir, los valores de un conjunto de variables para un dado individuo, surge como organización básica de los datos estadísticos una de tipo matricial, Observaciones-Variables. En ella cada fila contiene una observación y cada columna los valores de una cierta variable, para el conjunto de observaciones considerado: A una dada matriz de datos estadísticos como la presentada la denominaremos en adelante, de manera equivalente: Conjunto de Datos, Juego de Datos, Conjunto de Observaciones, o Muestra de Observaciones, en este último caso si existe una población asociada a los individuos en estudio. En el Apéndice 4 incluimos varios ejemplos de esta organización usual de los datos estadísticos.

Utilizando la estructura básica de datos vista, debemos definir una matriz de datos por cada muestra o conjunto de observaciones que consideremos. Cada una de estas matrices configura un juego de datos independiente y que manejamos por separado. Además, si las matrices constituyen muestras, pueden corresponder a la misma población, o pertenecer cada una a una población distinta.

Cuando consideramos variables de dos o más conjuntos de datos decimos que ellas son independientes entre sí, para diferenciarlas de las relacionadas, definidas en un mismo juego de datos:

En el caso de varios juegos de observaciones de variables independientes, si ellas son compatibles en sus respectivas definiciones, resulta posible unificarlos en un solo conjunto de observaciones, mediante el agregado de una nueva variable, de tipo nominal, con la que se identifica en el nuevo conjunto de datos cada uno de los juegos originales:

Cada conjunto de datos pasa a ser ahora un subconjunto (o submuestra) del nuevo juego de datos.

Esta consolidación es posible, en general, cuando tenemos varias muestras independientes de una misma población o cuando, siendo de poblaciones diferentes, las variables medidas son compatibles entre las diversas muestras. La unificación resulta útil al utilizar un computador, ya que con ello eliminamos la necesidad de manejar varios conjuntos de datos en una cierta aplicación, siempre y cuando las variables y datos definidos en cada uno de ellos permitan la consolidación.


1.3.2 Otras estructuras de datos

Una variante de la estructura matricial básica, que se denomina usualmente Datos Agrupados, es la que considera la misma organización matricial, pero ahora cada fila puede corresponder a más de una observación, todas ellas con los mismos valores de las variables involucradas. En este caso es necesario agregar a la matriz una columna adicional que no constituye ninguna variable medida, sino solamente el número de observaciones correspondientes a cada fila de la matriz: En general, esta variante surge cuando se define un conjunto de datos a partir de información estadística que ha tenido algún tipo de tratamiento previo, casi siempre de clasificación o tabulación, como veremos en el Capítulo 2. La variante además puede ser útil para ponderar observaciones individuales por alguna razón estadística.

En el tratamiento computacional de datos agrupados ellos se procesan usualmente como si existieran observaciones repetidas, en correspondencia con cada fila de datos. Se pueden definir otras organizaciones de datos estadísticos de mayor complejidad. No obstante, la mayor parte de estos casos pueden resolverse adaptando la estructura básica anterior, aunque ello no sea lo más eficiente desde el punto de vista de la presentación o del procesamiento estadístico de los datos. Es por ello que en el resto del libro vamos a trabajar exclusivamente con dicha estructura básica, la que por otra parte es la única considerada en la mayoría de los programas estadísticos para microcomputador.


1.3.3 Series de Tiempo

Un caso particular dentro de la estructura matricial Observaciones-Variables se presenta cuando las observaciones están ordenadas temporalmente en forma consecutiva. Ejemplo de ello son una serie de temperaturas diarias, para un conjunto de regiones, o una serie de mediciones económicas anuales para un país.

En este caso particular los datos estadísticos se denominan usualmente Series de Tiempo, correspondiendo cada observación de una dada variable al mismo objeto o individuo, medida en períodos de tiempo diferentes.