Técnicas Estadísticas para las Ciencias de la Documentación/Conceptos

De Wikilibros, la colección de libros de texto de contenido libre.
Saltar a: navegación, buscar

Conceptos fundamentales[editar]

Los datos: poblaciones, muestras y elementos[editar]

Los datos sobre los que se trabaja en todo análisis estadístico se consideran parte de un conjunto de elementos o individuos con propiedades comunes. Al conjunto de los elementos o individuos que se quiere estudiar se le denomina población. No obstante, las poblaciones que se estudian en la mayoría de los casos son de un tamaño muy grande, y es muy costoso o poco práctico analizar los datos de todos los elementos de la población. Por ello, en los estudios se trabaja con una o varias muestras de la población, que son subconjuntos de la población, de un tamaño más práctico o manejable.

Cuando se analizan muestras, se pueden extraer a partir de ellas conclusiones sobre la población a la que pertenecen, con un cierto grado de incertidumbre. La estadística inferencial trata de hacer esas deducciones (inferencias) sobre la población a partir de los datos de las muestras. Lógicamente, el tamaño muestral (de la muestra que consideramos) siempre es menor que el tamaño poblacional, y es típicamente mucho menor.

Lógicamente, cuando tomamos una muestra de una población, el método de selección de la muestra es importante. Si queremos analizar la audiencia de programas de televisión en una ciudad, y tomamos como muestra solamente un barrio, estamos seguramente recogiendo una muestra sesgada (no representativa del total de la población). Existen métodos y técnicas para tratar de recoger las muestras más apropiadas posibles para poblaciones dadas. No obstante, las técnicas estadísticas que se tratan en esta obra asumen que la muestra ha sido bien tomada, por lo que esas técnicas quedan fuera de nuestro ámbito.

Ejemplo[editar]

Voorbij y Ongering (2006) estudiaron el uso de revistas electrónicas entre los investigadores holandeses. El estudio puede describirse en los siguientes términos:

Población considerada[editar]

La población son todos los investigadores holandeses. Lógicamente se entiende que son aquellos activos en el momento del estudio. Esta población es realmente muy amplia para hacer un estudio exhaustivo, por lo que procede tomar una muestra.

Técnica de muestreo utilizada[editar]

Según describen los autores:

En la segunda mitad de 2003 y la primera mitad de 2004, [...] se realizó un estudio en dos partes. En la primera parte, se distribuyó un cuestionario a una muestra de 750 académicos. La muestra incluyó a 155 investigadores en humanidades, 345 investigadores en ciencias sociales y 250 en ciencias.

La división por disciplinas es una técnica típica para tratar de evitar sesgos en la muestra. Por ejemplo, podría ser que en aquellas disciplinas donde se usan más los ordenadores, el uso de revistas electrónicas sea más intenso y frecuente.

Del conjunto de investigadores que se seleccionó, solo respondieron 59 investigadores de humanidades (un 38.1%), 149 investigadores de ciencias sociales (un 43.2%) y 96 investigadores en ciencias (un 38.4%). Por lo tanto, la muestra se redujo en esa fase a un tamaño de 304 investigadores.


Tipos de datos[editar]

La recogida de datos en los estudios estadísticos se centra en ciertas características de los individuos. Estas son características concretas, que se denominan variables. Las características pueden ser propiedades intrínsecas al individuo, como en el caso de el número de páginas de un libro, o pueden ser características que dependen de la valoración de otros individuos, por ejemplo, la valoración de las novelas de una Biblioteca en una escala de 1 a 5 realmente depende de los gustos de las personas (que pueden cambiar), no es una característica intrínseca al libro.

Dada una variable determinada v, para cada individuo esa variable puede tomar un valor concreto, dependiendo del tipo de la variable. A esos valores concretos se les denomina clases, categorías o modalidades.

Hay dos tipos de variables fundamentales, con las siguientes sub-divisiones:

  • Cuantitativas, que toman valores numéricos.
    • Cuantitativas discretas, cuando la variable puede tomar un número de valores concretos.
    • Cuantitativas continuas, cuando entre dos valores de la variable puede haber un número infinito de valores.
  • Cualitativas, que toman valores no numéricos.
    • Cualitativas ordinales, cuando puede establecerse una relación de orden entre los valores.
    • Cualitativas nominales, cuando puede establecerse una relación de orden entre los valores.

Es importante notar que las variables cuantitativas discretas no necesariamente deben expresarse como números enteros, aunque es lo más frecuente. Por ejemplo, la variable número medio de páginas por libro en las diferentes secciones de una Biblioteca toma valores que no son enteros, pero no todos los valores reales son posibles.


Se dice que una variable es aleatoria cuando registra los valores de un experimento del que no podemos predecir sus resultados, es decir, que está sujeto a incertidumbre.

Ejemplo de variables numéricas discretas[editar]

Waugh and Ruppel (2004) estudiaron las citas de artículos en revistas que aparecían en los trabajos de estudiantes. El elemento de estudio fue la revista (serial) y para cada revista se analizaron las siguientes variables:

  • Número de estudiantes que citan la revista (T).
  • Número de citas recibidas (C).
  • Indice de peso.

Obviamente las dos primeras variables se expresan mediante números naturales y son por tanto discretas. El índice de peso es una variable diseñada por los autores con la siguiente expresión: 
Weight = \frac{\frac{T}{256}}{C}

Por ejemplo, el peso de la revista Journal of Education for Business fue de 1.162. Aunque los pesos son números fraccionarios, no todos los valores de los números reales son posibles, ya que están determinados por las variables enteras T y C. Cuantitativas, que toman valores numéricos. Cuantitativas discretas, cuando la variable puede tomar un número de valores concretos. Cuantitativas continuas, cuando entre dos valores de la variable puede haber un número infinito de valores. Cualitativas, que toman valores no numéricos. Cualitativas ordinales, cuando puede establecerse una relación de orden entre los valores. Cualitativas nominales, cuando no se puede establecerse una relación de orden entre los valores. Cuantitativas, que toman valores numéricos. Cuantitativas discretas, cuando la variable puede tomar un número de valores concretos. Cuantitativas continuas, cuando entre dos valores de la variable puede haber un número infinito de valores. Cualitativas, que toman valores no numéricos. Cualitativas ordinales, cuando puede establecerse una relación de orden entre los valores. Cualitativas nominales, cuando puede establecerse una relación de orden entre los valores.

Ejemplo de variables numéricas continuas[editar]

Cuantitativas, que toman valores numéricos. Cuantitativas discretas, cuando la variable puede tomar un número de valores concretos. Cuantitativas continuas, cuando entre dos valores de la variable puede haber un número infinito de valores. Cualitativas, que toman valores no numéricos. Cualitativas ordinales, cuando puede establecerse una relación de orden entre los valores. Cualitativas nominales, cuando puede establecerse una relación de orden entre los valores.

Ejemplo de variable cualitativa ordinal[editar]

Henry and Neville (2004) estudiaron diferentes aspectos de la promoción profesional de los bibliotecarios académicos en Florida. Entre las variables consideradas en la muestra, una de ellas fue la percepción de la importancia de haber publicado libros y artículos para la promoción. Los valores considerados para la variable fueron los siguientes:

  1. Es imprescindible.
  2. Es muy recomendable.
  3. Se debe considerar.
  4. Se debe considerar pero con una importancia menor.
  5. No se debe considerar.

La variable puede tomar uno de los valores anteriores para cada individuo que fue entrevistado, pero es evidente que existe una relación de orden de importancia entre los posibles valores, precisamente de mayor a menor de acuerdo a la lista anterior.

Podemos tener la tentación de tratar la variable como numérica discreta, simplemente asignando cada uno de los números del 1 al 5 de las variables anteriores, para poder hacer resúmenes numéricos, como pueden ser medias aritméticas. No obstante, esto en general puede llevar a conclusiones equivocadas, ya que la distancia entre los diferentes valores puede no ser la misma. Por ejemplo, se nos podría ocurrir hacer la siguiente asignación numérica: 0 para la opción (5), 1 para la opción (4), 3 para la opción (3), 5 para la opción (2) y 7 para la opción (1). En ese caso, el resultado numérico sería muy diferente. Precisamente porque no hay una traducción clara de los valores a números concretos, hay que evitar tratar la variable como numérica discreta, a menos que por algún motivo se haya estudiado esa distancia entre los valores.

Ejemplo de variable cualitativa nominal[editar]

Lustria y Case (2005) realizaron un estudio sobre la iniciativa SPARC (una iniciativa de publicación de revistas científicas digitales de bajo coste) en el que se consideraba como variable la "razón para haber emprendido una iniciativa de publicación electrónica" entre miembros de SPARC. Los valores posibles (clases, categorías o modalidades) para la variable que se consideraron fueron los cinco siguientes:

  • Conciencia de la crisis de las publicaciones seriadas.
  • Presión por parte de las bibliotecas universitarias y de investigación para tener revistas de bajo coste alternativas.
  • Incremento de la demanda de suscriptores institucionales de revistas alternativas.
  • Los esfuerzos de promoción de SPARC.
  • Incremento de la demanda de suscriptores individuales de revistas alternativas.

Obviamente, los valores de la variable no son numéricos ni guardan ningún tipo de relación de orden entre ellos.

La Estadística[editar]

La Estadística es una ciencia de carácter matemático que sirve esencialmente a dos funciones correspondiente a dos divisiones fundamentales:

  • La Estadística Descriptiva que sirve para analizar y resumir datos de las muestras.
  • La Inferencia Estadística (o estadística inferencial), que se ocupa de hacer deducciones y predicciones sobre las poblaciones a partir de los datos de las muestras.



Ejemplo de contraste de hipótesis:

Chris A. Portmann and Adrienne Julius Roush, Assessing the Effects of Library Instruction, The Journal of Academic Librarianship, Volume 30, Issue 6, , November 2004, Pages 461-465. (http://www.sciencedirect.com/science/article/B6W50-4DBX7XK-1/2/143df0e07fde95ad5cb93c91a27061e3)