Técnicas Estadísticas para las Ciencias de la Documentación/Inferencia/Contraste de hipótesis

De Wikilibros, la colección de libros de texto de contenido libre.
Saltar a: navegación, buscar

Contraste de hipótesis[editar]

El contraste de hipótesis es una técnica de inferencia estadística. Como tal, trata de obtener conclusiones sobre una población (o varias) a partir de datos de una (o varias) muestras.

En pocas palabras, el contraste de hipótesis consiste en un proceso estadístico para comprobar si una afirmación sobre una propiedad poblacional puede sostenerse a la luz de los datos recogidos en una muestra.

También se le denomina test de hipótesis o prueba de significación.

¿Qué es una hipótesis?[editar]

En Estadística, una hipótesis es una afirmación (matemáticamente, una expresión lógica) sobre parámetros o sobre la distribución de una población. El método de contraste de hipótesis tiene como objetivo rechazar o aceptar hipótesis, de acuerdo a técnicas estadísticas aplicadas sobre las muestras o las propiedades de la población disponibles.

Si la hipótesis es una afirmación sobre el valor de un parámetro estadístico de la variable aleatoria en estudio, tenemos un test paramétrico. En caso contrario se habla de test no paramétrico.

Ejemplos[editar]

Una hipótesis sobre un parámetro puede ser la siguiente:

  • H_0: La media de la población considerada es menor o igual que 45. En términos matemáticos H_0: \mu \leq 45.

Por el contrario, las hipótesis no paramétricas se refieren a propiedades de la distribución u otras afirmaciones relativas a una o más poblaciones. La siguiente es un ejemplo:

  • H_0: la variable aleatoria considerada sigue una distribución Normal. En términos matemáticos: H_0: X \equiv \mathcal{N}(\mu, \sigma).

La lógica del contraste de hipótesis[editar]

Lo esencial del contraste de hipótesis es la comparación de la hipótesis estudiada con la evidencia obtenida de la muestra (o muestras). Se utilizan técnicas estadísticas para hacer esta comparación, llegando a dos situaciones:

  • Si los datos de la muestra no contradicen la hipótesis, se sigue sosteniendo la hipótesis.
  • Si los datos de la muestra contradicen la hipótesis, se rechaza ésta, y se sostiene la validez de la hipótesis contraria (o alternativa).

Desde el punto de vista del conocimiento (epistemológico), cuando los datos de la muestra no contradicen la hipótesis no podemos afirmar con total garantía que la hipótesis es cierta. Por ejemplo, podría suceder que tomásemos otra muestra y ésta segunda sí que entre en contradicción con la hipótesis. Por lo tanto, la hipótesis es siempre provisional.

Pero la cosa cambia si se mira de la otra forma. Si encontramos que la muestra contradice la hipótesis, podemos considerarla falsa (y por tanto es cierta la alternativa). No obstante, en ambos casos la "contradicción" que los datos pueden dar lugar respecto a la hipótesis es una cuestión de probabilidad. Por ello, la certeza en el contraste de hipótesis es siempre probabilista, y se basa en el concepto de nivel de significación.

Método general[editar]

El contraste de hipótesis es una técnica o procedimiento que nos permite determinar si las muestras observadas difieren significativamente de la hipótesis planteada. Dependiendo de la magnitud de esa diferencia, se rechazará la hipótesis planteada o se considerará cierta.

Desde el punto de vista de la lógica científica, si damos por cierta la hipótesis tras el contraste, esta siempre es una certeza provisional, ya que siempre cabe la posibilidad de que al observar otra muestra en el futuro, la diferencia sea tan grande como para rechazar la hipótesis que provisionalmente se había dado por válida.

Paso 1: Planteamiento de la hipótesis nula (y en consecuencia, de la alternativa)[editar]

El contraste de hipótesis comienza por el planteamiento de la hipótesis nula, denominada H_0.

Una vez definida la hipótesis nula, se define la hipótesis alternativa, denominada H_1. Las dos hipótesis son complementarias (contrarias) y entre las dos deben cubrir todas las posibilidades. En otras palabras, si una de ellas es cierta, forzosamente la otra tiene que ser falsa.

NOTA: En la hipótesis nula cuando se comprueban valores, siempre tiene que figurar la igualdad en la comparación, debido al tipo de técnica matemática utilizada, ya que H_0 es la afirmación concreta que se somete a contraste.

Ejemplos[editar]

Siguiendo los ejemplos anteriores:

  • Si H_0: \mu \leq 45, entonces la alternativa será H_1: \mu > 45.
  • Si H_0: X \neq \mathcal{N}(\mu, \sigma).

Paso 2: Prueba, contraste o test sobre la hipótesis nula[editar]

Consiste en partir de las suposición de que la hipótesis nula es cierta, tomar y analizar las muestras y comparar si el resultado empírico de los datos es compatible o coherente o no con la hipótesis nula de partida.

Para ello se recurre a un estadístico de contraste. Un estadístico es siempre función de una muestra. Por ejemplo, si nuestra hipótesis es una afirmación sobre la media poblacional tal como H_0: \mu \leq 45, entonces el estadístico de contraste que parece lógico utilizar es la media muestral \bar{x}. El estadístico de contraste debe poseer dos características:

  • Proporciona información empírica relavante a la hipótesis nula.
  • Posee una distribución muestral conocida.

Todo estadístico - como la media muestral - es en sí una variable aleatoria que sigue una determinada distribución muestral. Sobre esa distribución muestral se hará realmente el contraste.

Contraste sobre la distribución muestral[editar]

Para proceder al contraste se divide la distribución muestral en dos regiones:

  • Región de rechazo (crítica). Zona de valores del estadístico de contraste que están tan alejados de H_0 que es muy poco probable que ocurren si ésta es verdadera.
  • Región de aceptación. Resto de los valores, que se consideran próximos en cierto grado a H_0.

Para definir la región crítica, se utiliza un nivel de significación \alpha (que típicamente toma valores 0.10, 0.05 ó 0.01). Si la compatibilidad de la muestra con H_0 es menor que \alpha, llegamos a una contradicción, y la conclusión es que la hipótesis de partida es falsa.

Tipos de errores en el contraste de hipótesis[editar]

Todo contraste de hipótesis termina con una decisión de aceptar o rechazar H_0. Al tomar esa decisión, siempre se corre el riesgo de caer en el error, aunque la probabilidad de hacerlo sea pequeña. Es importante entender dos tipos de errores que pueden darse:

  1. Si se rechazó  H_0 y ésta es realmente cierta, se hizo por contraste utilizando un nivel de significación  \alpha , es decir, la probabilidad de este error es  \alpha . Este es un valor conocido en el propio test de hipótesis, y se denomina error de tipo I.
  2. Si se aceptó  H_0 y ésta es realmente falsa, se hizo con una probabilidad que no conocemos por el propio contraste y que llamaremos  \beta .

El error de tipo II depende de varios factores:

  • La verdadera  H_1
  • El valor de  \alpha .
  • El tamaño de la desviación típica de la distribución muestral (del estadístico de contraste).


 H_0 es cierta  H_1 es cierta
 \mbox{Aceptada } H_0\, No hay error Error de tipo II
 \mbox{Aceptada } H_1\, Error de tipo I No hay error


El concepto de p-valor[editar]

La probabilidad de cometer error de tipo I es el nivel de significación \alpha que es realmente un valor que el investigador establece de antemano.

Para facilitar las comparaciones con posibles alternativas de niveles de significación, se introduce el concepto de p-valor (valor crítico) que se define como nivel de significación más pequeño al que una hipótesis nula puede ser rechazada.