Unidad didáctica 3: Las pruebas de hipótesis

INTRODUCCIÓN

En esta unidad didáctica del curso en línea de “Estadística”, damos inicio a la segunda parte de la misma; trataremos de la inferencia como tal, centrándonos en una de sus partes: las pruebas de hipótesis. El propósito de este tema es ayudar al médico, investigador o profesional de la salud a tomar una decisión acerca de una población mediante el examen de una muestra de ella. Se definen conceptos clave como valor predictivo, nivel se significancia, valor de p, por mencionar algunos. También se hace hincapié sobre la cautela con que se deben interpretar los resultados y los tipos de errores en los que se puede caer cuando se hacen pruebas de hipótesis.

DESARROLLO

3.1 Concepto de hipótesis de investigación y formulación de hipótesis estadísticas

En varias ocasiones el profesional de la salud se ve enfrentado a aceptar o rechazar una proposición sobre algún parámetro de una población. En general, dichas proposiciones reciben el nombre de hipótesis que son uno de los aspectos más útiles de la inferencia estadística y se refiere a los parámetros de las poblaciones para las cuales se hace dicha proposición. Por ejemplo, el administrador de un hospital puede suponer que el periodo promedio de permanencia de los pacientes internados es de cinco días; una enfermera del área de salud pública supondrá que un determinado programa educativo hará que mejore la comunicación entre enfermera y paciente; un médico supone que cierto medicamento será eficaz en 90% de los casos en que se utilice. Todos estos son proposiciones que pueden formularse como hipótesis de investigación en un momento dado. Por tanto, una definición aceptable de hipótesis es:

  • Hipótesis: Enunciado que expone supuestos, sujetos a verificación que orientan la búsqueda de la información y su relación esperada con las variables.

Es importante recalcar que las hipótesis siempre son proposiciones sobre la población o distribución bajo estudio, no proposiciones sobre la muestra.

Tipos de hipótesis 

Los investigadores se interesan en dos tipos de hipótesis: de investigación y estadísticas. La primera es una conjetura (como los ejemplos anteriores) que motivó la investigación y la segunda son establecidas o enunciadas de tal manera que puedan ser contrastadas por medio de pruebas estadísticas adecuadas. Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o más poblaciones.

Las hipótesis de investigación son formuladas como resultado de la ocurrencia de eventos que hacen pensar que éstos tienen influencia sobre alguna variable de interés que se ha estudiado ya sea a corto o incluso a largo plazo. Ejemplo, una enfermera, puede haber notado que ciertos pacientes respondieron más rápidamente a un tipo particular de programa de educación sanitaria. Un médico recordara numerosos casos en los cuales ciertas combinaciones de medidas terapéuticas fueron más efectivas que cualquiera de ellas por separado. Las investigaciones a menudo se llevan a cabo gracias al deseo de tales profesionales para determinar si sus teorías, supuestos o sospechas se pueden sostener o no al ser sometidas a los rigores de la investigación científica. Las hipótesis de investigación conducen directamente a las hipótesis estadísticas.

Las hipótesis de tipo estadístico tienen el propósito de ayudar al profesional de la salud o investigador a tomar una decisión acerca de una población a partir de una muestra extraída de ella. Y el tipo de inferencia que se aplica son las pruebas de hipótesis, que determinan si tales proposiciones son compatibles o no con los datos disponibles. Pero, ¿qué es una prueba de hipótesis? pues es un procedimiento basado en la evidencia de la muestra, es la probabilidad para determinar si la hipótesis que se contrasta es una afirmación razonable.

3.2 Pasos para la prueba de hipótesis

Es un proceso en cinco pasos que siguen una secuencia lógica de acciones y decisiones.

1. Plantear la hipótesis.

La prueba de hipótesis formula dos hipótesis estadísticas que deben anunciarse explícitamente: hipótesis nula y alternativa. La primera, se designa por el símbolo H0. Esta hipótesis se conoce también como la hipótesis de no diferencia, ya que es una proposición de conformidad con (o sin diferencia respecto a) Características que se suponen ciertas en la población de interés. Esta hipótesis siempre se opone a la hipótesis del investigador.

La segunda, identificada mediante el símbolo H1, es una proposición que se creerá cierta si los datos de la muestra siguieren que llevan al rechazo de la H0 es falsa. Por lo general, la H1 y la hipótesis de investigación son la misma y, de hecho; se utilizan los dos términos indistintamente.

En general H0, esta se establece con el propósito expreso de ser rechazada. Si no se rechaza, esto no necesariamente significa que es verdadera, se dirá que los datos sobre los cuales se basa la prueba no proporcionan evidencia suficiente que cause el rechazo. Por el contrario, si se rechaza se concluye que los datos disponibles no son compatibles con la H0, pero sirven como apoyo a alguna otra hipótesis. Rechazarla entonces, sugiere que la hipótesis alternativa puede ser verdadera.

Aspectos importantes sobre H0 y H1

  • H0 y H1 son mutuamente exclusivas y colectivamente exhaustivas, es decir; son complementarias.
  • H0 siempre se presume ser cierta y es la que debe ser comprobada.
  • H1 es la conclusión a la que se desea o espera llegar como resultado de la En consecuencia, el complemento de la conclusión se convierte en el enunciado de la H0.
  • Se utiliza una muestra aleatoria (n) para “rechazar H0”.
  • Siempre, la igualdad es parte de H0 (“=”, “≥”, “≤”).
  • Mientras que “≠” “<” y “>” siempre es parte de H1.

2. Establecer un nivel de significancia 

Se ha señalado que la clave para la inferencia estadística es la distribución muestral. Es necesario recordar esto, en los casos en que sea necesario especificar la distribución de probabilidad de la estadística de prueba. Por ejemplo, la distribución de la estadística de prueba por lo general; sigue una distribución normal estándar (ver unidad anterior) si la H0 es verdadera y si satisface las suposiciones. Todos los valores posibles que la estadística de prueba puede asumir son puntos sobre el eje horizontal de la gráfica de la distribución para esta estadística y se dividen en dos grupos: uno de ellos constituye lo que se conoce como región de rechazo y el otro, forma la región de no rechazo (figura 1).

Diagrama 1. Partes de una distribución en pruebas de hipótesis

Los valores de la estadística de prueba que forman la región de rechazo son aquellos que tienen la menor probabilidad de ocurrir, mientras que los que forman la región de no rechazo tienen la mayor probabilidad de ocurrencia, si la H0 es verdadera para ambas regiones.

La decisión en cuanto a que valores van hacia qué región se toma con base en el nivel de significancia deseado, designado por α. El nivel de significancia α, designa el área bajo la curva de la distribución de la de prueba que está por encima de los valores, sobre el eje horizontal; que constituyen la región de rechazo. Y un valor calculado para la estadística de prueba que cae dentro de la región de rechazo se dice que es significativo.

Ejemplo, si tuviéramos un nivel o grado de confianza del 95% (0.95) entonces el nivel de significancia sería del 5% (0.05) donde:

Nivel de confianza = (1- α)

Análogamente si se tiene un nivel de confianza del 90% entonces el nivel de significancia sería del 10%.

Dado que rechazar una H0 verdadera sería un error, parece razonable que se deba hacer pequeña la probabilidad de cometerlo y, de hecho; esto es lo que se hace. Se elige un valor pequeño de α para hacer que la probabilidad de rechazo para una H0 sea pequeña. Los valores que se encuentran con más frecuencia son: 0.01, 0.05 y 0.10. La probabilidad de equivocarse al no rechazar un H0 verdadera generalmente es de 95%, puede ser 90 y 99%, esto se conoce como el nivel de confianza.

Diagrama 2. Partes de una distribución en pruebas de hipótesis.

Por lo tanto, la probabilidad de no equivocarse al rechazar una H0 falsa generalmente es de 80%, esto es el valor o grado predictivo cuyo valor de β más comúnmente usado es 0.2. (figura 2).

Tipos de errores 

El error que se comete cuando se rechaza una H0 verdadera se conoce como error del tipo I (α). EI error del tipo II (β) se comete cuando no se rechaza una H0 falsa. Siempre que se rechaza una H0 se tiene el riesgo de cometer un error del tipo I, al rechazar una H0 verdadera; y siempre que no se rechaza, existe el riesgo de no rechazar una H0 falsa. En general, aunque se dé un valor pequeño a α no se ejerce control sobre β, aunque se sabe que en la mayoría de las situaciones practicas es mayor que α. Es decir:

El error tipo I (error alfa) se comete cuando:

  • Se concluye que hay diferencias cuando realmente no las hay.
  • Se detecta significancia estadística p< 0.05 y se rechaza la H0 cuando en realidad es verdadera.

La probabilidad de cometer este error es lo que mide el valor de p (P-Value)

El error tipo II (error beta) se comete cuando:

  • Los resultados NO son significativos (p>0.05) y se concluye que no hay diferencias, cuando realmente SI las hay y se acepta la H0 cuando en realidad es falsa.

Nunca se sabe si se ha cometido o no uno de estos errores cuando se rechaza o no una H0, ya que se desconoce el verdadero estado de las cosas. Si el procedimiento de prueba conduce al rechazo de la H0, puede ser un consuelo el hecho de que al dar un valor pequeño a α la probabilidad de cometer un error del tipo I también lo es. Si no se rechaza la H0, no se conoce el riesgo concurrente de cometer un error del tipo II, ya que por lo común se desconoce; pero como se ha señalado, en la mayoría de situaciones prácticas se sabe que es mayor que α.

El cuadro 1 muestra las posibles acciones que el investigador puede emprender para varias condiciones de una prueba de hipótesis, así como las condiciones en las que se produce cada uno de los dos tipos de error.

Tabla 1. Condiciones en la que es posible cometer un error de tipo I o de tipo II Fuente: Modificado de Daniel, Wayne W. (2002).

En resumen:

  • Error Tipo I: es el nivel de significancia, denotado por la letra griega “a”, se define como la probabilidad de “rechazar” la H0 cuando esta es
  • Error Tipo II: es el valor predictivo, denotado por la letra griega “β”, se define como probabilidad de “aceptar” la H0 cuando ésta es falsa. El procedimiento busca fijar la probabilidad de cometer error Tipo I, α, y minimizar la probabilidad de cometer error Tipo II, β.

Recomendaciones para disminuir el error tipo I, α:

  • Disponer de una teoría que guíe la investigación, evitando el “salir de pesca” con la computadora buscando asociaciones entre variables.
  • Disminuir el número de pruebas estadísticas llevados a cabo en el estudio.
  • Depurar la base de datos para evitar errores de valores extremos que puedan producir hallazgos signicativos.
  • Utilizar valores de alfa más reducidos (0.01 o 0.001).
  • Reproducir el estudio. Si al reproducir el estudio se obtienen resultados similares, estaremos más seguros de no estar cometiendo el error de tipo I.

Recomendaciones para disminuir el error tipo II, β:

  • Incrementar el tamaño de la muestra.
  • Estimar el poder estadístico del estudio (1 – β).
  • Incrementar el tamaño del efecto a detectar.
  • Incrementar el valor de alfa.
  • Utilizar pruebas paramétricas (más potentes) en lugar de pruebas no paramétricas en la medida de lo posible.

3. Seleccionar el estadístico de prueba a aplicar

Es necesario comprender la naturaleza de los datos que forman la base de los procedimientos de prueba, ya que esto determina la prueba particular que se ha de utilizar. Se debe determinar, por ejemplo, si los datos constan de conteos o medidas. A partir de los datos contenidos en la muestra, se calcula un valor de la estadística de prueba y se compara contra las regiones de no rechazo y rechazo que ya fueron especificadas. Luego entonces, aplicar el estadístico de prueba, previa comprobación los supuestos (restricciones) estas incluyen, entre otras; suposiciones respecto a la normalidad de la distribución de la población, igualdad de varianzas e independencia de las muestras. Esto es importante ya que determina si se usan pruebas paramétricas (para datos que siguen la distribución normal) o pruebas no paramétricas (para datos cuya distribución es diferente a la normal). Hay que tener en cuenta que un procedimiento general se modifica según las suposiciones. Los estadísticos de prueba más comunes los veremos más adelante.

4. Establecer una regla de decisión 

Esta señala que se debe ser rechazada Hsi el valor de la estadística de prueba que se calcula a partir de la muestra es uno de los valores de la región de rechazo, y que no se debe rechazar si el valor calculado es uno de los valores de la región de no rechazo.

Valor de p en pruebas de hipótesis

Un aspecto, aquí importante es el valor de p (P-Value) que es el valor del estadístico de prueba que se aplique. Indica que tan significante son los resultados de la muestra, considerando que la H0 sea verdadera.

Los valores de p son comúnmente utilizados para probar (y descartar) una H0, que por lo general indica que no existe una diferencia entre dos grupos, o que no hay ninguna correlación entre un par de características; por lo tanto, ofrece la justificación para dudar de la certeza de la H0, si esta es verdadera.

Cuanto menor sea el valor de p, menor es la probabilidad de que un conjunto de valores observados ocurra por casualidad. Un valor p de 0.05 o menos suele entenderse en el sentido de que las observaciones son estadísticamente significativas y justifica los resultados de un estudio. Pero eso no es necesariamente cierto, la distancia entre la significación estadística y la relevancia clínica se debe analizar con cuidado por parte de los investigadores por lo que hay que evitar sacar conclusiones científicas o tomar decisiones basadas solo en los valores de p.

Un valor p de 0.05, no significa que hay una posibilidad del 95% que una determinada hipótesis es correcta. Más bien, significa que, si la H0 es verdadera, y todas las demás suposiciones hechas son válidas, hay una probabilidad del 5 % de obtener un resultado al menos tan extremo como el observado. Y un valor de p no puede indicar la importancia de un hallazgo; por ejemplo, un medicamento puede tener un efecto estadísticamente significativo en los niveles de glucosa en la sangre del paciente sin tener un efecto terapéutico, en este caso hay relevancia estadística pero el hallazgo clínico también es importante dado que dicho medicamento no es eficaz en el tratamiento de la diabetes, por ejemplo.

Por lo tanto, el valor de p es la probabilidad de observar un valor muestral tan extremo como, o más extremo que, el valor observado, dado que la H0 es verdadera.

En prueba de hipótesis, podemos también comparar el valor de p con el nivel de significancia α. Si el valor de p < α, H0 se rechaza, de otro modo H0 no se rechaza. Pero ¿qué significa esto? veamos lo que puede ocurrir, si:

p = 0.10, tenemos alguna evidencia que H0 no es verdadera.
p = 0.05, tenemos fuerte evidencia que H0 no es verdadera.
p = 0.01, tenemos muy fuerte evidencia que H0 no es verdadera.
p = 0.001, tenemos una extremadamente fuerte evidencia que H0 no es verdadera.

5. Tomar una decisión o conclusión

Esto no es otra cosa que decidir si H0 se rechaza, entonces se concluye que H1 es verdadera. Si H0 no se rechaza, se concluye que H0 puede ser verdadera. Es importante aclarar que cuando la H0 no es rechazada, tampoco se puede decir que se acepta. Se debe decir que «no se rechaza«. Se evita el uso de la palabra «aceptar» en este caso porque pudiera haberse cometido el error de tipo II. Dado que, frecuentemente; la probabilidad de cometer un error de tipo II puede ser realmente alta, no se pretende cometerlo al aceptar la H0.

Finalmente, la interpretación está en función de la pregunta de investigación y tiene relación con la H1, pero la interpretación no necesariamente es igual a dicha hipótesis.

3.3 Propósito de la prueba de hipótesis

Uno de los propósitos de la prueba de hipótesis es ayudar en la toma de decisiones. En general, la decisión práctica (la razón por la cual se hizo la prueba) depende de la decisión estadística. Si se rechaza H0, la decisión práctica generalmente refleja el hecho de que la H1 es compatible. Se cumple lo opuesto si no se rechaza la H0. Sin embargo, en la práctica esto puede tener otras alternativas, como la decisión de reunir más datos.

Sin embargo, en este punto es necesario destacar que el resultado de la estadística de prueba sólo es una parte de la evidencia que influye sobre la decisión final, es decir; la decisión práctica. La decisión estadística no debe interpretarse como definitiva, sino considerarse junto con toda la demás información importante de que disponga el experimentador. Con base en estos comentarios se estudian a continuación pruebas de hipótesis especificas más comunes.

3.4 Prueba de hipótesis para una media

A este respecto, pueden darse 3 casos a saber:

  1. Cuando el muestreo se realiza a partir de una población de valores que siguen una distribución normal con varianza conocida;
  2. Cuando el muestreo se realiza a partir de una población con distribución normal y con varianza desconocida, y
  3. Cuando el muestreo se realiza a partir de una población que no presenta una distribución normal (no la veremos, por ahora).

Aunque la teoría para las condiciones 1 y 2 depende de poblaciones con distribución normal, es una práctica común aplicar la teoría cuando las poblaciones importantes solo están distribuidas en forma aproximadamente normal. Esto es satisfactorio siempre que la desviación de la normalidad es moderada.

Diagrama 3. Planteamiento de una hipótesis para probar una media (µ).

Cuando la desviación estándar (σ) es desconocida, se utiliza la desviación estándar muestral (s) en su lugar. Y la distribución de t de Student se utiliza como estadístico de prueba.

Vea la figura:

Diagrama 4. Estadísticos de prueba según la varianza, cuando esta es conocida se usa la distribución z, cuando no lo es; se usa la distribución t de Student.

Gráficamente tenemos:

Diagrama 5. Prueba de una cola y prueba de dos colas.

¿Pruebas de cola izquierda o de cola izquierda? 

La dirección de la prueba involucra proposiciones que comprenden las palabras “ha mejorado”, “es mejor que”, y el cómo dependerá sobre la variable que esté siendo medida. Por ejemplo, si la variable involucra tiempo para que un cierto medicamento haga efecto, las palabras “mejor” “mejore” “o más efectivo” se traducen como “<” (menos que, i.e. alivio menos rápido). Por otro lado, si la variable se refiere a un resultado de una prueba, entonces las palabras “mejor” “se mejora” o “más efectiva” se traducen como “>” (más grande que, i.e. resultados del examen más altos).

3.4.1 Prueba para una Media de una Población con una Desviación Estándar

Ejemplo:

Los servicios coordinados de salud de un municipio de alta marginación reportan en la época de verano (cuando hace más calor), un número promedio de 200 niños, menores de cinco años, con problemas de deshidratación por diarrea. Supongamos que la incidencia de niños deshidratados sigue la distribución de probabilidad normal con una media de 200 y una desviación estándar de 16. Recientemente, se realizó una campaña de información sobre hábitos de higiene, que duró 50 semanas. Se quiere investigar si ha habido un cambio en la incidencia de casos de deshidratación infantil semanal en el municipio de alta marginación.

Solución:

Paso 1: Establezca la hipótesis nula y la hipótesis alternativa.

Paso 2: Seleccione el nivel de significancia.

α = 0.01 en este caso

Paso 3: Seleccione el estadístico de prueba.

Use la distribución de Z en virtud de que σ es conocida (recuerde que en la unidad anterior esta la tabla de z en anexos, úsela para este ejemplo).

Paso 4: Formule la regla de decisión.

Rechace H0 si |Z| > Zα/2

Cálculos:

Diagrama 6. Haga una decisión e interprete el resultado.

Debido a que 1.98 no cae en la región de rechazo, H0: μ = 200 no se rechaza.

Concluimos que la media poblacional no es diferente de 200. Así que reportaríamos que la incidencia de deshidratación por diarrea, en niños menores de cinco años, en el municipio de alta marginación no ha cambiado con una campaña de salud e higiene en las últimas 50 semanas.

Recuérdese contrastar esto con el valor de p:

Concluimos: No se rechaza H0

3.4.2 Prueba para una Media de una Población con una Desviación Estándar

Ejemplo:

El Departamento de Reclamaciones de Seguros Médicos de MetLife reporta que el costo medio para procesar una reclamación es de $60 pesos. Una encuesta mostró que esta cantidad es más grande que cualquier otra compañía de seguros, así que la aseguradora instituyó medidas para reducir costos. Para evaluar el efecto de las medidas de reducción de costos, el supervisor del Departamento seleccionó una muestra aleatoria de 26 reclamaciones procesadas el último mes. La información muestral se reporta en el recuadro inferior. ¿Con un nivel de significancia de p=0?01, es razonable afirmar que el costo de una reclamación es actualmente menor de $60?

Paso 1: Establezca las hipótesis nula y alternativa.

Paso 2: Seleccione el nivel de significancia.

α = 0.01 como se estableció en el problema

Paso 3: Seleccione el estadístico de prueba.

Use la distribución t de Student en virtud de que σ es desconocido

Tabla 2. Porción de una tabla t de Student (vea la tabla completa en el anexo de esta unidad).

 

Paso 4: Formule la regla de decisión.

Rechace H0 si t < -tα, n-1

Cálculos:

Diagrama  7. Haga una decisión e interprete el resultado.

Debido a que -1.818 no cae en la zona de rechazo, no se rechaza H0 al nivel de significancia de p=0.01. No hemos demostrado que las medidas para reducir el costo medio por reclamación de un seguro de gastos médicos de MetLife sea menos de $60.

La diferencia de $3.58 ($56.42 – $60) entre la media muestral y la media poblacional podría deberse a error de muestreo.

3.5 Prueba de hipótesis para proporciones

Una proporción es la fracción o porcentaje que indica la parte de la población o muestra que presenta una característica particular o de interés. La proporción muestral se denota por p y se determina por x/n.

Supuestos en la prueba de una proporción poblacional utilizando la distribución de z 

  • De una población se selecciona una muestra
  • Se supone que se cumplen los supuestos de la distribución binomial:
    • los datos obtenidos son el resultado de conteos;
    • los eventos de un experimento se clasifican en una de dos categorías mutuamente exclusivas: un “éxito” o un “fracaso”;
    • la probabilidad de un éxito es la misma en cada ensayo; y
    • los ensayos son independientes.
  • El procedimiento de prueba es apropiado cuando ambos nπ y n (1- π) son al menos de 5.
  • Cuando las condiciones anteriores se cumplen, la distribución normal se puede utilizar como una aproximación a la distribución

Estadístico de prueba para probar una proporción poblacional:

Donde: 

z = porcentaje de individuos

p = proporción muestral

π = proporción poblacional hipotética

n = tamaño de la muestra

Diagrama 8. Planteamiento de una hipótesis para probar proporciones (π).

Nota: los casos son similares a los expuestos para medias

De igual modo, gráficamente se puede representar como la figura 5. Prueba de Hipótesis para la Proporción de una Población.

Ejemplo: 

Supóngase que antes de una elección en cierto estado es necesario para ser elegido como candidato a gobernador contar al menos con el 80% del voto en la sección del norte del estado. Un prospecto a candidato a gobernador está interesado en evaluar su posibilidad de llegar a competir y planea realizar un muestreo en 2,000 votantes registrados en la sección norte del estado. De estos entrevistados 1,550 apoyan la candidatura del prospecto a candidato. Utilizando el procedimiento de pruebas de hipótesis, evalué la posibilidad del precandidato a gobernador a ser postulado.

Paso 1: Establezca la hipótesis nula y la alternativa.

Paso 2: Seleccione el nivel de significancia.

α = 0.01 como se estableció en el problema

Paso 3: Seleccione el estadístico de prueba.

Utilice la distribución de Z en virtud de que se cumplen los supuestos y nπ y n(1-π) ≥

5.

Paso 4: Formule la regla de decisión.

Rechace H0 si Z < – Z α

Cálculos:

Diagrama 9. Haga una decisión e interprete el resultado.

El valor calculado de z (-2.80) está en la región de rechazo, así que la hipótesis nula se rechaza al nivel de significancia de p=0.05. La diferencia de 2.5 puntos porcentuales entre el porcentaje muestral (77.5 %) y el porcentaje de la hipótesis de la población (80%) es estadísticamente significativo. La evidencia en este punto no soporta la afirmación que el candidato a gobernador sea postulado para elección.

CONCLUSIONES

Concluimos afirmando que la utilización y formulación correcta de las hipótesis permiten al investigador o especialista de la salud poner a prueba aspectos de la realidad, disminuyendo la distorsión que pudieran producir sus propios deseos o gustos. Debido a que pueden ser sometidas a prueba y demostrarse como probablemente correctas o incorrectas sin que interfieran los valores o creencias de la persona.

BIBLIOGRAFÍA CONSULTADA

  • Daniel, Wayne (2005). Bioestadística: base para el análisis de las ciencias de la salud. 4a ed., México: Limusa-Wiley.