Clase digital 6. Distribución Normal de los datos

Close-up Photo of Survey Spreadsheet

Distribución Normal de los datos

Introducción

¡Hola!

Me siento muy feliz al saber que sigues aprovechando este curso, espero que lo sigas disfrutando, por lo tanto te invito a comenzar nuestra sexta clase.

En esta ocasión hablaremos de la distribución de probabilidad conocida como distribución normal, la distribución normal es, por la cantidad de fenómenos que explica, la más importante de las distribuciones estadísticas. 

Tocaremos los siguientes temas: 

  • Distribución normal
  • Características de la distribución normal
  • Utilidad de la distribución normal
  • Cálculos a partir de los valores de la tabla de Z

A la distribución normal también se la denomina con el nombre de campana de Gauss, pues al representar su función de probabilidad, ésta tiene forma de campana. Esta es la base para los ejercicios de estadística inferencial, que es nuestra clase final y siguiente. Por lo que te exhorto a continuar en esta ruta de aprendizaje significativo, si este tema es comprendido, el tema siguiente tendrá mucho más sentido para ti. Vamos, acompañarme y descubramos juntos la utilidad de la distribución normal en las ciencias de la salud y la psicología, ¡te aseguro que no te decepcionaras!

¡Empecemos el trabajo!

Desarrollo del tema

Distribución normal de los datos

Corresponde a la distribución normal de una serie de distribuciones que pueden representarse en una curva “normal”

Curva normal es una familia de curvas, las cuales se distinguen una de otra por su promedio y su varianza.

Si la distribución de los datos es simétrica con forma de campana, lo que conocemos en estadística como distribución normal, se puede aplicar una regla empírica, para determinar con más precisión el porcentaje de observaciones que caen dentro de determinada cantidad de desviaciones estándar respecto a la media aritmética. En este caso podemos decir que: 

Para datos con distribución normal:

  1. Aproximadamente 68.26% de los valores caen dentro de ± 1 desviación estándar a partir de la media. 
  2. Aproximadamente 95.44% de los valores caen dentro de ± 2 desviaciones estándar a partir de la media. 
  3. Aproximadamente 99.74% de los valores caen dentro de ± 3 desviaciones estándar a partir de la media.

Distribución normal estándar

Es una curva normal con µ=0 y s=1, generalmente denominada µ o Z. Siendo µ el parámetro de posición y σ2 es el parámetro de escala (forma)

Figura 1. Campana de Gauss.

La gráfica de la distribución normal tiene la forma de una campana, por este motivo también es conocida como la campana de Gauss. Sus características son las siguientes: 

  1. Es una distribución simétrica. 
  2. Es asintótica, es decir sus extremos nunca tocan el eje horizontal, cuyos valores tienden a infinito. 
  3. En el centro de la curva se encuentran la media, la mediana y la moda. 
  4. El área total bajo la curva representa el 100% de los casos. 
  5. Los elementos centrales del modelo son la media y la varianza. 

Esta distribución es un modelo matemático que permite determinar probabilidades de ocurrencia para distintos valores de la variable. Así, para determinar la probabilidad de encontrar un valor de la variable que sea igual o inferior a un cierto valor xi, conociendo el promedio y la varianza de un conjunto de datos, se deben reemplazar estos valores (media, varianza y xi) en la fórmula matemática del modelo. El cálculo resulta bastante complejo, pero, afortunadamente, existen tablas estandarizadas que permiten eludir este procedimiento.

Tabla de la distribución normal

La tabla de la distribución normal presenta los valores de probabilidad para una variable estándar Z, con media igual a 0 y varianza igual a 1. Para usar la tabla, siempre debemos estandarizar la variable por medio de la expresión: σ − μ = x Z Siendo x el valor de interés; µ la media de nuestra variable y σ su desviación estándar. Recordemos que µ y σ corresponden a parámetros, o sea valores en el universo, que generalmente no conocemos, por lo que debemos calcular Z usando los datos de nuestra muestra. En general, el valor de Z se interpreta como el número de desviaciones estándar que están comprendidas entre el promedio y un cierto valor de variable x. En otras palabras, se puede decir que es la diferencia entre un valor de la variable y el promedio, expresada esta diferencia en cantidad de desviaciones estándar.

Tabla de Z

En la primera columna de la tabla aparece el entero y primer decimal del valor de Z, vemos que los valores van desde -3, 4 a 3, 3. En la primera fila (arriba), aparece el segundo decimal del valor de Z y, como es lógico, hay 10 números (0,00 a 0,09). 

  1. Entonces, para nuestro valor de Z = 1,96 buscaremos 1,9 en la primera columna de la tabla y 0,06 en la primera fila de la tabla. Trazaremos líneas perpendiculares desde esos valores y llegaremos a un número en el cuerpo de la tabla (véase la tabla más abajo, que tiene marcadas las dos perpendiculares de las que hablamos). El número que encontramos y que está destacado es: 0,9750.
  2. Por lo tanto, la probabilidad asociada a Z=1,96 es 0,9750, es decir, la probabilidad de encontrar un valor de Z menor o igual a 1,96 es 0,9750.

Ejemplo: 

Supongamos un conjunto de personas con edad promedio 25 años y desviación estándar 3,86. Nuestro valor de interés (x) es de 30 años. El valor de Z correspondiente será: 1,29 3,86 (30 25) = − Z = Este valor de Z nos dice que la edad de 30 años está a 1,29 desviaciones estándar sobre el promedio. Ahora bien, la tabla de la distribución normal, entrega valores de probabilidad para los distintos valores de Z.

En nuestro ejemplo anterior, con la edad de 30 años, vemos que el valor Z = 1,29 tiene una probabilidad asociada de 0,9014. Entonces, la probabilidad de encontrar una persona con edad de 30 años o menos, en este grupo humano, es 0,9014. (busca la tabla completa en PDF de los valores negativos y positivos de z o consulta Daniel (2002).

Conclusión

En conclusión, la Distribución normal es una serie de distribuciones que pueden representarse en una curva “normal”

Si la distribución de los datos es simétrica con forma de campana y cumple con características específicas de parámetros de medición en términos de desviación estándar; además, de ser una distribución simétrica, asintótica, cuyos valores tienden a infinito. En el centro de la curva se encuentran la media, la mediana y la moda, el área total bajo la curva representa el 100% de los casos y los elementos centrales del modelo son la media y la varianza. 

Esta distribución es un modelo matemático que permite determinar probabilidades de ocurrencia para distintos valores de la variable. 

Este conocimiento sienta las bases de las inferencias estadísticas que se revisarán a continuación.

Has concluido la sexta clase ¡Muchas felicidades por tu esfuerzo! Ahora toca el turno de realizar la tarea y enviarla como se te indica. Te encuentro en tu siguiente clase, hasta pronto.

Fuentes de información

  • Quevedo-ricardi F. (2011). Distribución normal. Medwave. Año XI, No. 5, Mayo 2011. Open Access, Creative Commons.
  • Wayne, W. D. (2002). Bioestadística: Base para el análisis de las ciencias de la salud. (4ª, ed.). México: Limusa S.A. De C.V.