Unidad didáctica 2: Métodos de procesamiento de datos y la distribución normal

INTRODUCCIÓN

En esta unidad didáctica del curso en línea de “Estadística”, se examinan varios procedimientos descriptivos que incluyen la organización de datos por medio del arreglo ordenado, distribución de frecuencias absolutas, relativas, histogramas y polígonos de frecuencia. Se describen las medidas de resumen más relevantes: media, mediana, moda, varianza, desviación estándar y coeficiente de variación. Se introduce el concepto de variable aleatoria y las probabilidades de que su ocurrencia pueda presumirse por medio de la distribución de probabilidad. Se menciona que existen varias distribuciones, y se hace hincapié particularmente en la llamada distribución normal para la variable aleatoria proporcionando al profesional de la salud y al investigador herramientas poderosas para simplificar y describir un conjunto de datos, y para llegar a conclusiones acerca de la población sobre la base de una muestra de datos extraídos de la misma.

CONTENIDO

2.1  Estadística descriptiva

2.1.1   Métodos gráficos para representar variables según su escala de medición

Estadística descriptiva 

Detalla las relaciones de interés en las muestras exploradas, organiza, resume, presenta y describe (incluyendo la construcción de cuadros y gráficas), la información que contienen los datos de manera informativa.

Se divide en:

  • Gráfica: elabora gráficas para presentar distribuciones generales tales como: histogramas, gráficos circulares, polígonos de frecuencias, por mencionar algunos. Que permiten visualizar la información de manera rápida y sencilla, demostrando con mayor claridad la relación que estos datos tienen entre sí. (fig. 1).

Gráfica 1. Ejemplos de gráficos: circulares, lineales y de barras.

Gráficos para variables cualitativas 

La forma más común de representar a una variable cualitativa en forma gráfica es mediante la gráfica de barras y la de pastel. Los ejemplos que siguen se construyeron en base en datos es escala nominal.

Gráfica de barras 

Un diagrama de barras, gráfico de barras o diagrama de columnas está conformado por barras rectangulares de longitudes proporcionales a los valores representados. Estos gráficos son usados para comparar dos o más valores. Las barras pueden orientarse horizontal o verticalmente. Comúnmente usado para representar recuentos o números absolutos.

Gráfica 2. Gráfico de barras que muestra las defunciones por enfermedades agudas, para valores absolutos.

Gráfica de sectores o circular 

Un gráfico circular, también llamado «gráfico de pastel», «gráfico de tarta», «gráfico de torta» o «gráfica de 360 grados», se utiliza para representar porcentajes y proporciones. El número de elementos comparados suele ser de más de cuatro.

Gráfica 3. Gráfica de pastel para la figura 2

Pero qué pasa cuando los datos están medidos en escala ordinal, veamos otro ejemplo:

Tabla 1. Grado de marginación de los municipios del país 2005.

Gráfica 4. Representación gráfica de datos ordinales de la figura 4 en barras y pastel.

Por otro lado, una forma de organizar datos cualitativos es por medio de una tabla de frecuencias. Recordemos que uno de los fines de la estadística descriptiva es mostrar la distribución general de los datos y el lugar donde tienden a concentrarse, además de señalar valores de datos poco usuales o extremos. Esto se logra a través de la distribución de frecuencias que es una agrupación de datos en categorías mutuamente excluyentes que ilustran el número de observaciones en cada clase.

Veamos cómo se logra esto.

Tabla 2. Precios de vehículos en Whitner Autoplex

Paso 1. Identificar el mayor y el menor valor.

Partiendo del hecho de que se cuenta con la colección de datos en estudio, datos en bruto o datos no agrupados, determine el valor mínimo y el valor máximo. Para ello es recomendable que ordene primero los datos de manera ascendente-descendente o viceversa.

El total de observaciones es n=80. El valor máximo es 35 925 (H), y el valor mínimo es 15 546 (L).

Paso 2. Defina el número de clases

Una forma para determinar el número de clases o intervalos (k) es la regla de “2 a la k”, de tal modo que 2k > n.

Por lo tanto:

Se tienen 80 valores, así que n=80. Si iniciamos con k = 6, significa que podríamos usar 6 clases, entonces 26 =64, algo menor que 80. Por lo tanto, 6 no son suficientes clases. Si hacemos k=7, entonces 27 = 128, el cual es un número mayor que 80. Así que el número recomendado de clases es igual a 7.

Otra forma de obtener el número de intervalos de clase es mediante la regla de Sturges:

k =1 + 3.322 (log10 n)

Continuando con el ejemplo:

k = 1+ 3.322 (log 80)
k = 1 + 3.322 (1.903)
       k = 1 + 6.322 = 7.322 ≈ 7

Paso 3. Determine el intervalo o ancho de clase

Por medio de la ecuación: 

? ≥ (H − L)/?

Donde:

i = es el ancho del intervalo de clase, H = es el valor máximo observado, L = es el valor mínimo observado, y K = es el número de clases.

Sustituyendo, tenemos:

? ≥ ($35,925 − $15,546)/7 = $2,911

Redondeé a algún número conveniente, tal como un múltiplo de 10 o 100. Usemos una anchura de clase de 3,000.

Paso 4. Establezca los límites de cada clase

Con el dato anterior, construirá las clases cuya distancia entre ellas será 3,000, vea la siguiente figura:

Tabla 3. Límites de clase.

Paso 5. Anote las observaciones de las clases

Esto es cuantos datos hay en cada clase. Por lo debe contar el número de elementos de cada clase. El número que resulta en cada clase recibe el nombre de frecuencia de clase. Para el caso que nos ocupa la respuesta se muestra en la figura 8.

Tabla 4. Contando las frecuencias de clase

Intervalos y puntos medios de clase 

Punto medio de clase. Se encuentre a la mitad entre los límites inferiores de dos clases consecutivas.

Se calcula sumando los límites inferiores de clases consecutivas y dividiendo el resultado entre dos. En el ejemplo: (15 000+ 18 000) /2 = 16 500.

Para determinar el intervalo de clase, se resta el límite inferior de la clase del límite inferior de la siguiente clase. En el ejemplo: 18 000 – 15 000 = 3 000.

Además, es posible convertir las frecuencias de clase en frecuencias relativas de clase para mostrar la proporción o fracción del número total de observaciones en cada clase, en lugar del número de valores que caen dentro de un intervalo de clase en particular. Para convertir una distribución de frecuencias absoluta en una relativa, cada una de las frecuencias de clase se divide entre el total de observaciones. Vea la siguiente figura:

Tabla 5. Convirtiendo frecuencias de clase a frecuencias relativas de clase.

Note que las frecuencias relativas toman valores intermedios entre el 0 y 1, vea que 1 equivale a la n total.

Representación gráfica de la distribución de frecuencias

Es indudable la capacidad de una gráfica para expresar de manera visual la distribución de los datos. Son tres las gráficas que se utilizan a partir de una tabla de frecuencias.

  • El histograma
  • El polígono de frecuencias
  • El polígono de frecuencias

El histograma

Es un tipo especial de gráfica de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados, ya sea en forma absoluta o relativa. Sirven para obtener un panorama general de la distribución de la población, o la muestra, respecto a una característica cuantitativa continua y que es de interés para el investigador.

Permitiendo estimar una preferencia, tendencia, comportamientos, homogeneidad, variabilidad y, por ende, la dispersión de todos los valores que toman las partes por ubicarse hacia una determinada región de valores dentro del espectro de valores posibles (sean infinitos o no) que pueda adquirir la variable. Pero, también es posible no evidenciar ninguna tendencia y obtener que cada miembro de la población toma por su lado y adquiere un valor de la característica aleatoriamente sin mostrar ninguna preferencia o tendencia.

En general se utilizan para relacionar variables cuantitativas continuas, pero también se lo suele usar para variables cuantitativas discretas, en cuyo caso es común llamarlo diagrama de frecuencias y sus barras están separadas, esto es porque en el eje “x” ya no se representa un espectro continuo de valores, sino valores específicos como ocurre en un diagrama de barras cuando la característica que se representa es cualitativa o categórica. Su utilidad se hace más evidente cuando se cuenta con un gran número de datos cuantitativos y que se han agrupado en intervalos de clase.

En este caso, en el eje vertical (y) se representan las frecuencias, es decir, la cantidad de población o la muestra, según sea el caso, que se ubica en un determinado valor, mientras que las clases se señalan en el eje horizontal (X). Las frecuencias de clase se representan por medio de las alturas de las barras, éstas se dibujan de manera adyacente, tal como se ilustra en el siguiente ejemplo:

Gráfica 5. Histograma que muestra las frecuencias de clase para los precios de los vehículos de Whitner Autoplex.

Si se hubiera utilizado la tabla de frecuencias relativas, el histograma correspondiente tiene la misma forma, solo cambia la altura de las barras correspondiendo a valores entre 0 y 1, es decir, todos los valores intermedios que hay en ese rango.

El polígono de frecuencias 

Muestra también la forma que tiene una distribución y es similar a un histograma. Consiste en segmentos de recta que conectan los puntos medios de clase y las frecuencias de clase.

Gráfica 6. Polígono de frecuencias que muestra los precios de los vehículos de Whitner Autoplex.

Si se hubiera utilizado el polígono de frecuencias relativas, el polígono correspondiente tiene la misma forma, solo cambia la altura correspondiendo a valores entre 0 y 1, es decir, todos los valores intermedios que hay en ese rango.

2.1.1 Métodos descriptivos numéricos

Aunque las distribuciones de frecuencia sirven a propósitos muy útiles, existen muchas situaciones en que se requieren otros tipos de resumen de datos. Lo que se necesita, en muchos casos, es la posibilidad de condensar datos por medio de un solo número llamado medida descriptiva que es un tipo de parámetro estadístico. Las medidas descriptivas pueden calcularse a partir de los datos de una muestra o de una población. Y de esto nos lleva a retomar la segunda división de la estadística descriptiva:

Numérica: describe y resume la distribución de los datos de forma numérica buscando relaciones entre ellos que puedan ser presentados no solo en gráficos sino también ordenados en cuadros. Para tal fin hace cálculos por medio de parámetros estadísticos como las medidas de resumen (fig. 12).

Imagen 1. Medidas de resumen

Una medida descriptiva calculada a partir de una población recibe el nombre de parámetro, mientras que, si esta es calculada de una muestra, entonces se llama estadístico. En la figura 12 se muestran las medidas de resumen y de estas las más importantes son: las medidas de tendencia central y las de dispersión, denominada con frecuencia variación o propagación en los datos. Por lo que solo veremos esas medidas excluyendo el rango intercuartilico, las medidas de posición o ubicación y las de distribución ya que son parámetros de uso más frecuente en estudios epidemiológicos.

Medidas de tendencia central 

La media aritmética 

Esta es la medida descriptiva que la mayoría de las personas tienen en mente cuando se habla de «promedio«. Ustedes están familiarizados con el concepto de promedio, medida que muestra el valor central de los datos. Los promedios son muy utilizados por todos nosotros: en las calificaciones obtenidas, periódicos, TV, entre otros. EI adjetivo “aritmética” distingue a esta media de otras que se puedan calcular. Puesto que no se estudiaremos otras medias, no debe ser causa de confusión si al referirse a ésta solo se dice media. Consideraremos a la media como parámetro de una población y también como un estadístico. La media se obtiene sumando todos los valores en una población o muestra y dividiendo entre el número de valores sumados.

La media poblacional 

Para determinar la media poblacional apliquemos la siguiente ecuación:

Donde:      

µ = media poblacional
N = total de valores de la población
X = es la suma de cualquier valor particular de N

Ejemplo: En la CDMX se tienen 12 hospitales grandes donde se atienden los casos de AH1N1. Se consignaron los siguientes casos la semana pasada:

Tabla 6. Casos de AH1N1 en doce hospitales de la Ciudad de México.

Empleando la formula tenemos:

μ = Σ x/ N
= (511 + 385 + 275 + … + 6 + 23 + 13) / 12
= 195

La media de una muestra: 

Cuando trabajamos con una muestra se denomina media muestral, y se obtiene de la siguiente forma:

Donde:   

x ̅ = media muestral
n = total de valores de la muestra

X = es la suma de cualquier valor particular de n Propiedades de la media aritmética:

  • Todo conjunto de datos de intervalo -o de nivel de razón- posee una media.
  • Todos los valores se encuentran incluidos en el cálculo de la media.
  • La media es un valor único.
  • La suma de las desviaciones de cada valor con respecto a la media es igual a cero. Expresado esto en forma simbólica es: Σ (x – x ̅) = 0
  • La media es sensible o se ve afectada por los valores extremos

Ejemplo: La media de 3, 8 y 4 es 5. De manera que:

Σ (x – x    = (3 – 5) + (8 – 5) + (4 – 5) = -2 +3 -1 = 0

La mediana (Me)

Es el punto medio de los valores una vez ordenados de menor a mayor o de mayor a menor. En un arreglo de datos, hay tantos valores arriba de la mediana como abajo.

Pero, para un conjunto par de valores, la mediana es la media aritmética de los dos valores centrales. Ejemplos:

a) Las edades de una muestra de cinco estudiantes son: 21, 25, 19, 20, 22 Ordenando los datos en orden ascendente se obtiene: 19, 20, 21, 22, 25. Entonces la mediana es 21.

En el caso de la mediana los datos deben ser por lo menos de un nivel ordinal de medición.

b) Las alturas de cuatro jugadores de un equipo de basquetbol son: 1.93, 2.03, 1.91, 1.85

Ordenando los datos en orden ascendente se obtiene: 1.85, 1.91, 1.93, 2.03. Entonces la mediana es (1.91 + 1.93) /2 = 1.92

Propiedades de la mediana:

  • No influyen en ella valores extremadamente grandes o pequeños.
  • Es calculable para datos de nivel ordinal, de intervalo y de razón.

La moda (Mo)

Es el valor que aparece con mayor frecuencia. Es de especial utilidad para resumir valores de nivel nominal. Ejemplo: En una población de 169 habitantes de Groenlandia se obtuvo una muestra de tamaño 15 para estudiar la oxidación de esparteína y mefenitoína.

27, 27, 42, 23, 37, 47, 30, 27, 47, 41, 19, 52, 27,48 y 48. ¿Cuál es el valor de la moda en esta muestra? El valor de 27 es el número que se presenta con mayor frecuencia.

Por lo tanto, el Mo = 27.

Medidas de dispersión 

Una medida tal como es media o la mediana, solo describe el centro de los datos. Desde este punto de vista resulta valiosa, pero no dice sobre la dispersión de los mismos. Por ejemplo, si la guía de turismo ecológico dice que el río que se encuentra adelante tiene en promedio 90 cm de profundidad, ¿querrá usted cruzarlo a pie sin mayor información? Probablemente no. Usted desearía saber algo sobre la variación de la profundidad. Una segunda razón para estudiar la dispersión en un conjunto de datos es comparar la propagación en dos o más distribuciones.

El rango

También llamado intervalo de variación, es la diferencia entre el valor más pequeño y el más grande en un conjunto de observaciones. Se calcula así:

Rango = mayor valor – menor valor 

Ejemplo, de los siguientes cinco números: 20, 40, 50, 60 y 80 que representan el número de capuccinos vendidos en cinco días, determine el rango de capuccinos vendidos. La respuesta es 60.

La varianza

Cuando los valores de un conjunto de observaciones se encuentran ubicados cerca de su media, la dispersión es menor que cuando están esparcidos. En consecuencia, se puede pensar intuitivamente que es posible medir la dispersión en función del esparcimiento de los valores alrededor de su media. A esta medición se le conoce como varianza.

Su fórmula es:

Donde: 

s2 = varianza
?(? − ?)? = la suma de cada valor menos la media elevada al cuadrado
n – 1 = total de valores menos 1

Note que esta es la s2 para una muestra, su similar para la población se logra sustituyendo x por µ y n por N y se divide entre N en lugar de N-1. Además de que el símbolo para la varianza ahora es: s2. Ejemplo: Los salarios por hora de una muestra de empleados de tiempo parcial en una empresa son: $12, 20, 16, 18, y 19. El resultado es como lo muestra la figura:

Tabla 7. Cálculo de la varianza.

La razón de dividir entre n-1, en lugar de entre n, como es de esperarse, es una consideración teórica conocida como grados de libertad. En el cálculo de la varianza, se puede decir que hay n – 1 grados de libertad. El razonamiento es como sigue: la suma de las desviaciones de los valores individuales con respecto a su media es igual a cero, hecho que puede demostrarse. Si se conocen los valores de n-1 de las desviaciones a partir de la media, entonces se conoce el n-ésimo valor, ya que queda determinado automáticamente debido a la restricción de que todos los valores de n se sumen a cero.

La desviación estándar

La varianza representa unidades al cuadrado, por lo que no es una medida adecuada de dispersión si se pretende expresar este concepto en términos de las unidades originales. Para obtener la medida de dispersión en unidades originales, simplemente se obtiene la raíz cuadrada de la variancia. Y esto es la desviación estándar, en general, para una muestra se obtiene de la siguiente formula:

Donde:                                

s = desviación estándar
?(? − ?)? =la suma de cada valor menos la media elevada al cuadrado n-1= total de valores de la muestra menos 1

Coeficiente de variación

La desviación estándar es útil como medida de variación en un determinado conjunto de datos. Sin embargo, cuando se quiere comparar la dispersión de dos conjuntos de datos, la comparación de las dos desviaciones estándar puede dar un resultado equivocado. Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades. Por ejemplo: se pretende conocer, para una población dada, si los niveles de colesterol en el suero, medidos en miligramos por cada 100mL, son más variados que el peso del cuerpo, medido en kilos.

Además, aunque se utilice la misma unidad de medición, las dos medias pueden diferir bastante. Si la desviación estándar de los pesos de los niños de primer grado de primaria es comparada contra la desviación estándar de los pesos de los estudiantes de preparatoria de reciente ingreso, se encontrará que esta última es numéricamente mayor que la anterior, debido a que los pesos mismos son mayores y no porque la dispersión sea mayor.

Lo que se necesita en situaciones como esta es una medida de variancia relativa en lugar de una de variancia absoluta. Tal medida la constituye el coeficiente de variación, el cual expresa la desviación estándar como un porcentaje de la media. La fórmula es como sigue:

Donde: 

Cv = Coeficiente de variación
s = desviación estándar
= media

Tabla 8. Muestras 1 y 2 para cálculo de CV.

Para la muestra 1, grupo de edad de 25 años:

??  = ?/?̅(100%)
=10/145 (100%
= 6.9%

Para la muestra 2, grupo de edad de 11 años:

??  = ?/?̅(100%)
= 10/80 (100%)
= 12.5%

2.1 Distribuciones de probabilidad, una introducción

2.1.1  ¿Qué es una distribución de probabilidad?

En probabilidad y en estadística, la distribución de probabilidad de una variable aleatoria es una función que asigna a cada evento definido sobre dicha variable la probabilidad de que el evento ocurra. La distribución de probabilidad está definida sobre el conjunto de todos los eventos y cada uno de ellos es el rango de valores de la variable aleatoria. También se dice que tiene una relación estrecha con las distribuciones de frecuencia. De hecho, se puede entender que una distribución de probabilidades es una frecuencia teórica, ya que ésta última es aquella que describe cómo se espera que varíen los resultados. Para entender un poco más hay que definir algunos términos:

  • Variable aleatoria: Cantidad que resulta de un experimento que, por azar, puede adoptar diferentes valores.
  • Variable aleatoria discreta: Adopta solo valores claramente separados. Resultan del proceso de contar Ejemplos: número de estudiantes en una clase, número de hijos en una familia, número de bebes que van a nacer en un hospital en un mes determinado, número de registros nuevos en el Seguro Social en un año determinado, etc.
  • Variable aleatoria continua: Puede asumir un infinito número de valores dentro de un rango dado. Son el resultado de algún tipo de medición. Ejemplos: presión arterial sistólica que presentará un paciente cardiópata a determinada hora del día, tiempo de espera para realizar un ingreso a la sala de urgencias de un hospital, peso de cada estudiante de esta unidad virtual, ingesta de calorías diarias de un sector de habitantes de Celaya, etc.
  • Probabilidad: Es una medida de la posibilidad de que un evento suceda en el futuro. Solo puede tomar un valor entre 0 y 1. Un valor de cero significa que el evento sea imposible de ocurrir. Un valor de uno significa que es posible.
  • Evento: Es la colección de uno o más resultados de un experimento
  • Resultado: Es la realización particular de un experimento
  • Experimento: Proceso que induce a que ocurra una y solo una de varias posibles observaciones.

Características de una distribución de probabilidad 

  • La probabilidad de un resultado en particular se encuentra entre 0 y 1 e inclusive,
  • Los resultados son eventos mutuamente excluyentes
  • La lista es exhaustiva. Así, la suma de las probabilidades de los diversos eventos es igual a 1.

División de distribuciones 

Esta división se realiza dependiendo del tipo de variable a estudiar, esto significa que:

a) Si la variable es discreta (valores enteros), corresponderá una distribución discreta, de las cuales existen:

  • Distribución de Bernoulli
  • Distribución binomial
  • Distribución de Poisson
  • Distribución hipergeométrica

b) Si la variable es continua, esto significa que puede tomar cualquier valor dentro de un intervalo, la distribución que se generará será una distribución continua, aquí la más común e importante es la distribución normal.

Existen, por tanto, muchos tipos de distribuciones según el tipo de variable y definidas sobre un dominio finito, infinito, de intervalo, etc. Que no son materia de esta unidad ni de este curso en línea pero que vale la pena que el lector tenga conocimiento de su existencia. Aquí solo veremos la más relevante para la estadística y esa es la distribución normal o distribución gaussiana (en honor a Karl F. Gauss (1799-1830) quien la describió).

2.1.2   Distribuciones de probabilidad continua: La distribución normal

En la unidad anterior se dijo que una variable continua es aquella que puede asumir cualquier valor en un intervalo especifico. Consecuentemente, entre cualesquiera dos valores asumidos por esta variable existe un número infinito de valores intermedios.

Para comprender, la naturaleza de la distribución de una variable aleatoria continua; considere que se cuenta con un gran número de datos cuantitativos agrupados en intervalos de clase y estos se representan en un histograma donde las frecuencias de clase se representan por medio de las alturas de las barras (rectángulos), adyacentes una detrás de otra, cuyas bases son las distancias entre dos puntos específicos y cuyas alturas representan el número de valores de la variable que caen entre los dos puntos especificados.

Los intervalos delimitados por cualquier par de puntos consecutivos son los intervalos de clase. Y como los valores de la variable aleatoria es muy grande la amplitud de los intervalos de clase es muy pequeña. El histograma resultante sería como el que se muestra en la figura 16.

Gráfica 7. Histograma resultante de un gran número de valores y clases de intervalos pequeños.

Si se conectan los puntos medios del histograma de la figura anterior para formar un polígono de frecuencia, se obtendrá una figura cuyas líneas están muy suavizadas. En general, cuanto mayor sea número de observaciones y la amplitud de los intervalos de clase se aproximan a cero, el polígono de frecuencia será cada vez más una curva suave como la que se muestra en la figura 17.

Gráfica 8. Representación gráfica de una distribución continua.

Matemáticamente esta distribución obedece a lo que se conoce como el Teorema central del limite el cual es fundamental en probabilidad y en estadística; estipula que, si tomamos muestras de una población que tenga cualquier tipo de distribución, pero una media y varianza finitas, entonces, la distribución de las medias tiende a la distribución normal. Entre mayor sea el número de muestras mejor será la aproximación a dicha distribución (figura 18).

Gráfica 9. Histograma de una distribución normal

Nótese que conforme aumenta el número de muestras la gráfica de una distribución normal, va tomando una forma similar al de una campana por lo que también se le conoce como “campana de Gauss”.

Una curva normal estándar tiene los siguientes parámetros:

  • Media igual a 0 (μ=0) y desviación estándar igual a 1 (σ=1).
  • Es simétrica en torno a la media (50% a la derecha y 50% a la izquierda).
  • La media, la mediana y la moda son iguales.
  • El área total bajo la curva es igual a la unidad (ver figura 19).

Gráfica 10. Parámetros de una curva normal

Características de la distribución teórica normal 

  • Comprende dos desviaciones estándar antes y después de la media que constituye el 95% del área total bajo la curva.
  • Distintos valores de la media trasladan la curva en el eje.
  • Distintos valores de la desviación estándar determinan que tan ancha y larga será la curva.
  • Se trata de una familia de distribuciones, que tiene un número infinito de miembros definidos por la media y la desviación estándar (ver figura 20).

Gráfica 11. Curvas gaussianas con distintos parámetros (izquierda) y curva gaussiana típica mostrando sus desviaciones estándar a cada lado de ésta (derecha).

Distribución normal estándar o tipificada o distribución z

Una de las consecuencias del teorema central del límite es que dada una población con media μ y para n lo bastante grande, la distribución de la variable es una distribución normal, a esta se le llama la distribución normal estándar o tipificada. También se denomina la distribución z.

Un valor de z es la distancia entre un valor seleccionado, denotado por X, y la media de la población dividido por la desviación estándar de la población, σ. La ecuación es:

Donde: 

z = porcentaje de individuos que se encuentran en dicho rango
x = observación que queremos analizar (valor esperado)
µ = es el valor de la media de la población (puede ser estimada de la muestra)
σ = es el valor de la desviación estándar de la población (puede ser estimada de la muestra si n es muy grande)

A partir de ella se puede calcular cualquier probabilidad de ocurrencia de un evento, utilizando la tabla de distribución normal. Sin embargo, se debe tener mucho cuidado de ver cuál es el área bajo la curva que nos dan, porque se tabula de forma diferente según el autor, algunos la dan a partir de 0 y otros a partir de infinito (ver anexo y figura siguiente como ejemplo).

Gráfica 12. Ejemplo de uso de la tabla de distribución normal.Ejemplo: queremos saber cuál es la probabilidad de encontrar a un individuo con valores mayores de 150 (X) en glucosa en sangre, considerando que 100 es la media y su desviación estándar es de 25.

Z=150-100/25 =2 con este valor nos vamos a la tabla y buscamos 2 en la columna de z, que nos indica la distancia en desviaciones estándar respecto a la media esta X, el valor de tabla es: 0.9772. Y como el valor de z es positivo dicha distancia se encuentra a la derecha de la media. Y para conocer el porcentaje se procede así: 1- 0.9772= 0.0228 x100 =2.28%. dado que: el área total bajo la curva es igual a 1 lo que corresponde al 100% de los casos, y porciones del área son proporcionales a porcentajes parciales de la muestra.

De este modo, la porción de área bajo la curva, limitada por dos ordenadas o perpendiculares levantadas en puntos del eje X, expresan el porcentaje de casos que quedan comprendidos entre las calificaciones Z correspondientes a los puntos sobre los que se trazan las ordenadas. Esto se explica mejor con lo la llamada regla empírica.

La regla empírica o regla 68-95-99.7% 

  1. Cerca del 68% de las observaciones están dentro de una desviación estándar de la media. O sea, entre μ-σ y μ+σ.
  2. Cerca del 95% de las observaciones están dentro de dos desviaciones estándar de la media. O sea, μ-2σ y μ+2σ.
  3. Cerca del 99.7% de las observaciones están dentro de tres desviaciones estándar de la media. O sea, entre μ-3σ y μ+3σ. Prácticamente todo está dentro de tres desviaciones estándar de la media.

Por lo que se deduce que casi todas las observaciones caen dentro de 3 desviaciones estándar de la media y más del 95% lo hacen a 2 desviaciones estándar de la media, ver figura 22.

Gráfica 13. Porcentajes del área bajo la curva normal en la que caen la mayoría de las observaciones. 

  • Calcular en forma univariada.
  • Definir la normalidad en el 95%.
  • Distribución asimétrica de la mayoría de las variables biológicas.
  • Todos los valores más allá de los límites establecidos son considerados “anormales”.
  • Elección inadecuada del grupo de individuos que constituyen la población de referencia.

Aplicaciones de la distribución normal 

Aunque su importancia en el campo de la estadística es indiscutible, uno puede darse cuenta de que la distribución normal no es una ley inherente a todas las características medibles que ocurren en la naturaleza. Sin embargo, es verdad que muchas de estas tienen una distribución aproximadamente normal.

En consecuencia, aun cuando no existe variable alguna que en la práctica se encuentre distribuida con precisión, la distribución normal se puede utilizar como modelo para normalizar la distribución de muchas variables de interés. Al utilizarla, es posible establecer afirmaciones de probabilidad más útiles y mucho más convenientes para algunas variables que si se utilizara un modelo más complicado.

La estatura y la inteligencia humana son consideradas frecuentemente como ejemplos de variables que tienen aproximadamente una distribución normal. En otras palabras, muchas distribuciones importantes para el campo de la salud no se pueden describir correctamente mediante una distribución normal. Sin embargo, si se sabe que la variable aleatoria sigue una distribución aproximadamente normal o, en el caso de ignorarlo, se considera razonable hacer esta suposición, la distribución normal es de gran ayuda para el estadístico en su esfuerzo para resolver problemas prácticos relativos a esa variable. Sin embargo, se debe tener en mente que lo normal en este contexto se refiere a las propiedades estadísticas para el conjunto de datos, y de ninguna manera implica normalidad en el sentido de condiciones médicas o de salud.

CONCLUSIÓN

Con esto terminamos la unidad 2 que tuvo como objetivo iniciar el estudio de la estadística propiamente dicha, Con los conocimientos adquiridos hasta ahora, el estudiante verá que ya puede hacer un análisis descriptivo de los datos también tiene las bases de algunos conceptos de probabilidad y distribución que son fundamentales para hacer inferencia estadística sobre todo en variables biológicas. Esperando que la presente unidad haya sido lo suficientemente comprensible e introductoria como lo pretende el autor. Invito al lector a que se pase por la clase virtual de esta misma unidad donde encontrará material extra como la síntesis de los más relevante más los ejercicios para completar su aprendizaje.

BIBLIOGRAFÍA CONSULTADA

  • Daniel, Wayne W. (2005). Bioestadística: base para el análisis de las ciencias de la salud. 4a ed., México: Limusa-Wiley.
  • Prieto VL., Herranz T.I. (2010). Bioestadística sin dificultades matemáticas. En busca de tesoros escondidos. Análisis estadístico de datos en investigación médica y sociológica. México: Editores Díaz de Santos.