Medidas de tendencia central y dispersión
Introducción
Bienvenidos a la última sesión de este curso. En esta sesión abordaremos el estudio de las medidas de tendencia central, medidas de posición y medidas de dispersión. La estimación de estos elementos requiere del uso de las tablas de frecuencias revisadas en el tema anterior.
En algunos casos es necesario contar con algunos datos que representen a la mitad superior o inferior de los datos o cuál es el grupo de valores que se presentan con mayor frecuencia. Para tener una respuesta a estos cuestionamientos es posible utilizar lo que se conoce como medidas de tendencia central, que incluyen a la media, moda y mediana. Estos valores son indicadores que por lo general se encuentran en el centro de la distribución, en donde se concentran la mayor parte de los datos.
Otros estadísticos importantes son los cuartiles, deciles y percentiles o centiles, que permiten dividir la muestra en cierto número de secciones, en este caso en 4, 10 o 100 respectivamente, lo que representa porcentajes del 25%, 10% y 1%, al conjunto de estas mediciones se les conoce como medidas de posición.
Por otro lado, las medidas de dispersión permiten conocer la variabilidad o cuánto están separados o difieren entre sí los datos, es decir, cómo varían alrededor de un valor central, lo que en un momento dado puede apoyar la toma de decisiones así como el riesgo que representa de acuerdo con los valores obtenidos.
El conocimiento de estos tipos de medidas ayudan a conocer información particular de la muestra que se analiza. Es importante hacer mención que estas medidas pueden identificar el valor alrededor del cual se agrupan los datos, por lo que también se les conoce como estadísticos cuando se aplican en una muestra, para el caso de la población se le conoce como parámetros.
Sin más por el momento comencemos con el estudio de este importante tema.
Desarrollo del tema
Medidas de tendencia central
La estadística descriptiva en su función de proporcionar datos que permitan una percepción rápida de lo que ocurre con los datos, tiene una serie de indicadores, uno de ellos corresponde a lo que se conoce como medidas de tendencia central, entre las más conocidas están: la media, moda y mediana. Las medidas de tendencia central son indicadores estadísticos que muestran algunos valores centrales en donde se agrupan los datos.
Media: Es el valor que resulta de dividir la sumatoria del conjunto de datos entre el número total de datos. Existen dos formas para determinar este valor, depende de si los datos son agrupados o no.
Media para datos no agrupados:
donde
µ = media para datos no agrupados
N = número de datos totales de la población
xi = valor de dato i hasta N
Media para datos agrupados:
donde:
X = media para datos agrupados
n = número de datos totales de la muestra
xi = valor de dato
Mediana: Es el valor que divide a una serie de datos en dos partes iguales, es decir, los datos que quedan debajo de la mediana son iguales que los que quedan arriba.
Mediana para datos no agrupados:
a) Ordenar los datos de menor a mayor.
b) Si el total de datos es impar la mediana corresponde al dato central, en caso de que el número de datos sea par, la mediana será el promedio de los dos datos centrales.
Mediana para datos agrupados:
Donde:
n/2 = dato en donde se localiza la mediana
Me = Mediana para datos agrupados
Li = límite inferior en el que se encuentra la mediana
n = número de datos de la muestra
Fi = Frecuencia del intervalo en el que se encuentra la mediana
Fa-1 = Frecuencia acumulada de la clase anterior a la mediana
Ai = Amplitud o ancho de clase del intervalo en el que se encuentra la mediana
Moda: Es el dato que se repite con mayor frecuencia, para datos no agrupados es posible identificarlo debido a que será el que se presente en un mayor número de ocasiones.
Moda para datos agrupados
Donde:
Mo = Moda para datos agrupados
Li = límite inferior en el que se encuentra la moda
Fi = Frecuencia del intervalo en el que se encuentra la moda
Fi-1 = Frecuencia del intervalo anterior en el que se encuentra la moda
Fi+1 = Frecuencia del intervalo siguiente en el que se encuentra la moda
Ai = Amplitud o ancho de clase del intervalo en el que se encuentra la moda
Medidas de posición
Entre estos estadísticos se encuentran los cuartiles y percentiles o centiles, estas medidas permiten conocer datos referentes a los porcentajes, de acuerdo con el número en el que se dividan.
Cuartiles: Divide la muestra en 4 grupos. Cada uno de ellos corresponde a un 25% de la muestra.
Cuartiles para datos no agrupados:
- Ordenar los datos de menor a mayor.
- Buscar el lugar que ocupa cada cuartil, para ello utilizar la siguiente expresión: k∙N4
Donde: k = 1, 2, 3 corresponde al número de cuartil buscado y N = número total de datos
- En el caso de tener número par de datos, el número obtenido corresponde al número de datos.
- En el caso de tener número impar de datos, se obtendrá un número decimal , por lo que corresponde al promedio de los datos entre los que se encuentra el número obtenido.
Cuartiles para datos agrupados:
Donde:
Qx = Cuartil
Li = Límite inferior de la clase en donde se encuentra el cuartil
k = valor del cuartil, desde 1 a 3
n = número de datos de la muestra
Fi = frecuencia de clase donde se encuentra el cuartil
Fa-1 = frecuencia acumulada de la clase anterior donde se encuentra el cuartil
Ai = Amplitud o ancho de clase donde se encuentra el cuartil
Percentiles o centiles
Divide la muestra en 100 grupos. Cada uno corresponde a 1% de la muestra. Es importante destacar que el percentil 50 coincide con la mediana y con el segundo cuartil, el percentil 75 coincide con el tercer cuartil.
Percentil para datos no agrupados:
- Ordenar los datos de menor a mayor.
- Determinar la posición en la que se encuentra el percentil deseado, para ello es necesario utilizar:
- En el caso de que el resultado quede entre dos valores, resultado con decimal, se realiza una interpolación para determinar el valor exacto.
Percentil para datos agrupados:
Donde
Px = Percentil
Li = Límite inferior de la clase en donde se encuentra el percentil
k = valor del percentil, desde 1 a 99
n = número de datos de la muestra
Fi = frecuencia de clase donde se encuentra el percentil
Fa-1 = frecuencia acumulada de la clase anterior donde se encuentra el percentil
Ai = Amplitud o ancho de clase donde se encuentra el percentil
Medidas de dispersión
A pesar de la importancia de las medidas de tendencia central y de la cantidad de información que aportan individualmente, es importante señalar que en algunas ocasiones es necesario contar con otras medidas adicionales a las medidas de centralización, medidas que indiquen una menor o mayor variación o desviación respecto de aquellos valores. Entre estas medidas se encuentran el rango, desviación media, desviación estándar y varianza.
Rango: El rango se define como la diferencia entre los dos valores extremos que toma la variable, el uso del valor que arroja esta variable es restringido. El valor de esta medida se utiliza como una forma de obtener la dispersión de los datos de la muestra.
Rango para datos no agrupados
R = Xmax-Xmin
Donde:
R = rango
Xmax = dato mayor de la muestra
Xmin = dato menor de la muestra
Rango para datos agrupados
Para determinarlo debe realizarse la diferencia entre el límite superior de la última clase y el límite inferior de la primera clase.
Varianza: Representa la dispersión promedio de todos los datos alrededor de su media grupal.
Varianza para datos no agrupados:
Donde
σ2 = varianza de la población
xi = dato
μ = media
N = número total de datos de la población
Varianza para datos agrupados se utiliza la siguiente fórmula:
Donde:
s2 = varianza de la muestra
fi = frecuencia de clase
xi = Marca de clase
x = media
n = número total de datos de la muestra
Desviación estándar: Representa una medida de dispersión, constituye la variabilidad de los datos con respecto a la media.
Desviación estándar para datos no agrupados, también se le conoce como desviación típica
Desviación estándar para datos agrupados
Cuando los cálculos se realizan a mano, para un mejor control de las operaciones se sugiere integrar columnas a la tabla de frecuencia en donde por cada clase puedan ir realizando las operaciones para finalmente sumar, esto te daría más certeza que las operaciones las estás realizando de forma adecuada, ya que si bien es posible utilizar la calculadora, al manejar muchos datos las posibilidades de introducir un dato u omitir alguno es mayor.
Ejemplo:
Conclusión
En esta clase hemos podido estudiar las medidas de tendencia central. Estas medidas permiten resumir en un solo valor el conjunto de todos los datos. Los valores de la media, moda y mediana generalmente se ubican en la parte central de un conjunto de datos por lo que es posible realizar un análisis de ese entorno.
En relación a las medidas de posición, es importante decir que éstas facilitan información sobre los datos, permiten ubicar un elemento dentro del total de datos, dividen la muestra en partes iguales que representan porcentajes, dependiendo de la medida que se utilice, cuartiles, deciles o percentiles. Estas herramientas son valiosas ya que en ocasiones se requiere de conocer el dato que identifica cierto porcentaje de la muestra.
Ambas medidas en conjunto son de utilidad para el análisis de los datos, por ejemplo al gobierno le permite conocer las condiciones en las que vive la mayor parte de la población y establecer políticas que mejoren su situación, en las empresas que desarrollan teléfonos celulares pueden conocer las características deseables en su producto y enfocarse en el desarrollo del mismo, en el caso del desarrollo de nuevos medicamentos es posible aplicar las medidas de posición para determinar el porcentaje de la población que tiene efectos secundarios. Cómo podrás darte cuenta las aplicaciones de estas medidas son muchas y muy variadas.
Por último, es importante recordar que entre las medidas de dispersión se encuentran el rango, varianza y desviación estándar, es posible calcular su valor apoyándose en los datos de la tabla de distribución de frecuencias. Estas medidas son de importancia en el análisis de datos estadísticos ya que permiten identificar que tan juntos o separados se encuentran los datos con respecto a un valor de referencia, la media, cuando se realiza este análisis es posible realizar una propuesta o hipótesis acerca del comportamiento de los datos de forma más certera que si se considerasen únicamente los datos que proporcionan las medidas de tendencia central.
Hemos llegado al final de este curso. Te agradezco todo el empeño, dedicación y motivación que has puesto a lo largo de todas las sesiones. Te invito a que sigas profundizando en el estudio de matemáticas y fortaleciendo tus competencias asociadas con la resolución de problemas.
Fuentes de información
- Medidas de tendencia central: https://www.emagister.com/uploads_courses/Comunidad_Emagister_66885_66885.pdf
- Medidas de posición: http://www.economia.unam.mx/profesor/barajas/estadis/parte2.pdf