Clase digital 5. Medidas Descriptivas

Charts On Black Wooden Table

Medidas Descriptivas

Introducción

¡Hola!

Siempre es un gusto saludarte y saber que tienes el ánimo para continuar, te invito a seguir en este camino formativo en tu quinta clase del curso de Bioestadística.

¡Estamos avanzando muy bien! Te invito a que no ceses en el entusiasmo por aprender más sobre el manejo estadístico de los datos.

Las medidas de tendencia central son las herramientas de mayor utilidad en el campo de las estadísticas, ya que estas nos brindan las representaciones cuantitativas de datos que se hayan obtenido de una población, es decir que esta es una herramienta usada para cálculos y análisis de variabilidad para obtener procesos optimizados en las áreas donde se está aplicando el estudio de la estadística. Es importante, si ya estás decidido a manejar los datos estadísticos, conocer la utilidad e importancia de las medidas de tendencia central y de dispersión. Comprender estos fundamentos básicos será de gran importancia para las dos siguientes clases. 

Por lo que te invitamos a continuar y seguir aprendiendo, ya estamos casi al final.

¡Sin otro en particular, comencemos!

Desarrollo del tema

Medidas de tendencia central

Denominación general que engloba diversas medidas de resumen, son las características de la distribución de una serie de valores o mediciones que se encuentran hacia la mitad de una serie organizada de datos o en sus cercanías.

Las medidas de tendencia central más utilizadas son la media aritmética, la mediana y la moda.

¿Qué es la media aritmética?

La media aritmética es la medida de tendencia central más utilizada y es igual a lo que conocemos como promedio. Entonces la media es la suma de los valores de todas las observaciones, dividida entre el número de observaciones realizadas.

¿Por qué la media aritmética es una medida de tendencia central?

Una media 10, no significa que todos los datos sean igual a 10, es más para nuestros datos ninguno es igual a 10. Hay valores mayores y menores de 10. 

Veamos la gráfica de puntos siguiente, donde en una escala apropiada en el eje de las X, se representa cada dato mediante un punto.

Si obtenemos las distancias de cada punto con respecto a 10, observamos que la suma de las distancias de los puntos a la derecha de 10, es igual a la suma de las distancias de los puntos a la izquierda de 10. Entonces, en 10 se equilibra la distribución de los datos, es decir es el punto de equilibrio o centro de gravedad de la distribución de los datos.

¿Qué es la mediana?

La mediana es el valor central que se localiza en una serie ordenada de datos. Para obtener la mediana de los números x1 = 13, x2 = 15, x3 = 9, x4 = 6, x5 = 4, x6 = 12, x7 = 11, primero tenemos que ordenarlos: Entonces la mediana es 11.

Fórmula para mediana en datos impares

Si el número de datos fuera par, tendríamos dos valores centrales y la mediana sería la media de estos dos valores, por lo que estos dos valores se suman y se dividen entre dos.

La mediana divide la serie de datos en dos mitades y cada mitad tiene el mismo número de datos que la otra

¿Qué es la Moda? 

La moda es el valor más frecuente en una serie de datos, es el valor que se repite más.

Mo = «el dato que más se repite»

¿En una serie de datos puede haber más de una moda? 

Sí se tiene dos o más valores con la misma frecuencia máxima, la distribución puede ser multimodal.

Ventajas y las desventajas de cada una de las medidas de tendencia central 

La media es la más usada de las medidas de tendencia central, sus principales ventajas es que es muy fácil de calcular, para determinar su valor se toman en cuenta todos los datos y es muy importante en inferencia estadística por las propiedades de su distribución muestral.

Su principal desventaja es que debido a que es el punto de equilibrio de la distribución su valor se ve muy afectado por datos extremos, por lo que si la distribución es muy sesgada no es conveniente utilizarla.

En tal caso la mejor opción para representar los datos es la mediana, ya que representa mejor a los datos ya que está muy cerca de las observaciones, mientras que la media se ve muy afectada por el valor extremo.

La principal ventaja de la mediana es que no se ve afectada por valores extremos y por lo tanto si la distribución es muy asimétrica o sesgada es una medida que representa mejor a los datos. 

Su desventaja más importante es que su valor se determina con un solo dato, el dato central de la serie ordenada.

La moda por lo general no se usa debido a que no tiene un valor único ó puede ser que no exista.

Para datos agrupados en tabla de frecuencia, la moda tiene importancia porque en este caso si hay un valor único.

Varianza y desviación estándar

La varianza mide el valor total de la sumatoria de las desviaciones al promedio, elevadas al cuadrado cada una.

La desviación estándar tiene las mismas unidades que los datos y nos proporciona la variabilidad promedio de los datos con respecto a su media. Se obtiene de convertir la medida de la varianza, que proviene de los valores elevados al cuadrado, a su dimensión original sacando raíz cuadrada y representa el promedio de las desviaciones con respecto al promedio de la serie.

Mide qué tan heterogénea u homogénea es una serie de datos, desviaciones estándar pequeñas significan homogeneidad, desviaciones estándar grandes significan heterogeneidad.

Cuartiles, deciles y percentiles

Percentil, Decil o Cuartil: Corresponde al valor que toma la variable (cuantitativa), cuando los n datos están ordenados de Menor a Mayor.

Son medidas de posición, similar a la mediana, que ayudan a dividir a la serie de datos en fragmentos con igual número de elementos. Resultan útiles en los baremos de pruebas psicométricas.

El Cuartil va de 1 a 4

El Cuartil 3 (3/4): es el valor de la variable que reúne al menos el 75% de los datos.

Ejemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que esté en la posición 60. 

               Si N=85, el 75% de 85 es 63,75; por lo tanto, se busca el dato que esté en la posición 64. 

El Decil va de 1 a 10.

El Decil 4 (4/10): es el valor de la variable que reúne al menos el 40% de los datos.

Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que esté en la posición 32. 

               Si N=85, el 40% de 85 es 34; por lo tanto, se busca el dato que esté en la posición 34

El Percentil va de 1 a 100.

El percentil 25 (25/100): es el valor de la variable que reúne al menos el 25% de los datos.

Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que esté en la posición 20. 

               Si N=85, el 25% de 85 es 21,25; por lo tanto, se busca el dato que esté en la posición 22. 

Puedes consultar el siguiente material:

Conclusión

En resumen, en esta clase pudimos revisar la obtención y utilidad de las principales medidas de tendencia central y dispersión. Lo que es de gran importancia para el manejo básico de los datos estadísticos, así como para tomar las decisiones adecuadas al momento de presentar organizadamente los datos, considerando las ventajas y desventajas de cada una de las medidas. La comprensión de estos conceptos y el manejo de sus aplicaciones facilitará la comprensión significativa de las dos siguientes clases.

Podemos asumir entonces que las medidas de tendencia central son medidas estadísticas que pretenden resumir en un solo valor a un conjunto de valores. Representan un centro en torno al cual se encuentra ubicado el conjunto de los datos. Las medidas de tendencia central más utilizadas son: media, mediana y moda. Las medidas de dispersión en cambio miden el grado de dispersión de los valores de la variable. Dicho en otros términos las medidas de dispersión pretenden evaluar en qué medida los datos difieren entre sí. De esta forma, ambos tipos de medidas usadas en conjunto permiten describir un conjunto de datos entregando información acerca de su posición y su dispersión.

Hemos llegado al final de la clase, vas por buen camino, todavía falta terreno por recorrer ¡Sé persistente, no desistas! Para concluir la clase te pido que realices y mandes como corresponde la tarea asignada, te espero en la próxima sesión.

Fuentes de información

  • Quevedo-ricardi F. (2011).Medidas de tendencia central y dispersión. Medwave. Año XI, No. 3, Marzo 2011. Open Access, Creative Commons.