Introducción a la estadística descriptiva
1. Fundamentación del tema
El presente tema corresponde a la UDA “Probabilidad y estadística”. La importancia de conocerlo radica en la importancias que tiene la estadística en la formación del profesionista, a diario se pueden ver aplicaciones de ello, cómo lo son en los resultados de encuestas electorales, en investigaciones científicas, o en tiempos actuales, para ver el desarrollo de la pandemia originada por el COVID-19.
El contador público y cualquier investigador debe aplicar estadística para diferentes prácticas y en su caso, fundamental o dar opciones para la toma de decisiones en base a estadísticas, entre las aplicaciones que se tienen son las siguientes:
- Análisis de muestras.
- Descripción de datos.
- Contraste de hipótesis
- Medición de relaciones entre variables estadísticas.
- Predicción.
- Evaluación de proyectos.
- Contribuir a la generación de información financiera .
- Prácticas fiscales como lo es el ajuste anual por inflación acumulable.
Su importancia no es meramente profesional o científica, de manera personal se pueden resolver situaciones o dar información como base para la toma de decisiones.
2. Objetivo didáctico
Construir un marco de referencia de la estadística descriptiva a través de conceptos, razonamiento y ejercicios de aplicación, con el motivo de describir elementos básicos para obtener datos finales.
3. Contenido didáctico
Introducción
¡Hola! Bienvenidas y bienvenidos a este recurso didáctico. Nos da mucho gusto tenerte aquí. En esta lección nos adentraremos a la introducción de la probabilidad y estadística descriptiva, veremos la teoría, razonamiento y resolución de problemas, aunque existe una UDA en el siguiente semestre de las inferencias de esta UDA, daremos una pequeña inferencia de cada resolución.
En esta lección nos adentraremos en los aspectos fundamentales de este método de operar con datos y su interpretación, por lo que estaremos abordando varios aspectos. Dentro de la historia se considera al profesor y economista Godofredo Achenwal (1719-1772) como el fundador de la estadística. Sin embargo se dice que en la antigüedad (2000 a 2500 a.C) los chinos y los egipcios realizaban censos o inventarios elementales, a través de los años la estadística se ha ido enriqueciendo con aportes de los matemáticos, filósofos y científicos. Por lo cual es aplicable en cualquier campo. (Portus G. 1999 p.1-3)
Acompañamos a esta interesante lección.
¡Sin más preámbulo, comencemos!
Desarrollo del tema
1. Introducción a la estadística descriptiva
1.1 Concepto
Bienvenidos a este recurso didáctico preparado para ustedes, en el vamos a introducirnos en la estadística descriptiva, Existen diversas acepciones de estadística, a veces representada como ciencia o como arte, para el desarrollo del recurso se tomará la definición siguiente:
“Estadística: Es la ciencia que se encarga de la recolección, ordenamiento, representación, análisis e interpretación de datos generados en una investigación sobre hechos, individuos o grupos de los mismos, para deducir de ello conclusiones precisas o estimaciones futuras.”.
(Salazar, 2018)
1.2 Importancia de la estadística
La estadística tiene muchas funciones y aplicaciones dentro y fuera del alcance de la profesión de contador público, mencionaremos algunas de ellas:
- Análisis de muestras.
- Descripción de datos.
- Contraste de hipótesis
- Medición de relaciones entre variables estadísticas.
- Predicción.
- Evaluación de proyectos.
- Evaluar el comportamiento de fenómenos.
- Como herramienta de trabajo.
- Contribuir a la generación de información financiera .
- Prácticas fiscales como lo es el ajuste anual por inflación acumulable.
Más que sólo enlistar y hacer una descripción, se irán profundizando dentro del desarrollo de los temas y en los casos prácticos, otra parte introductoria es diferenciar entre estadística descriptiva e inferencial.
1.3 Diferencia entre estadística descriptiva e inferencial
La estadística se divide en dos ramas principalmente, la estadística descriptiva o deductiva y la inferencial o inductiva revisemos sus conceptos:
La estadística descriptiva se define como:
“Es la ciencia mediante la cual se recopila, organiza, presenta, analiza e interpreta datos de manera informativa tal que describa fácil y rápidamente las características esenciales de dichos datos mediante el empleo de diversos métodos gráficos, tabulares o numéricos, etc.”.
(Suárez, 2018)
La estadística inferencial se define como:
Llamada también inferencia estadística, la cual consiste en llegar a obtener conclusiones o generalizaciones de la población a partir de una muestra de ella, es decir, emplea métodos para buscar información que permita determinar propiedades de la población basándose en el estudio de los datos de una muestra tomada a partir de ella.
(Suárez, 2018)
Es así como la estadística descriptiva se enfoca en obtener, organizar, presentar y describir los datos numéricos emitiendo conclusiones sobre ellos a través del conocimiento que ellos proporcionan. Mientras que la estadística inferencial habla de las técnicas que se utilizan para obtener conclusiones que van más allá del conocimiento que aportan los datos, esto es su procesamiento analítico para lograr más información (se enfoca en deducciones o inferencias) para la toma de decisiones. A lo largo de este recurso se darán alusiones de ella en las conclusiones de los casos prácticos.
Te invitamos a ver el siguiente video en internet que explica a que se refiere la estadística descriptiva: ¿Qué es la estadística descriptiva?
1.4 Datos no agrupados y agrupados de variable cuantitativa
1.4.1 Medidas de Localización
Antes de empezar con la explicación de las medidas de localización, es importante definir ciertos términos que servirán par la mayor comprensión de las fórmulas y hacer inferencias, ya sea para este recurso didáctico o en general en bibliografía de estadística:
Población
Población es el conjunto al que se desea describir o es el sujeto de estudio, por ejemplo: Los estudiantes de la universidad de guanajuato, unidades producidas de una fábrica. etc.
Por su tamaño se dividen en poblaciones finitas (número limitado) e infinitas.
(Salazar, 2018)
También se le llama universo o colectivo y abarca tanto los elementos como medidas, individuos u objetos, los cuales cuentan con características en común dependiendo de lo que se busque.
Muestra
Estamos hablando de un subconjunto de la población. La cual puede ser aleatoria (misma probabilidad de ser seleccionada),sistemática, estratificada y por conglomerados, dentro de las más usadas.
(Chao L 2009)
Parámetro
“Es cualquier medida descriptiva o representativa de una población. Generalmente se utilizan las letras griegas como símbolo. Ejemplos: media aritmética poblacional (μ) (mu), desviación estándar poblacional (σ) (sigma).”
(Salazar, 2018)
Estadístico
Constituyen cualquiera de las medidas descriptivas de una muestra. Se las simboliza con letras minúsculas de nuestro alfabeto. Ejemplos: media aritmética (x), desviación estándar (s).
(Salazar, 2018)
1.4.1.1 Media Aritmética
Empecemos con la primera medida de localización llamada media aritmética, la más representativa de localización, proporciona una medida de localización central de los datos, dependiendo si hablamos de la media de una población o de una muestra dependerá la sintaxis de la fórmula y los símbolos de los elementos que las componen:
Donde:
x barra: Símbolo de la media muestral.
𝝨: Es la letra griega que significa sumatoria.
Xi= El valor de la i-ésima observación de la variable x (Es decir, el valor de las observaciones de la muestra)
n= Número de observaciones
La media muestral es un estadístico muestral, su inferencia y aplicación dependerá de la muestra que se estudie.
Cuando hablamos de la media poblacional haremos uso de la siguiente Fórmula:
Donde:
μ (mu): Símbolo griego de la media poblacional.
𝝨: Es la letra griega que significa sumatoria.
Xi= El valor de la i-ésima observación de la variable x (Es decir, el valor de las observaciones de la muestra)
N= Número de observaciones de la población
La media muestral x¯ es un estimador puntual de la media poblacional μ, su inferencia y aplicación dependerá de la población que se estudie.
(Anderson, 2008)
Te invitamos acceder al siguiente link, donde se plasma un ejemplo práctico y su empleo en una herramienta de uso común de hojas de cálculo como lo es Microsoft Excel: (Ejercicio de Elaboración propia) Recurso Excel 1. Media..xlsx
1.4.1.2 Mediana
La mediana es otra medida de localización central.
Es el valor de enmedio en los datos ordenados de menor a mayor (en forma ascendente). Cuando tiene un número impar de observaciones, la mediana es el valor de enmedio. Cuando la cantidad de observaciones es par, no hay un número en medio. En este caso, se sigue una convención y la mediana es definida como el promedio de las dos observaciones de enmedio.
(Anderson, 2008)
El valor se determinará:
MEDIANA
Ordenar los datos de menor a mayor (en forma descendente)
a) Si el número de observaciones es impar, la mediana es el valor de enmedio.
b) Si el número de observaciones es par, la mediana es el promedio de las dos observaciones de enmedio.
Fuente de la imagen: Anderson (2008). Cengage learning. Recuperado de: Estadistica para administracion y economia
La medida de localización central más usada es la media, sin embargo, es susceptible a ser afectada por datos atípicos, por tal motivo, suele ocuparse otras medidas, la mediana es una de ellas, para ilustrarlo, te invitamos acceder al siguiente link, donde se retoma el ejemplo plasmado en la media ocupando la mediana: Recurso Excel 2. Mediana.xlsx
1.4.1.3 Moda
La moda es una medida de tendencia central que se define como:
“El valor que se repite con más frecuencia.”
(Anderson, 2008)
Por lo cual es el valor típico o representativo en una serie de datos.
Te invitamos a ver el siguiente ejemplo de la moda: (Elaboración propia) Recurso Excel 3. Moda.xlsx
Es así como tanto la mediana como la moda acentúan valores individuales del colectivo, mientras que la media aritmética iguala las observaciones.
1.4.1.4 Percentiles
Tanto los percentiles, cuartiles y deciles, aportan información sobre la dispersión de los datos en el intervalo que va desde el menor al mayor valor de los datos, un percentil se define como:
El percentil denominado con la letra “p” es un valor del que se parte para poder hacer inferencias del porcentaje de las observaciones que son menores o iguales que este valor y por lo menos (100-p) por ciento de las observaciones son mayores o iguales que este valor.
(Anderson, 2008)
Para calcular el percentil p se emplea el siguiente procedimiento:
1.4.1.5 Cuartiles
Las observaciones suelen dividirse en cuatro partes, haciendo que cada parte contenga un 25% de las observaciones, a cada uno de los puntos de división se le denomina “Cuartiles” y están definidos como:
Q1 primer cuartil, o percentil 25
Q2 segundo cuartil, o percentil 50
Q3 tercer cuartil, o percentil 75
(Anderson, 2008)
La representación gráfica de una información dividida en cuartiles es como sigue:
Te invitamos acceder al siguiente link, donde se plasma un ejemplo práctico y su empleo en una herramienta de uso común de hojas de cálculo como lo es Microsoft Excel sobre percentiles y cuartiles, con relación al ejemplo visto en el tema de moda: Recurso Excel 4. Percentiles y cuartiles.xlsx (Elaboración propia)
Hemos visto las medidas de tendencia central principales, más no quiere decir que sean las únicas, existen más medidas para diferentes casos, como lo son la media ponderada o la media geométrica, demos un vistazo a ellas.
1.5 Otras medidas de tendencia central
1.5.1 Media Ponderada
Ahora nos toca hablar de otras medidas de tendencia central, como lo es la media ponderada, que consiste en darle o en otorgar un peso o valor a cada una de las observaciones, en la media aritmética no se le daba un peso de cada observación, un caso muy común es la ponderación de una calificación de una materia, o como se determina el índice macroeconómico INPC (Índice Nacional de precios al consumidor).
(Salazar, 2018)
Te invitamos a ver el siguiente video que habla acerca de la media ponderada:
También te invitamos a ver el siguiente ejercicio de media ponderada: Recurso Excel 5. Media Ponderada.xlsx (Elaboración propia)
1.5.2 Media Geométrica
Otra medida de tendencia central es la media geométrica, la cual la definiremos como sigue:
“Es una medida de tendencia central que puede utilizarse para mostrar los cambios porcentuales en una serie de números positivos. Se define como la raíz índice n del producto de n términos.”
(Vilchis, 2009)
La fórmula para obtener la media geométrica es la siguiente:
Esta media de tendencia central es ocupada frecuentemente para mostrar cambios porcentuales, en la aplicación, un ejemplo podrían ser las proyecciones de ventas esperadas de un negocio.
Te invitamos a ver el siguiente video que habla acerca de la media geométrica y da un ejemplo de ella:
1.6 Medidas de Variabilidad
Además de las medidas de localización, resultan útiles el análisis de las medidas de variabilidad, que medirán la dispersión de los datos, ya sea de una población o muestra, en esta parte de la lección veremos las medidas de variabilidad más usadas.
1.6.1 Rango
Esta medida de variabilidad consta de la diferencia entre las observaciones con mayor y menor valor.
(Anderson, 2008)
Su fórmula de es la siguiente:
Ésta medida de variabilidad no es usualmente ocupada, dado que se ve afectada en gran proporción por los límites mínimo y máximos de las observaciones.
1.6.2 Rango Intercuartílico
Una medida que no se ve afectada el valor de las dos observaciones con valores máximos y mínimos, el cual se podría definir como sigue:
“El rango intercuartílico es el rango en que se encuentra el 50% central de los datos”
(Anderson, 2008)
La fórmula por lo tanto quedaría de la siguiente manera:
Aunque el rango, ya sea intercuartílico o no, no es de las medidas de dispersión más utilizadas, las medidas más usadas son la varianza, la desviación estándar y el coeficiente de variación, las cuales veremos a continuación.
1.6.3 Varianza
La varianza es una medida de variabilidad que utiliza todos los datos. La varianza está basada en la diferencias entre las observaciones y la media, dependerá si se determina para una población o una muestra (varianza poblacional o muestral), La fórmula es distinta entre ellas, pero es para evitar que exista sesgo en el estimador muestral de varianza, la inferencia que se pueden hacer de esta medida, es comparar la variabilidad entre variables, cualquier otra es innecesaria, pues se limita mucho las inferencias , pues las diferencias con respecto de la media de las observaciones se elevan al cuadrado, quedando unidades de medidas distintas a las de la observación.
(Anderson, 2008)
Las fórmulas para sacar la varianza poblacional y muestral son como siguen:
Donde:
𝞼 ²(sigma)= Es el símbolo griego que representa la varianza poblacional elevada al cuadrado.
𝞵 (mu): Símbolo de la media Poblacional
𝝨: Es la letra griega que significa sumatoria.
Xi= El valor de la i-ésima observación de la variable x (Es decir, el valor de las observaciones de la muestra)
N= Número de observaciones de la población
Donde:
s²= Es el símbolo que representa la varianza
x barra: Símbolo de la media muestral
𝝨: Es la letra griega que significa sumatoria.
Xi= El valor de la i-ésima observación de la variable x (Es decir, el valor de las observaciones de la muestra)
n-1= Número de observaciones de la muestra menos la unidad
En conclusión la varianza (s²) es el promedio de las desviaciones al cuadrado respecto a la media aritmética.
1.6.4 Desviación estándar
La desviación estándar se define como la raíz cuadrada de la varianza, su principal función es poder hacer comparaciones con las unidades de medida originales de las observaciones, pues recordemos que con la varianza se encuentran al cuadrado.
(Anderson,2008)
Dependiendo de si se determina la desviación estándar para una población o una muestra, será su simbología y fórmula, la cual es la que sigue:
1.6.5 Coeficiente de variación
Existen ocasiones donde se requiere un estadístico descriptivo de la variación con respecto a la media, el cuál es expresado por el coeficiente de variación, que se expresa como porcentaje, la fórmula de obtención es:
El coeficiente de variación es mayormente utilizado en la comparación de variables con distintas desviaciones estándar o diferentes medias.
Te invitamos a ver el siguiente video que habla acerca de la medidas de dispersión:
También te invitamos a ver el siguiente ejercicio de medidas de dispersión (variabilidad): (Elaboración propia) Recurso Excel 6. Medidas de variabilidad.xlsx
1.7 Representación gráfica
Muchas veces es más fácil hacer inferencias acerca de las observaciones cuando se presentan de manera gráfica, existen varias maneras de representar gráficamente, por ejemplo para datos cuantitativos pueden usarse histogramas, polígonos y ojivas, mientras que para datos cualitativos puede ser gráfica de sectores.
Te invitamos a ver algunas de ellas en la siguiente presentación sobre la representación gráfica de los datos:
Tema 1. Introducción a la estadística descriptiva-Representación gráfica
Con esta parte hemos terminado la primera lección, esperamos haya sido de su agrado y de utilidad, nos vemos pronto.
Resumen e ideas relevantes
Es importante que de lo anterior recuerdes que:
- Estadística: Es la ciencia que se encarga de la recolección, ordenamiento, representación, análisis e interpretación de datos generados en una investigación sobre hechos, individuos o grupos de los mismos, para deducir de ello conclusiones precisas o estimaciones futuras.
- La estadística se divide en dos áreas: la estadística descriptiva e inferencial
- Existen medidas de localización como lo son la media aritmética, mediana, moda, percentiles, cuartiles, otras medidas como la media ponderada y ,la media geométrica.
- Las medidas de dispersión miden la variabilidad que existen entre las variables, entre las medidas se encuentra el rango, el rango intercuartílico, varianza, desviación estándar y coeficiente de variabilidad.
- En ocasiones es más óptima la manera de hacer inferencias acerca de las observaciones a través de la representación gráfica de las mismas.
- El resumen de datos dependerá si las observaciones a representar son datos cualitativos o cuantitativos.
- En ambas se buscará la distribución de frecuencia, relativa o porcentual para la representación gráfica, o en ciertos casos las distribuciones acumuladas.
- Las representaciones gráficas más comunes son la gráfica de barras y pastel para datos cualitativos e histograma y ojiva para cuantitativos.
Fuentes de consulta
- Libro: Salazar, C. (2018). Fundamentos básicos de Estadística. Ecuador: Universidad Central de Ecuador, 226 pp. Recuperado de: principios básicos de estadística
- Libro: Suarez I., Mario O. (2018). Interaprendizaje de estadística básica. Ecuador. Universidad Central de Ecuador, 234 pp.
- Video en internet: Rincón, L. [Luis Rincón]. (2017, noviembre 1). 0398D ¿Qué es la estadística descriptiva?. Recuperado de: 0398D ¿Qué es la estadística descriptiva?
- Libro: Anderson, David R., Dennis J. Sweeney y Thomas A. Williams. (2008) Estadística para administración y economía, 10a. ed. México. Editorial: Cengage Learning. 1091 pp. Recuperado de: Estadistica para administracion y economia
- Video en internet: Mate-tutor. [Mate-tutor]. (2014, Agosto 4). 0398D Media Ponderada. Recuperado de: Media Ponderada
- Video en internet: Julio clases. [Julio-clases]. (2020, Abril 15). Media geométrica. Recuperado de: Media geométrica
- Documento en Línea: Vilchis, A. (2009). Universidad Autónoma del Estado de Hidalgo. Recuperado de: UNIDAD II MEDIDAS DE TENDENCIA CENTRAL
- Video en internet: unProfesor. [unProfesor]. (2016, mayo 31). Qué son las medidas de dispersión y tipos. Recuperado de: Qué son las medidas de dispersión y tipos
- Libro: Ross, S. M. y Valdés Sánchez, T. (2014). Introducción a la estadística. Barcelona, Spain: Editorial Reverté. Recuperado de https://elibro-net.e-revistas.ugto.mx/es/ereader/ugto/46782?page=2. 834 pp.
- Libro: Lincoyán, P. (1999). Matemáticas financieras. Bogotá, Colombia: McGraw Hill.