Clase digital 9: Análisis de datos cuantitativos

Análisis de datos cuantitativos

Introducción

Estimado estudiante, nos encontramos nuevamente y en esta ocasión analizaremos los datos obtenidos en la sesión anterior. Para esto debes saber que cuando se realiza el análisis de los datos recolectados es necesario generar modelos estadísticos que nos apoyen a comprender mejor el comportamiento de los datos.

Para lograr un análisis adecuado de los datos obtenidos deberemos analizar los datos en función de las variables que pretenden explicar y por supuesto su alineación con las preguntas de investigación que esperamos responder, así como las hipótesis que hemos planteado.

Analizar los datos no es suficiente, aprenderás durante el transcurso de esta sesión que es necesario interpretar adecuadamente los datos para hacerlos significativos e importantes.

Vayamos pues a preparar nuestros resultados para presentar el proyecto de investigación

Desarrollo del tema

Analizar los resultados obtenidos esta vinculado directamente con la interpretación que se le dará al resultado y cómo es que esta interpretación nos ayuda a responder las preguntas de investigación, a aceptar o refutar nuestras hipótesis y a corroborar la utilidad del instrumento diseñado para la toma de datos.

Para realizar el análisis de datos se sigue por lo general una estrategia que consiste en:

Captura de datos
Elaboración de tablas y gráficas
Análisis del comportamiento de las gráficas
Estudio y Análisis de la correlación entre variables
Análisis del fenómeno y su relación con las variables
Cotejar con las hipótesis delimitadas para aceptarlas o refutarlas

En general cuando se analizan los datos se recomienda realizarlo mediante software que puede ir desde office hasta un programa realizado especialmente para el estudio de un fenómeno en particular como el software Gaussian que proporciona un análisis teórico de estructuras moleculares desde el punto de vista de la teoría de densidad del funcional de la mecánica cuántica. Una vez que se realiza el análisis la interpretación de los resultados se recurre a métodos estadísticos para generar las conclusiones del trabajo y argumentar cómo es que nuestros resultados reproducen o explican el fenómeno bajo estudio.

Cuando nos referimos a métodos estadísticos pensamos en la estadística descriptiva en donde cada una de las variables posee una frecuencia de peso y mediante una distribución de frecuencias podemos ir generando su puntuación. El valor de las variables entonces se extrae directamente del instrumento que hemos diseñado y, a partir de este, podemos obtener otras medidas de tendencia central como la media, la mediana, la moda, la desviación estándar y la varianza. Cuando analizamos estas medidas en la distribución de datos de nuestras variables podemos analizar a detalle que ha pasado tanto con los datos recabados como con la evolución de las variables. Cuando se quiere representar en documento los análisis realizados, hacemos uso de gráficas, distribuciones de polígono de frecuencias, histogramas o conclusiones escritas. Si la descripción del fenómeno aún no queda completamente clara, recurrimos a las razones y tazas que nos permitirán ver el comportamiento de un segmento de la variable respecto al fenómeno completo o al total de observaciones.

El último paso del estudio y análisis de nuestras variables y la forma en la que reproducen el fenómeno a estudiar recae en evaluar la confiabilidad y validez de nuestra medición. Para realizar el estudio de confiabilidad, Sampieri (Sampieri, 2014) ubica varios procedimientos mediante un coeficiente como lo son:

Medida de estabilidad (Test-re-Test): Cuando pensamos en este tipo de medida, consiste en aplicar varias veces el instrumento que hemos diseñado con la finalidad de comparar los resultados obtenidos antes de la evolución de la variable con un instante posterior. Se espera en esta medida que exista una correlación entre las variables y su efecto en el instrumento al paso del tiempo.

A manera de ejemplo, piensa aquí en una situación de laboratorio en donde pretendes realizar el estudio del tiempo que tarda en evaporase un solvente como el alcohol etílico. Puedes iniciar midiendo 100 mililitros en un vaso de precipitados (instrumento de medición empleado para el volumen de líquido) y ese sería tu primera prueba sobre el fenómeno, tiempo después, digamos 30 minutos o una hora, realizas nuevamente la medición en el mismo vaso pero ahora observar que solo quedan 90 mililitros. Aquí, has realizado un re-test del instrumento y te das cuenta que la variable volumen de sustancia ha evolucionado. Si tu hipótesis fue decir que el solvente se evapora al estar en contacto con el ambiente, no solo puedes aceptar esta hipótesis, sino que además de ellos podrás determinar la velocidad de evaporación del solvente.

Método de formas alternativas o paralelas: en este esquema, se aplican instrumentos diferentes pero relacionados entre si en diferentes momentos esperando medir la evolución de la variable.

Método de mitades partidas (Split-halves): en este tipo de métodos no se aplica el instrumento varias veces, sino que se hace la correlación aplicando una parte del instrumento en un momento y otra en un momento después. Si los resultados resultan parecidos o iguales se puede decir que el instrumento es confiable.

Medida de coherencia o consistencia interna: se basa en coeficientes de confiabilidad como el alfa de Cronbach y los coeficientes KR-20 y KR-21 de Kuder y Richardson.

La tabla 1 realiza una síntesis de los métodos para determinar la confiabilidad de un instrumento de medición.

Método	Número de veces en que el instrumento es administrativo	Número de versiones diferentes del instrumento	Número de participantes que proveen los datos	Inquietud o pregunta que contesta
Estabilidad (test-retest)	Dos veces en tiempos distintos	Una versión	Cada participante responde al instrumento dos veces.	¿Responde los individuos de una manera similar a un instrumento si se les administra dos veces?
Formas alternas	Dos veces al mismo tiempo o con una diferencia de tiempo muy corta	Dos versiones diferentes, pero equivalentes	Cada participante responde a cada versión del instrumento	Cuando dos versiones de un instrumento son similares, ¿hay convergencia o divergencia en las respuestas a ambas versiones?
Formas alternas y prueba-posprueba	Dos veces en tiempos distintos	Dos versiones diferentes, pero equivalentes	Cada participante responde a cada versión del instrumento	Cuando dos versiones de un instrumento son similares, ¿hay convergencia o divergencia en las respuestas a ambas versiones?
Mitades partidas	Una vez	Una fragmentada en dos partes equivalentes	Cada participante responde a la única versión	¿Son las puntuaciones de una mitad del instrumento similares a las obtenidas en la otra mitad?
Medidas de consistencia interna (alfa y KR-20 y 21)	Una vez	Una versión	Cada participante responde la única versión	¿Las respuestas a los items del instrumento son coherentes?

Tabla 1. Esquema de Confiabilidad de un instrumento de medición. Tomada del libro Metodología de la Investigación (Sampieri, 2014).

De manera general, una investigación no se queda simplemente en el análisis de los datos por medios estadísticos diferenciales, sino que se recurre a la estadística inferencial con la cual somo capaces de probar nuestras hipótesis y garantizar con esto que nuestros resultados en la muestra que hemos seleccionado pueden impactar también en la población y en el universo. Para lograr nuestro objetivo, la estadística inferencial utiliza dos tipos de procedimientos que son:

Pruebas de hipótesis poblacionales
Estimación de parámetros

Al respecto de las pruebas de hipótesis Sampieri (Sampieri, 2014) considera necesario delimitar que una distribución muestral representa todos los valores de todas las posibles muestras que pueden existir en una población. Cuando empleamos el concepto de distribución muestral aparece de forma natural los distintos tipos de distribuciones de datos que nuestro instrumento puede generar siendo quizá el más empleado el de la distribución normal en donde los datos representan una campana con el centro conteniendo a la mayoría de los datos como se muestra en la figura 1.

Figura 1. Campana de distribución de datos para la distribución normal. Imagen tomada del libro Metodología de la Investigación (Sampieri, 2014).

Antes de realizar el análisis de una distribución normal es necesario considerar sus características que son:

Solo presenta una moda (valor que más veces se repite en la distribución)
Es una curva simétrica
La base se puede cuantificar en términos de desviaciones estándar (s) de forma tal que del centro de la curva a cualquier extremo se tienen 3 desviaciones estándar
No presenta curtosis
La media, la mediana y la moda coinciden en el mismo punto que es el centro de la curva.

En base a las características antes mencionadas resulta importante entonces obtener la desviación estándar de los datos experimentales, así como su varianza y con ello poder notar cuantos datos se estarán moviendo de los valores de tenencia central. Así mismo, al analizar el nivel de significancia este puede ser del 95% o del 99% dependiendo del grado de seguridad que se presente en los datos al reproducir el fenómeno que se pretende estudiar. El 95%, como se presento en sesiones anteriores, también se refiere a que solamente es posible permitir 5 errores en 100 mediciones y, por ende, un 99% solamente permite un error en 100 mediciones. El nivel de significancia en base a la distribución normal se muestra en la figura 2.

Figura 2. Nivel de significancia en términos de la curva de distribución de datos. Imagen tomada del libro metodología de la investigación (Sampieri, 2014).

Para la prueba de hipótesis consideraremos dos tipos de análisis, en primer lugar, los de tipo paramétricos que corresponden al coeficiente de correlación de Pearson, la regresión lineal, la prueba t, la prueba de contraste de diferencia de proporciones y los análisis de varianza unidireccional, factorial y covarianza. Estos análisis suponen una distribución normal, una medición de la variable por intervalos y el hecho de tener dos o mas poblaciones estudiadas con varianza homogénea.

En segundo lugar, tenemos los análisis no paramétricos en donde encontramos la prueba chi cuadrada, los coeficientes de correlación cruzada y por rangos de Spearman y Kendall. Para este tipo de análisis es necesario considerar que no es necesario contar con una distribución normal ni tampoco la variable debe estar medida en intervalos. Finalmente, la tabla 2 resume la elección de procedimientos estadísticos.

Tabla 2. Tipos de Procedimientos estadísticos.

Por último, Sampieri recomienda tomar en cuenta los siguientes puntos para la presentación de los datos:

1. “Revisar cada resultado [análisis general → análisis específico → valores resultantes (incluida la significación) → tablas, diagramas, cuadros y gráficas].

2. Organizar los resultados (primero los descriptivos, por variable del estudio; luego los resultados relativos a la confiabilidad y la validez; posteriormente los inferenciales, que se pueden ordenar por hipótesis o de acuerdo con su desarrollo).

3. Cotejar diferentes resultados: su congruencia y en caso de inconsistencia lógica volverlos a revisar. Asimismo, se debe evitar la combinación de tablas, diagramas o gráficas que repitan datos. Por lo común, columnas o filas idénticas de datos no deben aparecer en dos o más tablas. Cuando éste es el caso, debemos elegir la tabla o elemento que ilustre o refleje mejor los resultados y sea la opción que presente mayor claridad. Una buena pregunta en este momento del proceso es: ¿qué valores, tablas, diagramas, cuadros o gráficas son necesarias?, ¿cuáles explican mejor los resultados?

4. Priorizar la información más valiosa (que es en gran parte resultado de la actividad anterior), sobre todo si se van a producir reportes ejecutivos y otros más extensos.

5. Copiar o “formatear” las tablas en el programa con el cual se elaborará el reporte de la investigación (procesador de textos —como Word— o uno para presentaciones, como Power Point, Flash, Prezi). Algunos programas como SPSS y Minitab permiten que se transfieran los resultados (tablas, por ejemplo) directamente a otro programa (copiar y pegar). Por ello, resulta conveniente usar una versión del programa de análisis que esté en el mismo idioma que se empleará para escribir el reporte o elaborar la presentación. Aunque, de no ser así, el texto de las tablas y gráficas puede modificarse, únicamente es más tardado.

6. Comentar o describir brevemente la esencia de los análisis, valores, tablas, diagramas, gráficas.
7. Volver a revisar los resultados.
8. Y, finalmente, elaborar el reporte de investigación. (Sampieri, 2014).

Conclusión

En esta sesión hemos aprendido cómo se deben analizar los datos recolectados bajo el enfoque de la investigación cuantitativa. Pudiste observar que una de las herramientas más poderosa es la estadística inferencial que nos permite, a través de sus distribuciones de datos poder delimitar la correlación entre las variables, las preguntas de investigación, las hipótesis planteadas y por supuesto el fenómeno que se pretende estudiar. Se describieron diferentes conceptos que van desde las medidas de tendencia central hasta las pruebas de hipótesis considerando además el ajuste de datos por regresión lineal. Todas estas herramientas harán posible que puedas presentar los datos experimentales de la mejor forma posible procurando que el público al que vaya dirigida la investigación sea consciente del fenómeno y las variables que lo evalúan.

Nos encontramos listos para emprender el último paso para concluir nuestro proceso de investigación que es preparar el informe final de resultados.

Fuentes de información

Libro “Metodología de la Investigación”. Capítulo 9 Recolección de datos cuantitativos. Hernández Sampieri, R, Fernández Colado, C & Baptista Luicio, P (2014). Metodología de la Investigación (6ta Ed). México: Mc Graw Hill