Unidad didáctica 3: Análisis de datos y tablas de contingencia

Introducción

En este capítulo revisaremos diferentes formas para analizar datos de variables categóricas fundamentalmente.  Son variables sobre las que únicamente es posible obtener una medida de tipo nominal u ordinal, pero con muy pocos valores, lo que limita la variedad de análisis paramétricos o no paramétricos. Se procesan de una manera más descriptiva, manifestando su comportamiento e interacción entre ellas o con variables de escala.

Primeramente revisaremos las tablas de contingencia, las cuales nos permiten trabajar con variables categóricas, por medio de agrupaciones y con los criterios de una segunda variable, podemos ver en cuenta o porcentaje la correlación cruzada entre dos variables, así como también se pueden realizar diferentes pruebas estadísticas para demostrar la correlación entre las variables, para fines de este ejercicio utilizamos una base de datos de la valoración del estado de salud de los estudiantes de institución de educación superior.

A continuación, analizaremos cómo procesar conjuntos de respuestas múltiples como la cerrada, esta se da cuando el entrevistado selecciona de una lista de respuestas una o más; abiertas cuando da respuestas libres sobre la pregunta pudiendo ser una o más. En esta unidad, se procesarán respuestas múltiples abiertas y cerradas de una encuesta que se hizo a consumidores, para ver qué marcas de auto recordaban más.

Por Último, revisaremos los OLAP (procesamiento analítico en línea), son tablas dinámicas que pueden agrupar datos de variables y realizar una amplia gama de pruebas estadísticas pudiendo distinguir como criterio cada uno de los datos o del total de datos de una Variable. Para fines de este tema, utilizaremos la base de datos del ejercicio de tablas de contingencia que contiene los resultados del estado de salud de una institución educativa de nivel superior.

Competencias

  • Identifica las diferentes partes que componen el paquete estadístico SPSS, así como, las principales herramientas que le ayudarán a realizar un análisis estadístico.

Elementos de la competencia:

  • Distingue las diferentes partes del SPSS y la funcionalidad de sus herramientas.
  • Utiliza datos de captura de forma adecuada en el software estadístico para su futuro análisis.
  • Aplica las herramientas de importación de datos para integrar de manera automática las bases de datos que se encuentran en softwares distintos al SPSS.
  • Obtiene resultados que puede importar y utilizar en otros medios electrónicos o físicos.

CONTENIDO

3.1 Tablas de Contingencia

Las variables categóricas son muy comunes en la ciencias de la salud y en las ciencias sociales, en muchos estudios es fácil encontrar variables tanto ordinarias como nominales, en las que se presentan cualidades o categorías, tales como: sexo, estado civil, lugar de origen, antecedentes parentesco familiar, enfermedades congénitas, etc…, este tipo de variables no pueden resolverse con el mismo procedimiento que estudiamos en la unidad dos; para darle tratamiento a la información y poder hacer el análisis pertinente, el SPSS incorpora un asistente, permitiendo efectuar tablas de contingencia y detectar la asociación que se da entre ellas.

3.1.1 Tablas cruzadas 3 variables

Para poder hacer un ejercicio con las tablas de contingencia, se abre el anexo de la carpeta correspondiente, denominado: BASE DE DATOS VALORACIONES.sav. Esta base de datos es un estudio que se hizo a 1241 estudiantes de nivel medio superior sobre su estado físico, de salud y sus hábitos saludables. Para realizarlo, seguimos este procedimiento: Abrimos donde dice: Analizar>Estadísticos Descriptivos>Tablas de contingencia, ahí visualizaremos un cuadro de diálogo llamado Tablas de contingencias, tiene a su lado izquierdo el listado de variables que contiene, y las señala, como variables ordinales, nominales o de escala; en la parte central observamos dos secciones la primera corresponde a Filas donde insertamos la variable que queremos agrupar y en la de Columnas: la variable que usaremos como condición para agrupar las variables. En la parte inferior encontraremos Capa1de1, ahí indicamos que las variables de las filas se desglosen en subniveles según el criterio de la   variable asignada. Esto lo podemos observar en la imagen siguiente:

Imagen 1. Tablas cruzadas 3 variables.

Como ejemplo realizaremos una tabla de contingencia, con la intención de confrontar si existe una relación entre las variables drogas y salud mental. Subdividimos por género a los examinados, lo hacemos así: vamos a la sección Filas: se arrastra la variable Salud mental a el recuadro blanco de dicha sección, o se selecciona la variable con un clic y enseguida se  da otro clic en el botón , para agregarla para que SPSS pueda procesarla, enseguida agregamos la variable drogas en la sección Columnas: de la misma forma que la variable salud mental, ahora repetimos el proceso añadiendo la variable género a el recuadro de Capa1 de 1, tal como se muestra en la siguiente imagen:

Imagen 2. Tablas de contingencia.

Seguimos con el segundo botón del menú de la derecha, denominado Estadísticos… le damos clic y se abre un cuadro de opciones, mostrándonos diferentes pruebas estadísticas, de las cuales seleccionaremos la casilla de verificación , ahí indicamos las pruebas que el software debe realizar con las variables. Para continuar con el ejercicio que estamos realizando, seleccionamos el Chi-cuadrado, correlaciones y finalmente kappa, enseguida damos clic en el botón “Continuar”, tal como se muestra en la imagen.

Imagen 3. Tablas de contingencia, estadísticos.

Hecho lo anterior, nos dirigimos al botón formato y damos clic, abrimos el cuadro de opciones y luego mostrar casillas; aquí se podrán modificar los parámetros de acuerdo a la información y formato que queremos muestre la tabla, en nuestro caso puede ser, puntuaciones z, para que los recuentos sean los observados o los esperados, ya sean porcentajes, residuos o ponderaciones. Para este ejercicio vamos a seleccionar la casilla fila en la sección Porcentaje y vamos al botón Continuar, nos regresa al cuadro de diálogo anterior, para finalizar damos clic en aceptado. Lo explicado, se muestra en la tabla siguiente:

Imagen 4. Mostrar en casillas.

Enseguida se nos abrirá la ventana de resultados mostrándonos tres tablas: la primera   llamada Resumen del procedimiento de los casos; nos muestra la cantidad de datos que se analizaron y los que se perdieron de las variables analizadas. Nos ayuda a conocer la confiabilidad de los datos analizados o los errores que se tuvieron al capturar las variables, esto se muestra en esta tabla:

Tabla 1. Resumen del procedimiento de los casos.

En la parte inferior, encontraremos una tabla de contingencias, en ella visualizamos las variables de salud mental que se encuentran en la fila, diferenciadas por las capas de la variable Género que distingue los datos entre hombres y mujeres. En las columnas aparece el tipo de droga consumida. En este caso, observamos que existe una relación, quizá sin riesgo, entre el estado de salud mental de las personas encuestadas y el consumo de marihuana. Así lo vemos en esta tabla:

Tabla 2. Contingencias Salud Mental.

La tercera tabla muestra las pruebas estadísticas que se realizaron con las variables, dentro de las cuales se encuentra la chi cuadrada desglosada por género; se puede observar que el valor de chi para ambos es mayor a 0.05 por lo cual, no existe relación entre las variables, veamos la tabla:

Tabla 3. Pruebas chi-cuadrado.

La última tabla nos muestra la prueba kappa y el coeficiente de correlación de spearman, en ellas, podemos observar la índice kappa de Cohen. Nos proporciona una inferencia entre la variable de salud mental y las drogas; nos dice que la medida entre las mismas es nula, el valor es muy pequeño 0,00, por lo cual, se puede rechazar la hipótesis, tanto en hombres como en mujeres.

3.1.2 Gráficos Cruzados

Para comprender mejor el comportamiento de las variables se pueden realizar gráficas cruzadas con el mismo asistente de las tablas de contingencia; para hacerlo y realizar un ejercicio de gráficas cruzadas con dos variables categóricas, seguimos este procedimiento:  recurrimos al asistente de tablas de contingencia ubicadas en Análisis>descriptivo>Tablas de contingencia…, en la sección de filas agregaremos la variable género y en la de columnas alcohol (agrupado), después nos dirigimos al botón casillas… seleccionamos porcentajes, y clic en continuar; visualizamos la parte inferior y activamos mostrar los gráficos de barras agrupadas, clic en el e recuadro para que se active      (  ) y aceptar, como se muestra en la siguiente tabla:

Tabla 4. Tablas de contingencia, Alcohol.

Observemos que se abrió la ventana de resultados, mostrándonos una tabla de contingencia en donde se hace diferencia entre el consumo de alcohol por género y el porcentaje de la población estudiada. En la parte inferior se ve una gráfica, donde a simple vista, observamos el alto grado de abstinencia en las mujeres. Generamos un conjunto de gráficas en la opción capas, pasamos a la ventana de editor o resultado, clic en el botón recuperar cuadro de diálogos recientes, agregamos al recuadro capas, la variable y damos clic en el botón aceptar. Lo observamos en la tabla que sigue:

Imagen 5. Porcentaje de la población estudiada.

La ventana de resultados desplegará cuatro tablas diferentes, podemos distinguir cada una por el estado de salud mental. Los gráficos nos muestran la distribución de consumo de alcohol por género y también en qué carreras tanto los hombres como las mujeres tienen un mayor consumo.

3.2 Respuesta múltiple

El módulo de tablas nos permite realizar una gran variedad de las mismas, con los conjuntos de respuesta múltiple, éstas se presentan al recolectar datos o mediciones con varias respuestas para la misma pregunta. La dificultad con este tipo de datos, es saber cómo estructurar la respuesta, generalmente se presentan cuando se elaboran encuestas con preguntas abiertas y los encuestados contestan con toda libertad, sin ningún límite, ni respuestas sugeridas. Por ejemplo, si preguntamos a las personas qué desayunan normalmente, las respuestas serán muy variadas, irán desde un huevo, cereal, entre otras. En las preguntas cerradas puede darse la misma situación, cuando se les presentan a los entrevistados varias opciones de las cuales pueden elegir una o varias a la vez. El SPSS nos permite procesar estos casos, analizándolos de manera descriptiva en la gran mayoría. Con ello, la información proporcionada nos trae dos grandes ventajas: la primera es que, si nos centramos en la respuesta de la opción que tiene el primer lugar, generalmente es la más significativa, al capturar la información es bueno respetar el orden en que se expusieron las opiniones; la segunda ventaja es que, en las respuestas abiertas, la opinión no se ve influenciada por el instrumento utilizado ni por la misma investigación.

3.2.1 Dicotómicas y Categóricas

Cuando la respuesta múltiple es cerrada se deben realizar variables por cada una de las respuestas sugeridas por el investigador; por ejemplo, en una pregunta de respuesta múltiple cerrada con seis diferentes opciones, de las cuales se pueden seleccionar una o más; se crearán seis variables diferentes, señalando que pertenecen a la misma pregunta e indicárselo al programa respectivo del SPSS para que las tome en cuenta y elabore los procesos estadísticos correspondientes. Para realizar este ejercicio es necesario ir a la carpeta de anexos, abrir el archivo multi.sav, en la tabla de variables dicotómicas y seguir este procedimiento:

Observamos que el multivariable de esta opción tiene 10 variables que comienzan con “pg”, esto indica que todas corresponden a una sola, visualizamos la pestaña Analizar>Respuestas múltiples>conjuntos de Respuestas múltiples, al entrar vemos dos secciones de las cuales la de Definición del conjunto está activa, aquí seleccionamos todas las variables que contengan “pg”; en la parte inferior, encontramos las opciones para elegir el tipo de conjunto que requerimos, en el caso de preguntas cerradas, seleccionamos dicotómicas, al hacerlo se activa el recuadro valor, especificamos el valor de la respuesta que representa, en nuestro ejemplo es “si ” es 1, lo agregamos en el recuadro; después indicamos  el nombre del conjunto y la etiqueta, para el primero sólo se aceptan un máximo de siete caracteres, excepto el signo $ y la etiqueta que la representa.

Para nuestro ejercicio, nombramos el conjunto marcacanjunto y la etiqueta como Marca de Automóvil, visualizamos la parte izquierda de la ventana, clic en Añadir y vemos el nuevo conjunto con el nombre de: $marcaconjuto, se agregó al recuadro con. respuestas Múlt., seleccionamos aceptar, se abre la ventana de resultados indicándonos que la operación ha sido realizada con éxito.

Ahora se propone un ejemplo de respuesta múltiple categóricas o de preguntas abiertas, nos ubicamos en el asistente de Conjuntos de Respuestas múltiples, agregamos las variables marca 1 hasta la marca 7 las cuales se representan en la siguiente tabla:

Tabla 5. Conjuntos de Respuestas múltiples.

Para el recuadro de las variables del conjunto, nos situamos en la parte inferior, elegimos en Codificación de la variable la opción Categorías y en el recuadro de Rango añadimos 1, se puede indicar hasta 28, la tabla señala el mínimo o el máximo, según corresponda.  Especificamos el nombre de la variable como abiertamarca, indicamos en la etiqueta la leyenda Marcas de Automóviles, clic en el botón Añadir, agregamos el conjunto y pulsamos el botón Aceptar, se abrirá una ventana de respuestas indicándonos que se realizó la operación con éxito.

3.2.2 Frecuencias de respuesta múltiple

En el software SPSS se pueden hacer varias actividades con los conjuntos de respuestas múltiples, ejemplo las tablas de frecuencias, cuyo procedimiento es: nos situamos en la opción Analizar>Respuesta múltiple>Frecuencia, se abre el cuadro de diálogo que cuenta con tres secciones, la primera corresponde a los conjuntos de respuesta múltiple, la segunda al seleccionador de tablas y la restante es la de valores Perdidos, esta nos permite excluir casos de acuerdo a la lista de que se trate, es decir, si son dicotómicas y de categorías. En nuestro caso agregamos tanto las $abiertamarca y $marcaconjuto y damos clic en aceptar. Lo podemos ver en la tabla que sigue:

Imagen 6. Frecuencias de respuesta múltiples.

Hecho lo anterior, se abrirá la ventana de resultado, nos presentará dos tablas: la primera corresponde al conteo de frecuencias de la variable $abiertamarca; se muestran las 28 diferentes respuestas que se indicaron respecto a las marcas, tomando en cuenta el recuento de veces que se mencionaron, así como, el porcentaje, identificamos que fue la marca Toyota la más mencionada en las entrevistas. En la segunda tabla, visualizamos la variable $marca conjunto, recordemos que era dicotómica; podemos ver representadas las 9 diferentes respuestas sugeridas por el investigador, observamos que, en este caso, la marca Mercedes Benz fue la más mencionada.

3.2.3 Pruebas Estadísticas con respuestas múltiples

Las pruebas estadísticas que pueden elaborarse con respuestas múltiples, son las tablas de contingencia, para hacerlo seguimos este procedimiento: nos ubicamos en la opción Analizar>Respuesta múltiple>Tablas de Contingencia; encontramos tres secciones: lista de variables y conjuntos, filas y columnas y capas. Para continuar con el ejemplo propuesto, en la sección de filas agregamos la variable género, en columnas indicamos el conjunto $abiertamarca y $marcaconjunto, damos clic en Definir rangos, aquí indicamos el valor mínimo de las variables, en nuestro caso es 1 y el máximo 28; seleccionamos el botón de  opciones, se despliega un cuadro de diálogo, especificamos la forma en que queremos se presenten los porcentajes; nos da la opción de definir si los porcentajes que se incluyen en la tabla estarán basados en el número de casos, es decir, por cada uno de los entrevistado o por el número de respuestas dadas por el total de ellos. Podemos indicar si se quiere que el SPSS ignore los valores perdidos; enseguida seleccionamos filas y caso, damos clic en Continuar y en aceptar en el asistente de Tablas de Contingencia, tal como lo muestran las siguientes imágenes:

Imagen 7. Tablas de contingencias respuestas múltiples.

Para finalizar dar clic en aceptar, accedemos a la ventana de resultados y nos mostrará las tablas de contingencia con el comportamiento de las respuestas múltiples, tanto abiertas como cerradas y el porcentaje por cada una de ellas.

3.3 Cubos OLAP

Los Cubos OLAP o de Procedimiento Analítico en Línea por sus siglas en inglés, consisten en tablas desplegables que se pueden modificar e interactuar con las variables, sin necesidad de volver a realizar un procedimiento. Con ello, se pueden observar los comportamientos de múltiples variables categóricas e ir modificando su combinación; además se pueden hacer análisis descriptivos. Para aplicar este conocimiento, en la carpeta de anexos abrimos el Archivo BASE DE DATOS VALORACIONES.SAV, luego el menú Analizar>Informes>Cubos OLAP, se abrirá un cuadro de diálogo mostrando todas las variables en una de sus secciones y en la otra las variables resumen, seleccionamos la variable que hará el conteo de cada uno de los datos y la sección de variable de agrupación, aquí elegimos la variable en la cual se formarán los conjuntos a sumar. En nuestro caso, agregamos la variable SUEÑO(hrs) en la sección variables de resumen y carrera a Variables de agrupación y damos clic en aceptar. Ver lo mencionado en la siguiente imagen:

Imagen 8. Cubos OLAP.

Realizado lo anterior se abrirá la ventana de visor de resultados, aparecen dos tablas: la primera corresponde al informe de los datos procesados, tomando en cuenta los porcentajes de los datos incluidos y el de los perdidos. En la otra tabla denominada Cubos OLAP, aparece el total de horas de sueño, el número de datos, la media, la desviación típica y el porcentaje correspondiente al dato de agrupación. Se puede ver en la imagen siguiente:

Para interactuar con los cubos OLAP y cambiar el criterio con el cual se está contando la variable sueño, hacemos doble clic sobre la tabla de cubos OLAP, se activa la opción para cambiarlo, pudiendo sustituirlo por alguno de los datos con que cuenta la variable carrera; pulsamos el botón de abrir lista  ( ), seleccionamos cualquiera de las carreras y podemos apreciar que cambiaron los resultados que nos muestra la tabla. Por ejemplo, si seleccionamos la carrera de Psicología Clínica, observamos que la media de horas de sueño que duermen los estudiantes de Psicología es de 6.35 horas, representando el 12% del total de población atendida.

Tabla 6. Resumen del procesamientos de los casos, cubos OLAP.

Lo mismo podemos hacer con cada una de las carreras, esto nos permite darnos cuenta que la carrera en donde duermen menos los estudiantes es la de Biotecnología.

Tabla 7. Cubos OLAP, Psicología clínica.

3.3.1 Pruebas estadísticas en cubos OLAP

Con los cubos OLAP podemos realizar una gran cantidad de pruebas estadísticas diversas, tales como: de resumen entre sí para encontrar la suma, número de casos, media, mediana, mediana agrupada, error típico de la media, mínimos, máximo, rango, valor de la variable para la primera categoría de la variable de agrupación, desviación típica, varianza, curtosis, asimetría, porcentaje de casos totales, porcentaje de la suma total dentro de las variables de agrupación, media geométrica y media armónica, entre otras.

Para acceder a estas pruebas, abrimos el cuadro de diálogo de Cubos OLAP, ingresamos por la ruta Analizar>Informes>Cubos OLAP o por el botón de Recuperar cuadros de diálogos; en el cuadro llamado cubosOLAP, agregaremos dos variables de escala sueño y edad en la sección de Variables de Resumen, indicamos también las variables categóricas carrera y género en la sección que les corresponde. Nos ubicamos en el botón de Estadísticos, se activa cuando se indican las variables resumen y agrupación, damos clic y se abrirá un cuadro de opciones llamado Cubos OLAPEstadísticos, en esta parte se divide en dos secciones: la llamada Estadísticos, corresponde a la lista de todas las pruebas que no se van a realizar; la de Estadísticos de casilla, donde se enlistan las pruebas que se realizarán a la variable resumen, para cambiar una prueba de una lista a otra es necesario seleccionarla con un clic y enseguida presionar el botón   o  según corresponda, después de establecer las pruebas que se realizarán a las variables. Para nuestro ejemplo, seleccionamos Mínimo y Máximo, con el objeto de que en la tabla nos muestre dichos valores, respecto a la variable sueño, damos clic en el botón de continuar, tal como se muestra en la imagen:

Imagen 9. Cubos OLAP, estadísticos.

Para continuar nos dirigimos a la opción de Diferencias, aquí especificamos al programa que realice comparaciones de porcentaje o aritméticas entre las variables de resumen, o entre las categorías de una variable. Esta opción se encuentra dividida en cuatro secciones correspondientes a Diferencias para estadísticos de resumen, Tipo de diferencia, Diferencias entre variables y Diferencias entre grupos de casos. Mediante estas secciones podemos especificarle al programa que realice comparaciones de porcentaje o aritméticas entre las variables de resumen o entre las categorías de una variable, esto se muestra en la imagen siguiente:

Imagen 10. Cubos OLAP, diferencias.

A manera de práctica realizamos algunos ejemplos, seleccionamos la sección de Diferencias para estadísticos de resumen y activamos la opción: “Diferencias entre variables”; en tipo de diferencia activamos la opción aritmética, se activa por la razón de que en la sección de variables de Resumen, se tienen dos o más variables a analizar; al activarse la sección Diferencias entre variables, seleccionamos la de sueño y menos género, en la etiqueta de porcentaje indicamos el nombre de la misma, en este caso: “Diferencia porcentual” y en Etiqueta aritmética tecleamos “Diferencia aritmética”, damos clic en el botón  para agregar el grupo de comparación entre estas dos variables. Esta herramienta nos permite agregar más para para obtener las diferencias. Damos clic en continuar y enseguida en aceptar en el cuadro de diálogo de Cubos OLAP, como lo vemos en la imagen:

Imagen 11. Cuadro de dialogo, Cubos OLAP.

Al cerrarse el cuadro de diálogo, se abre la ventana de resultados mostrándonos dos tablas:  la primera indica los resultados de la operación, cuántos datos se analizaron y los que se perdieron; en la segunda visualizamos los cuadros OLAP, con la diferencia que ahora tiene dos variables de agrupación y se agregaron dos filas con las diferencias entre las variables de escala, para cambiar la agrupación damos doble clic y activamos las listas desplegables para seleccionar los criterios de agrupación. El resultado lo observamos en la imagen que sigue:

Tabla 8. Cubos OLAP, resultados.

Conclusiones

Las diferentes tablas que vimos en esta unidad son de gran ayuda en estudios descriptivos, sobre todo para poblaciones con muchos casos y gran cantidad de variables que pueden estar relacionadas y se pueden comprobar mediante las pruebas estadísticas procesadas por las herramientas del SPSS.

Si se quiere conocer la interacción o el comportamiento de dos variables entre sí, de un número grande de casos, estos se pueden agrupar a través de un nuevo criterio de los datos de una variable. Esto facilita observar las tendencias de cada respuesta, las preguntas o variables que tienen diversas respuestas y, por tanto, mayor complejidad para procesarlas. El software del SPSS a través de sus diversas aplicaciones permite implementar diversos tipos de herramientas para buscar, sacar y procesar información valiosa para nuestro estudio. Por último, puede decirse que a través de este software podemos conocer y realizar pruebas estadísticas, relacionar dos variables y poder discernir entre el dato observado en la agrupación y el criterio de una variable de resumen.

Bibliografía consultada

  • LANDERO H. René (2009). Estadística con SPSS, y metodología de la investigación. 1ra ed. Editorial Trillas
  • spssfree.com
  • PALLAT, Juliet (2002). SPSS Suvirval Manual. 2end ed. Allen&Unwin,
  • CARRASCO, J.L. (1989) “El método estadístico en la investigación médica». Editorial
  • ESPERANZA Bausela Herreras (2005). SPSS: Un instrumento de análisis de dato cuantitativos. Revista de Informática Educativa y Medios Audiovisuales. Vol. 2 (4), ISSN 1667-8338
  • Gardner, C. R. (2003). Estadística para psicología usando SPSS.