Introducción
Cuando se analizan datos, el interés del especialista en estadística suele centrarse en reorientar y actualizar el enfoque con el que se debe abordar el estudio de los métodos estadísticos, con la finalidad de despertar en los estudiantes la inquietud por aprender, analizar las relaciones que se dan entre variables y resolver los problemas y casos planteados.
En las unidades pasadas se estudiaron y analizaron variables de tipo cualitativo y la descripción de sus grupos. En esta unidad se abordará lo referente a la medición de la relación que existe entre variables cuantitativas. Es muy común que las personas tomen decisiones en la vida cotidiana y profesional basadas en predicciones de sucesos futuros. Para hacerlo, se fundamentan en la relación intuitiva y calculada entre lo que ya se sabe y lo que se debe estimar. Si se dieran cuenta que se puede determinar cómo lo conocido se relaciona con un evento futuro, facilitarían el proceso de toma de decisiones.
Por ejemplo, se sabe que existe una relación entre la frustración y la agresión, entre la presión arterial y un accidente cerebro-vascular, entre la obesidad y la diabetes; en los tres casos hay una relación entre dos variables, pero no conocemos la naturaleza y fuerza de la misma. Si se observa con detenimiento, obtendremos datos e información que podemos medir, experimentar y formular hipótesis para comprobarlas y generar conclusiones. Cualquier método estadístico que tenga como finalidad establecer una ecuación que permita estimar el valor desconocido de una variable a partir del valor conocido de una o más variables, se denomina análisis de regresión, en esta unidad lo estudiaremos paso a paso. Primero revisaremos la
correlación lineal con sus procedimientos de dos factores, así mismo, se analizará el procedimiento que se sigue para obtener con el SPSS los índices que nos permitan medir y determinar si existe o no la relación de las variables y si es fuerte o débil.
Con el estudio de la unidad didáctica se pretende también, comprender a profundidad el procedimiento correspondiente a la correlación parcial para realizar las pruebas de esta naturaleza que nos permitan establecer la relación neta entre dos variables. Además, se revisarán dos procedimientos de regresión lineal que son: la simple y la múltiple.
Dichas técnicas estadísticas se pueden utilizar en un sinfín de situaciones, en las investigaciones de corte social para predecir amplios rangos de fenómenos que se presentan desde condiciones psicológicas, de comportamiento humano, económicas, de factores que condicionan la salud. El análisis de regresión lineal se utiliza para explorar y cuantificar la relación de una variable independiente, con una dependiente que en cualquier momento puede ser modificada por la primera. Por ejemplo, refiriéndonos a los condicionantes de la salud, se puede afirmar que el nivel socioeconómico de las personas es uno de ellos. En este caso las personas con nivel socioeconómico bajo tienen más riesgos a perder la salud, en este ejemplo el nivel socioeconómico es una variable independiente puesto que no depende de otras circunstancias, ni de la otra variable que sería riesgo a la salud. En otros casos existen relaciones de más de dos variables dependientes. Por lo cual este en este capítulo revisaremos tanto el caso de dos variables, regresión simple, como de más de dos variables regresión múltiple.
Competencias
- Identifica las diferentes partes que componen el paquete estadístico SPSS, así como, las principales herramientas que le ayudarán a realizar un análisis estadístico de correlación y regresión simple y múltiple.
Elementos de la competencia:
- Distingue las diferentes partes del SPSS y la funcionalidad de sus herramientas.
- Utiliza datos de captura de forma adecuada en el software estadístico para su futuro análisis.
- Aplica las herramientas referentes al estudio de la regresión y correlación simple y múltiple.
- Obtiene resultados que puede importar y utilizar en otros medios electrónicos o físicos.
Contenido
5.1 Correlación Lineal Simple
El termino correlación se refiere al grado de variación conjunta existente entre dos o más variables. En esta unidad nos vamos a centrar en el estudio de la relación lineal de dos variables, en sus dos tipos:
1. Correlación Positiva, en la cual las dos variables varían de forma directa; dicho, en otros términos, sería que cuando una variable se incrementa la otra también, por ejemplo, a mayor ejerció semanal, mayor capacidad cardiorrespiratoria.
2. Correlación negativa, en la cual las dos variables son indirectamente proporcionales, mientras una sube la otra variable baja o viceversa, por ejemplo, a mayor cantidad de cigarrillos diario menor es la capacidad cardiorrespiratoria. La forma más visual e intuitiva para poder observar qué tipo de relación existe entre dos variables, se da por medio de un diagrama de dispersión, consistente en una ilustración gráfica que se usa en el análisis de regresión. Se representa por medio de una tabla de coordenadas X y Y cómo las variables y las interacciones entre ellas; se visualiza mediante una dispersión de puntos tal que cada punto representa un valor de la variable independiente (medido a lo largo del eje horizontal), y un valor asociado de la variable dependiente (medido a lo largo del eje vertical). En la siguiente imagen podemos observar tres gráficas, de las diferentes dispersiones que nos puede arrojar esta:
Al observar la imagen nos damos cuenta que en la primera se da una correlación positiva, pues la dispersión está tomando la forma de una diagonal ascendente de izquierda a derecha, esto es porque mientras una variable sube la otra también; en la segunda, se ven dos variables sin relación entre ellas; en la tercera observamos una dispersión de dos variables con correlación negativa, donde la recta horizontal decrece de izquierda a derecha porque mientras una variable aumenta la otra disminuye. Mediante estas gráficas también se puede cuantificar el grado de relación existente entre las variables, simplemente fijándonos qué tanto salen los puntos de dispersión de la línea recta, entre más cercanos estén los puntos a esta, significa que existe una fuerte relación entre las variables y entre más alejados de la línea y más dispersos, significa que la relación es débil, podemos observarlo en la siguiente imagen:
Estos grados de correlación pueden calcularse de manera unilineal, se denominan coeficientes de correlación y sirven para cuantificar el grado de relación existente entre variables. El Software estadístico SPSS cuenta con un procedimiento para obtenerlos, iniciamos explicando el procedimiento, para ello, nos vamos a la carpeta de anexos y abrimos el archivo behavior_ini.sav, aquí se encuentran los resultados de un estudio referente a valorar una situación para decidir si es apropiada o no; se aplicó a 52 estudiantes. El archivo contiene una configuración bidimensional, la primera se utilizó para indicar el lugar donde se encuentran ubicados los siguientes espacios: iglesia, cuarto, baño, salón de clases, otros y la segunda para indicar
diferentes acciones, tales como: dormir, eructar, escuchar música, estudiar, hablar, entre otras. Lo que trató de comprobarse es la correlación que puede establecerse entre lugares y acciones y determinar si son aceptables, por ejemplo, dormir en la Iglesia o comer en el salón de clases, entre otras. Para desarrollarlo nos ubicamos en el menú Analizar>Correlaciones>Bivariadas, nos abrirá un cuadro de diálogo, compuesto por estas cuatro secciones:
A) Primera: es la referente a la lista que ya conocemos y que contiene todas las variables, se visualiza mediante un recuadro con el nombre de estas, en la parte inferior encontramos los tres coeficientes de correlación que contiene esta herramienta y que son:
- Coeficiente de correlación de Pearson (1896) es, quizá el mejor coeficiente y el más utilizado para estudiar el grado de relación lineal existente entre dos variables cuantitativas. Suele representarse por r, toma valores entre -1 y 1; el valor 1 positivo indica que existe una fuerte correlación entre las variables y que esta es directa o positiva. Cuando es negativa la relación es inversa y entre más cercano este el coeficiente de 1 o -1 quiere decir que la correlación es más fuerte y entre más cercano esté a cero la correlación es más débil o nula.
- Coeficiente de correlación Tau-b de Kendall es una medida no paramétrica de asociación para los datos ordinales. La utilización de este coeficiente tiene sentido si las variables no alcanzan el nivel de medida de intervalo y no se puede suponer que la distribución
- Coeficiente de correlación rho de Spearman (1904) es el mismo de Pearson, pero aplicado después de trasformar las puntuaciones originales en rangos. Toma valores entre -1 y 1 y se interpreta exactamente igual que el de Pearson. Al igual que los coeficientes ya mencionados puede utilizarse como una alternativa, cuando las variables ordinales estudiadas incumplen el supuesto de normalidad.
Junto con cada coeficiente de correlación se encuentra en la última parte, la herramienta de bivariadas que ofrece la información necesaria para contrastar la hipótesis nula en el valor poblacional del coeficiente de correlación de Pearson, el SPSS permite seleccionar el nivel crítico deseado:
Junto con cada coeficiente de correlación, el Visor ofrece la información necesaria para contrastar la hipótesis nula de que el valor poblacional del coeficiente es cero. El SPSS permite seleccionar el nivel crítico deseado:
En la parte inferior de esta herramienta, se encuentra una casilla que corresponde a marcar las correlaciones significativas. Esta opción, que se encuentra activa por defecto, marca con un asterisco los coeficientes de correlación significativos al nivel 0,05 y, con dos asteriscos, los significativos al nivel 0,01. Se puede observar en la siguiente imagen:
Para este ejercicio se ha elegido el dim1 y la variable dim2, se selecciona la sección de coeficientes de correlación, se da clic en Pearson y el tipo de Prueba de significación; dejamos seleccionada la opción Bilateral y activada la casilla de Marcar las Correlaciones Significativas. El subcuadro opciones, permite solicitar estadísticos adicionales y determinar el tratamiento de los valores perdidos. Al pulsarlo nos aparece el cuadro de diálogo de esta figura:
Estadísticos. Si se ha elegido el coeficiente de Pearson, las opciones de este recuadro permiten seleccionar una o más de las siguientes opciones:
- Medias y desviaciones típicas: muestra, para cada variable, la media, la desviación típica (insesgada) y el número de casos válidos.
- Productos cruzados y covarianzas: muestra, para cada par de variables, los productos cruzados de las desviaciones de cada puntuación respecto de su media y la covarianza.
En segunda instancia, las opciones de este recuadro permiten seleccionar el tratamiento que se desea dar a los valores perdidos. En la parte inferior se muestra la opción de Excluir casos según pareja. Por tanto, excluye del análisis los casos que tengan valores perdidos en cualquiera (o en ambas) de las variables de una pareja implicada en el cálculo de un estadístico específico. También permite la opción de excluir los casos que tienen valores perdidos en cualquiera de las variables utilizadas en cualquiera de los análisis.
Para este cuadro de diálogo se elige la opción, medidas y desviaciones típicas, y en la sesión de valores perdidos se deja activado excluir casos según la lista. Enseguida damos clic en continuar y nos regresa al cuadro de diálogo de bivariadas, finalmente seleccionamos aceptar y nos desplegará la ventana del visor de resultados, mostrándonos los resultados de nuestra prueba, tal como aparecen en estas tablas:
Como se puede observar, tenemos una tabla de correlaciones mostrándonos primeramente las pruebas estadísticas que indicamos que haga el programa, en el cuadro de diálogo de opciones podemos ver la tabla con los resultados de la prueba de coeficiente de correlación de Pearson, se puede ver que, el coeficiente de correlación es mayor a 5, lo cual indica que existe una correlación débil, entre si es aceptable que ciertas acciones se realicen en los diferentes lugares mencionados, el coeficiente es positivo, derivándose que la correlación es directa.
5.2 Correlaciones Parciales
El procedimiento de correlaciones parciales permite estudiar la relación existente entre dos variables cuantitativas controlando el posible efecto de una o más variables cuantitativas extrañas. Un coeficiente de correlación parcial es una técnica de control estadístico que expresa el grado de relación lineal existente entre dos variables, tras eliminar de ambas el efecto atribuible a terceras variables.
Por ejemplo, se sabe que la correlación entre las variables inteligencia y rendimiento escolar es alta y positiva. Sin embargo, cuando se controla el efecto de terceras variables como número de horas de estudio o el nivel educativo de padres, la correlación entre inteligencia y rendimiento desciende, lo cual indica que la relación entre inteligencia y rendimiento está condicionada, depende o está modulada por las variables sometidas a control.
Para seguir con el ejemplo y realizar este procedimiento, se abre el archivo Workprog.sav que se encuentra en la carpeta de anexos correspondiente a esta unidad didáctica, ahí se encontrarán datos hipotéticos sobre un programa de obras del gobierno que intenta colocar a personas desfavorecidas en mejores trabajos. Se tomó una muestra de participantes potenciales del programa, algunos de los cuales se seleccionaron aleatoriamente para entrar en el programa, mientras que otros no siguieron esta selección aleatoria. Cada caso representa un participante del programa diferente. Para llevarlo a cabo, nos dirigimos al menú
Analizar>Correlaciones>Parciales, se abre un cuadro de diálogo, la palabra Observar indica que el software cuenta en el recuadro con la lista de todas las variables que están contenidas en la base de datos, a un lado se observa un recuadro llamado Variables, en el cual se especifican aquellas que se tomarán en cuenta para realizar la prueba de correlación parcial, en la parte de abajo se encuentra el recuadro Controlando para, ahí se indicará cuáles variables controlarán el comportamiento de la relación entre las ellas; en la parte inferior se encuentra la opción de prueba de significación, es la misma que se utiliza en la prueba de bivariadas y que pueden ser:
- Bilaterales, se utiliza cuando no se sabe la dirección de la relación (positiva o negativa). Esta indica la probabilidad de obtener coeficientes alejados de cero o e valor absoluto del coeficiente.
- Unilaterales, se usan cuando conocemos la dirección de la relación. Indica la probabilidad de obtener coeficientes mayores o menores si es negativo que el obtenido.
En la parte inferior se encuentra un cuadro de selección que muestra el nivel de significación real. Esta opción se encuentra activada por defecto, permite obtener el nivel de correlación parcial. Para seguir con el ejemplo, se seleccionan las variables: Ingresos antes del programga[ingant] e ingresos nuevamente después del programa[indes]; en el recuadro Controlado para: se eligen las variables, Estado Civil[ecivil] y Nivel Educativo[ed]; en la sección de Prueba de significación, dejamos seleccionada la opción Bilateral y de igual manera el cuadro de selección de Mostrar el nivel de significación real. A continuación, nos dirigimos a el botón de opciones y abriremos un nuevo cuadro de dialogo, como lo muestra la siguiente imagen:
En este nuevo cuadro se puede configurar lo mismo que se realizó en la herramienta Bivariadas, se selecciona Estadísticos y elegir la opción que corresponde de estas dos:
- Medias y desviaciones típicas: muestra, para cada variable, la media, la desviación típica (insesgada) y el número de casos válidos.
- Productos cruzados y covarianzas: Muestra, para cada par de variables, los productos cruzados de las desviaciones de cada puntuación respecto de su media y la covarianza.
En segunda instancia la parte inferior que nos muestra la opción de Excluir los casos según pareja con valor perdido en alguna de las dos variables que están correlacionando o Excluir casos según lista, Se excluyen del cálculo de todos los coeficientes de correlación solicitados los casos con valor perdido en cualquiera de las variables seleccionadas en la lista Variables. Para este ejercicio seleccionaremos tanto la opción Medidas y desviaciones típicas y la opción correlaciones de orden cero. Enseguida damos en el botón continuar y finalmente a aceptar para que el software SPSS haga el procedimiento, como se muestra en la imagen:
Automáticamente se nos desplegará la ventana de resultados mostrándonos dos tablas como resultado del procedimiento de correlaciones Parciales. La primera nos ofrece una serie de medidas descriptivas donde observamos la media y la desviación estándar de las variables seleccionadas, como se visualiza en la tabla siguiente:
La segunda tabla muestra las correlaciones en dos secciones, en la primera podemos observarlas sin ninguna variable de control, en una matriz de parrilla donde la intersección entre ellas, nos ofrece el coeficiente de Correlación de Pearson y el nivel de significación real; en la otra parte, se visualiza la correlación de las variables obtenidas con las variables de control, esto lo podemos ver en la tabla que sigue:
Como podemos observar en la correlación de salario antes del programa y los ingresos después del programa tienen una correlación de .589 indicando una correlación débil, con un nivel de significación de 0 por lo que se puede decir que, existe correlación entre las dos variables, y en la sección de variables de control podemos ver que la correlación entre estas dos variables es de .507 bajando su coeficiente; se puede concluir que el estado civil y el nivel educativo si interfieren en la correlación de las dos variables analizadas.
5.3 Regresión lineal simple.
Como ya se mencionó anteriormente, el análisis de regresión lineal es una técnica estadística que permite estudiar una variable dependiente y una o más variables independientes; en esta unidad se habló que, al graficar una correlación lineal, la dispersión genera una tendencia vertical de las intersecciones de los datos en la misma. No existe una correlación perfecta, por tanto, esta nunca forma una recta perfecta; una función de la regresión lineal es calcular una recta que represente todos los puntos de la gráfica y así, poder calcular el coeficiente de relación que existe entre ellos. También se puede medir la tendencia de los puntos y así mismo, poder realizar predicciones de la una de las variables conociendo la otra y ver si existe relación entre ellas. Esto se visualiza en la siguiente imagen:
El Coeficiente de determinación es una medida estandarizada que toma sus valores entre 0 y 1, el 0 indica que no existe interacción entre las variables, por lo tanto, son independientes; el 1, es la relación perfecta entre ellas, este coeficiente nos puede dar información muy intuitiva ya que representa el grado de acierto que podemos tener al predecir una variable, conociendo el dato de la otra. Entre más cercano sea este coeficiente a 0 es menos probable que nuestra predicción sea certera y tenga mayor validez cuando el coeficiente de Determinación sea más cercano a 1. Este procedimiento implica obtener la ecuación de la recta que mejor exprese la relación entre la variable dependiente y la independiente, estimando el coeficiente de determinación.
A diferencia de las pruebas de correlación, la regresión más que un modelo para medir la relación que existe entre dos variables, es un modelo predicativo basado sobre la recta que representa todos los datos de la dispersión como se vio en la gráfica anterior. Si recuerdan, en sus clases de Geometría Analítica del bachillerato, para calcular cualquier punto en una recta y en este caso predecir el valor de la variable independiente conociendo el valor de la dependiente, es necesario sustituir los valores en la fórmula general de recta:
Donde:
a es la constante
b el coeficiente
x la variable dependiente
Y la variable independiente
Se va a realizar un ejemplo para comprender mejor el procedimiento de regresión lineal. Accedemos a la base de datos utilizada en el ejercicio anterior Workprog.sav, se encuentra en la carpeta de anexos de la unidad, nos dirigimos al menú Análisis>Regresión>Lineales, al dar clic se abrirá una ventana donde se pueden visualizar varias sesiones, de las cuales sólo se utilizarán dos, la primera llamada Dependientes donde se ingresa la variable dependiente en la que se basará el procedimiento; la segunda sesión a usar es la llamada Independientes, donde se añadirán las variables independientes que serán contrastadas con la regresión en la variable Dependientes. Para fines de este ejercicio solo se agrega la Variable Ingresos después del programa [ingdes] al recuadro de Dependientes y la variable Ingresos antes del programa [ingant] a la lista de Independientes, esto debido a que los ingresos antes del programa están dados antes de la intervención, y los ingresos después del programa están condicionados de cierta forma por los ingresos antes del programa. Enseguida se da clic en aceptar y se desplegará el visor de resultados con varias tablas que serán analizadas por partes:
Se pueden observar cuatro tablas en el visor de resultados: la primera muestra la variable independiente y la dependiente; la segunda el resumen del modelo, donde se puede apreciar que R se refiere al coeficiente de correlación de Pearson que existe entre las variables Ingresos antes e ingresos después del programa. En el caso de este ejemplo, se constata que existe una correlación débil, pues el coeficiente es .589; la R cuadrado corregida indica el coeficiente de Determinación, mostrando la
certeza de la predicción de la fórmula de la recta de regresión, en el ejemplo se obtuvo un R2 de .347 infiriendo con ello, que existe un 34% de probabilidad de que la predicción sea cierta, todo se muestra en la siguiente tabla:
La tercera tabla llamada ANOVA muestra el análisis de la varianza, sirve para identificar si los resultados obtenidos del análisis de las variables son útiles para construir un modelo de predicción basado en la curva de regresión. Es importante observar la columna Sig. donde se muestra el coeficiente de significación de los resultados obtenidos, si resulta un coeficiente menor a 0.05 indica que los datos son útiles para realizar uno de predicción, en este ejemplo, el coeficiente de significación es 0.000, lo cual indica que se pueden usar estos datos para realizar una predicción.
La ultima tabla llamada Coeficientes (imagen siguiente) contiene los datos que se requieren para realizar una ecuación de predicción. Al observarla, encontramos que la constante es igual a 1.54 (solo se toman dos decimales para la ecuación) y en la fila Ingresos antes del programa el coeficiente de predicción es igual a 1.68, solo queda sustituir los valores en la fórmula de la recta, se observa en la siguiente imagen:
Para finalizar, vamos a suponer que conocemos el ingreso de una persona antes del programa y que es de $ 20.00, usando el modelo de regresión lineal para estas variables podemos inferir cuál era el ingreso antes del programa. Para esto, realizamos lo siguiente:
Es bueno recordar que esta predicción no es tan acertada ya que el R2 nos dice que hay un 34% de certeza en la predicción.
Conclusiones
Para finalizar esta unidad y a manera de conclusión se puede afirmar que las técnicas de correlación y regresión cuantifican la relación estadística que se da entre dos o más variables. La regresión lineal expresa la asociación entre una variable dependiente y una independiente, manifestándose en términos de la pendiente y la intersección de la línea que mejor se ajuste a las variables. En cambio, la correlación simple indica el grado o la cercanía de la relación entre las dos variables, expresado en términos de un coeficiente de correlación que aporta una medida indirecta de la variabilidad de los puntos en torno de la mejor línea de ajuste. Ninguna de las dos da pruebas respecto a las relaciones causa – efecto, no es su función.
Bibliografía consultada
- Bronfenbrenner, U. (1979). Theecology of human development. Cambridge: Harvard UniversityPress; BOUCHARD, C. (1981). Perspectivesécologiques de la relationparent(s)-enfant(s): des compétences parentales aun compétences
environnementales. Apprentissage et Socialisation, 4, 4-23. - Gobierno Federal. SINAVE. (2012). Perfil Epidemiológico de la Salud Mental en México. México DF.
- Moreno Jiménez B. y Col. Personalidad positiva y salud. Universidad Autónoma de Madrid. Madrid España. Disponible en:
https://www.uam.es/gruposinv/esalud/Articulos/Psicologia%20Positiva/PERSONALIDAD-POSITIVA-Y-SALUD.pdf - Martorell, José Luis. Prieto José Luis. Fundamentos de la psicología. Ed. Centro de Estudios Ramón Areces. Colección de Psicología. Capítulo 11.
- Rebraca S. Louise. Enfermería psiquiátrica y de salud mental. Conceptos básicos. Ed. Mc Graw Hill. Interamericana. 6ª Edición.