Clase digital 4. Diagrama de dispersión o regresión lineal

Portada » Clase digital 4. Diagrama de dispersión o regresión lineal

Diagrama de dispersión o regresión lineal

Introducción

Te doy la más cordial bienvenida a la última clase de tu UDA Técnicas y herramientas de mejora continua. Como pudiste observar en la clase anterior, conocimos otra herramienta que es posible emplear en el análisis de un problema y determinar una solución para mejorar: el diagrama de causa-efecto, también conocido como diagrama de Ishikawa (nombrado así, ya que fue hecho por este gurú de la calidad) o espina de pescado. En la segunda clase, explicamos también en qué consiste y cómo se realiza el diagrama de Pareto.

Ambas herramientas son esenciales en los procesos de mejora continua de la calidad, ya que con ellos es posible analizar los problemas o fenómenos que se presentan, y de esa manera llegar a una posible solución. 

En esta cuarta y última clase toca el turno de conocer el diagrama de dispersión o regresión lineal. Sin más preámbulos, ¡comencemos la clase!

Desarrollo del tema

Con mucha frecuencia es necesario resolver problemas que implican conjuntos de variables, cuando se sabe que existe una relación inherente entre ellos.

A menudo se tiene una sola variable dependiente o respuesta (conocida como efecto) y la cual no se controla en el experimento. Esta variable tradicionalmente se denota como Y.  

Las ecuaciones de la regresión se van a obtener mediante el método de los mínimos cuadrados que básicamente lo que hacen es minimizar el error de fallar en el pronóstico. 

La idea consiste en minimizar el valor del MSE (mean squared error o, en español, error cuadrático medio) y a partir de ahí escoger la mejor ecuación que represente los datos.

Recordemos que la ecuación de una recta está representada por:

y = a + bx

En el caso de la regresión vamos a tener información histórica de los valores de y a determinados valores de x.

Usaremos dichos valores para encontrar los valores de a y b que minimizan el error y aproximan más cualquier recta al conjunto de datos. Estos valores son llamados los coeficientes de regresión y es lo que estamos buscando.

Vamos a revisar un ejemplo:

En un estudio médico se cree que el consumo de carne de puerco es una causa muy importante del sobrepeso extremo antes de los 40 años. Se tomó una muestra de 15 pacientes menores de cuarenta años y se investigó su consumo en kilos de carne de puerco en los último cuarenta años, así como los kilos de sobre peso que tenían. Con estos datos encuentra la ecuación de regresión para estos hombres y pronostique qué sobrepeso se espera que tenga un hombre mayor de 40 años que consumió 25 kilos de carne de puerco el año pasado.

Las sumas de los totales de la parte inferior los usaremos para encontrar los valores de a y b. Debe quedar claro que XY es el producto de X por Y, esto es, (14)X(19.10) = 267.38 y así cada valor; y X2 y Y2 son los valores de X y Y elevados al cuadrado.

Coeficiente de determinación

Al elevar al cuadrado el coeficiente de correlación, se obtiene el valor del coeficiente de determinación. Este valor va a ser importantísimo porque nos va a medir el porcentaje de cambio en y, debido al cambio en una unidad de x.
Esto se puede interpretar como el porcentaje de cambio en y por el efecto en x; si la determinación es alta significa que la variable y depende en gran medida de la variable x.

El coeficiente de correlación va a ser la medida de la fuerza de la relación entre las variables. Tomará valores desde -1 hasta 1. Cuando el valor del coeficiente se acerca a 1 se habla de una fuerte correlación positiva, mientras que cuando se acerca a -1 se tiene una fuerte correlación negativa. Si el valor del coeficiente se acerca a cero se dice que tiene poca o nula correlación.

Conclusión

En conclusión, para verificar el modelo es necesario determinar cuál es la relación de modelo que mejor se ajusta a sus datos y evaluar la fuerza de la relación. También se necesita determinar el patrón, si la    gráfica de dispersión tiene grupos, puede buscar patrones relacionados con los grupos. Posteriormente, es importante buscar diferencias en las relaciones x-y entre los grupos de observación.

Buscar otros patrones para los valores atípicos pueden indicar condiciones inusuales en sus datos. Las tendencias basadas en el tiempo pueden indicar un cambio en las condiciones de los datos.

El gráfico de dispersión puede mostrar información adicional en líneas de referencia o varios tipos distintos de curvas. Estas líneas o curvas podrían, por ejemplo, mostrar si los puntos de los datos se adaptan bien a un ajuste de curva polinómica determinado, o resumir un conjunto de puntos de datos de muestra ajustándolos a un modelo que describirá los datos y mostrará una curva o una línea recta sobre la visualización. La curva normalmente cambia su aspecto en función de los valores que se hayan filtrado del análisis. Al pasar por encima el ratón, una sugerencia sobre herramienta mostrará la forma en que se calcula la curva.

Has llegado a la etapa final de este proceso formativo, no me queda otra cosa que agradecer tu participación y entusiasmo al mismo. Sin más por el momento, me despido.

Información recuperada del documento original disponible en:
https://es.slideshare.net/edderLord/39209510-pronosticos

Fuentes de información