Qué es la Regresión Lineal Múltiple y cómo analizarla en 4 pasos

Regresión lineal múltiple

La regresión lineal es una técnica estadística destinada a analizar por qué pasan las cosas o cuáles son las principales explicaciones de algún fenómeno. A partir de los análisis de regresión lineal múltiple podemos:

  • identificar que variables independientes (causas) explican una variable dependiente (resultado)
  • comparar y comprobar modelos explicativos
  • predecir valores de una variable, es decir, a partir de unas características predecir de forma aproximada un comportamiento o estado

regresion lineal multiple

 

 

 

Este tutorial enseña a analizar la regresión lineal múltiple en 4 sencillos pasos, sin complicaciones ni lenguaje sofisticado, todo directo y claro para que seamos capaces de entender investigaciones que aplican regresión lineal y ser capaces de usarla en nuestros estudios cuando queramos averiguar las las causas de algún fenómeno.

Qué es la regresión lineal múltiple:

La regresión lineal múltiple es la gran técnica estadística para comprobar hipótesis y relaciones explicativas. Ante de empezar, una serie de condiciones que se deben cumplir para poder aplicar la regresión lineal múltiple:

  • La variable dependiente (resultado) debe ser escalar (numérica) o bien ordinal de más de 5 categorías, es decir, las categorías de la variable dependiente deben tener un orden interno o jerarquía, p.ej. nivel de ingresos, peso, número de hijos, justificación del aborto en una escala de 1-nunca a 10-siempre.
  • Las variables independientes (explicaciones) deben ser escalares (numérica), ordinales (también se recomienda con más de 5 categorías, p.ej. nivel de ingresos) o dummy (variables de dos categorías donde una indica existencia o otra no-existencia, p.ej. 1-ser soltero, 0-no ser soltero).
  • Hay otras condiciones como: las variables independientes no puede estar altamente correlacionadas entre sí, las relaciones entre las variable independientes y la variable dependiente deben ser lineales, todas variables (o mejor dicho sus residuales) deben seguir la distribución normal y deben tener varianzas iguales. Estas condiciones son importantes pero hay maneras de tratar los datos si se incumple alguna de ellas. Sobre ello volveremos en futuras entradas

Cómo analizar la regresión lineal múltiple en 4 pasos:

Seguid estos 4 pasos y podréis leer investigaciones que apliquen regresión lineal múltiple, y también podréis analizar datos usando la regresión lineal múltiple, por tanto, seréis capaces de resolver preguntas explicativas y comprobar relaciones o hipótesis de si A explica B. Por ejemplo, ¿qué factores explican los niveles de desigualdad de un país? ¿Qué variables explican la opinión respecto a la inmigración? ¿Son las variables religiosas, las variables políticas, o las variables sociodemográficas las que explican en mayor medida la opinión respecto al aborto?

Los dos primeros pasos hacen referencia a la bondad del modelo, es decir, si el conjunto de variables independientes (explicaciones) se relacionan con la variable dependiente (resultado)

1 – Significación de F-test: si es menor de 0,05 es que el modelo es estadísticamente significativo y por tanto las variables independientes explican “algo” la variable dependiente, cuánto “algo” es la R-cuadrado

2 – R cuadrado: es cuánto las variables independientes explican la variable dependiente, indica el porcentaje de la varianza de la variable dependiente explicado por el conjunto de variables independientes. Cuanto mayor sea la R-cuadrado más explicativo y mejor será el modelo explicativo.

Los dos siguientes pasos hacen referencia a la influencia de cada una de las variables independientes:

3 – Significación de t-test: si es menor de 0,05 es que esa variable independiente se relaciona de forma significativa con la variable dependiente, por tanto, influye sobre ella, es explicativa, ayuda a predecirla

4 – Coeficiente beta (β): indica la intensidad y la dirección de la relación entre esa variable independiente (VI) y la variable dependiente (VD):

  • cuanto más se aleja de 0 más fuerte es la relación
  • el signo indica la dirección (signo + indica que al aumentar los valores de la VI aumentan los valores de la VD; signo – indica que al aumentar los valores de la VI, los valores de la VD descienden)

Realicemos un ejemplo de regresión lineal múltiple:

Quiero saber cuáles son los factores que explican la justificación del aborto en España usando los datos de la Encuesta Mundial de Valores de 2005. A partir de mi observación de la realidad y la lectura de investigaciones sobre el tema propongo un modelo explicativo que incluye las siguientes variables:

Variable dependiente: 
  • justificación del aborto: Se preguntó a los encuestados en qué grado en una escala de 1 a 10 justificarían el aborto, donde 1 es nunca lo justificaría y 10 siempre lo justificarían.
Variables explicativas:
  • Importancia de Dios en la vida: se preguntó en una escala de 1 a 10, donde 1 es nada importante y 10 es muy importante
  • Nivel educativo: se preguntó cuál es el último nivel educativo alcanzado donde 1 es sin estudios primarios completos, 2 es primarios completos, 3 es secundarios completos y 4 es universitarios completos.
  • Nivel de ingresos: se preguntó sobre cuánto gana al mes en una escala del 1 al 10 con diversos rangos salariales
  • Edad
  • Número de hijos
  • Confianza en el gobierno: se preguntó sobre el
    nivel de confianza en el gobierno en una escala de 1 a 4 donde: 1 es confío
    mucho, 2 es confío bastante, 3 es confío poco y 4 es que no confío nada

En el programa estadístico SPSS pinchamos sobre Analizar > Regresión > Lineales

Este es el output en SPSS que pasaremos a interpretar en 4 pasos
 
ANOVA
Modelo
Suma de cuadrados
gl
Media cuadrática
F
Sig.
1
Regresión
2705,530
6
450,922
73,137
,000a
Residual
6276,386
1018
6,165
   
Total
8981,916
1024
     
 
Resumen del modelo
Modelo
R
R cuadrado
R cuadrado corregida
Error típ. de la estimación
1
,549a
,301
,297
2,483
 

Sobre la bondad del modelo

  1. La significación de F es menor de 0,05 por tanto el modelo es un bueno para explicar la variable dependiente, es estadísticamente significativo
  2. La R-cuadrado es 0,301 lo cual indica que el modelo explica el 30,1% de la varianza de la variable dependiente. Casi un tercio de la justificación del aborto es explicado por este conjunto de variables independientes (explicativas) seleccionadas. 

Sobre la influencia de las variables explicativas:

3- Significación de t-test: Las variables importancia de Dios, nivel educativo, edad y confianza en el gobierno sí explican la justificación del aborto ya que la significación es menor de 0,05. Las variables nivel de ingresos y número de hijos no se relacionan con la justificación del aborto ya que la significación es mayor de 0,05.

4- Coeficientes beta (β): La variable independiente que más explica la opinión de las personas respecto al aborto es la importancia de Dios ya que la beta (-0,408) se aleja más de cero. El signo negativo indica que a menos importancia se le da a Dios, más justificación-tolerancia del aborto. Las siguientes variables que más explican son la edad (beta = -0,170), a más edad menos tolerancia al aborto, y la confianza en el gobierno (beta = -0,168), a más confianza en el gobierno más tendencia a justificar-tolerar el aborto (OJO en el orden de las categorías de las variables para leer el signo y dirección de las relación). Además, a más nivel educativo más tendencia a justificar el aborto (0,078), aunque la fortaleza de esta relación es menor, al estar el valor de beta más cercano a 0.

Este ejemplo es útil para entender la alta oposición a las políticas del gobierno en España de restricción del aborto y puede apuntar a las consecuencias negativas para los gobiernos, ya que sabiendo las explicaciones de un fenómeno se puede predecir qué sucederá.

En fin, siguiendo la lectura de estos cuatro estadísticos podemos comprender de forma clara y sencilla los resultados al aplicar una regresión lineal múltiple. Espero que os haya ayudado a ver que la estadística no es un mundo incomprensible, la clave es seguir un protocolo, en este caso 4 pasos. Si te gustó o sirvió este artículo, por favor, compártelo por Facebook, Twitter, o Linkedin. Grácias

 

Publicado por

Julian Cardenas

Profesor de investigación cuantitativa y análisis de redes. Doctor en Sociología. Aficionado al fútbol y escuchar música. @juliancardenasx