Qué es la regresión logística binaria y cómo analizarla en 6 pasos

Regresión logística binaria

La regresión logística es un grupo de técnicas estadísticas que tienen como objetivo comprobar hipótesis o relaciones causales cuando la variable dependiente es nominal. Es algo compleja, aunque trataremos de hacer un tutorial sencillo para que se entienda y sobre todo para que la podáis usar en investigaciones, proyectos, tesis o consultorías ya que tiene mucha utilidad para comprender las causas de los fenómenos y los comportamientos.

Hay varios tipos de regresión logística, las 2 principales
son:

Regresión logística binaria – se usa cuando la variable dependiente es una variable binaria, es decir, de solo dos categorías, también conocidas como dummy o dicotómica. Por ejemplo: 1-Sí, 0-No o por ejemplo 1-Soltero, 0-No Soltero
Regresión logística multinomial – se usa cuando la variable dependiente es una variable nominal de más de 2 categorías, de ahí su nombre multi-nomial. Por ejemplo: 1-Soltero, 2-Casado, 3-Divorciado, 4-Viudo 5-Otros; o por ejemplo: 1- Comedia, 2-Acción, 3-Suspense, 4-Drama, 5-Policiaco, 6-Otros.

Hoy nos centramos en explicar qué es la regresión logística binaria y cómo analizarla en 6 pasos.

Cómo analizar la regresión logística binaria en 6 pasos:

La regresión logística binaria es la técnica estadística que tiene como objetivo comprobar hipótesis o relaciones causales cuando la variable dependiente (resultado) es una variable binaria (dicotómica, dummy), es decir, que tiene solo dos categorías.

Aunque su lectura se asemeja a la regresión lineal múltiple, la cual se usa cuando la variable dependiente es ordinal o escalar, la regresión logística está basada en principios diferentes como los odd ratio y las probabilidades. Esto es algo complejo y largo de explicar, pero en pocas palabras se basa en la idea que las variables independientes tratan de predecir la probabilidad que ocurra algo sobre la probabilidad que no-ocurra. Por ejemplo, si queremos explicar por qué la gente vota o no-vota en las elecciones, y
nuestras variables independientes o predictoras son el nivel de ingresos, la
escala ideológica (izquierda-derecha) y nivel educativo, los estadísticos
obtenidos a través de la regresión logística binaria señalarán si las variables
independientes son buenas predictoras o explicadoras del evento de votar.

En lugar de 4 pasos como en la regresión lineal múltiple, en este caso analizamos la regresión logística binaria en 6 pasos:

Sobre la bondad del modelo:

1. Significación de chi-cuadrado del modelo en la prueba ómnibus: Si la significación es menor de 0,05 indica que el modelo ayuda a explicar el evento, es decir, las variables independientes explican la variable dependiente.

2. R-cuadrado de Cox y Snell, y R-cuadrado de Nagelkerke: Indica la parte de la varianza de la variable dependiente explicada por el modelo. Hay dos R-cuadrados en la regresión logística, y ambas son válidas. Se acostumbra a decir que la parte de la variable dependiente explicada por el modelo oscila entre la R-cuadrado de Cox y Snell y la R-cuadrado de Nagelkerke. Cuanto más alto es la R-cuadrado más explicativo es el modelo, es decir, las variables independientes explican la variable dependiente.

3. Porcentaje global correctamente clasificado: Este porcentaje indica el número de casos que el modelo es capaz de predecir correctamente. Me explico. En base a la ecuación de regresión y los datos observados, se realiza una predicción del valor de la variable dependiente (valor pronosticado). Esta predicción se compara con el valor observado. Si acierta, el caso es correctamente clasificado. Si no acierta, el caso no es correctamente clasificado. Cuantos más casos clasifica correctamente (es decir coincide el valor pronosticado con el valor observado) mejor es el modelo, más explicativo, por tanto, las variable independientes son buenas predictoras del evento o variable dependiente. Si es modelo clasifica correctamente más del 50% de los casos, el modelo se acepta. Si no, punto y final y a volver a empezar, y seleccionaríamos nuevas variables independientes. Los siguientes pasos son para evaluar la relación de cada variable independiente con la variable dependiente

Sobre la relación de las variables independientes con la variable dependiente:

4. Significación de b: si es menor de 0,05 esa variable independiente explica la variable dependiente

5. Signo de b: indica la dirección de la relación. Por ejemplo, a más nivel educativo mayor probabilidad que suceda el evento.

6. Exp(b) –exponencial de b–: indica la fortaleza de la relación. Cuanto más alejada de 1 está más fuerte es la relación. Para comparar los exponenciales de b entre sí, aquellos que son menores a 1 deben transformarse en su inverso o recíproco, es decir, debemos dividir 1 entre el exponencial de b (pero solo cuando sean menores a 1).

Veamos un ejemplo de regresión logística binaria para aclarar todo:

Quiero identificar las causas que expliquen por qué la gente vota en Colombia. Para ello empleo una regresión logística binaria ya que la variable dependiente es binaria, solo tiene dos categorías (1-Sí, 0-No) y la pregunta de investigación es causal. Las posibles causas son: edad, nivel educativo (1-sin estudios, 2-primarios, 3-secundarios, 4-universitarios), importancia de Dios en la vida (1-nada…. 10-mucho), e ideología (1-extrema izquierda….10-extrema derecha).

En SPSS se realiza Analizar > Regresiones > Regresión logística binaria

Hay mucha información en el resultado arrojado por SPSS, solo debemos analizar a partir del Bloque 1

Sobre la bondad del modelo (pasos 1, 2 y 3): El modelo (conjunto de variables independientes) es significativo, explica entre el 0,131 y el 0,179 de la variable dependiente, y clasifica correctamente el 73,9% de los casos, por tanto se acepta el modelo. En general, es un modelo aceptable.

Veamos la relación de las variables independientes con la variable dependiente (pasos 4, 5 y 6):

La edad explica el evento de votar (significación menor de 0,05). A más edad más probabilidad que ocurra el evento de votar sobre la posibilidad que no ocurra (signo + en la B).
El nivel educativo también explica la variable dependiente. A más nivel educativo más probabilidad que se vote.
A mayor importancia de Dios, más probabilidad que se vote.
Cuanto más de ideología de derechas, más probabilidad que ocurra el evento de votar.
De todas las variable seleccionadas, aquella que tiene una mayor fortaleza para explicar el evento de votar es el nivel educativo (su exponencial de b -Exp(b)-) más se aleja de 1.

Podemos decir en base a los datos analizados que el perfil de las personas que votan en Colombia son de estudios altos, que le dan importancia a Dios, mayores en edad y de tendencia de derechas.

La regresión logística binaria es una técnica estadística muy útil para sacar perfiles y sobre todo para identificar las causas de los fenómenos, algo importantísimo si queremos incidir o intervenir sobre la realidad social. Si te gustó este tutorial por favor compártelo por Facebook, Twitter, y Linkedin. Gracias

Qué es la regresión logística binaria y cómo analizarla en 6 pasos

Regresión logística binaria

Cómo analizar la regresión logística binaria en 6 pasos:

Apúntate a la newsletter de IA: tutoriales y cosas de valor, sin spam

Publicado por

Julian Cardenas

Uso de cookies