7 Introducción
La regresión logística se utiliza para modelar la probabilidad de una variable cualitativa binaria en función de una o más variables independientes. Se utiliza en problemas de clasificación.
La variable output es Binaria o Dicotómica:
Y={1si presente | verdadero | éxito,0si ausente | falso | fracaso
- ¿Votó en las últimas elecciones? Si/No
- ¿Renovará la suscripción? Si/No
- ¿Presentará una reclamación? Si/No
- ¿Cambiará de móvil? Si/No
- ¿Tiene ojos azules? Si/No
Nuestro objetivo es especificar un modelo, f(⋅), que relacione la variable dependiente, Y, con una o más variables independientes, X1,…,XK.:
Y=f(X)=f(X1,…,XK)
Cuando f(X) es una regresion lineal simple tenemos: yi=β0+β1xi+ϵi.
Decimos que el valor esperado de la variable dependiente Y, dado el valor de la variable independiente x está dado por E[Y|x]=β0+β1x1. Luego E[Y|x]∈(−∞,+∞)
Fuente: Aquí
-
Probabilidad: si la probabilidad de éxito es p=0.8, la probabilidad de fracaso es 1−p=0.2
-
Odds: Es el ratio entre probabilidad de éxito y la probabilidad de fracaso. odds=p1−p=0.80.2=4. Es decir, los odds de éxito son 4 a 1.
-
Odds Ratio: Es el ratio entre Odds. OR=odds1odds2=p11−p1p21−p2