7 Introducción

La regresión logística se utiliza para modelar la probabilidad de una variable cualitativa binaria en función de una o más variables independientes. Se utiliza en problemas de clasificación.


La variable output es Binaria o Dicotómica:

Y={1si presente | verdadero | éxito,0si ausente | falso | fracaso

Ejemplos

  • ¿Votó en las últimas elecciones? Si/No
  • ¿Renovará la suscripción? Si/No
  • ¿Presentará una reclamación? Si/No
  • ¿Cambiará de móvil? Si/No
  • ¿Tiene ojos azules? Si/No


Nuestro objetivo es especificar un modelo, f(), que relacione la variable dependiente, Y, con una o más variables independientes, X1,,XK.:

Y=f(X)=f(X1,,XK)


%0 rec1 Una o más variables independientes rec2 Cualitativa o Cuantitativa rec1->rec2 rec3 Una variable dependiente rec4 Binaria rec3->rec4



Cuando f(X) es una regresion lineal simple tenemos: yi=β0+β1xi+ϵi.

Decimos que el valor esperado de la variable dependiente Y, dado el valor de la variable independiente x está dado por E[Y|x]=β0+β1x1. Luego E[Y|x](,+)


Fuente: Aquí


Conceptos importantes

  • Probabilidad: si la probabilidad de éxito es p=0.8, la probabilidad de fracaso es 1p=0.2

  • Odds: Es el ratio entre probabilidad de éxito y la probabilidad de fracaso. odds=p1p=0.80.2=4. Es decir, los odds de éxito son 4 a 1.

  • Odds Ratio: Es el ratio entre Odds. OR=odds1odds2=p11p1p21p2