9.3 Estimación de Parámetros

Si \(Y\) es una variable binaria, la regresión logística es tal que:

\[ \mathbb{P}(Y=1 \mid \mathbf{x})=\frac{e^{\beta_{0}+\sum_{k=1}^{K} \beta_{k} x_{k}}}{1+e^{\beta_{0}+\sum_{k=1}^{K} \beta_{k} x_{k}}} \]

\(\beta_k\) es el coeficientes de regresión parcial del predictor \(x_k.\)
Indica el cambio medio del logaritmo de odds al incrementar en una unidad la variable \(x_k,\) manteniendo constantes el resto de variables.
Por cada unidad que se incrementa \(x_k,\), los odds se multiplican por \(exp(\beta_k).\)

Los parámetros \(\boldsymbol{\beta}=\{\beta_{0}, \beta_{1},\ldots, \beta_{K}\}\) se estiman mediante el método de Máxima Verosimilitud.

Es decir, para estimar los coeficientes de una regresión logística se utilizan algoritmos numéricos para maximizar la función:

\[ \begin{aligned} L(y ;(\mathbf{x}, \boldsymbol{\beta})) &=\prod_{i=1}^{n}\left(\mathbb{P}\left(Y_{i}=1 \mid \mathbf{x}_{i}, \boldsymbol{\beta}\right)\right)^{y_{i}}\left(1-\mathbb{P}\left(Y_{i}=1 \mid \mathbf{x}_{i}, \boldsymbol{\beta}\right)\right)^{1-y_{i}} \\ & \prod_{i=1}^{n}\left(\frac{e^{\beta_{0}+\sum_{k=1}^{K} \beta_{k} x_{i, k}}}{1+e^{\beta_{0}+\sum_{k=1}^{K} \beta_{k} x_{k, i}}}\right)^{y_{i}}\left(\frac{1}{1+e^{\beta_{0}+\sum_{k=1}^{K} \beta_{k} x_{i, k}}}\right)^{1-y_{i}} \end{aligned} \]

\(\beta_0\) es el valor esperado del logaritmo de odds cuando todos los predictores son cero. Puede transformarse a probabilidad con \(\exp(\beta_0)/(1+\exp(\beta_0))\). El resultado corresponde a la probabilidad esperada de pertenecer a la clase 1 cuando todos los predictores son cero.
Los parámetros \(\beta_{k}\) indican el cambio en el \(\log \left ( \dfrac{\pi}{1-\pi} \right)\) causado por el cambio en una unidad en el valor de \(x_{k}\), mientras que los \(\exp(\beta_{k})\) definen el cambio en la razón de probabilidades, \((\dfrac{\pi}{1-\pi}),\) causado por el cambio en una unidad en el valor de \(x_{k}.\)
Si \(\beta_{k}\) es positivo, \(\exp(\beta_{k})\) será mayor que 1, es decir, \(\dfrac{\pi}{1-\pi}\) se incrementará.
Si \(\beta_{k}\) es negativo, \(\exp(\beta_{k})\) será menor que 1, y \(\dfrac{\pi}{1-\pi}\) disminuirá.
El cambio en la probabilidad \(\pi\) causado por el cambio en una unidad en el valor de \(x_{k}\) es \(\beta_{k}\left(\dfrac{\pi}{1-\pi}\right),\) es decir, depende no sólo del coeficiente, sino también del nivel de probabilidad a partir del cual se mide el cambio.

Dado que la relación entre \(\mathbb{P}(Y=1)\) y \(\mathbf{x}\) no es lineal, los coeficientes de regresión \(\beta_k\) no representan el cambio en la probabilidad de \(Y\) asociado con el incremento en una unidad de \(x_k\).

Cuánto se incremente la probabilidad de \(Y\) por unidad de \(x_k\) depende del valor de \(x_k\) , es decir, de la posición en la curva logística en la que se encuentre.

Esta es una diferencia muy importante respecto a la interpretación de los coeficientes de un modelo de regresión lineal.