8.2 Venta de Vehículos

Disponemos de un conjunto de datos sobre 100 coches puestos a la venta en una concesionaria. Las variables son:


Venta de Vehículos: Información
Variable Descripción Valores
Car ID Identification code 1 - 100
Price Sale Price of the car 000s Eur
Age Age of the car, months
PinkSlip Certificate of Title 1: No, 2: Yes
Sold Car sold? 1: No, 2: Yes


Venta de Vehículos: Primeras 12 observaciones
Car ID 1 2 3 4 5 6 7 8 9 10 11 12
Price 1 9 0 3 10 2 4 2 2 5 5 2
Odometer 30 20 170 68 12 88 3 41 21 74 41 121
Age 28 40 58 12 3 23 4 13 5 10 62 20
PinkSlip 1 1 0 1 0 0 1 1 1 1 0 1
Sold 1 0 1 1 0 0 0 1 1 1 0 1
Nota: http://www.zstatistics.com/


El conjunto de datos nos dice:

Venta de Vehículos: Resumen de Datos
No Variable Stats / Values Freqs (% of Valid) Graph Missing
1 Car ID
[integer]
Mean (sd) : 50.5 (29)
min < med < max:
1 < 50.5 < 100
IQR (CV) : 49.5 (0.6)
100 distinct values
(Integer sequence)
0
(0.0%)
2 Price
[numeric]
Mean (sd) : 5.2 (5.1)
min < med < max:
0.5 < 4 < 34.5
IQR (CV) : 5.5 (1)
29 distinct values 0
(0.0%)
3 Odometer
[numeric]
Mean (sd) : 60.1 (76.7)
min < med < max:
0.2 < 30.5 < 452.5
IQR (CV) : 63 (1.3)
100 distinct values 0
(0.0%)
4 Age
[integer]
Mean (sd) : 20.2 (16.1)
min < med < max:
1 < 15 < 90
IQR (CV) : 19 (0.8)
39 distinct values 0
(0.0%)
5 PinkSlip
[integer]
Min : 0
Mean : 0.8
Max : 1
0 : 23 (23.0%)
1 : 77 (77.0%)
0
(0.0%)
6 Sold
[integer]
Min : 0
Mean : 0.7
Max : 1
0 : 35 (35.0%)
1 : 65 (65.0%)
0
(0.0%)


Sold=0.80.03(Price)+ϵ


Pensemos la recta ajustada estima la posibilidad (chance) de ser vendido:

πi=Prob(Sold=1)=β0+β1Pricei+ϵi

%0 rec1 $\pi_i$ rec2 PROBABILIDAD rec1->rec2 rec3 Rango = [0,1] rec2->rec3 rec4 Punto medio = 0.5 rec3->rec4


¿Cuál sería la probabilidad de ser vendido de un coche que cuesta 45k euros? -> Necesitamos transformar/modificar la variable dependiente.


Pensemos en la siguiente opción:

πi1πi=Prob(Sold=1)1Prob(Sold=1)=β0+β1Pricei+ϵi

%0 rec1 $\frac{\pi_{i}}{1- \pi_{i}}$ rec2 ODDS rec1->rec2 rec3 Rango = [0,+inf] rec2->rec3 rec4 Punto medio = 1 rec3->rec4

Evitamos obtener probabilidad negativa, la distribución es muy asimétrica (no Normal) -> Necesitamos transformar/modificar la variable dependiente.


Aplicamos logaritmo:

log(πi1πi)=log(Prob(Sold=1)1Prob(Sold=1))=β0+β1Pricei+ϵi

%0 rec1 $\log ( \frac{\pi_i}{1-\pi_i} )$ rec2 LOGS ODDS rec1->rec2 rec3 Rango = [-inf,+inf] rec2->rec3 rec4 Punto medio = 0 rec3->rec4

La Regresión Logística Binomial está dada por

logit(πi)=log(πi1πi)=β0+β1x1i++βkxki

Es un modelo que se utiliza para predecir la probabilidad de cierta clase, dado un conjunto de variables independientes

  • Binomial: la variable dependiente es binaria, πi=Prob(yi=1)

  • Logística: utiliza log-odds o función logit

  • β0,β1,,βk son los parámetros

  • x1,,xk son las variables independientes


Por ejemplo:

log(πi1πi)=logit[Prob(Sold=1)]=β0+β1Pricei

Observations 100
Dependent variable Sold
Type Generalized linear model
Family binomial
Link logit
χ²(1) 9.454
Pseudo-R² (Cragg-Uhler) 0.124
Pseudo-R² (McFadden) 0.073
AIC 124.036
BIC 129.246
Est. S.E. z val. p
(Intercept) 1.386 0.356 3.894 0.000
Price -0.143 0.053 -2.695 0.007
Standard errors: MLE

log[P(Sold=1)1P(Sold=1)]=1.390.14(Price)+ϵ


¿Qué significa -0.143 en el modelo estimado?

^logit(πi)=1.3860.143Pricei

  • Para cada unidad de incremento de Price, logit(π) disminuye en 0.143 unidades.

  • ¿Qué ocurre con π?


De logit(πi) a πi:

  • Tenemos:

logit(π)=log(π1π)=β0+β1Price

  • Entonces:

π=eβ0+β1Price1+eβ0+β1Price - O alternativamente (más fácil):

π=elogit(π)1+elogit(π)

En el ejemplo:


Los coeficientes determinan la curva:

Multiple Logistic Regression

Asume que la transformación logit de la variable dependiente tiene una relación lineal con las variables independientes.


Incluyamos una variable más en el modelo.

log(πi1πi)=log(Prob(Soldi=1)1Prob(Soldi=1))=β0+β1Pricei+β2Pink Slipi

Observations 100
Dependent variable Sold
Type Generalized linear model
Family binomial
Link logit
χ²(2) 18.407
Pseudo-R² (Cragg-Uhler) 0.232
Pseudo-R² (McFadden) 0.142
AIC 117.083
BIC 124.898
Est. S.E. z val. p
(Intercept) 0.396 0.480 0.824 0.410
Price -0.173 0.057 -3.044 0.002
PinkSlip 1.555 0.531 2.926 0.003
Standard errors: MLE

log[P(Sold=1)1P(Sold=1)]=0.40.17(Price)+1.55(PinkSlip)+ϵ


Estimamos π


Interpretación de los parámetros del modelo:

Los coeficientes de la regresión logística estiman el cambio en log-odds de la variable dependiente dado el aumento de una unidad en la variable independiente.

Coeficientes Estimados
Coeficiente 2.5 % 97.5 %
(Intercept) 0.396 -0.552 1.354
Price -0.173 -0.295 -0.071
PinkSlip 1.555 0.533 2.632
  • β1=0.173 : Si el precio se incrementa en 1000 euros, el log-odds de vender el coche disminuye, en media, en 0.173, manteniendo el resto constante.

  • β2=1.555 : Si el coche tiene Pink Slip, el log-odds de vender el coche aumenta, en media, en 1.555, manteniendo el resto constante.

Si aplicamos exp a los coeficientes, podemos interpretarlos como odds-ratios.

Coeficientes Estimados
OR 2.5 % 97.5 %
(Intercept) 1.486 0.576 3.872
Price 0.841 0.745 0.931
PinkSlip 4.734 1.704 13.903

  • exp(β1)=0.84:Si Price aumenta en una unidad, el odds de ser vendido (versus no ser vendido) se incrementa en un factor de 0.84

  • exp(β2)=4.73:Si Pink Slip aumenta en una unidad, el odds de ser vendido (versus no ser vendido) se incrementa en un factor de 4.73


  • β indica el efecto de x sobre log-odds.

  • exp(β) indica el efecto de x sobre odds-ratio.