Logit, Modelos de Elección Discreta

MODELOS DE ELECCIN DISCRETA
Eva Medina Moral - www.eva.medinaam.es

(Diciembre 2003)
1. INTRODUCCIN
2. INTERPRETACIN ESTRUCTURAL DE LOS MODELOS DE ELECCIN
DISCRETA
3. MODELO LINEAL DE PROBABILIDAD (MLP)
Especificacin e interpretacin del MLP
Limitaciones de la estimacin por MCO
4. MODELOS DE PROBABILIDAD NO LINEAL
Especificacin de los modelos de eleccin discreta (Logit y Probit)
Estimacin de los parmetros en los modelos Logit
A. Estimacin con observaciones no repetidas: Mtodo de MximaVerosimilitud
B. Estimacin con observaciones repetidas: Mtodo Mnimos
Cuadrados Generalizados
Contraste y validacin de hiptesis
A. Significatividad estadstica de los parmetros estimados
B. Medidas de bondad de ajuste del modelo
5. MODELOS DE RESPUESTA MLTIPLE
Modelos de respuesta mltiple con datos no ordenados
A. El modelo Logit Multinomial
B. El modelo Logit Condicional
C. El modelo Logit Anidado
Modelos de respuesta mltiple con datos ordenados
1. INTRODUCCIN
La utilidad de los modelos de eleccin discreta frente a la econometra tradicional radica
en que los primeros permiten la modelizacin de variables cualitativas, a travs del uso
de tcnicas propias de las variables discretas. Se dice que una variable es discreta
cuando est formada por un nmero finito de alternativas que miden cualidades. Esta
caracterstica exige la codificacin como paso previo a la modelizacin, proceso por el
cual las alternativas de las variables se transforman en cdigos o valores cunticos,
susceptibles de ser modelizados utilizando tcnicas economtricas.
La modelizacin de este tipo de variables se conoce genricamente con el nombre de
modelos de eleccin discreta, dentro de la cual existe una amplia tipologa de modelos.
En concreto, segn el nmero de alternativas incluidas en la variable endgena, se
distinguen los modelos de respuesta dicotmica frente a los denominados modelos de
respuesta o eleccin mltiple. Segn la funcin utilizada para la estimacin de la
probabilidad existe el modelo de probabilidad lineal truncado, el modelo Logit y el
modelo Probit. Segn que las alternativas de la variable endgena sean excluyentes o
incorporen informacin ordinal se distingue entre los modelos con datos no ordenados y
los modelos con datos ordenados. Dentro de los primeros, segn que los regresores
hagan referencia a aspectos especficos de la muestra o de las alternativas entre las que
se ha de elegir, se distingue entre los modelos multinomiales y los condicionales.
Teniendo en cuenta todos los elementos que influyen en el proceso de especificacin de
los modelos de eleccin discreta, se puede establecer una clasificacin general de los
mismos, que queda recogida en la el siguiente cuadro.
Clasificacin de los modelos de eleccin discreta
N de alternativas
Tipo de
alternativas
El regresor se refiere a:
Tipo de funcin
Caractersticas
Atributos
(de los individuos) (de las alternativas)

Modelos de respuesta
dicotmica
Complementarias
(2 alternativas)
Lineal
Modelo de Probabilidad Lineal Truncado
Logstica
Modelo Logit
Normal tipificada
Modelo Probit
Logit Multinomial
Logstica
Modelos de respuesta No ordenadas
mltiple
(ms de 2 alternativas)
Ordenadas
Normal tipificada
Logit Codicional
- Logit Anidado
- Logit Anidado
- Logit Mixto
- Logit Mixto
Probit Multinomial
Probit Condicional
Probit Multivariante Probit Multivariante

Logstica
Logit Ordenado
Normal tipificada
Probit Ordenado
2. INTERPRETACIN ESTRUCTURAL DE LOS MODELOS DE ELECCIN

DISCRETA
En la literatura existen dos enfoques para la interpretacin estructural de los modelos de
eleccin discreta. El primero hace referencia a la modelizacin de una variable latente a
travs de una funcin ndice, que trata de modelizar una variable inobservable o
latente. El segundo de los enfoques permite interpretar los modelos de eleccin discreta
bajo la teora de la utilidad aleatoria, de tal manera que la alternativa seleccionada en
cada caso ser aquella que maximice la utilidad esperada.
Para entender ambos enfoques, el razonamiento empleado se aplicar al caso sencillo
de la modelizacin de una variable dicotmica, siendo la aplicacin generalizada al caso
de los modelos de respuesta mltiple inmediata. Bajo el primero de los enfoques se trata
de modelizar una variable ndice, inobservable o latente no limitada en su rango de
variacin, I i* . Cuando la variable latente supera un determinado nivel, la variable
discreta toma el valor 1, y si no lo supera toma el valor 0. La variable latente depende de
un conjunto de variables explicativas1 que generan las alternativas que se dan en la
realidad y que permiten expresar el modelo dicotmico como:
Yi=
si I i* > 0
lo que ocurre cuando X i + i > 0
si I i* < 0
lo que ocurre cuando X i + i < 0
donde el supuesto sobre la distribucin de i determina el tipo de modelo a estimar: si

se supone una funcin de distribucin uniforme, se utiliza el Modelo Lineal de
Probabilidad truncado; si se distribuye como una normal con media cero y varianza uno,
el modelo generado ser un Probit; mientras que si se supone que se distribuye como
una curva logstica, se tratara de un modelo Logit. La hiptesis de que el umbral a
superar por la variable latente sea cero se puede modificar por cualquier otro valor
sugirindose, en determinados estudios, que el valor crtico sea el definido por el
trmino constante.
Bajo este enfoque el modelo probabilstico quedara definido por
Pi = Pr ob(Yi = 1) = Pr ob( I i* > 0) = Pr ob( X i + i > 0) = F ( X i )
La variable latente est relacionada con sus caractersticas a travs de un modelo de regresin:
I i* = X i + i
donde
X i
recibe el nombre de funcin ndice.
(1)
clave
Con el modelo as definido, la variable endgena del modelo dicotmico representa la
probabilidad de ocurrencia del fenmeno analizado, siendo la probabilidad de que
ocurra la opcin 1 ms elevada cuando mayor sea el valor de Ii* .
El segundo de los enfoques para la interpretacin de los modelos de respuesta
dicotmica es el que hace referencia a la modelizacin a travs de la formulacin de una
utilidad aleatoria. Bajo este enfoque un individuo debe adoptar una decisin que le
permita elegir entre dos alternativas excluyentes, la 1 o la 0, lo que har maximizando la
utilidad esperada que le proporciona cada una de las alternativas posibles sobre las que
tiene que decidir. Es decir, el individuo i-simo elegir una de las dos alternativas
dependiendo de que la utilidad que le proporciona dicha decisin sea superior a la que le
proporciona su complementaria.
La formulacin del modelo bajo esta teora parte del supuesto de que la utilidad
derivada de una eleccin, Ui0 o Ui1 , es funcin de las variables explicativas de dicha
decisin, que son las caractersticas propias de cada una de las alternativas de eleccin y
las caractersticas personales propias del individuo, de manera que suponiendo
linealidad en las funciones, se tiene
U i 0 = 0 + X i0 + i0
(2)
U i1 = 1 + X i1 + i1
donde los ij recogen las desviaciones que los agentes tienen respecto a lo que sera el
comportamiento del agente medio y que se debe a factores aleatorios. El agente i elegir
la opcin 1 si la utilidad de esa decisin supera la de la opcin 0 y viceversa, de manera
que,
Yi=
1 si Ui1 >Ui0
0 si Ui1 <Ui0
Y el modelo dicotmico quedara definido por,

Pr ob(Yi = 1) = Pr ob(U i1 > U i 0 ) = Pr ob(U i1 U i0 > 0) = F ( X i )
(3)
Segn que la funcin asociada a la perturbacin aleatoria ij (que ser la funcin de

distribucin, F ( X i ) , que se suponga siga dicha probabilidad), sea una funcin de
distribucin uniforme, la funcin de distribucin de la normal tipificada o la de la curva
logstica, se obtienen el Modelo Lineal de Probabilidad Truncado, el Probit o el Logit,
respectivamente.
Ambos enfoques, el de la funcin ndice y el de la formulacin de una utilidad aleatoria,

justifican en trminos estructurales la existencia de los modelos probabilsticos bajo dos
teoras econmicas alternativas, aunque en ambos casos, la expresin final que define la
formulacin del modelo es la misma.
3. MODELO LINEAL DE PROBABILIDAD (MLP)
Especificacin e interpretacin del MLP
La primera tentativa terica desarrollada para estudiar modelos con variables
dicotmicas se plante como una mera extensin del Modelo Lineal General que viene
expresado por:
Yi = + k X ki + i
(4)
donde:
1 si ocurre una alternativa
0 en caso contrario
Xki= Variables explicativas
i = Variable aleatoria que se distribuye normal N 0, 2
Yi =
La distribucin de la muestra en este tipo de modelos se caracteriza por configurar una

nube de puntos de tal manera que las observaciones muestrales se dividen en dos
subgrupos. Uno de ellos est formado por las observaciones en las que ocurri el
acontecimiento objeto de estudio (Yi = 1) , y el otro, por los puntos muestrales en los
que no ocurri (Yi = 0 ) .
Una representacin grfica de la nube de
puntos para el caso de una sola variable
explicativa es la que aparece en el grfico,
en el que la variable explicativa se
representa en el eje de abscisas y la
variable endgena en el eje de ordenadas.
La elaboracin del modelo lineal de
probabilidad requiere el ajuste de esa nube
de puntos a una funcin lineal (recta de
regresin) capaz de explicar de la mejor
manera el comportamiento de la muestra.
Nube de puntos en un
modelo de respuesta dicotmica
1.5
ENDOGENA
1.0
0.5
0.0
-0.5
0
10
20
30
XI
40
50
60
El Modelo Lineal de Probabilidad, ecuacin (4), se puede interpretar en trminos

probabilsticos, en el sentido de que un valor concreto de la recta de regresin mide la
probabilidad de que ocurra el acontecimiento objeto de estudio. Es decir, Yi se puede
considerar como la estimacin de la probabilidad de que ocurra el acontecimiento objeto
de estudio (Yi=1) siguiendo el siguiente criterio: valores prximos a cero se
corresponden con una baja probabilidad de ocurrencia del acontecimiento analizado
(menor cuanto ms prximos a cero); mientras que a valores prximos a uno se les
asigna una probabilidad elevada de ocurrencia (mayor cuanto ms prximos a uno).
La interpretacin de los coeficientes estimados en los Modelos Lineales de Probabilidad
(MLP) es la misma que la del Modelo Lineal General, recogiendo el valor del parmetro
el efecto de una variacin unitaria en cada una de las variables explicativas sobre la
probabilidad de ocurrencia del acontecimiento objeto de estudio. As, si se produce un
incremento de una unidad en la variable explicativa X 1i , ese aumento provocara una
variacin igual a 1 en la probabilidad f i (1) .
Limitaciones de la estimacin por MCO
La estimacin del modelo anterior por Mnimos Cuadrados Ordinarios plantea una serie
de limitaciones que se pasan a comentar a continuacin:
1. El valor estimado puede estar fuera del rango (0 - 1). La estimacin del Modelo
Lineal de Probabilidad a travs de MCO no garantiza que los valores estimados de Yi
estn entre 0 y 1, lo cual carece de lgica al interpretarse el valor estimado como una
probabilidad. Este problema se soluciona truncando el rango de variacin del valor
estimado, dando lugar al modelo conocido con el nombre de Modelo Probabilstico
Lineal Truncado, y que, para una nica variable explicativa, se expresa de la forma:
Yi
+ k X ki 1
+ k X ki
0 < + k X ki < 1
+ k X ki 0
Sin embargo, si se restringen los valores de Yi a 0 y 1, los valores del trmino

independiente y la pendiente varan segn los valores de Xi, de tal forma que:
-
Para X i / : Trmino independiente y pendiente iguales a 0.
Para / X i (1 ) / : Trmino independiente igual y pendiente

igual a .
Para X i (1 ) / : Trmino independiente igual a 1 y pendiente igual a 0.
Esto har que si se incluyen en la estimacin puntos en los que X i /

X i (1 ) / los estimadores sern sesgados e inconsistentes.
2. La perturbacin aleatoria puede no seguir una distribucin Normal: Dados los valores
que toma la perturbacin aleatoria no se puede asegurar que sta se distribuya como una
normal, al tratarse de una distribucin binaria o dicotmica. Si bien el incumplimiento
de la hiptesis de normalidad no invalida la estimacin por MCO, ya que los
estimadores as estimados siguen siendo ELIO, sin embargo, la ausencia de normalidad
imposibilita el uso de los estadsticos habituales utilizados para realizar el contraste de
hiptesis tales como la t-Student, la F-Snedecor, etc, al basarse dichos contrastes en la
hiptesis de normalidad de la perturbacin aleatoria.
3. Problemas de heterocedasticidad: An en el caso de que se cumpliesen las hiptesis
de media y correlacin nula en la perturbacin aleatoria ( E ( i ) = 0 y E ( i j ) = 0 para
todo i j ) no se cumple la hiptesis de varianza constante, es decir, la perturbacin
aleatoria no es homocedstica. Para comprobarlo se calcula la varianza de la
perturbacin aleatoria a travs de su definicin:
Var ( i ) = E ( i E ( i )) 2 = E ( i ) 2 = (1 k X ki ) 2 f i (1) + ( X ki ) 2 (1 f i (1)) =
(1 f i (1))2 f i (1) + ( fi (1) 2 (1 fi (1)) = (1 fi (1)) fi (1)(1 f i (1) + f i (1)) = (1 f i (1)) f i (1)
(5)
La varianza de la perturbacin aleatoria es una funcin de la probabilidad f i (1) , la cual

es a su vez funcin de cada una de las observaciones de las variables explicativas X ki .
La perturbacin aleatoria es, por tanto, heterocedstica y la estimacin del modelo
mediante el mtodo de MCO obtiene unos estimadores de los coeficientes de regresin
con varianza no mnima, es decir, no eficientes.
Este problema podra solucionarse estimando el modelo a travs de Mnimos Cuadrados
Generalizados (MCG). A este tipo de modelos se les denomina Modelos Lineales
Probabilsticos Ponderados. La estimacin a travs de MCG requiere la realizacin de
los siguientes pasos:
-
Se estima el modelo (4) mediante MCO sin tener en cuenta el problema de

heterocedasticidad, obtenindose el valor estimado Yi .
El valor Yi se utiliza para calcular la varianza de la perturbacin aleatoria, a travs

de la frmula anteriormente obtenida:
7
Var ( i ) = (1 f i (1) ) f i (1) = Yi (1 Yi ) = i2

-
(6)
Si los valores estimados de Yi son mayores que la unidad o menores que cero,
deben sustituirse por la unidad (en el primer caso) o por cero (en el segundo). En
ambos casos el valor resultante del clculo de la varianza de i ser cero, lo que
generara problemas al utilizar la Var ( i ) como ponderador. Ante esta situacin se
puede optar por eliminar las observaciones que generan estos valores, incurriendo
en prdida de informacin. Es por ello que la opcin preferida es sustituir los
valores mayores o iguales a la unidad por 0,999, y los valores menores o iguales a
cero por 0,001.
Se pondera el modelo (4) dividiendo ambos miembros de la ecuacin por la
desviacin tpica estimada
i2 = Yi (1 Yi ) , con el fin de transformar el modelo
en homocedstico.
Yi
2
i
= 1
2
i
+ 2
X 1i
2
i
+ ... + k
X ki
2
i
+ i
(7)
i2
La estimacin por MCO del modelo transformado es equivalente a aplicar MCG en el

modelo (4) y en ambos casos se obtienen estimaciones eficientes de los coeficientes de
regresin.
Sin embargo, uno de los problemas que presenta la estimacin por MCG es la prdida
del trmino independiente en el modelo. La omisin del trmino independiente puede
provocar que la suma de los residuos sea distinta de cero lo que puede tener
consecuencias sobre el coeficiente de determinacin (puede ser negativo), la funcin de
verosimilitud estimada a partir de los residuos y los estadsticos que se obtienen a partir
de ella.
4. El coeficiente de determinacin R2 est subestimado. La suma de los cuadrados de
los residuos
( e ) es ms grande de lo habitual debido a la forma especfica en que se

2
i
distribuye la nube de puntos de una variable dicotmica. Dado que el clculo del
coeficiente de determinacin2 se ve afectado por
2
i
, el R2 calculado en la
estimacin por MCO es ms pequeo de lo que realmente debera ser.
El coeficiente de determinacin se obtiene a travs de la frmula
R = 1
2
2
i
(Y Y )
i
4. MODELOS DE PROBABILIDAD NO LINEAL

La estimacin e interpretacin de los modelos probabilsticos lineales plantea una serie
de problemas que han llevado a la bsqueda de otros modelos alternativos que permitan
estimaciones ms fiables de las variables dicotmicas. Para evitar que la variable
endgena estimada pueda encontrarse fuera del rango (0, 1), las alternativas disponibles
son utilizar modelos de probabilidad no lineales, donde la funcin de especificacin
utilizada garantice un resultado en la estimacin comprendido en el rango 0-1. Las
funciones de distribucin cumplen este requisito, ya que son funciones continuas que
toman valores comprendidos entre 0 y 1.
Especificacin de los modelos de eleccin discreta (Logit y Probit)
Dado que el uso de una funcin de distribucin garantiza que el resultado de la
estimacin est acotado entre 0 y 1, en principio las posibles alternativas son varias,
siendo las ms habituales la funcin de distribucin logstica, que ha dado lugar al
modelo Logit, y la funcin de distribucin de la normal tipificada, que ha dado lugar al
modelo Probit. Tanto los modelos Logit como los Probit relacionan, por tanto, la
variable endgena Yi con las variables explicativas Xki a travs de una funcin de
distribucin.
En el caso del modelo Logit, la funcin utilizada es la logstica, por lo que la
especificacin de este tipo de modelos queda como sigue
Yi =
1
1+ e
k X ki
+ i =
e + k X k i
+kX ki
1+ e
+ i
(8)
En el caso del modelo Probit la funcin de distribucin utilizada es la de la normal

tipificada, con lo que el modelo queda especificado a travs de la siguiente expresin,
Yi =
+ X i
s2
1
e 2 ds + i
1/2
( 2 )
(9)
donde la variable s es una variable muda de integracin con media cero y varianza
uno.
Dada la similitud existente entre las curvas de la normal tipificada y de la logstica, los
resultados estimados por ambos modelos no difieren mucho entre s3 , siendo las
3
Discrepan, nicamente, en la rapidez con que las curvas se aproximan a los valores extremos, y as la
funcin logstica es ms achatada que la normal al alcanzar, esta ltima, ms rpidamente los valores
extremos (0 y 1).
diferencias operativas, debidas a la complejidad que presenta el clculo de la funcin de

distribucin normal frente a la logstica, ya que la primera solo puede calcularse en
forma de integral. La menor complejidad de manejo que caracteriza al modelo Logit es
lo que ha potenciado su aplicacin en la mayora de los estudios empricos.
clave
Al igual que en el Modelo Lineal de Probabilidad, el Modelo Logit (8) se puede
interpretar en trminos probabilsticos, es decir, sirve para medir la probabilidad de que
ocurra el acontecimiento objeto de estudio (Yi=1). En cuanto a la interpretacin de los
parmetros estimados en un modelo Logit, el signo de los mismos indica la direccin en
que se mueve la probabilidad cuando aumenta la variable explicativa correspondiente,
sin embargo, la cuanta del parmetro no coincide con la magnitud de la variacin en la
probabilidad (como si ocurra en el MLP). En el caso de los modelos Logit, al suponer
una relacin no lineal entre las variables explicativas y la probabilidad de ocurrencia del
acontecimiento, cuando aumenta en una unidad la variable explicativa los incrementos
en la probabilidad no son siempre iguales ya que dependen del nivel original de la
misma.
Una interpretacin ms sencilla del parmetro estimado es la que se obtiene a travs de
la linealizacin del modelo . Para ello, partiendo de la ecuacin general del Modelo
Logit (8) y definido Mi como la probabilidad del estado o la alternativa 1, se tiene
E (Yi ) = Pr ob (Yi = 1) = M i =
e + k X ki
1 + e + k X ki
(10)
de donde:
M i + M i e + k X k i = e + k X ki
M i = (1 M i )e + k Xk i
(11)
Mi
= e + k X ki
(1 M i )
Al cociente entre la probabilidad de que ocurra un hecho, o de que se elija la opcin 1,
frente a la probabilidad de que no suceda el fenmeno, o de que se elija la opcin 0, se
la denomina como la ratio odds. Su interpretacin es la ventaja o preferencia de la
opcin 1 frente a la 0, es decir, el nmero de veces que es ms probable que ocurra el
fenmeno frente a que no ocurra.
Ratio odds =
10
Mi
(1 M i )
El ratio odds4 , tal y como est construido (cociente entre probabilidades), siempre ser
mayor o igual que 0. El campo de variacin del ratio va desde 0 hasta + , y su
interpretacin se realiza en funcin de que el valor sea igual, menor o superior a la
unidad: si toma el valor 1 significa que la probabilidad de que ocurra la alternativa 1 es
la misma que la de que no ocurra; si el ratio es menor que 1 indica que la ocurrencia de
la alternativa 1 tiene menor probabilidad que la ocurrencia de la alternativa 0; mientras
que si es mayor que la unidad la opcin 1 es ms probable que la 0.
El inters de esta medida adquiere sentido cuando se comparan las ventajas para
distintos valores de la variable explicativa, calculndose el cociente entre odds. As, si
se compara la situacin de la observacin i con la de la observacin j (que suele ser
la de referencia), el cociente entre odds mide cuanto es ms probable que se de la
alternativa 1 en i que en j.
Mi
(1 M i ) e + k X ki
( X X )
Cociente entre odds =
= + k X kj = e k ii jj
Mj
e
(1 M j )
Si el valor obtenido es mayor a la unidad, la probabilidad de ocurra la alternativa 1 en la
observacin i es mayor que en la observacin j, mientras que si el valor obtenido es
inferior a uno, la probabilidad de ocurrencia de la alternativa 1 es superior en la
observacin j que en la i. Si el valor obtenido es igual a la unidad significa que las
probabilidades en ambas observaciones son iguales.
El clculo del cociente entre odds facilita la interpretacin de los parmetros estimados
cuando se aplica al caso concreto de calcular la variacin en la preferencia o ventaja de
un individuo i cuando incrementa en una unidad una de las variables explicativas,
frente a la ventaja o preferencia del mismo individuo i cuando se encuentra en la
situacin de referencia, obtenindose para este caso concreto
4
Tomando logaritmos neperianos del ratio odds se linealiza la ecuacin del modelo Logit, respetando el
objetivo de que los valores estimados caigan dentro del rango (0-1), obtenindose la expresin:
Mi
Ln
1 M i
La nueva variable
Mi
Ln
1
= Ln (e + k X k i ) = + k X k i
generada representa en una escala logartmica la diferencia entre las
probabilidades de que ocurra la alternativa 1 y su contraria.
11
M i +1
(1 M i +1 ) e + k ( X ki +1)
( X +1 X )
Cociente entre Odds =
= + k X ki = e k ki kj = e k
Mi
e
(1 M i )
De donde el parmetro e k es un factor de cambio en el cociente entre odds cuando el
valor de la variable Xk aumenta en una unidad y el resto de variables explicativas se
mantienen constantes. Es decir, el parmetro k se interpreta como el nmero de veces
que incrementa el logaritmo de la ventaja o preferencia de la opcin 1 frente a la 0
cuando incrementa en una unidad X k . En muchas ocasiones lo que se analiza es el
valor del antilogaritmo del parmetro de tal manera que se evale de una forma ms
directa su efecto sobre la probabilidad.
Estimacin de los parmetros en los modelos Logit

Antes de abordar el mtodo de estimacin en los modelos Logit, es preciso distinguir la
existencia de dos casos diferenciados que implican la utilizacin de mtodos de
estimacin distintos: los modelos Logit con observaciones repetidas y con
observaciones no repetidas.
Para el caso sencillo de una nica variable explicativa, nos encontramos en una
situacin con observaciones repetidas cuando la variable X es discreta y presenta un
nmero reducido de alternativas o intervalos (F), de manera que para cada alternativa de
la variable X tendremos ni observaciones de Y, pudindose calcular las proporciones o
probabilidades muestrales. En este caso la matriz de n datos muestrales quedar
reducida a F observaciones siendo los valores que tome la variable endgena (Pi) las
proporciones muestrales calculadas a travs de la expresin
F
Pi =
i =1
Yi
ni
(12)
La generalizacin del modelo a k variables explicativas implica la existencia de

observaciones repetidas de Y para cada combinacin de las k variables explicativas,
pudindose calcular las proporciones o probabilidades muestrales de la misma forma
que en el caso anterior. En este caso, si bien los valores de la variable endgena estn
acotados en el rango 0-1, son valores continuos, por lo que el mtodo utilizado para la
estimacin de los parmetros del modelo es el que habitualmente se utiliza en la
econometra tradicional que trabaja con variables continuas.
12
Por lo tanto, ante la presencia de observaciones repetidas, se podra aplicar el mtodo de

Mnimos Cuadrados Ordinarios. Sin embargo, la existencia de heterocedasticidad en el
modelo obliga a estimar por Mnimos Cuadrados Generalizados, para garantizar el
cumplimiento de las propiedades de los parmetros estimados, utilizndose la inversa de
la varianza de los errores como ponderacin del modelo.
Sin embargo, lo ms habitual es no poder calcular las probabilidades muestrales, bien
porque las variables explicativas incluidas en el modelo son continuas, o bien porque
an siendo stas discretas, la combinacin de las mismas impide la obtencin de
observaciones repetidas de la variable endgena para cada uno de los intervalos F. En
esta situacin, la matriz de datos muestrales estar formada por n observaciones
pudiendo ser el valor de la variable endgena para cada una de ellas 1 0. La naturaleza
dicotmica de la variable dependiente en este tipo de modelos impide la utilizacin de
los mtodos tradicionales en la estimacin de los parmetros, al no poderse calcular la
inversa de la varianza utilizada como ponderacin del modelo. Para la estimacin de los
parmetros se utiliza el mtodo de Mxima Verosimilitud.
A continuacin se describen ambos mtodos de estimacin (mxima verosimilitud y
mnimos cuadrados generalizados) comenzando por el caso ms habitual de ausencia de
observaciones repetidas.
A. Estimacin con observaciones no repetidas: Mtodo de Mxima-Verosimilitud
Dada una variable aleatoria, caracterizada por unos parmetros, y dada una muestra
poblacional, se consideran estimadores Mximo-Verosmiles de los parmetros de una
poblacin determinada, aquellos valores de los parmetros que generaran con mayor
probabilidad la muestra observada. Es decir, los estimadores Mximo-Verosmiles son
aquellos valores para los cuales la funcin de densidad conjunta (o funcin de
verosimilitud) alcanza un mximo.
Suponiendo que las observaciones son independientes, la funcin de densidad conjunta
de la variable dicotmica Yi queda como:
Prob(Y1 Y2 ... Yi ... Yn ) =
n
i =1
M i Yi (1 M i )1Yi
(13)
donde Mi recoge la probabilidad de que Yi=1. Por simplicidad se trabaja con la funcin
de densidad conjunta en logaritmos, cuya expresin es:
i
n i
i =1
i =1+ i
= ln L = Yi ln M i + (1 Yi ) ln( 1 M i) = Yi ln M i + (1 Yi ) ln( 1 M i ) (14)
13
El mtodo de estimacin de mxima verosimilitud elige el estimador del parmetro que

maximiza la funcin de verosimilitud ( = ln L), por lo que el procedimiento a seguir
ser calcular las derivadas de primer orden de esta funcin con respecto a los
parmetros que queremos estimar, igualarlas a 0 y resolver el sistema de ecuaciones
resultante. Las derivadas de primer orden de la funcin de verosimilitud respecto a los
parmetros y , tras pequeas manipulaciones, quedan como siguen:
n
e + X i
= (Yi M i ) = Yi

i =1
1 + e + X i
=0
(15)
n
e
= (Yi M i ) X i = Yi

i =1
1 + e + Xi
+ X i
Xi = 0
(16)
y sustituyendo Mi por su valor queda:
n
e + X i
= ei = Yi

i =1
1 + e + X i
=0
e + Xi
X
e
=
Y
i i i 1 + e + X i
i =1
Xi = 0
Se trata de un sistema de ecuaciones no lineales por lo que es necesario aplicar un

mtodo iterativo o algoritmo de optimizacin que permita la convergencia en los
estimadores.
B. Estimacin con observaciones repetidas: Mtodo Mnimos Cuadrados Generalizados
La estimacin del modelo con datos agrupados podra realizarse mediante el
procedimiento habitual utilizado para estimar regresiones lineales, ya que la variable a
modelizar ya no es dicotmica (es continua aunque acotada en el rango 0-1). Para ello
es necesario linealizar el modelo, lo cual es fcil de realizar a travs de la
transformacin ya comentada anteriormente, y por la cual:
Mi
Ln
1 M i
= + k X k i + i
donde i es el valor de la perturbacin aleatoria incluida en la especificacin de todo

modelo de regresin lineal y que cumple las hiptesis de perturbacin esfrica y
ausencia de autocorrelacin. El modelo as transformado puede estimarse por el
14
procedimiento habitual de Mnimos Cuadrados Ordinarios (MCO). Sin embargo, y dado

que el valor de Mi es desconocido y debe sustituirse por su estimacin muestral Pi, el
modelo a estimar quedara como:
P
Ln i
1 Pi
= + k X k i + i + i '
donde i ' recoge el error cometido al utilizar la estimacin muestral de la probabilidad

Pi, en vez de su valor desconocido Mi. Al sustituir Mi por su estimacin muestral Pi, los
errores, supuestos independientes, cumplen la condicin asinttica de normalidad
exigida para realizar contrastaciones y construccin de intervalos de confianza, pero,
dejan de cumplir la condicin de homocedasticidad ya que su varianza no es constante5 .
La presencia de heterocedasticidad impide la estimacin a travs de Mnimos
Cuadrados Ordinarios, siendo necesario aplicar el mtodo de Mnimos Cuadrados
Generalizados, que sin exigir la condicin de homocedasticidad de los errores, permite
estimar estimadores ELIO. Este procedimiento transforma el modelo a estimar en otro,
donde todas las variables quedan ponderadas por los inversos de las varianzas de los
errores, y dado que se desconocen dichos valores verdaderos, stos se sustituyen por su
estimacin muestral Pi, de donde:
si =
1
Var ( i ' )
= n i Pi (1 Pi )
(17)
quedando el modelo a estimar como:

P
si Ln i = si + k X k i si + i
1 Pi i
(18)
Contraste y validacin de hiptesis

En el caso de trabajar con observaciones repetidas la contrastacin y validacin del
modelo estimado sigue la misma metodologa que la empleada en el anlisis de
regresin tradicional, por lo que remitimos a ste para profundizar en este tema.
Mientras que si nos encontramos en el caso de no disponer de observaciones repetidas,
5
La varianza de la perturbacin aleatoria no es homocedstica ya que depende del nivel en que se

encuentre la variable explicativa X, al definirse
P
i ' = Ln i
1 Pi
Mi
Ln
1 M i
15
la etapa de contrastacin y validacin del modelo estimado por mxima-versoimilitud se

lleva a cabo aplicando los estadsticos especficos que se comentan a continuacin.
A. Significatividad estadstica de los parmetros estimados
La distribucin del estimador del parmetro es aproximadamente:
N ; Var ( )
En tal situacin, se puede construir un intervalo de confianza del parmetro estimado,

para testar si dicho valor es significativamente distinto de cero de forma individual. El
contraste a realizar quedara definido como:
H0 : = 0
El parmetro es igual a cero
H1 : 0
El parmetro es distinto de cero
El intervalo de confianza proporciona un rango de posibles valores para el parmetro,

por lo que si el valor estimado no pertenece a dicho intervalo, se deber rechazar la
hiptesis nula. El intervalo quedara definido como:
z / 2 Var ( ) + z / 2 Var ( )
donde es la probabilidad de que el verdadero valor del parmetro se halle fuera del
intervalo, y z es el valor tabular de la distribucin N(0;1) que deja a su derecha una
probabilidad igual a / 2 .
A partir de la expresin anterior se puede fijar un rechazo de la hiptesis nula cuando:
Var ( )
z / 2
B. Medidas de bondad de ajuste del modelo

El uso de la funcin de verosimilitud en la estimacin, hace que la bondad del ajuste en
los modelos de eleccin discreta sea un tema controvertido, ya que en estos modelos no
existe una interpretacin tan intuitiva como en el modelo de regresin clsico. A
continuacin se describen los contrastes ms utilizados en la literatura economtrica
para medir la bondad de ajuste en un modelo Logit y que concretaremos en: ndice de
16
cociente de verosimilitudes, el estadstico chi-cuadrado de Pearson, el porcentaje de

aciertos estimados en el modelo, y la prueba de Hosmer-Lemeshow.
B.1. ndice de cociente de verosimilitudes
La funcin de verosimilitud puede tambin utilizarse para obtener un estadstico, que
tiene cierta semejanza con el coeficiente de determinacin calculado en la estimacin
lineal, conocido ndice de cociente de verosimilitudes. Este estadstico compara el
valor de la funcin de verosimilitud de dos modelos: uno corresponde al modelo
estimado que incluye todas las variables explicativas (modelo completo) y el otro sera
el del modelo cuya nica variable explicativa es la constante (modelo restringido). El
estadstico, tambin conocido como R2 de McFadden ya que fue propuesto por
McFadden en 1974, se define como :
RV = ICV = 1
log L
log L( 0)
(19)
donde L es el valor de la funcin de verosimilitud del modelo completo (el estimado con
todas las variables explicativas) y L(0) es el valor correspondiente del modelo
restringido (el que incluye nicamente en la estimacin el trmino constante).
El ratio calculado tendr valores comprendidos entre 0 y 1 de forma que:
-
Valores prximos a 0 se obtendrn cuando L(0) sea muy parecido a L, situacin en

la que nos encontraremos cuando las variables incluidas en el modelo sean poco
significativas, es decir, la estimacin de los parmetros no mejora el error que se
comete si dichos parmetros se igualaran a 0. Por lo que en este caso la capacidad
explicativa del modelo ser muy reducida.
Cuanto mayor sea la capacidad explicativa del modelo, mayor ser el valor de L
sobre el valor de L(0), y ms se aproximar el ratio de verosimilitud calculado al
valor 1.
B.2. Una medida del error: el estadstico 2 de Pearson

Para medir la bondad del ajuste tambin se utilizan medidas del error que cuantifican la
diferencia entre el valor observado y el estimado. En concreto, para contrastar la
hiptesis nula de que
H 0 : Yi = M i ; lo que equivale a H 0 : Yi M i = ei = 0
17
se construye un estadstico que recoge los residuos estandarizados o de Pearson6 del

modelo Logit, que se definen como la diferencia entre el valor observado de la variable
respuesta y el estimado, dividido por la estimacin de la desviacin tpica, ya que la
esperanza es nula. A travs del contraste de multiplicadores de Lagrange, se puede
calcular el estadstico conocido con el nombre de 2 de Pearson, que se define como
(Yi M i ) 2
= e =
i =1
i =1 M (1 M )
n
2
i
(20)
Este estadstico es similar a la suma de cuadrados de los residuos del modelo de

regresin convencional. El ajuste del modelo ser mejor cuanto ms cerca est el valor
del estadstico de cero. Para saber a partir de que valor puede considerarse el ajuste
como aceptable es necesario conocer la distribucin del estadstico. ste estadstico,
bajo la hiptesis nula, se distribuye como una chi-cuadrado con (n-k) grados de libertad,
por lo que su valor se compara con el valor terico de las tablas de la chi-cuadrado para
contrastar la hiptesis nula. Si el valor calculado es superior al valor terico se rechaza
la hiptesis nula lo que equivale a decir que el error cometido es significativamente
distinto de cero, es decir, se tratara de un mal ajuste.
B.3 Porcentaje de aciertos estimados en el modelo
Otra de las vas utilizadas para determinar la bondad de un modelo Logit es predecir con
el modelo los valores de la variable endgena Yi de tal manera que Yi = 1 si M i > c
Yi = 0 si M i < c . Generalmente, el valor que se asigna a c para determinar si el valor
de la prediccin es igual a 1 o a 0 es de 0,5, puesto que parece lgico que la prediccin
sea 1 cuando el modelo dice que es ms probable obtener un 1 que un 0.
Sin embargo, la eleccin de un umbral igual a 0,5 no siempre es la mejor alternativa. En
el caso en que la muestra presente desequilibrios entre el nmero de unos y el de ceros
la eleccin de un umbral igual a 0,5 podra conducir a no predecir ningn uno o ningn
cero. As, supuesta una muestra de 1.000 observaciones donde 100 son 1 y el resto 0, si
el modelo incluye trmino constante, la media de las probabilidades estimadas en la
muestra ser 0,17 , por lo que ser casi imposible que se obtenga un valor estimado
superior a 0,5. Si el umbral seleccionado es de 0,5, con esta regla nunca se llegaran a
6
Los residuos estandarizados o de Pearson se definen como:
Yi M i
M i (1 M i )
Como se ha comentado anteriormente, de la condicin de primer orden que queda recogida en la

ecuacin (III.44) se deduce que la media de las probabilidades estimadas por el modelo, ha de coincidir
con la proporcin de unos que haya en la muestra.
18
estimar valores iguales a 1. El modo de resolver este problema es tomar un umbral ms

pequeo.
Con cualquier tipo de regla predictiva similar se cometern dos errores: habr ceros que
se clasifiquen incorrectamente como unos y unos que se clasifiquen incorrectamente
como ceros. Si se reduce el umbral por debajo de 0,5 aumentar el nmero de veces que
se clasifican correctamente observaciones para las que Yi=1, pero tambin aumentar el
nmero de veces en que se clasifiquen observaciones como unos para las que Yi=0.
Cambiando el valor del umbral se reducir siempre la probabilidad de un error de un
tipo y se aumentar la probabilidad del otro tipo de error. Por lo que el valor que debe
tomar el umbral depende de la distribucin de datos en la muestra y de la importancia
relativa de cada tipo de error.
Una vez seleccionado el nivel del umbral, y dado que los valores reales de Yi son
conocidos, basta con contabilizar el porcentaje de aciertos para decir si la bondad del
ajuste es elevada o no. A partir de este recuento se puede construir el siguiente cuadro
de clasificacin:
Cuadro de clasificacin de aciertos
Valor real de Yi
i
Prediccin de M
Yi = 0
Yi = 1
M i < c
P11
P12
M i > c
P21
P22
Donde P11 y P22 correspondern a predicciones correctas (valores 0 bien predichos en el

primer caso y valores 1 bien predichos en el segundo caso), mientras que P12 y P21
correspondern a predicciones errneas (valores 1 mal predichos en el primer caso y
valores 0 mal predichos en el segundo caso). A partir de estos valores se pueden definir
los ndices que aparecen en el siguiente cuadro.
19
ndices para medir la bondad del ajuste

Indice
Definicin
Expresin
Tasa de aciertos
Cociente entre las predicciones correctas y el total de

predicciones
P11 + P22
P11 + P12 + P21 + P22
Tasa de errores
Cociente entre las predicciones incorrectas y el total

de predicciones
P12 + P21
P11 + P12 + P21 + P22
Especificidad
Proporcin entre la frecuencia de valores 0 correctos

y el total de valores 0 observados
P11
P11 + P21
Sensibilidad
Razn entre los valores 1 correctos y el total de

valores 1 observados
P22
P12 + P22
Tasa de falsos ceros
Proporcin entre la frecuencia de valores 0

incorrectos y el total de valores 0 observados
P21
P11 + P21
Tasa de falsos unos
Razn entre los valores 1 incorrectos y el total de

valores 1 observados
P12
P12 + P22
B.4. Prueba de Hosmer-Lemeshow

Otra medida global de la exactitud predictiva, no basada en el valor de la funcin de
verosimilitud sino en la prediccin real de la variable dependiente, es el contraste de
clasificacin diseado por David W. Jr. Hosmer y Stanley Lemeshow en 1989. Dicho
contraste consiste en realizar comparaciones entre el valor estimado y el observado por
grupos. Para ello las observaciones se dividen en J grupos (generalmente 10)
aproximadamente iguales, dividiendo el recorrido de la probabilidad en deciles de
riesgo (esto es probabilidad de ocurrencia del fenmeno < 0.1, < 0.2, y as hasta <1).
Cada uno de los grupos contiene nj observaciones, y en cada uno de los J grupos se
define:
-
Yj como la suma de los valores 1 en cada uno de los grupos ( Y j = Yi )
Pj como la media de los valores predichos en cada grupo ( Pj =
Pi
).
nj
A partir de esta informacin se puede construir una tabla de contingencia a travs de la

que se compara tanto la distribucin de ocurrencia, como la de no ocurrencia prevista
por la ecuacin y los valores realmente observados. El contraste se realiza comparando
las frecuencias observadas y esperadas a travs del clculo del estadstico
J
HL =
j =1
(Y
n j Pj )
(21)
n j Pj (1 Pj )
20
Hosmer y Lemeshow demuestran que cuando el modelo es correcto el estadstico HL

sigue una distribucin chi-cuadrado con J-2 grados de libertad, por lo que valores
inferiores del estadstico calculado respecto al terico indicarn un buen ajuste del
modelo.
El uso correcto de este contraste requiere un tamao de muestra adecuado para asegurar
que cada grupo cuenta al menos con cinco observaciones. Adems el estadstico chicuadrado es sensible al tamao muestral, permitiendo que esta medida encuentre
diferencias estadsticamente muy pequeas cuando el tamao muestral crece.
5. MODELOS DE RESPUESTA MLTIPLE
Cuando la variable endgena a modelizar es una variable discreta con varias alternativas
posibles de respuesta (J) nos encontramos ante los modelos de respuesta mltiple. Estos
modelos se clasifican en dos grandes grupos segn que las alternativas que presenta la
variable endgena se puedan ordenar (modelos con datos ordenados) o no se puedan
ordenar (modelos con datos no ordenados).
Modelos de respuesta mltiple con datos no ordenados
La especificacin general de los modelos de respuesta mltiple con datos no ordenados
queda recogida a travs de la siguiente expresin:
Pr ob(Yi = j ) =
e
J
' Zij
(22)
' Z ij
j =0
donde Zij representa la matriz de los regresores del modelo. Dichas variables
explicativas pueden ser de dos tipos:
-
Variables que contienen aspectos especficos del individuo y por tanto, su valor
ser el mismo en todas las alternativas. Este tipo de variables reciben el nombre
de caractersticas, y se las denota por Wi.
Variables que contienen aspectos especficos de las alternativas entre las que se
ha de elegir, y varan tanto entre individuos como entre alternativas. Este tipo de
variables reciben el nombre de atributos de las alternativas y se las denota por
Xij.
A partir de esta especificacin general, y teniendo en cuenta que la inclusin en el

modelo de variables explicativas que hagan referencia a caractersticas o atributos
21
permite la especificacin de modelos diferentes denominados, modelo logit multinomial

en el primer caso y modelo logit condicional en el segundo.
A. El modelo Logit Multinomial
Este tipo de modelos es el que se utiliza con ms frecuencia en los trabajos aplicados.
En este modelo los valores de las variables explicativas varan para cada individuo pero
son constantes para cualquier alternativa, por lo que no se puede apreciar la influencia
de la variable en cada alternativa a no ser que se introduzca una variable ficticia,
multiplicada por los valores de Wi, que represente a cada alternativa. Para evitar
problemas de singularidad, el nmero de variables ficticias a introducir en el modelo
ser igual al nmero de alternativas menos uno (J-1).
La formulacin de un Logit Multinomial queda recogida a travs de la siguiente
ecuacin8 :
Pr ob(Yi = j ) = Pij =
e
J 1
j 'X i
(23)
j ' Xi
j =0
donde j representa el ndice asociado a cada alternativa y va desde 0 hasta (J-1). El

vector de parmetros lleva asociado el subndice correspondiente a la alternativa
concreta analizada. Las ecuaciones estimadas proporcionan un conjunto de
probabilidades para cada una de las alternativas que puede tomar un individuo i y tenga
Xi como caractersticas individuales.
En el modelo Logit Multinomial existe una indeterminacin cuando se trata de estimar
el valor de los parmetros. Para solucionar este problema se normaliza el modelo
tomando para los parmetros que acompaan a la alternativa cero el valor cero, 0 = 0 .
Las probabilidades resultantes son
Pr ob(Yi = j ) =
j 'X i
J 1
1+ e
para j=1, 2, ..., (J-1)

j'Xi
(24)
j =1
A pesar de que las caractersticas especficas de cada individuo se han denotado con Wi , en lo que
sigue se denotarn con Xi al hacer referencia a las variables explicativas de un modelo economtrico en
el que tradicionalmente se utiliza esa denominacin.
22
Pr ob(Yi = 0) =
1
J 1
1+ e
para j=0
j ' Xi
j =1
Donde se tiene que cumplir que

J 1
P
j= 0
=1
Para el caso sencillo de un modelo en el que la variable endgena presenta tres posibles
alternativas de eleccin y slo existe una variable explicativa en la modelizacin, la
probabilidad asociada a cada una de las alternativas posibles de eleccin tomaran las
siguientes expresiones9
P0 =
1
1+ e
1 + 1 X i
+ e 2 + 2 X i
P1 =
e 1 + 1 X i
1 + e1 + 1 X i + e 2 + 2 X i
P2 =
e 2 + 2 X i
1 + e 1 + 1 X i + e 2 + 2 X i
(25)
con P0 + P1 + P2 = 1
Y la matriz de diseo X vendr expresada como
1
0
X = 0
...
1
0
X1
1 0
0 X2
1 0
... ...
0 Xn
1 0
0
X 1
0
X 2
...
0
X n
B. El modelo Logit Condicional

Cuando las variables explicativas que se utilizan para estimar las probabilidades
asociadas a cada una de las posibles alternativas que presenta la variable endgena se
Se identifican con la letra los parmetros q ue acompaan al trmino independiente y con la letra
los que acompaan a las variables explicativas.
9
23
refieren a atributos de las distintas alternativas, y no a caractersticas especficas de los

individuos, el modelo que se utiliza en la estimacin es el llamado Logit Condicional.
En este caso, el valor de cada variable variar para cada alternativa y puede hacerlo o no
para cada individuo.
La diferencia de este modelo con el Logit Multinomial es que en este caso solo existe
un vector de parmetros a estimar, mientras que en el caso anterior existan tantos
vectores como alternativas menos una. Es por ello, que en la formulacin del modelo el
vector de parmetros, al ser nico, no lleva asociado ningn subndice relacionado con
la alternativa a la que acompaa, como ocurra en el caso anterior.
La otra diferencia hace referencia a que en este caso no existe ninguna indeterminacin
a la hora de estimar los parmetros, por lo que no es necesario igualar ningn vector
a cero.
La expresin formal del modelo queda definida como
Pr ob(Yi = j ) =
e
J
' X ij
para j = 1, 2, ..., J
(26)
' X ij
j =1
C. El modelo Logit Anidado

Uno de los problemas que se plantean en los modelos expuestos de respuesta mltiple
es el de que se construyen bajo la hiptesis de presencia de alternativas irrelevantes o
superfluas, segn la cual la relacin entre las probabilidades de decidir entre dos
alternativas no depende del resto de las alternativas. Esta propiedad se debe al supuesto
inicial de que las perturbaciones aleatorias del modelo son independientes, es decir, las
perturbaciones afectan de la misma forma a la diferencia de utilidad entre cualquier par
de alternativas. El caso contrario sera la presencia de autocorrelacin en el modelo, lo
cual se dara, por ejemplo, cuando un individuo percibe unas alternativas ms similares
entre s que otras.
Si bien asumir la hiptesis de independencia de las alternativas irrelevantes simplifica el
proceso de estimacin, supone una restriccin en la modelizacin del comportamiento
de los individuos que no parece razonable en determinadas circunstancias. As, esta
propiedad carece de validez cuando algunas de las alternativas son sustitutivos cercanos,
ya que en este caso existiran alternativas correlacionadas. Como alternativa para relajar
la hiptesis de independencia de alternativas irrelevantes, se ha desarrollado el modelo
Logit anidado o Logit jerrquico (que en terminologa anglosajona es conocido como
Nested Logit).
24
La construccin del modelo se realiza agrupando el conjunto de alternativas posibles en

subgrupos y manteniendo la hiptesis de independencia de alternativas irrelevantes
dentro de cada grupo y en la eleccin entre grupos. En este modelo, la eleccin de una
de las alternativas posibles se realiza en dos o ms etapas, definindose una estructura
arbrea: primero se escoge entre los conjuntos de alternativas y despus se elige una
alternativa especfica perteneciente al conjunto seleccionado en principio.
Suponiendo que las J alternativas posibles pueden dividirse en L conjuntos de
alternativas, y que las variables explicativas del modelo son Xj/l, las que se relacionan
con las alternativas dentro de un grupo, y Zl, las que se relacionan con los conjuntos de
alternativas, la forma matemtica del modelo queda expresada como:
Pj / l =
'X j /l
Jl
'X j / l
j =1
Pl =
(27)
e 'Zl + l I l
Jl
' Z l + l Il
j =1
Jl
donde I l = ln e
'X j /l
j =1
Uno de los aspectos problemticos de este modelo radica en la especificacin de la

estructura arbrea. En algunos casos, la particin en subgrupos del conjunto de
alternativas posibles se hace de modo natural. Sin embargo, en otros casos, dicha
particin del conjunto de posibles alternativas se hace sin ningn criterio lgico, por lo
que resulta preocupante que los resultados obtenidos dependan de cmo se han definido
las ramas. De momento, no existe ningn contraste que permita seleccionar la mejor
estructura arbrea de entre varias, por lo que muchos de los trabajos empricos que
estiman este modelo presentan los resultados supuestas distintas especificaciones de la
estructura arbrea.
Modelos de respuesta mltiple con datos ordenados
Cuando la variable dependiente es discreta, pero sus valores indican un orden, no es
correcto realizar la estimacin de la misma a travs de los modelos presentados en el
apartado anterior, ya que la inclusin de la informacin que aporta el orden de las
alternativas en la especificacin del modelo permite obtener unos mejores resultados.
Tampoco sera correcto el uso de un modelo de regresin clsico, ya que codificadas las
posibles alternativas como 0, 1, 2, ...(j+1), ..., J, se estara considerando la diferencia
entre (j+1) y (j+2) como la existente entre 1 y 2, lo cual no tiene porque ser as ya que
25
los nmeros utilizados en la codificacin solo representan un orden dentro de una

clasificacin.
La formulacin del modelo Logit ordenado queda como sigue:
Pr ob( Yi = 0 ) = ( ' X i )
Pr ob(Yi = 1) = ( 1 ' X i ) ( ' X i )
Pr ob(Yi = 2) = ( 2 ' X i ) ( 1 ' X i )
(28)
...
Pr ob( Yi = ( J 1 )) = 1 ( ( J 2 ) ' X i )
donde 1 , 2 , ..., ( J 2) son parmetros que representan los valores de los umbrales o
barreras y se estiman a la vez que y ( ' X i ) representa la funcin de distribucin
logstica10 .
Para que todas las probabilidades sean positivas se debe cumplir
0 < 1 < 2 < ... < ( J 2)
El siguiente grfico, para el que la variable observada presenta cinco posibles

alternativas, sirve para ilustrar la estructura que subyace en la construccin del modelo
Logit ordenado.
Clculo de probabilidades en el modelo Logit Ordenado
f( )
0,30
0,25
0,20
0,15
0,10
0,05
- ' X
10
( ' X i ) =
1 ' X
2 ' X
e ' X
1+ e ' X
26
Y=4
3 ' X
19
Y=3
17
15
13
Y=2
11
Y=1
Y=0
0,00

Logit, Modelos de Elección Discreta

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Logit, Modelos de Elección Discreta

Uploaded by

Copyright:

Available Formats

MODELOS DE ELECCIN DISCRETA

Eva Medina Moral - www.eva.medinaam.es

(de los individuos) (de las alternativas)

Modelo de Probabilidad Lineal Truncado

Probit Multivariante Probit Multivariante

2. INTERPRETACIN ESTRUCTURAL DE LOS MODELOS DE ELECCIN

lo que ocurre cuando X i + i > 0

lo que ocurre cuando X i + i < 0

donde el supuesto sobre la distribucin de i determina el tipo de modelo a estimar: si

recibe el nombre de funcin ndice.

Y el modelo dicotmico quedara definido por,

Segn que la funcin asociada a la perturbacin aleatoria ij (que ser la funcin de

Ambos enfoques, el de la funcin ndice y el de la formulacin de una utilidad aleatoria,

La distribucin de la muestra en este tipo de modelos se caracteriza por configurar una

El Modelo Lineal de Probabilidad, ecuacin (4), se puede interpretar en trminos

Sin embargo, si se restringen los valores de Yi a 0 y 1, los valores del trmino

Para X i / : Trmino independiente y pendiente iguales a 0.

Para / X i (1 ) / : Trmino independiente igual y pendiente

Para X i (1 ) / : Trmino independiente igual a 1 y pendiente igual a 0.

Esto har que si se incluyen en la estimacin puntos en los que X i /

La varianza de la perturbacin aleatoria es una funcin de la probabilidad f i (1) , la cual

Se estima el modelo (4) mediante MCO sin tener en cuenta el problema de

El valor Yi se utiliza para calcular la varianza de la perturbacin aleatoria, a travs

Var ( i ) = (1 f i (1) ) f i (1) = Yi (1 Yi ) = i2

i2 = Yi (1 Yi ) , con el fin de transformar el modelo

La estimacin por MCO del modelo transformado es equivalente a aplicar MCG en el

( e ) es ms grande de lo habitual debido a la forma especfica en que se

estimacin por MCO es ms pequeo de lo que realmente debera ser.

El coeficiente de determinacin se obtiene a travs de la frmula

4. MODELOS DE PROBABILIDAD NO LINEAL

En el caso del modelo Probit la funcin de distribucin utilizada es la de la normal

diferencias operativas, debidas a la complejidad que presenta el clculo de la funcin de

generada representa en una escala logartmica la diferencia entre las

probabilidades de que ocurra la alternativa 1 y su contraria.

Estimacin de los parmetros en los modelos Logit

La generalizacin del modelo a k variables explicativas implica la existencia de

Por lo tanto, ante la presencia de observaciones repetidas, se podra aplicar el mtodo de

= ln L = Yi ln M i + (1 Yi ) ln( 1 M i) = Yi ln M i + (1 Yi ) ln( 1 M i ) (14)

El mtodo de estimacin de mxima verosimilitud elige el estimador del parmetro que

Se trata de un sistema de ecuaciones no lineales por lo que es necesario aplicar un

donde i es el valor de la perturbacin aleatoria incluida en la especificacin de todo

procedimiento habitual de Mnimos Cuadrados Ordinarios (MCO). Sin embargo, y dado

donde i ' recoge el error cometido al utilizar la estimacin muestral de la probabilidad

quedando el modelo a estimar como:

Contraste y validacin de hiptesis

La varianza de la perturbacin aleatoria no es homocedstica ya que depende del nivel en que se

la etapa de contrastacin y validacin del modelo estimado por mxima-versoimilitud se

En tal situacin, se puede construir un intervalo de confianza del parmetro estimado,

El parmetro es igual a cero

El parmetro es distinto de cero

El intervalo de confianza proporciona un rango de posibles valores para el parmetro,

B. Medidas de bondad de ajuste del modelo

cociente de verosimilitudes, el estadstico chi-cuadrado de Pearson, el porcentaje de

Valores prximos a 0 se obtendrn cuando L(0) sea muy parecido a L, situacin en

B.2. Una medida del error: el estadstico 2 de Pearson

se construye un estadstico que recoge los residuos estandarizados o de Pearson6 del

Este estadstico es similar a la suma de cuadrados de los residuos del modelo de

Los residuos estandarizados o de Pearson se definen como:

Como se ha comentado anteriormente, de la condicin de primer orden que queda recogida en la

estimar valores iguales a 1. El modo de resolver este problema es tomar un umbral ms

Donde P11 y P22 correspondern a predicciones correctas (valores 0 bien predichos en el

ndices para medir la bondad del ajuste

Cociente entre las predicciones correctas y el total de