Modelos de Eleccion Discreta: Revisi On y Aplicaci On Mediante Cuadratura Gaussiana
Modelos de Eleccion Discreta: Revisi On y Aplicaci On Mediante Cuadratura Gaussiana
Modelos de Eleccion Discreta: Revisi On y Aplicaci On Mediante Cuadratura Gaussiana
Director
Francisco Iván Zuluaga Dı́az
Magı́ster Matemáticas Aplicadas
Jairo Villegas G.
Coordinador de la Maestrı́a
Francisco Zuluaga D.
Director del trabajo
ii
Agradecemos a nuestro Director Francisco Iván Zuluaga Dı́az, Magı́ster en
Matemáticas Aplicadas, por su dedicación y paciencia, sugerencias y apoyo constante
durante este trabajo. Sin su fundamental colaboración este proyecto no hubiese sido
posible.
iii
Existen muchas personas que incidieron de una u otra manera para que este
proceso de cualificación a nivel de Maestrı́a lo pudiera culminar con éxito. Agradezco
de manera especial al amigo y profesor Jairo Villegas, Coordinador de la Maestrı́a,
como también a los profesores Gustavo Mejı́a y Mauro Montealegre.
A la Universidad Eafit, a la Universidad de la Amazonia, que con su inicativa y
apoyo nos permitió cualificarnos a este nivel de conocimiento.
A mi esposa, Graciela, a mis hijas, Karina, Danna y Mellissa, que sin su apoyo,
comprensión, Cariño, amor y acompañamiento no hubiera sido posible terminar este
proceso, a ellas que son una bendición de Dios, todo mi amor.
Introducción 1
1. Fundamentos 3
1.1. Definiciones Básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3. Normalidad Asintótica . . . . . . . . . . . . . . . . . . . . . . . . . . 15
v
Índice General vi
4. Aplicación 88
4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.2. Fuente de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.2.1. Caso Estados Unidos . . . . . . . . . . . . . . . . . . . . . . . 88
4.2.2. Caso Colombia . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.3. Metodologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.3.1. Cuadratura Gaussiana . . . . . . . . . . . . . . . . . . . . . . 91
4.3.2. Criterio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.4.1. Caso Estados Unidos . . . . . . . . . . . . . . . . . . . . . . . 93
4.4.2. Caso Colombia . . . . . . . . . . . . . . . . . . . . . . . . . . 94
A. Función de Verosimilitud 96
A.1. Condiciones de regularidad . . . . . . . . . . . . . . . . . . . . . . . . 96
B. Aplicación 97
B.1. Caso EE.UU. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
B.2. Caso Colombia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Bibliografı́a 105
Resumen
paso previo a la modelación, proceso por el cual las alternativas de las variables se
transforman en códigos o valores cuánticos, susceptibles de ser modelados utilizando
técnicas econométricas.
Fundamentos
Ω∈A
Ej ∈ A, j = 1, 2, · · · ⇒ ∪∞
j=1 Ej ∈ A
E ∈ A ⇒ P (E) ≥ 0
P (Ω) = 1
asociado con esta partición del intervalo [a, b]. Si, para algún ǫ > 0, allı́ existe un
número real A y una partición tal que para cada partición más fina y para cualquier
elección de x∗i , |Sn − A| < ǫ, se denominará A a la integral de Riemann-Stieltjes y
se denota por: Z b
h (x) dF (x)
a
Esta existe si h es una función continua excepto posiblemente para un número
contable de discontinuidades, con tal de que, siempre que su discontinuidad coincida
con que F, sea continua hacia la derecha. Finalmente, el valor esperado de Y , E(Y )
se define como:
Z ∞ Z b
E(Y ) = h (x) dF (x) = lim h (x) dF (x) (1.1.3)
−∞ a
con tal de que el lı́mite (que puede ser +∞ o −∞) exista sin tener en cuenta que
a −→ −∞ y b −→ ∞.
dF
Si existe y es igual a f (x),
dx
F (xi+1 ) − F (xi ) = f (x∗i ) (xi+1 − xi )
para algún x∗i ∈ [xi+1 , xi ] por el teorema del valor medio. Por tanto,
Z ∞
E(h (X)) = h (x) f (x) dx (1.1.4)
−∞
o como:
plim Xn = X
Definición 9. Convergencia casi segura Una sucesión {Xn } se dice que converge
a X casi seguramente si
n o
P ω | lim Xn (ω) = X(ω) = 1
n→∞
Los próximos cuatro teoremas establecen las relaciones lógicas entre los cuatro
modos de convergencia, detallados en la siguiente figura,
a.s.
M P d
Teorema 10. (Chebyshev)
P
E Xn2 → 0 ⇒ Xn → 0
1.1 Definiciones Básicas 7
Prueba. Z Z
∞
E Xn2 = 2
x dFn (x) ≥ ǫ 2
dFn (x) (1.1.6)
−∞ S
donde
S = x|x2 ≥ ǫ2
pero se tiene que:
Z Z −ǫ Z ∞
dFn (x) = dFn (x) + dFn (x) (1.1.7)
S −∞ ǫ
= Fn (−ǫ) + [1 − Fn (ǫ)]
= P (Xn < −ǫ) + P (Xn ≥ ǫ)
≥ P [Xn2 > ǫ2 ]
E (Xn2 )
P [Xn2 >ǫ ]≤ 2
(1.1.8)
ǫ2
que es el teorema que sigue inmediatamente de la definición (9)
Eg(Xn )
P [g(Xn ) > ǫ2 ] ≤ (1.1.9)
ǫ2
donde g(·) es una función continua no negativa.
donde X puede ser una constante o una variable aleatoria, se sigue del teorema (10)
si se considera Xn − X como el Xn del teorema.
P d
Teorema 11. Xn → X ⇒ Xn → X
a.s. P
Teorema 12. Xn → X ⇒ Xn → X
d P
Teorema 13. Xn → α ⇒ Xn → α
1.1 Definiciones Básicas 8
Ley de los Grandes Números Dada una sucesión de variables aleatorias {Xt },
se define n
X
−1
X=n Xt .
t=1
Una Ley de Grandes Números (LGN) especifica las condiciones bajo a.s.las cuales
X − E X converge a 0 bien sea en forma casi segura (X − E X → 0) o en
P
probabilidad (X −E X → 0). La primera se conoce como una ley fuerte de grandes
números y la última como una ley débil. En muchas aplicaciones la forma más simple
p M
de mostrar X − E X → 0 es mostrar que X − E X → 0 y luego aplicar Teorema
10 (Chebyshev). Se enuncian enseguida dos leyes fuertes de grandes números.
Teorema 17. (LGN 1 de Kolmogorov) Sea {Xt } una sucesión de variables aleatorias
P∞ σ2
t
independientes con varianza finita Var(Xt ) = σt2 . Si 2
< ∞, entonces
t=1 t a.s.
X n − E X n converge casi seguramente a cero, esto es, X − E X → 0, siendo
1P n
Xn = Xt
n t=1
1.1 Definiciones Básicas 9
Teorema 18. (LGN 2 de Kolmogorov) Sea {Xt } una sucesión de variables aleatorias
independientes e idénticamente distribuı́das. Entonces una condición suficiente y
a.s.
necesaria para que X → µ es que E (Xt ) exista y sea igual a µ.
Teorema 19. (Teorema del lı́mite central) Sea {Xt } una sucesión de variables
aleatorias independientes e idénticamente distribuidas. Con E(Xt ) = µ y Var(Xt ) =
σt2 entonces
1 d
q (X n − E X n ) −→ N (0, 1)
Var(X n )
y Z ∞
AE Xn = x dFn (x) (1.1.11)
−∞
[se entiende que si θ̂T no es único, se selecciona un valor apropiado de tal manera
que θ̂T (y) sea una función medible de y.1 ]. Entonces θ̂T converge en probabilidad a
θ0
3. Existe una vecindad abierta N2 (θ0 ) de θ0 tal que T −1 QT (θ) converge a una
función no estocástica Q(θ) uniformemente en probabilidad en θ en N2 (θ0 ), y
Q(θ) alcanza un máximo local estricto en θ0
∂ 2 QT
1. existe y es continua en una vecindad abierta convexa de θ0
∂θ∂θ′
1
Esto es posible por un teorema de Jennrich (1969, p.637)
1.1 Definiciones Básicas 11
∂ 2 QT
2. T −1 converge en probabilidad a una matriz finita singular:
∂θ∂θ′ ∗
θT
−1 ∂ 2 QT
A(θ0 ) = lim ET
∂θ∂θ′ ∗
θT
∂QT
3. T −1/2
→ N [0, B(θ0 )], donde:
∂θ θ0
−1 ∂QT ∂QT
B(θ0 ) = lim ET ×
∂θ θ0 ∂θ′ θ0
n o
Sea θ̂T una sucesión obtenida para escoger un elemento de ΘT definido en el
teorema anterior tal que:
plim θ̂T = θ0 .
(θ̂T se denomina una raı́z consistente). Entonces:
√
T (θ̂T − θ0 ) → N [0, A(θ0 )−1 B(θ0 )A(θ0 )−1 ]
Teorema 24. Suponiendo que gT (θ) converge en probabilidad a una función no
estocástica g(θ) uniformemente en θ en una vecindad abierta N (θ0 ), entonces
plim gT (θ̂T ) = g(θ0 ) si plim(θ̂T ) = θ0 y g(θ) es continua en θ0
Definición 25. Estimador de Máxima Verosimilitud Sea LT (θ) = L(y, θ)
la densidad conjunta de un vector de T variables aleatorias y = (y1 , y2 , . . . , yT )
caracterizada por un vector de K parámetros θ. Cuando nos referimos a ella como
una función de θ, la llamamos función de verosimilitud. El término Estimador de
Máxima Verosimilitud (EMV) se usa frecuentemente para significar dos conceptos
diferentes:
1. El valor de θ que maximiza globalmente la función de verosimilitud L(y, θ)
sobre el espacio de parámetros θ; o
2. Cualquier raı́z de la ecuación de verosimilitud
∂LT (θ)
=0 (1.1.13)
∂θ
que corresponda a un máximo local. Aquı́ lo usaremos en el segundo sentido.
1.2 Consistencia 12
1.2. Consistencia
Las condiciones para la consistencia del Estimador de Máxima Verosimilitud
(EMV) global o local se pueden obtener del Teorema 21 o 22 haciendo
T −1 logLT (θ)
para θ 6= θ0 y para todo T. Sin embargo cuando se toma lı́mite a ambos lados de la
desigualdad 1.2.6 cuando T tiende a infinito, se tiene:
Teorema 26.
Sea gt (y, θ) una función medible de y en un espacio Euclideano para cada θ ∈ Θ,
un subconjunto compacto de RK (K-espacio Euclideano) y una función continua
de θ ∈ Θ para cada y. Asuma E(g(y, θ)) = 0. Sea {yi } una sucesión de vectores
aleatorios independientes e idénticamente distribuidos tales que
E sup |g(yt , θ)| < ∞.
θ∈Θ
T
X
Entonces T −1
gt (y, θ) converge uniformemente a 0 en probabilidad en θ ∈ Θ
t=1
y
T
X
T −1 sup gt (θ) − gt (θi )
θ∈Θn
i
t=1
Teorema 27. Sea gt (y, θ) una función medible de y en un espacio Euclideano para
cada t y para cada θ ∈ Θ, un subconjunto compacto de RK (K-espacio Euclideano)
y una función continua de θ uniformemente en y y t. Asumiendo Egt (y, θ) = 0.
Sea {yi } una sucesión de vectores aleatorios independientes y no necesariamente
idénticamente distribuidos tales que
1+δ
E sup gt (yt , θ) ≤M <∞
θ∈Θ
uniformemente en θ.
∂ 2 log LT
∂θ∂θ′
y el teorema de lı́mite central a
∂ log LT
.
∂θ
Aún si los {yi } no son independientes se puede aplicar la ley de los grandes números
y el teorema de lı́mite central mientras que el grado de dependencia está limitado en
cierta manera. Ası́ se espera se mantengan los supuestos 2 y 3 del teorema (23) en
el caso del estimador de máxima verosimilitud.
Sin embargo cuando se usa las caracterı́sticas de Lt como una función de densidad
conjunta se pueden alcanzar resultados más especı́ficos que el teorema (23), y de
1.3 Normalidad Asintótica 16
Teorema 29. Bajo los supuestos del teorema (23) y el supuesto anterior, el
estimador de máxima verosimilitud θ̂T satisface
"
#−1
√ 2
1 ∂ log LT
T θ̂T − θ0 −→ N 0, − lim E (1.3.3)
T ∂θ∂θ′ θ0
∂ 2 log ft
gt (θ) =
∂θi ∂θj
en el Teorema 26
Teorema 30. (Liapounov CLT) Sea {Xt } independiente con E (Xt ) = µt , V (Xt ) =
σt2 y
E |Xt − µt |3 = m3t .
Si " #−1/2 " #1/3
n
X n
X
lim σt2 m3t = 0,
n→∞
t=1 t=1
entonces, Zn → N (0, 1)
3
Ver Apéndice A.
Capı́tulo 2
2.1. Generalidades
2.1.1. Introducción
Un individuo en su vida cotidiana se enfrenta a muchas situaciones en las que debe
tomar una decisión. A veces, esta elección la hace de manera automática o por mera
intuición, sin ser consciente de que, tras cada opción, ha realizado un razonamiento
lógico. Sin embargo, en otras ocasiones el individuo debe tomar una decisión que
requiere una reflexión más profunda que la mera intuición.
En estos casos, el proceso de elección dependerá de determinados factores,
entre ellos sus propias preferencias y condicionantes y acarreará unas consecuencias
concretas.
Las repercusiones que se derivan de determinada elección pueden ser de distinta
trascendencia. No es lo mismo decidir sobre si viajar en taxi en bus urbano, que
decidir si conceder o negar un crédito a una empresa.
De manera análoga, la economı́a, como ciencia ligada al estudio de la forma en
que los agentes emplean los escasos recursos, está sujeta a los continuos procesos de
decisión entre las diferentes alternativas que se presentan en la vida cotidiana, tanto
a nivel macroeconómico como microeconómico. Ello indica que una de las tareas más
importantes en la actitud de los agentes económicos es la búsqueda de herramientas
que permitan objetivizar el problema de una forma racional. ([2],[13])
La teorı́a económica facilita modelos sobre la conducta de los agentes en
circunstancias similares, y la Econometrı́a desarrolla métodos para explicar el
comportamiento de los individuos ante los procesos de decisión, los cuales se pueden
realizar mediante la mera intuición económica o bien a través de un proceso objetivo
mediante uno de los modelos especı́ficos distintos a los modelos agregados, ya
que estos explican el comportamiento medio del grupo en lugar de interpretar el
comportamiento individual. De esta forma, la Econometrı́a pretende dar respuesta
2.1 Generalidades 18
2.1 Generalidades
Normal Tipificada Probit Ordenado
21
2.1 Generalidades 22
individuo elige aquella opción que le reporta mayor utilidad (beneficio) y que ésta es
aleatoria, lo que obliga a plantear la elección en términos probabilı́sticos.
2. Generación de alternativas
4. Elección
Para poder analizar este proceso será necesario precisar quién se considera
decisor (individuo, familia, grupo, etc.), cómo se genera el conjunto de alternativas
considerado (aquellas que el decisor juzga disponibles teniendo en cuenta sus
caracterı́sticas y restricciones personales), qué atributos van a caracterizar a las
alternativas y qué reglas se van a seguir para la elección.
Las reglas de decisión describen el mecanismo interno que utiliza el decisor para
procesar la información disponible y alcanzar una elección única. Existen numerosas
reglas de decisión propuestas ([10]), que se pueden clasificar en las siguientes
categorı́as ([4]):
Para cada alternativa, los distintos atributos toman diferentes valores. El indivi-
duo elige, dados los valores de los atributos, aquella alternativa que considera mejor,
estableciendo una regla de decisión que describe el mecanismo interno utilizado para
procesar la información disponible y realizar la elección. Los procesos de decisión
pueden ser compensatorios, esto es, cambios en uno o más atributos pueden ser
compensados por cambios en otros; o no compensatorios, donde los buenos atributos
de una alternativa no permiten compensar los malos. Los procesos de naturaleza
compensatoria definen una función objetivo (normalmente, una función de utilidad)
que exprese el atractivo de la alternativa en términos de sus caracterı́sticas.
Está basado en el compromiso entre atributos, pues al elegir la alternativa con
la utilidad más alta, el individuo selecciona aquella que ofrece una combinación
óptima de los mismos. Este tipo de modelos no son apropiados para los procesos de
decisión caracterizados por discontinuidades, las cuales son mucho mejor expresadas
a través de los procesos no compensatorios. Por su parte, estos procesos definen
2.1 Generalidades 27
De los dos procesos de decisión comentados, el que ha sido más utilizado para
explicar el comportamiento de elección del individuo es el de Satisfacción. No obs-
tante, en algunos casos el individuo podrá no considerar este proceso como criterio
de elección, y en estas situaciones se analizará si las preferencias del individuo descri-
tas por sus elecciones cumplen con los axiomas que establece la teorı́a del consumidor.
puede observar todos los factores que participan en el proceso de elección. Puede
darse la situación en que dos individuos con el mismo conjunto de alternativas
disponibles, sujetos a las mismas condiciones para realizar un viaje concreto e
idénticas caracterı́sticas socioeconómicas, elijan distintas alternativas. Para resolver
este problema, se acude a la teorı́a probabilı́stica con la idea de tener en cuenta el
efecto de factores de naturaleza aleatoria y de este modo corregir las percepciones
incorrectas del analista. Ası́ pues, se define una función de utilidad que presenta dos
componentes: Una parte observable, determinada por el vector de caracterı́sticas
o atributos medibles de la alternativa y el vector de caracterı́sticas socioeconómicas
del individuo; y Una componente no observable o aleatoria, definida para
incorporar las distintas fuentes de aleatoriedad que han sido identificadas; En primer
lugar cualquier atributo no observado. El vector de atributos de las alternativas es
usualmente incompleto, no es posible medir el conjunto total de elementos que el
individuo considera en sus decisiones. Otra fuente de aparente aleatoriedad es la
variación no observada en los gustos: la función de utilidad puede tener elementos no
observados que varı́an entre individuos; en tercer lugar los errores en la medición de
los distintos atributos ası́ como los elementos de la función de utilidad no observables
que se reemplazan por otros elementos (variables proxy).
De este modo, la utilidad Ujn que obtiene el individuo n al elegir la alternativa
j es una variable aleatoria que se descompone en la suma de dos componentes: La
componente observable (Vjn ) y la no observable (ǫjn ) según se establece en la siguiente
expresión:
Ujn = Vjn + ǫjn j = 1, . . . , J, n = 1, . . . , N, j ∈ Cn (2.1.4)
Tanto la componente observable como la no observable dependen de los atributos
de las alternativas y de las caracterı́sticas socioeconómicas del individuo. La
probabilidad que el individuo n elija la alternativa j dado un conjunto de opciones
disponibles Cn es:
P (j|Cn ) = P [Vjn + ǫjn ≥ Vin + ǫin ] ∀i ∈ Cn (2.1.5)
= P [ǫin − ǫjn ≤ Vjn + Vin ]
Para especificar la parte observable (Vjn ) se usan dos tipos de variables:
Los atributos que caracterizan a la alternativa j para el individuo n. En el
ejemplo estos atributos son tiempo de viaje, costo del viaje, confort, seguridad,
etc.
El vector de variables socioeconómicas que caracterizan al individuo n. Por
ejemplo la renta, la posesión o no de vehı́culo, el tamaño del hogar, edad, sexo,
ocupación, nivel de estudios, etc.
Dos cuestiones se derivan una vez determinadas las variables a considerar:
La primera, que constituye el principal problema en la especificación de la parte
2.1 Generalidades 29
utilidad representativa y se considera que los parámetros β son constantes para todos
los individuos pero pueden variar entre unas alternativas y otras, de este modo:
K
X
Vnj = βkj xknj (2.1.8)
k=1
Esta es la probabilidad de que cada término aleatorio ǫnj − ǫni sea inferior a una
cantidad observada Vni − Vnj , por lo tanto se trata de una función de distribución
acumulada. A partir de la función de densidad conjunta f (ǫn ) se puede calcular esta
3
Ver [28].
2.1 Generalidades 31
probabilidad como:
Siendo I(·) una función indicadora que valga uno si el individuo ha escogido la
alternativa i y cero en otro caso. Dependiendo de la distribución que cada modelo
asuma para el ǫnj se tendrá un valor cerrado de esta integral (en modelos como el
Logit o el Logit jerárquico) o tendrá que ser evaluada numéricamente por simulación
(como en el probit o el Logit mixto).
Por este motivo, no pueden estimarse todos los parámetros de los modelos,
ni todos los elementos de la matriz de covarianza4 que caracteriza la distribución
conjunta de los términos de error.
donde
F es una función conocida, que puede ser función lineal o no lineal de las
variables originales
De modo que:
n
X n
X
log L = yi log F (xi β) + (1 − yi ) log[1 − F (xi β)] (2.3.1)
i=1 i=1
n
X yi f (xp β)xi − F (xp β)f (xp β)xi
i i i
=
i=1
F (xpi β)(1 − F (xi β))
p
Luego:
Xn
∂ log L yi − F (xpi β)
= f (xpi β)xi
∂β i=1
F (x p
i β)(1 − F (x p
i β))
Xn
∂ log L yi − F (xpi β)
= f (xpi β)xi = 0 (2.3.2)
∂β i=1
F (x p
i β)(1 − F (x p
i β))
2.3 Estimación para modelos de elección binaria 35
Para probar la consistencia de βb se deben verificar los supuestos del Teorema 22.
Los supuestos 1 y 2 se satisfacen claramente. Para verificar el supuesto 3 se debe
usar el teorema 27. Si se define
gi (y, β) = y − F xpi β0 log F xpi β , gi (y, β)
en una vecindad compacta de β0 que satisface todas las condiciones para gt (y, θ) en
n
X
−1
el teorema, debido a los supuestos 2.3.1 y 2.3.3. Además, lim n Fi0 log Fi existe
n→∞
i=1
Xn
Pn −1
por el teorema 28. Por tanto, n −1
y
i=1 i log Fi converge a lim n Fi0 log Fi ;
n→∞
i=1
Fi0 = F xpi β0 , uniformemente en probabilidad en β ∈ N (β0 ), una vecindad abierta
de β0 .
Un resultado similar se puede obtener para el segundo término del lado derecho
de 2.3.1. Por tanto
Xn 2
∂ 2 log L yi − Fi
= − fi2 xi xpi
∂β∂β p i=1
Fi (1 − F i )
Xn
yi − Fi
+ fipxi xpi (2.3.6)
i=1
Fi (1 − Fi )
Por lo anterior se satisface el supuesto 1 del teorema 23. También se puede verificar
que los supuestos 2.3.1 y 2.3.3 implica el supuesto 2 del teorema 23 usando los
teoremas 24 y 27. De (2.3.2) se tiene que:
n
1 ∂ log L 1 X yi − Fi0
√ =√ fi0 xi (2.3.7)
n ∂β β0 n i=1 Fi0 (1 − Fi0 )
donde n
1X fi02
A = lim xi xpi (2.3.9)
n→∞ n Fi0 (1 − Fi0 )
i=1
∂ 2 log L
∂β∂β p
2.3 Estimación para modelos de elección binaria 37
Donde
Λi = Λ xpi β
Fi = Φi
fi = φi
y
fip = −xpi βφi
donde φi es la función de densidad de N(0, 1), y reemplazando en (2.3.6) se
obtiene
X n
∂ 2 log L −2 −2 2
= − φi Φi (1 − Φi ) y i − 2y i Φi + Φi φi
∂β∂β p i=1
+ (yi − Φi ) Φi (1 − Φi ) xpi β xi xpi (2.3.15)
2.3 Estimación para modelos de elección binaria 38
Segundo, sea y = 0
g0 (x) = Φ2 [φ − (1 − Φ) x]
que es absolutamente positivo si x ≤ 0 y es positivo si x > 0 debido a
2.3.16. Demostrando ası́ la concavidad global para el caso Probit.
donde
Fbi = F xpi βb1
y
fbi = f xpi βb1
De la iteración 2.3.19 es posible hacer una interesante interpretación. De 2.2.1 se
obtiene
yi = F xpi β0 + ui
donde
Eui = 0
y
V ui = F xpi β0 1 − F xpi β0
el cual es un modelo de regresión no lineal heterocedástico. Expandiendo F xpi β0
en una serie de Taylor alrededor de β0 = βb1 y organizando términos se tiene
(algunas veces referido como ”muchas observaciones por celda”). Ası́ que F (xpβ0 )
para el valor especı́fico de x puede ser estimado con precisión por la frecuencia
relativa de y cuando ésta es igual a 1.
Para explicar el método en detalle se deben definir nuevos sı́mbolos. Suponga
que el vector xi toma T valores vectoriales distintos x(1) , x(2) . . . , x(T ) y clasifica los
enteros (1, 2, . . . , n) en T conjuntos disjuntos I1 , I2 , . . . , IT por la regla: i ∈ It si
x(i) = x(t) . Sea P(t) = P (yi = 1) si i ∈ It . Además, sea nt el número de enteros
contenidos en It , X
rt = yi
i∈It
y
Pb(t) = rt /nt
n o
Nótese que Pb(t) constituye los estadı́sticos suficientes del modelo. También se
escribirá x(t) , P(t) y Pb(t) como xt , Pt y Pbt si no hay ambigüedad.
donde
2 [F −1 (Pt )]
σ −2
t = ct f
[Pt (1 − Pt )]
2.3 Estimación para modelos de elección binaria 42
debido a que
t=1
En el modelo Probit,
F −1 b
Pt = Φ−1 b
Pt .
Aunque Φ−1 no tiene una forma explı́cita puede ser fácilmente evaluada numérica-
mente. La función Φ−1 (.) se conoce como la transformación Probit.
g(P1 , P2 , . . . , PT ) = β0
se obtiene
X 1 XX
βb − β0 ∼
= gt ut +gts ut us
t
2 t s
1 XXX
+ g ut us ur , (2.3.35)
6 t s r tsr
donde
ut = Pbt − Pt
y gt , gts y gtsr representan las derivadas parciales de primer, segundo y tercer orden
de g evaluadas en (P1 , P2 , . . . , PT ), respectivamente. El sesgo del Estimador de
Máxima Verosimilitud al orden de n−1 se obtiene tomando la esperanza de los dos
primeros términos del lado derecho de la Ecuación (2.3.35). El Error Cuadrado
Medio del Estimador de Máxima Verosimilitud al orden de n−2 se obtiene calculando
10
Amemiya, 1980b
2.4 Prueba de Hipótesis 45
el Error Cuadrado Medio del lado derecho de la ecuación anterior, ignorando los
términos de orden menor a n−2 . No es necesario considerar términos más altos en la
expansión de Taylor porque el Eukt para k ≥ 5 es a lo más del orden de n−3 t . Una
expansión de Taylor para el estimador M IN χ2 βe se obtiene expandiendo el lado
derecho de la Ecuación 2.3.25 alrededor de Pt .
Usando estas fórmulas, Amemiya calculó los Errores Cuadrados Medios aproxi-
mados del Estimador de Máxima Verosimilitud y el estimador M IN χ2 en algunos
ejemplos tanto artificiales como empı́ricos y encontró que el estimador M IN χ2 tiene
un Error Cuadrado Medio más pequeño que el Estimador de Máxima Verosimilitud
en todos los ejemplos considerados. Sin embargo, la diferencia entre las dos matrices
del Error Cuadrado Medio pueden no ser ni definida positiva ni definida negativa
(Ghosh y Sinha, 1981). De hecho Davis 1984 mostró ejemplos en los cuales el Es-
timador de Máxima Verosimilitud tiene un Error Cuadrado Medio menor de n−2 y
ofreció un argumento intuitivo que mostró que para un T grande, es más probable
que el Estimador de Máxima Verosimilitud tenga un error cuadrático medio más
pequeño.
Smith, Savin y Robertson (1984) realizaron un estudio Monte Carlo del Modelo Logit
con una variable independiente y encontraron que aunque en estimación puntual el
M IN χ2 era mejor que el Estimador de Máxima Verosimilitud, como en los estudios
de Berkson y Amemiya, la convergencia de la distribución del estimador M IN χ2 a
una distribución normal era algunas veces relativamente lenta, siendo poco satisfac-
toria en una instancia como n = 480.
definida por
T
X h i2
b pe
W SSR = bt−2
σ F −1
Pt − xt β (2.4.1)
i=1
se distribuye como χ2T −K . De esto se puede deducir que WSSR como se define
anteriormente es asintóticamente distribuido como χ2T −K .
y el modelo restringido
Pt = F xp1t β10
donde x1t y β10 son los primeros K − q elementos de xt y β0 respectivamente. Sean
W SSRu y W SSRc los valores de la Ecuación 2.4.1 derivados de los modelos no
restringido y restringido, respectivamente. Se deberı́a escoger el modelo no restringido
si y sólo si
W SSRc − W SSRu > χ2q,α (2.4.2)
donde χ2q,α denota el valor crı́tico α % de χ2q .
Para escoger entre modelos no anidados, se puede usar la siguiente variación del
Criterio de Información de Akaike:
1
AIC = W SSR + K (2.4.3)
2
Esto puede justificarse sobre la base que en el modelo de regresión normal
heterocedástico mencionado antes,
p
y − XβbG D−1 y − XβbG = −2 log L
β(2) = Σ−1 −1
1 µ1 − Σ0 µ0 (2.5.5)
2.5 Análisis Discriminante 48
y
1 −1
A=Σ0 − Σ−1 1 (2.5.6)
2
En el caso especial Σ‘1 = Σ0 el cual se asume frecuentemente en aplicaciones
econométricas, se tiene A = 0; por tanto, la Ecuación 2.5.3 se reduce al Modelo
Logit Lineal:
P (yi = 1|x∗i ) = Λ xpi β (2.5.7)
donde
β(1) + β(2)
p
x∗i = xpi β
de acuerdo la notación de la sección 2.2
1.
n1
qb1 = , (2.5.9)
n
Pn
donde n1 = i=1 yi
2.
n0
qb0p = , (2.5.10)
n
donde n0 = n − n1
3. n
1 X
µ
b1 = yi x∗i (2.5.11)
n1 i=1
4. n
1 X
µ
b0 = (1 − yi ) x∗i (2.5.12)
n0 i=1
2.5 Análisis Discriminante 49
5. n
X
b1 = 1
Σ yi (x∗i − µ
b1 ) (x∗i − µ
bi )p (2.5.13)
n1 i=1
y
6. n
b 1 X
Σ0 = (1 − yi ) (x∗i − µ
b0 ) (x∗i − µ
b0 )p (2.5.14)
n0 i=1
donde
µ = µpx β
y
σ 2 = β pΣx β
2.6 Predicción Agregada 51
Puesto que la media de esta densidad no tiene una expresión de forma cerrada,
se debe evaluar Z
pf (p) dp
.
Capı́tulo 3
yij = 1 si yi = j (3.1.2)
yij = 0 si yi 6= j, i = 1, 2, . . . , n y
j = 0, 1, . . . , mi ,
3.1 Inferencia Estadı́stica 53
Al replantear los supuestos 2.3.1, 2.3.2 y 2.3.3 con las siguientes modificaciones
obvias se obtienen los siguientes supuestos:
Supuesto 3.1.1. Fij tiene derivadas parciales
∂Fij
fijk ≡ ′
∂ xik βk
y derivadas parciales de segundo orden
∂fijk
fijkl ≡ ′
∂ xil βl
para cada i, j, k, l y 0 < Fij < 1 y fijk > 0 para cada i,j y k.
1
Nonlinear Weighted Least Squares, Walker y Duncan, 1967
3.1 Inferencia Estadı́stica 54
XX n m XX n m
∂ 2 log L ′ ′
′ = − yij Fij−2 fijk fijl xik xil + yij Fij−1 fijkl xik xil (3.1.7)
∂βk ∂βl i=1 j=0 i=1 j=0
se obtiene que
n m
∂ 2 log L X X −1 k l ′
−E ′ = Fij fij fij xik xil ≡ Akl (3.1.8)
∂βk ∂βl i=1 j=0
Definiendo A = {Akl }. Entonces se puede mostrar bajo los supuestos 3.1.1, 3.1.2
y 3.1.2 que
√
n β̂ − β → N 0, lim nA−1 (3.1.9)
n→∞
3.1 Inferencia Estadı́stica 55
′
yi = (yi1 , yi2 , . . . , yim ) (3.1.10)
′
Fi = (Fi1 , Fi2 , . . . , Fim )
′
fki = fi1k , fi2k , . . . , fim
k
′ ′
Λi = E (yi − Fi ) (yi − Fi ) = D(Fi ) − Fi Fi
y notando:
′
Λ−1
i = D
−1
(Fi ) + Fi0−1 II (3.1.11)
donde I es un m-vector de unos, se obtiene de (3.1.6) y (3.1.8)
n
∂ log L X ′
= xik fki Λ−1
i (yi − Fi ) (3.1.12)
∂βk i=1
y
n
∂ 2 log L X ′
−E ′ = xik fki Λ−1 l ′
i fi xil (3.1.13)
∂βk ∂βl i=1
k
Suponga que β̄ es el estimador inicial de β, sean F̄i , f̄i y Λ̄i , respectivamente, Fi ,
fki , y Λi evaluados en β̄ y definiendo
n
X k′ −1 l ′
Ākl = xik f̄i Λ̄i f̄i xil (3.1.14)
i=1
y
2
(Ver Amemiya, 1976b)
3.1 Inferencia Estadı́stica 56
n
X H
X n
X
k′ −1 h ′ k′ −1
c̄k = xik f̄i Λ̄i f̄i xih β̄h + xik f̄i Λ̄i yi − F̄i (3.1.15)
i=1 h=1 i=1
yi = Fi + ui , i = 1, 2, . . . , n (3.1.17)
′ ′
donde Eui = 0, Eui ui = Λi , y Eui uj = 0 para i 6= j. Expandiendo Fi en series
′
de Taylor alrededor de xih β̄h , h = 1, 2, . . . , H, se obtiene
H
X H
X
h ′ ∼ h ′
yi − F̄i + f̄i xih β̄h = f̄i xih β̄h + ui , i = 1, 2, . . . , n (3.1.18)
h=1 h=1
′ ′ ′
Ptj = Fj xt1 β1 , xt2 β2 , . . . , xtH βH , (3.1.19)
t = 1, 2, . . . , T y j = 1, 2, . . . , m
xih = xth
para todo h, y
rtj
P̂tj = ,
nt
donde nt es el número de enteros en It . Expandiendo
Gk P̂t1 , P̂t2 , ..., P̂tm
donde
j ∂Gk
gtk = .
∂Ptj
La ecuación 3.1.21 es una generalización de 2.3.22, pero acá se escribe como una
ecuación aproximada, ignorando un término de error que corresponde a wt en 2.3.22.
La ecuación 3.1.21 es una ecuación de regresión lineal aproximada con una matriz
de covarianza no escalar que depende de
Λt ≡ E P̂t − Ft P̂t − Ft ´= n−1 t [D (Ft ) − Ft F´t ] ,
donde
P̂t = P̂t1 , P̂t2 , ..., P̂tm ´
3.1 Inferencia Estadı́stica 58
y
Ft = (Ft1 , Ft2 , ..., Ftm )´.
El estimador MIN χ2 β̃ de β se define como Estimador Mı́nimos Cuadrados
Factibles Generalizados (FGLS) aplicado a 3.1.21, usando
h i
Λ̂t = n−1
t D P̂t − P̂t P̂t́
como un estimador de Λt .
y {}−1
kl denota el k,l-ésimo elemento de la inversa de la matriz dentro de {}.
′
xtk βk = Gk (Pt1 , Pt2 , . . . , Ptm ) , (3.1.24)
t = 1, 2, . . . , T y k = 1, 2, . . . , H,
T
X ′
−1
W SSR = P̂t − F̃t Λ̂t P̂t − F̃t (3.1.25)
t=1
XT ′ h ′
i
= nt P̂t − F̃t D(P̂t )−1 + P̂t0−1 II P̂t − F̃t
t=1
T
X m
X (P̂tj − F̃tj )2
= nt
t=1 j=0 P̂tj
P (yi = j) = qj (3.2.2)
para i = 1, 2, · · · , n y j = 0, 1, · · · , m. Mediante la Regla de Bayes se obtiene
gj (x∗i )qj
P (yi = j|x∗i ) = m (3.2.3)
X
gk (x∗i )qk
k=0
P (yi = j|x∗i ) ′
= Λ(β j(1) + β ′j(2) x∗i + x∗i Ax∗i ) (3.2.4)
P (yi = 0|xi )
∗
donde β j(1) , β j(2) , y A son similares a (2.5.3), (2.5.4) y (2.5.5) excepto que los
subı́ndices 1 y 0 se deben cambiar a j y 0 respectivamente.
′
De igual manera, el término x∗i Ax∗i desaparece si todos los Σ’s son idénticos. Si
se escribe
β j(1) + β ′j(2) x∗i = β ′j xi ,
3.3 Principales Modelos de Respuesta Múltiple 61
Suponiendo que Ui0 , Ui1 , . . . , Uim , . . . , Ui(M −1) representan las utilidades de las M
alternativas5 para el individuo i-ésimo, las variables Xi0 ∗
, Xi1
∗
, . . . , Xim
∗
, . . . , Xi(M
∗
−1)
son el conjunto de caracterı́sticas propias de la elección tal y como las percibe el
individuo (precio del trayecto, duración del desplazamiento, etc) y Xi∗∗ es el conjunto
de caracterı́sticas personales del individuo (edad, nivel de renta, etc). Se supone,
además, linealidad en las funciones6 de tal forma que la especificación del modelo
serı́a:
∗
Ui0 = Vi0 + ǫi0 = β0 + Xi0 δ + Xi∗∗ γ0 + ǫi0 (3.3.1)
∗
Ui1 = Vi1 + ǫi1 = β1 + Xi1 δ + Xi∗∗ γ1 + ǫi1
···
∗
Uim = Vim + ǫim = βm + Xmj δ + Xi∗∗ γm + ǫim
···
∗ ∗∗
Ui(M −1) = Vi(M −1) + ǫi(M −1) = β(M −1) + Xi(M −1) δ + Xi γ(M −1) + ǫi(M −1)
0 si Ui0 > Uim ∀m 6= 0
1 si Ui1 > Uim ∀m =6 1
Yi = 2 si Ui2 > Uim ∀m = 6 2 (3.3.2)
···
(M − 1) si Ui(M −1) > Uim ∀m 6= (M − 1)
Un enfoque alternativo para plantear el problema de la elección entre múltiples
alternativas es el enfoque de la variable latente. En él se supone la existencia de
una variable inobservable o latente no limitada en su rango de variación, Yi∗ , que
depende de las caracterı́sticas propias de la decisión, Xi∗ , o del individuo Xi∗∗ . Sobre
esta variable latente se aplica una regla de observabilidad que genera las alternativas
que se observan en la realidad. Desde este punto de vista, los valores de la variable
real u observada Yi que mide las distintas categorı́as se fundamentan de acuerdo con
el siguiente patrón o esquema:
0 si Yi∗ ≤ c1
1 si c1 ≤ Yi∗ ≤ c2
Yi = (3.3.3)
···
(M − 1) si c(M −1) ≥ Yi∗
donde c1 , c2 , . . . , cM −1 son los valores de los umbrales o barreras. Formalmente se
puede expresar el modelo de respuesta múltiple a través de la relación siguiente:
donde:
P (y = j|x, θ) = p (Sj )
′
′
P (y = j|x, α, θ) = F αj+1 − x θ − F αj − x θ , j = 0, 1, . . . , m, (3.3.4)
α0 = −∞, αj ≤ αj+1 , αm+1 = ∞,
7
Pratt (1981) mostró que la función log-verosimilitud del modelo 3.3.4basada en observaciones
(yi , xi ) , i = 1, 2, ..., n, en (y, x) es globalmente cóncava si f , derivada de F , es positiva y logf es
cóncava
3.3 Principales Modelos de Respuesta Múltiple 65
Especificación
El modelo de respuesta múltiple ordenado relaciona la variable Yi con las
variables, X2i , . . . , Xki a través de la siguiente ecuación:
Donde:
Yi∗ : Es una variable latente (no observada) que cuantifica las distintas
categorı́as
F (.): Es una función no lineal del tipo Logı́stica, distribución Normal o bien la
distribución Valor Extremo
Para los valores de la variable real u observada, Yi , que mide las distintas
categorı́as, en el caso de cuatro categorı́as, el esquema de la variable se fundamenta
de acuerdo con el siguiente patrón:
0 si Yi∗ ≤ c1
1 si c1 ≤ Yi∗ ≤ c2
Yi = (3.3.6)
2 si c2 ≤ Yi∗ ≤ c3
3 si c3 ≥ Yi∗
Se debe subrayar que existe una correspondencia entre el orden de los valores de
la variable real u observada y el orden de la variable latente, es decir, que si Yi < Yj
implica que Yi∗ < Yj∗ .
Interpretación
La interpretación de los Modelos Ordenados es análoga a la de los modelos
Logit, Probit y Valor Extremo. Ası́, la interpretación de los parámetros del Modelo
Ordenado se puede efectuar a través de las derivadas parciales, en concreto a través
de los efectos marginales, mientras que la comparación entre distintas situaciones se
puede efectuar a través del cociente odds.
Ordenado Probit descrito a través del sistema 3.3.8, el efecto marginal del
regresor para cada categorı́a es:
∂P (Yi = 0)
= −φ(c1 − Xi β)βk (3.3.9)
∂Xk
∂P (Yi = 1)
= −φ(c2 − Xi β)βk − φ(c1 − Xi β)βk
∂Xk
∂P (Yi = 2)
= −φ(c3 − Xi β)βk + φ(c2 − Xi β)βk
∂Xk
∂P (Yi = 3)
= −φ(c3 − Xi β)βk
∂Xk
En general, los coeficientes estimados en los Modelos Ordenados no cuantifican
directamente el incremento en la probabilidad dado el aumento unitario en
la correspondiente variable independiente. La magnitud de la variación en la
probabilidad depende del nivel original de ésta y, por tanto, de los valores
iniciales de todos y cada uno de los regresores y de sus coeficientes. Por tanto,
mientras el signo de los coeficientes sı́ que indica perfectamente la dirección
del cambio, la magnitud de la variación depende del valor concreto que tome
la función de densidad, lo cual depende de la pendiente de dicha función en
el punto Xi (Xi es igual al vector [X2i , . . . , Xki ]). Naturalmente, cuanto más
elevada sea dicha pendiente, mayor será el impacto del cambio en el valor del
regresor, el cual a su vez va a incidir en el valor de la variable latente Yi∗ .
2. Interpretación de La ratio Odds o riesgo
El cociente entre la utilidad de que se elija una opción frente al resto de
alternativas,(M − 1) opciones, se mide a través de la probabilidad asignada
a esta frente a la utilidad del resto de opciones y se le denomina odds. Que se
cuantifica mediante la siguiente proporción:
Pi
1 − Pi
El odds también, se utiliza para comparar situaciones distintas o bien para
interpretar el modelo. En efecto, el cociente entre odds se emplea para comparar
utilidades de distintas situaciones, o bien para interpretar el modelo. Ası́, en
el caso, que se compare la situación del individuo i con la del individuo j
(situación de referencia) se tiene:
Pi
(1−Pi )
Cociente entre odds = Pj
(3.3.10)
(1−Pj )
3.3 Principales Modelos de Respuesta Múltiple 68
Estimación Máximo-Verosimilitud
La función de probabilidad conjunta de un modelo de elección múltiple ordenado
parte del supuesto de que se dispone de una muestra de tamaño I (i = 1, 2, . . . , I)
bajo la hipótesis de independencia entre los distintos individuos y se puede expresar
a través de la siguiente relación:
I
Y
P rob(u1 , u2 , . . . , ui , . . . , uI ) = P rob(u1 )P rob(u2 ) . . . P rob(ui ) . . . P rob(uI ) = P rob(ui )
i=1I
(3.3.11)
De forma alternativa, utilizando la función de probabilidad en términos de la variable
Yi , se tiene:
I
Y
P rob(Y1 , Y2 , . . . , Yi , . . . , YI ) = P rob(Y1 )P rob(Y2 ) . . . P rob(Yi ) . . . P rob(YI ) = P rob(Yi )
i=1
(3.3.12)
teniendo en cuenta que Yi puede tomar el valor cero, uno, dos, tres,. . . , se obtiene:
Y Y Y Y
P rob(Yi = 0) P rob(Yi = 1) P rob(Yi = 2) P rob(Yi = 3) . . .
i∈Yi =0 i∈Yi =1 i∈Yi =2 i∈Yi =3
(3.3.13)
a partir de la función de la probabilidad conjunta 3.3.13 se puede obtener la
función de verosimilitud, que se define como:
Y Y Y Y
L= P rob(Yi = 0) P rob(Yi = 1) P rob(Yi = 2) P rob(Yi = 3) . . .
i∈Yi =0 i∈Yi =1 i∈Yi =2 i∈Yi =3
(3.3.14)
mientras que el logaritmo de la función de verosimilitud es:
X X X
£ = ln L = P rob(Yi = 0) + P rob(Yi = 1) + P rob(Yi = 2) . . .
i∈Yi =0 i∈Yi =1 i∈Yi =2
(3.3.15)
3.3 Principales Modelos de Respuesta Múltiple 69
Grafica de comparacion
0.25
Normal
Logit
Gumbel
0.2
0.15
f(x)
0.1
0.05
0
−10 −5 0 5 10
x
eµVni
Pni = P (3.3.22)
eµVnj
El parámetro de escala no es identificable, por lo que habitualmente se fija su
valor en 1. De este modo, los coeficientes del modelo (en el caso de una formulación
lineal en los parámetros), se están multiplicando por este parámetro, relacionado con
la varianza de los errores. Esto tiene importancia al comparar resultados de modelos
diferentes (la normalización habitual es diferente para el modelo probit) o en el caso
de parámetros de escala diferentes: En lo sucesivo se supondrá que el parámetro de
escala es 1 y se omitirá de la formulación, por lo que la probabilidad pasa a ser:
eVni
Pni = P Vnj (3.3.23)
e
En el caso de que la parte observada de la utilidad sea lineal en los parámetros,
que es la especificación más habitual, Vnj = xnj β donde β es el vector traspuesto de
β = (β 1 , . . . , β k ) , entonces la probabilidad se puede expresar como:
exni β
Pni = P xnj β
(3.3.24)
je
′
exp xnj β
Pni = Pmn ′
, n = 1, 2, . . . , t y j = 0, 1, . . . , mn , (3.3.25)
k=0 exp xnk β
Si bien Train (2003: 41) afirma que bajo condiciones generales, cualquier función
se puede aproximar de forma arbitrariamente cercana mediante una función lineal
en los parámetros (teniendo en cuenta que las variables entren transformadas14 ),
existen circunstancias que pueden hacer más adecuadas funciones no lineales15 . Por
otro lado, la función de log-verosimilitud de la muestra, en el modelo lineal, es
globalmente cóncava en los parámetros β, lo que facilita su maximización numérica16 .
Pni
= eβ(Vi −Vj ) (3.3.26)
Pnj
1 ··· 0
π2
Σ = σ 2 ... . . . ... = σ 2 IJn ×Jn = 2 IJn ×Jn (3.3.27)
6λ
0 ··· 1
Para que el modelo sea identificable, se debe fijar el valor del factor de escala.
En la mayorı́a de los casos implı́citamente se hace el supuesto que el factor de escala
(λ) es igual a uno.
mi
n X
X
log L = yij log Pij (3.3.28)
i=1 j=0
∂ 2 log L X X yij ∂ 2 Pij 1 ∂Pij ∂Pij
= − (3.3.30)
∂β∂β ′ i j
Pij ∂β∂β ′ Pij ∂β ∂β ′
∂Pij
= Pij (xij − x̄i ) (3.3.31)
∂β
3.3 Principales Modelos de Respuesta Múltiple 76
donde, P ′
k exp(xik β)xik
x̄i = P ′
k exp(xik β)
y
∂ 2 Pij ′
= Pij (xij − x̄i ) (xij − x̄i ) (3.3.32)
∂β∂β ′
P ′ ′
Pij k exp xik β xik xik ′
− P ′
+ Pij x̄i x̄i
k exp xik β
∂ 2 log L X X ′
′ = Pij (xij − x̄i ) (xij − x̄i ) (3.3.33)
∂β∂β i j
el cual, curiosamente, no depende de yij . Como Pij > 0 en este modelo, la matriz
′
3.3.33 es definida negativa a menos que (xij − x̄i ) α = 0 para cada i y j para algún
α 6= 0. Puesto que tal evento es extremadamente improbable, se puede concluir para
todos los propósitos prácticos que la Función Log Verosimilitud es Globalmente
Cóncava en el Modelo Logit multinomial.
Las principales limitaciones del modelo Logit se centran en los siguientes aspectos:
El modelo, al suponer los parámetros β constantes, no admite variaciones
aleatorias en los gustos de los individuos. Se supone que todos ellos tienen
la misma respuesta ante una variación en las variables explicativas. Las
variaciones sistemáticas sı́ se pueden reflejar introduciendo, en la función de
utilidad, interacciones de las variables de nivel de servicio con las caracterı́sticas
del individuo
El modelo exhibe la citada propiedad de independencia de alternativas
irrelevantes (IIA), dado que, por la formulación de la probabilidad, se obtiene
que el cociente de las probabilidades de elección de dos alternativas no depende
de las propiedades de las restantes alternativas:
Pin eVni
= Vni = eβ(Vni −Vnk ) (3.3.34)
Pnk e
Como se ha dicho, otros modelos permiten otros patrones de sustitución
admitiendo la existencia de correlación entre alternativas, el más sencillo es
el Logit jerárquico.
3.3 Principales Modelos de Respuesta Múltiple 77
Para superar las limitaciones del MNL han ido surgiendo en la literatura un
amplio abanico de modelos, de diferentes complejidades. La mayorı́a de ellos parten
de la base del modelo Logit (residuos Gumbel), a excepción, principalmente, del
modelo probit (residuos normales).
Una limitación adicional del modelo Logit es que las colas de la función de
probabilidad son simétricas y delgadas, lo que puede no corresponderse con la
realidad en algunas situaciones18 .
Pueden existir nidos tanto en serie como en paralelo, dando lugar a la estructura
de árbol que caracteriza a estos modelos. Aparecen unos parámetros de escala
adicionales en cada nido que, en cierto modo, reflejan la estructura de correlación.
Uno de estos parámetros debe ser fijado para evitar problemas de identificación,
existiendo dos estrategias diferentes para realizarlo, inferior o superior, en función
de si la restricción se aplica en uno de los nidos inferiores o en el nido principal.
18
Para abordar esta limitación se ha desarrollado la familia de modelos Dogit (Gaudry y Dagenais,
1978, 1979) e IPT-L (Inverse Power Transformation Logit, Gaudry, 1981)
19
(Train, 2003: 84)
3.3 Principales Modelos de Respuesta Múltiple 78
En el caso del ejemplo mostrado en la figura donde hay dos niveles jerárquicos,
esta probabilidad serı́a:
22
Denominadas como vector W
23
(ver Sobel, 1980; Ortúzar, 1983)
24
EMU, Expected Maximum Utility
3.3 Principales Modelos de Respuesta Múltiple 80
0 < φ1 ≤ φ2 ≤ φ3 · · · ≤ φS ≤ 1 (3.3.39)
siendo φ1 el parámetro correspondiente al nido del nivel inferior y φS al nido
de nivel superior de cada rama del árbol26 .
La matriz de covarianza para este modelo para el caso que hemos supuesto en
nuestro planteamiento será:
σ2 · · · 0
Σ = ... . . . σ34
2 (3.3.40)
2
0 σ43 σ2
25
considerado en la figura y en la definición de la probabilidad de elección de la alternativa j
para el individuo n
26
(Ortúzar y Willumsen, 2001)
3.3 Principales Modelos de Respuesta Múltiple 81
Consideremos el modelo bus rojo-bus azul una vez más como ilustración. Sean
Uj = µj + ǫj , j = 0, 1y2
las utilidades asociadas con automóvil, bus rojo, y bus azul. (Para evitar
complicaciones innecesarias en la notación, se ha suprimido el subscrito i). Se recalca
27
Para una explicación más clara de este modelo ver Carrasco y Ortúzar (2002)
28
(Ortúzar y Willumsem, 2001)
29
Sobel (1980) encuentra 26 estructuras posibles para un conjunto de cuatro alternativas
30
(ver Ortúzar et al., 1987)
31
Este modelo se le atribuye a McFadden (1997) y se desarrolla con mayor detalle en un artı́culo
posterior de McFadden (1981)
3.3 Principales Modelos de Respuesta Múltiple 82
ρ
F (ǫ1 , ǫ2 ) = exp − exp(−ρ−1 ǫ1 ) + exp(−ρ−1 ǫ2 ) , 0<ρ≤1 (3.3.41)
exp(µ0 )
P (y = 0) = (3.3.42)
exp(µ0 ) + [exp(ρ−1 µ1 ) + exp(ρ−1 µ2 )]ρ
y
exp(ρ−1 µ1 )
P (y = 1y =
6 0) = (3.3.43)
exp(ρ−1 µ1 ) + exp(ρ−1 µ2 )
Las otras probabilidades se pueden deducir de 3.3.42 y 3.3.43. Por lo tanto estas
dos ecuaciones definen un modelo Logit anidado en el caso tricotónomo. Dividiendo
el numerador y el denominador de 3.3.42 por el exp(µ0 ) y los de 3.3.43 por
exp(−ρ−1 µ1 ),
donde, ρ
α = 1 + exp (−µ0 ) exp ρ−1 µ1 + exp ρ−1 µ2
Para obtener 3.3.43, primero se puede observar que
P (y = 1y 6= 0) = P U1 > U2 U1 > U0 o U2 > U0 (3.3.45)
= P (U1 > U2 )
donde la última igualdad se obtiene del particular supuesto distribucional. Por tanto,
se tiene que
∂F (ǫ1 , ǫ2 ) ρ−1
= exp −ρ−1 ǫ1 + exp −ρ−1 ǫ2 (3.3.47)
∂ǫ1
× exp −ρ−1 ǫ1 F (ǫ1 , ǫ2 )
3.3 Principales Modelos de Respuesta Múltiple 84
Para generalizar el Modelo Logit Anidado tricotónomo definido por 3.3.42 y 3.3.43
al caso general de m + 1 respuestas. Supone que los m + 1 enteros 0, 1, · · · , m pueden
particionarse naturalmente en S grupos para que cada grupo consista en alternativas
similares. Escribiendo la partición como
[ [ [
(0, 1, 2, . . . , m) = B1 B2 , . . . , Bs (3.3.48)
S
Donde denotan la unión. Luego McFadden sugiere la distribución conjunta
S
" # ρs
X X
−1
F (ǫ0 , ǫ1 , · · · , ǫm ) = exp{− as exp(−ρs ǫj ) } (3.3.49)
s=1 j∈Bs
exp(ρ−1
s µj )
P (y = j|j ∈ Bs ) = P s = 1, 2... (3.3.51)
k∈Bs exp(ρs µk )
−1
El modelo Logit anidado definido por 3.3.50 y 3.3.51 se puede estimar por MLE,
pero también puede estimarse consistentemente mediante un método natural de dos
′
pasos, el cual es computacionalmente más simple. Suponga que µj = xj β.
3.3 Principales Modelos de Respuesta Múltiple 85
32
La matriz de covarianza asintótica de estos elementos es dada por McFadden (1981)
33
(Daganzo, 1979)
3.3 Principales Modelos de Respuesta Múltiple 86
El modelo probit supone que los errores siguen conjuntamente una distribución
normal. Esto es, (de acuerdo con el Teorema Central del Lı́mite), la distribución
resultante de la suma de una gran cantidad de componentes independientes no
observadas, por lo que parece un supuesto razonable para el término de error34 .
La identificación del modelo probit es mucho más compleja que la del modelo
Logit multinomial, en el que las limitaciones impuestas a la matriz de covarianza
por la estructura del modelo eliminan ya numerosos parámetros.
40
Walker, 2001: 34-35
41
Dicho modelo se propuso primero por Aitchison y Bennett (1970)
Capı́tulo 4
Aplicación
4.1. Introducción
La simulación es el método numérico más frecuentemente usado para la esti-
mación de Modelos de Elección Discreta desde [20], ası́ como en recientes estudios
y textos de [28]. El objetivo ahora es presentar el desarrollo de la aplicación pero
usando otro método de estimación, basado en el enfoque de Cuadratura Gaussiana
(Ver [7], [12]).
Para este caso, los datos se agruparon por ciudad, correspondientes con las
capitales de departamento objeto de estudio de la Encuesta Continua de Hogares
resultando 13 grupos diferentes.
4.3. Metodologı́a
4.3.1. Cuadratura Gaussiana
Considerando el siguiente modelo de elección binaria de componente aleatorio:
donde,
Z Nj
Y
∞
P rob I1j , · · · , INj ,j = f (uij ) [F (bij |uj ) − F (aij |uj )] duu
−∞ i=1
donde M es el número definido de puntos; las zs y las ws son las abscisas y los pesos
de los M puntos Gauss-Hermite. Si g en (4.3.5) es un polinomio de grado menor que
2M − 1, el cálculo de la integración de Gauss-Hermite es exacta.
4.3.2. Criterio
Como elemento central de la aplicación se calcula la función de verosimilitud del
modelo mediante el enfoque de Cuadratura Gaussiana y se investiga la validez de la
aplicabilidad de la técnica numérica. El principio es recalcular la estimación usando
dos números diferentes de puntos de cuadratura y comparar la log-verosimilitud y
los coeficientes entre el modelo original y los otros dos modelos estimados. Si el
cambio es menor que 0.01 % entonces la elección del punto de cuadratura no afecta
significativamente los resultados. Para un cambio mayor a 0.1 % se debe dudar del
enfoque de cuadratura para el modelo.
4.4. Resultados
4.4.1. Caso Estados Unidos
Los resultados de la ejecución de la estimación se presentan al final del trabajo,
más exactamente en el Apéndice B (Aplicación). En la Tabla 1 del mismo se
muestran los resultados producto de utilizar un procedimiento de cuadratura Gauss-
Hermite adaptativo, con 8 puntos, utilizando como grupos las edades. Observando
el test de Wald, las variables elegidas resultan ser conjuntamente significativas en
explicar la probabilidad de que una mujer casada participe en el mercado laboral.
Si observamos el estadı́stico de prueba z, todas resultan ser indidividualmente
significativas. Además de tener los signos adecuados.
Por ejemplo una mayor cantidad de niños menores de 6 años afecta negativamente
la probabilidad de que una mujer casada decida participar en el mercado laboral.
Es de resaltar el signo negativo del coeficiente asociado a exper2. Esto significa que
a medida que aumente la experiencia, la probabilidad de participar en el mercado
laboral aumenta (signo positivo de exper pero a una tasa decreciente). Igualmente
mayor número de años de estudios afecta positivamente la probabilidad de participar
en el mercado laboral, y una conclusión que parece también lógica y consistente con
la realidad, se observa que un factor que hace que las mujeres casadas tengan que
buscar trabajo es que el ingreso familiar no sea suficiente. Por tanto a mayor ingreso
familiar, menor probabilidad de que las mujeres casadas tengan que buscar trabajo.
Además:
trabajo. También:
Como se puede apreciar, los signos de los coeficientes se mantienen en los dos
casos y la probabilidad que una mujer casada y con unas caracterı́sticas promedio,
participe en el mercado laboral son aproximadamente iguales para los dos paı́ses:
0.5778 y 0.5446 para Estados Unidos y Colombia respectivamente.
Apéndice A
Función de Verosimilitud
3. θ ∈ Θ, Θ es compacto.
6. θ0 es un punto interior de Θ.
Las condiciones 1. a 5. son necesarias para consistencia, el resto también hace falta
para normalidad asintótica. Ver [23] para mas detalles.
Apéndice B
Aplicación
TABLA 2
Probabilidad que una mujer casada con unas caracterı́sticas promedio, participe
en el mercado laboral es: 0.57780221
------------------------------------------------------------------------------
variable | dy/dx Err. Std. z P>|z| [ 95% I.C. ] X
---------+--------------------------------------------------------------------
ingresop | -.0067914 .00186 -3.66 0.000 -.010428 -.003155 20.129
exper | .0466689 .00712 6.55 0.000 .032708 .060629 10.6308
exper2 | -.0009576 .00023 -4.14 0.000 -.001411 -.000504 178.039
hijos6 | -.2094332 .04033 -5.19 0.000 -.288478 -.130388 .237716
educ | .056473 .00958 5.90 0.000 .037702 .075244 12.2869
------------------------------------------------------------------------------
TABLA 3
TABLA 4
Chequeo de Cuadratura
TABLA 6
TABLA 7
------------------------------------------------------------------------------
partic | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ingreso | -5.71e-08 1.97e-08 -2.90 0.004 -9.57e-08 -1.85e-08
exper | .0368011 .006254 5.88 0.000 .0245435 .0490588
exper2 | -.0008962 .0000984 -9.11 0.000 -.001089 -.0007033
hijos6 | -.0427553 .0318552 -1.34 0.180 -.1051904 .0196798
educat | .0375077 .006714 5.59 0.000 .0243484 .050667
_cons | -.2420475 .1455354 -1.66 0.096 -.5272916 .0431966
-------------+----------------------------------------------------------------
/lnsig2u | -2.855496 .4450975 -3.727871 -1.983121
-------------+----------------------------------------------------------------
sigma_u | .2398485 .053378 .1550612 .3709974
rho | .0543979 .0228953 .0234794 .1209866
------------------------------------------------------------------------------
------------------------------------------------------------------------------
partic | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ingreso | -5.71e-08 1.97e-08 -2.90 0.004 -9.57e-08 -1.85e-08
exper | .0368011 .006254 5.88 0.000 .0245435 .0490588
exper2 | -.0008962 .0000984 -9.11 0.000 -.001089 -.0007033
hijos6 | -.0427553 .0318552 -1.34 0.180 -.1051904 .0196798
educat | .0375077 .006714 5.59 0.000 .0243484 .050667
_cons | -.2420475 .1455354 -1.66 0.096 -.5272916 .0431966
-------------+----------------------------------------------------------------
/lnsig2u | -2.855496 .4450975 -3.727871 -1.983121
-------------+----------------------------------------------------------------
sigma_u | .2398485 .053378 .1550612 .3709974
rho | .0543979 .0228953 .0234794 .1209866
------------------------------------------------------------------------------
TABLA 8
Chequeo de Cuadratura
Cuadratura Cuadratura Cuadratura
ajustada comparada comparada
4 puntos 8 puntos 12 puntos
-----------------------------------------------------
Log -1807.4794 -1807.4794 -1807.4794
verosimilit. .00001241 .00001241 Diferencia
-6.865e-09 -6.865e-09 Diferencia relativa
-----------------------------------------------------
partic: -5.712e-08 -5.712e-08 -5.712e-08
ingreso -1.822e-14 -1.822e-14 Diferencia
3.190e-07 3.190e-07 Diferencia relativa
-----------------------------------------------------
partic: .03680117 .03680115 .03680115
exper -2.516e-08 -2.516e-08 Diferencia
-6.838e-07 -6.838e-07 Diferencia relativa
-----------------------------------------------------
partic: -.00089616 -.00089616 -.00089616
exper2 1.630e-10 1.630e-10 Diferencia
-1.819e-07 -1.819e-07 Diferencia relativa
-----------------------------------------------------
partic: -.04275517 -.0427553 -.0427553
hijos6 -1.300e-07 -1.300e-07 Diferencia
B.2 Caso Colombia 104
[3] Batley, R.P.; Daly, A.J. (2004) “Departure time choice under uncertainty: a model of
random utility maximisation for wagers” European Transport Conference, Strasbourg.
[4] M. Ben Akiva, S. Lerman, (1985) “Discrete Choice Analysis: Theory and application
to Travel Demand”, MIT Press, Cambridge, Mass .
[6] Borjas y Sueyoshi. (1994). Journal of Econometrics, vol. 64, pp. 164-182
[8] Cabrer Borrás, C;. Sancho Pérez, A; Serrano Domingo, G. (2001) Microeconometria
y Decisión. Ed. Pirámide.
[9] Domenich, T., y McFadden, D.L. (1975) “Urban Travel Demand: A Behavioral
Analysis.” North Holland Publishing Co.
[11] Geweke, J; Keune, and Runkle, D,. (1994) “Alternative computational aproaches to
inference in the multinomial probit model” Review of Econometrics and Statistics.
76, 609-632.
[12] Geweke, K,. (1996) “Monte Carlo simulation and numerical integration.” Handbook
of Computational Economics. 731-800, Elsevier Science, Amsterdam.
Bibliografı́a 106
[13] Green W. H., (2002) Econometric Analysis. Prentice Hall; 5th edition.
[14] Lee, L-f. (2000) “A numerically stable quadrature procedure for the one-factor
random-component discrete choice model,” Journal of Econometrics, Volume 95,
Number 1, March 2000 , pp. 117-129(13).
[16] Maddala. G. S,. (1983) “Limited Dependant and Qualitative variables in Econome-
trics” Introduction to Econometrics. Cambridge University Press, New York.
[17] Manski, C. (1977) The structure of random utility models. Theory and Decision 8.
229-254.
[18] Manski. Ch;. McFadden D., (1981). “Alternative Estimators and Sample Design for
Discrete Choice Analysis” Structural Analyisis of Discrete data with Econometrics
Aplication. MIT Press, Cambridge, 2-30.
[21] McFadden, D.(1987). “Regresion based Especification Test for the Multinomial Logit
Model.” Journal of Econometrics. 34. 63-82.
[22] McFadden, D.(2000). “Economic Choices.” Prize Lecture. December 8, 2000. 330-365.
[23] Newey, Whitney, and Daniel McFadden (1994) Handbook of Econometrics, Volume 4,
North Holland.
[25] Rouwendal, J. and Blaeij, A.T. de (2004). “Inconsistent and lexicographic choices
in stated preference analysis.” Tinbergen Institute Discussion Paper, Tinbergen
Institute, Amsterdam TI 2004-038/3.
[26] Sælensminde, K. (2002). The impact of choice inconsistencies in stated choice studies
Environmental and Resource Economics, vol. 23, pp. 403-420
[28] Train, K. (2003). Discrete Choice Methods with Simulation Cambridge University
Press, p. 19.
Bibliografı́a 107
[30] Zuluaga Dı́az F. (2005) Econometrı́a de Datos de Panel: Revisión y una Aplicación.
Tesis de Maestrı́a, Departamento de Ciencias Básicas, Universidad EAFIT, Medellı́n,
Col. 111 pp.