Modelos de Eleccion Discreta: Revisi On y Aplicaci On Mediante Cuadratura Gaussiana

View metadata, citation and similar papers at core.ac.
uk brought to you by CORE

provided by Repositorio Institucional Universidad EAFIT
MODELOS DE ELECCION DISCRETA

Revisión y aplicación mediante cuadratura gaussiana
Tesis presentada por
Elio Fabio Sánchez Trujillo

Douglas Gómez Cabrera
para optar al tı́tulo de

Magı́ster en Matemáticas Aplicadas
Director
Francisco Iván Zuluaga Dı́az
Magı́ster Matemáticas Aplicadas
Departamento de Ciencias Básicas

Universidad Eafit
Medellı́n
2008
Nota de aceptación
Jairo Villegas G.
Coordinador de la Maestrı́a
Francisco Zuluaga D.
Director del trabajo
Medellı́n, Sept. de 2008
ii
Agradecemos a nuestro Director Francisco Iván Zuluaga Dı́az, Magı́ster en
Matemáticas Aplicadas, por su dedicación y paciencia, sugerencias y apoyo constante
durante este trabajo. Sin su fundamental colaboración este proyecto no hubiese sido
posible.
iii
Existen muchas personas que incidieron de una u otra manera para que este
proceso de cualificación a nivel de Maestrı́a lo pudiera culminar con éxito. Agradezco
de manera especial al amigo y profesor Jairo Villegas, Coordinador de la Maestrı́a,
como también a los profesores Gustavo Mejı́a y Mauro Montealegre.
A la Universidad Eafit, a la Universidad de la Amazonia, que con su inicativa y
apoyo nos permitió cualificarnos a este nivel de conocimiento.
A mi esposa, Graciela, a mis hijas, Karina, Danna y Mellissa, que sin su apoyo,
comprensión, Cariño, amor y acompañamiento no hubiera sido posible terminar este
proceso, a ellas que son una bendición de Dios, todo mi amor.
Douglas Gómez Cabrera.

Florencia, Caquetá
Septiembre, 2008
Tuve la fortuna de conocer durante las jornadas académicas de esta Maestrı́a a

mucha gente brillante y colaboradora como nadie, es allı́ donde siempre habrá un
deuda de gratitud con un gran maestro como es Jairo Villegas. Debo mencionar a
docentes como Gustavo Mejı́a y Mauro Montealegre, pues su apoyo y colaboración
me comprometieron a concluir esta tarea.
A la Universidad de la Amazonia, que con su apoyo nos permitió cualificarnos
a este nuevo nivel para seguir trabajando por el progreso y desarrollo de nuestra
región.
Por supuesto, mantengo una deuda infinita con mi esposa, Carmen Rossy, y mis
hijos, Fabio Andrés y Juan José, a quienes les robé muchos dı́as y noches para concluir
este sueño. Ellos son mi Fuerza, mi Luz, mi Amor y mi Razón.
A Dios y a mi Padre en el seno celestial. A mi Madre, a quien debo Todo, desde
el comienzo. (En el más amplio sentido de la palabra.)
Elio Fabio Sánchez Trujillo.

Florencia, Caquetá
Septiembre, 2008
Índice general
Introducción 1
1. Fundamentos 3
1.1. Definiciones Básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3. Normalidad Asintótica . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2. Modelos de Elección Binaria 17

2.1. Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.2. El Proceso de Elección . . . . . . . . . . . . . . . . . . . . . . 24
2.1.3. Teorı́a de la Utilidad Aleatoria . . . . . . . . . . . . . . . . . . 25
2.1.4. Maximización de la Utilidad Aleatoria (RUM) . . . . . . . . . 29
2.2. Especificación del modelo . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3. Estimación para modelos de elección binaria . . . . . . . . . . . . . . 33
2.3.1. Consistencia y normalidad asintótica del Estimador de Máxi-
ma Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.2. Métodos Iterativos para obtener el Estimador de Máxima
Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.3.3. Método del Mı́nimo Chi-cuadrado de Berkson . . . . . . . . . 39
2.3.4. Comparación entre el Estimador de Máxima Verosimilitud y
el Estimador Chi-cuadrado Mı́nimo . . . . . . . . . . . . . . . 44
2.4. Prueba de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.5. Análisis Discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.6. Predicción Agregada . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3. Modelos de Respuesta Múltiple 52

3.1. Inferencia Estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2. Análisis Discriminante Multinomial (DA) . . . . . . . . . . . . . . . . 60
3.3. Principales Modelos de Respuesta Múltiple . . . . . . . . . . . . . . . 61
3.3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
v
Índice General vi
3.3.2. Modelos de Respuesta Múltiple Ordenado . . . . . . . . . . . 64

3.3.3. Modelos de Respuesta Múltiple No Ordenados . . . . . . . . . 69
3.3.4. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.3.5. Modelo Logit Multinomial . . . . . . . . . . . . . . . . . . . . 71
3.3.6. Modelo Logit Jerárquico o Anidado (NL) . . . . . . . . . . . . 77
3.3.7. Modelo Probit Multinomial (MNP) . . . . . . . . . . . . . . . 85
4. Aplicación 88
4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.2. Fuente de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.2.1. Caso Estados Unidos . . . . . . . . . . . . . . . . . . . . . . . 88
4.2.2. Caso Colombia . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.3. Metodologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.3.1. Cuadratura Gaussiana . . . . . . . . . . . . . . . . . . . . . . 91
4.3.2. Criterio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.4.1. Caso Estados Unidos . . . . . . . . . . . . . . . . . . . . . . . 93
4.4.2. Caso Colombia . . . . . . . . . . . . . . . . . . . . . . . . . . 94
A. Función de Verosimilitud 96
A.1. Condiciones de regularidad . . . . . . . . . . . . . . . . . . . . . . . . 96
B. Aplicación 97
B.1. Caso EE.UU. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
B.2. Caso Colombia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Bibliografı́a 105
Resumen
El presente trabajo titulado MODELOS DE ELECCION DISCRETA

Revisión y aplicación mediante cuadratura gaussiana recoge los fundamen-
tos caracterı́sticos de estos modelos de gran uso en Microeconometrı́a. Se describen
las caracterı́sticas de los Modelos de Elección Binaria y de los Modelos de Elección
Múltiple o Multinomiales. Por último, se presenta una aplicación práctica de la
dinámica laboral de mujeres casadas en Estados Unidos y en Colombia usando
Cuadratura Gaussiana. Los modelos estimados son altamente significativos en sus
parámetros y el procedimiento de cuadratura gaussiana es estable y confiable.
Palabras Claves: Elección Discreta, Logit, Probit, Estimador de Máxima

Verosimilitud, Cuadratura Gaussiana.
This work titled MODELOS DE ELECCION DISCRETA Revisión

y aplicación mediante cuadratura gaussiana gathers the characteristic
foundations of this models which are useful in Microeconometrics. Characteristics
of Binary Choice and Multinomial Choice Models are described. Lastly, a practical
application about labor dynamic of married women, both, in United States and
Colombia using Gaussian Quadrature is presented. Estimated models are highly
significant in their parameters and the procedure of Gaussian Quadrature is stable
and reliable.
Keywords: Discret Choice, Logit, Probit, Maximum Likelihood Estimator,

Gaussian Quadrature.
Introducción
La Economı́a como ciencia social preocupada por el estudio de la optimización

que hacen los agentes de los recursos escasos, está sujeta a los permanentes procesos
de decisión que se presentan en la vida cotidiana tanto a nivel microeconómico como
macroeconómico.
La Econometrı́a usa herramientas de la Matemática y la Estadı́stica para

estudiar planteamientos económicos. En un sentido amplio, usa métodos estadı́sticos
aplicados al análisis económico asumiendo datos agregados y conclusiones generali-
zadas sobre el comportamiento de las personas y/o firmas. Sin embargo una de las
tareas más importantes en el estudio del comportamiento de los agentes económicos
es buscar herramientas que permitan cuantificar el problema de una forma objetiva
y racional. ([2],[13])
A su vez, la Microeconometrı́a nace por la necesidad de brindar una interpre-

tación económica de las pautas del comportamiento de los agentes económicos o
individuos, ası́ como la posibilidad de contrastar estadı́sticamente las hipótesis
efectuadas([15]). Desarrolla todo un conjunto de modelos, métodos y técnicas para
el estudio de los recursos escasos dentro de las familias y empresas, y de cómo se
emplean estos recursos en el ámbito de la toma de decisiones racionales de los agentes
individuales. También facilita la tarea de identificar las caracterı́sticas o factores que
provocan un comportamiento diferente de los individuos ante los procesos de decisión.
Dado que lo que se intenta representar es el comportamiento del individuo, y

éste se plasma en las decisiones que toma, los Modelos de Elección Discreta se han
revelado como una de las herramientas más útiles y extendidas. Estos modelos,
basados en la teorı́a de la maximización de la utilidad aleatoria, se han desarrollado
entre la Econometrı́a y la Ingenierı́a del Transporte, que constituye una de sus
principales aplicaciones. Los Modelos de Elección Discreta permiten la modelación
de variables cualitativas, mediante el uso de técnicas propias de las variables
discretas. Una variable es discreta cuando está formada por un número finito de
alternativas que miden cualidades. Esta caracterı́stica exige la codificación como
Introducción 2
paso previo a la modelación, proceso por el cual las alternativas de las variables se
transforman en códigos o valores cuánticos, susceptibles de ser modelados utilizando
técnicas econométricas.
Los Modelos de Elección Discreta se clasifican de acuerdo al número de alter-

nativas incluidas en la variable endógena. Se distinguen los modelos de respuesta
dicotómica frente a los denominados modelos de respuesta multinomial o elección
múltiple. Según la función utilizada para la estimación de la probabilidad se habla
de Modelo Logit o Modelo Probit. Si las alternativas de la variable endógena
son excluyentes o incorporan información ordinal se habla de Modelos con datos
no ordenados y Modelos con datos ordenados. Dentro de los primeros, según los
regresores se refieran a aspectos especı́ficos de la muestra o de las alternativas
entre las que se ha de elegir, se distingue entre los modelos multinomiales y los
condicionales.
El presente documento titulado MODELOS DE ELECCION DISCRETA

Revisión y aplicación mediante cuadratura gaussiana, recoge los funda-
mentos caracterı́sticos de estos modelos. En el primer capı́tulo se fijan los elementos
conceptuales esenciales y se presentan definiciones y fundamentos básicos de la teorı́a.
El segundo capı́tulo se centra en caracterı́sticas de los Modelos de Respuesta Binaria.
En el tercer capı́tulo se introducen los conceptos referentes a los Modelos de Elección
Múltiple, como extensión de los modelos dicotómicos. El último capitulo se refiere a
la implementación concreta de una aplicación que toma como escenario el mercado
laboral de mujeres a partir de datos de Estados Unidos y de Colombia. Se plantea
un Modelo Discreto de Elección Binaria con el cual se busca explicar la probabilidad
de que una mujer casada decida participar en el mercado laboral en estos paı́ses
mediante variables explicativas comunes.
Capı́tulo 1
Fundamentos
1.1. Definiciones Básicas

Inicialmente se recuerdan algunas definiciones básicas necesarias para el posterior
desarrollo del trabajo. En esta parte referimos a ([2]) y a ([30]) de donde se citan
las siguientes definiciones:
Sea Ω un espacio muestral abstracto, se define la colección A de subconjuntos de

Ω que posee cierta propiedades deseables.
Definición 1. La colección A de subconjuntos de Ω se llama un σ-álgebra si satisface

las propiedades
Ω∈A
E ∈ A ⇒ E ∈ A. (E se refiere al complemento de E con respecto a Ω.)
Ej ∈ A, j = 1, 2, · · · ⇒ ∪∞
j=1 Ej ∈ A
Definición 2. Una medida de probabilidad, denotada por P (·), es un conjunto

de funciones de valor real que se define sobre una σ-álgebra A y satisface las
propiedades
E ∈ A ⇒ P (E) ≥ 0
P (Ω) = 1
Si {Ej } es una colección contable de conjuntos disyuntos en A, entonces

!
[ X
P Ej = P (Ej )
j j
1.1 Definiciones Básicas 4
Definición 3. Espacio de probabilidad Dado un espacio muestral Ω, una σ-

álgebra A asociada con Ω y una medida de probabilidad P (·) definida sobre A, se
llama espacio de probabilidad a la tripleta (Ω, A, P )
Definición 4. Una variable aleatoria en (Ω, A, P ) es una función de valor real
definida sobre un espacio muestral Ω, denotada X (ω) para w ∈ Ω, tal que para
cualquier numero real x,
{ω|X (ω) < x} ∈ A
Definición 5. La Función de Distribución F (x) de una variable aleatoria X(ω)
se define como:
F (x) = P {ω|X (ω) < x} (1.1.1)
La función de distribución puede definirse para cualquier variable aleatoria porque
una probabilidad se asigna a cada elemento de A y de
{ω|X (ω) < x}
para algún x. Se escribirá
P {ω|X (ω) < x}
como
P (X < x)
Una función de distribución tiene las propiedades
F (−∞) = 0
F(∞) = 1
Es no decreciente y continua hacia la izquierda
Usando una función de distribución, se puede definir el valor esperado de una
variable aleatoria si es discreta, continua o mixta. Esto se hace por medio de la
integral de Riemann-Stieltjes que es una generalización sencilla de la integral de
Riemann. Si X es una variable aleatoria con una función de distribución F y si
Y = h (X) ,
donde h(·) es medible en el espacio de Borel. El valor esperado de Y , se denota como
E(Y ) y se define ası́: Se divide un intervalo [a, b] en n intervalos con los puntos finales
a = x0 < x1 < · · · < xn−1 < xn = b
y si x∗i es un punto arbitrario en [xi , xi+1 ]. Se define la suma parcial
n−1
X
Sn = (x∗i ) [F (xi+1 ) − F (xi )] (1.1.2)
i=0
asociado con esta partición del intervalo [a, b]. Si, para algún ǫ > 0, allı́ existe un
número real A y una partición tal que para cada partición más fina y para cualquier
elección de x∗i , |Sn − A| < ǫ, se denominará A a la integral de Riemann-Stieltjes y
se denota por: Z b
h (x) dF (x)
a
Esta existe si h es una función continua excepto posiblemente para un número
contable de discontinuidades, con tal de que, siempre que su discontinuidad coincida
con que F, sea continua hacia la derecha. Finalmente, el valor esperado de Y , E(Y )
se define como:
Z ∞ Z b
E(Y ) = h (x) dF (x) = lim h (x) dF (x) (1.1.3)
−∞ a
con tal de que el lı́mite (que puede ser +∞ o −∞) exista sin tener en cuenta que
a −→ −∞ y b −→ ∞.
dF
Si existe y es igual a f (x),
dx
F (xi+1 ) − F (xi ) = f (x∗i ) (xi+1 − xi )
para algún x∗i ∈ [xi+1 , xi ] por el teorema del valor medio. Por tanto,
Z ∞
E(h (X)) = h (x) f (x) dx (1.1.4)
−∞
Por otro lado, suponiendo X = ci con probabilidad pi , i = 1, 2, · · · , K y tomando

a < c1 y ck < b; entonces, para n suficientemente grande, cada intervalo contiene a
lo máximo uno de los ci ’s. Entonces, de los n términos en el sumando de 1.1.2 sólo
K términos contienen ci ’s no ceros. Por consiguiente
Z b K
X
h (x) dF (x) = h(ci )pi (1.1.5)
a i=1
A continuación se definen cuatro tipos de convergencia para una sucesión de

variables aleatorias y se muestra la relación entre ellos en varios teoremas.
Definición 6. Convergencia en probabilidad Una sucesión de variables

aleatorias {Xn } se dice que converge a una variable aleatoria X en probabilidad
si
lim P (|Xn − X| > ǫ) = 0
n→∞
para cualquier ǫ > 0 También se escribe como:

p
Xn → X
o como:
plim Xn = X
Definición 7. Convergencia en cuadrados medios Una sucesión {Xn } se dice

que converge a X en cuadrados medios si
lim E(Xn − X)2 = 0.

n→∞
También se escribe como:

M
Xn → X
Definición 8. Convergencia en distribución Una sucesión {Xn } se dice que

converge a X en distribución si la función de distribución Fn de Xn converge a la
función de distribución F de X en cada punto de continuidad de F . Se escribe
d
Xn → X
y F se llama la distribución lı́mite de {Xn }. Si {Xn } y {Yn } tienen la misma

distribución lı́mite, se escribe:
LD
Xn → Yn
Definición 9. Convergencia casi segura Una sucesión {Xn } se dice que converge
a X casi seguramente si
n o
P ω | lim Xn (ω) = X(ω) = 1
n→∞
también se escribe como:

a.s.
Xn → X
Los próximos cuatro teoremas establecen las relaciones lógicas entre los cuatro
modos de convergencia, detallados en la siguiente figura,
a.s.
M P d
Teorema 10. (Chebyshev)
P
E Xn2 → 0 ⇒ Xn → 0
Prueba. Z Z
∞
E Xn2 = 2
x dFn (x) ≥ ǫ 2
dFn (x) (1.1.6)
−∞ S
donde
S = x|x2 ≥ ǫ2
pero se tiene que:
Z Z −ǫ Z ∞
dFn (x) = dFn (x) + dFn (x) (1.1.7)
S −∞ ǫ
= Fn (−ǫ) + [1 − Fn (ǫ)]
= P (Xn < −ǫ) + P (Xn ≥ ǫ)
≥ P [Xn2 > ǫ2 ]
Por consiguiente, de las definiciones (7) y (8) se obtiene que:
E (Xn2 )
P [Xn2 >ǫ ]≤ 2
(1.1.8)
ǫ2
que es el teorema que sigue inmediatamente de la definición (9)
La desigualdad (1.1.8) se llama la Desigualdad de Chebyshev. Modificando

la prueba ligeramente, se puede establecer la siguiente generalización de dicha
desigualdad:
Eg(Xn )
P [g(Xn ) > ǫ2 ] ≤ (1.1.9)
ǫ2
donde g(·) es una función continua no negativa.
Obsérvese que la declaración

M p
Xn → X ⇒ Xn → X,
donde X puede ser una constante o una variable aleatoria, se sigue del teorema (10)
si se considera Xn − X como el Xn del teorema.
P d
Teorema 11. Xn → X ⇒ Xn → X
a.s. P
Teorema 12. Xn → X ⇒ Xn → X
d P
Teorema 13. Xn → α ⇒ Xn → α
Teorema 14. Si Xn y X son K-vectores de variables aleatorias y si g(·) es una

función de RK a R tal que el conjunto E de puntos discontinuos de g(·) es cerrado
y P (X ∈ E) = 0. Si
d
Xn → X,
entonces
d
g(Xn ) → g(X).
La convergencia en distribución de los elementos individuales del vector Xn para
los correspondientes elementos del vector X no son suficientes para obtener los
resultados anteriores. Sin embargo, si los elementos de Xn son independientes para
cada n, la convergencia separada es suficiente.
Teorema 15. Sea Xn un vector de variables aleatorias con un numero fijo finito de
elementos. Si g es una función de valor real continua en un punto vectorial constante
α. Entonces:
P P
Xn → α ⇒ g(Xn ) → g(α)
P P
Teorema 16. Si Xn → X y Yn → α, entonces:
d
1. Xn + Yn → X + α
d
2. Xn · Yn → αX
d
3. (Xn /Yn ) → X/α, ∀α 6= 0
Ley de los Grandes Números Dada una sucesión de variables aleatorias {Xt },
se define n
X
−1
X=n Xt .
t=1
Una Ley de Grandes Números (LGN) especifica las condiciones bajo a.s.las cuales
X − E X converge a 0 bien sea en forma casi segura (X − E X → 0) o en
P
probabilidad (X −E X → 0). La primera se conoce como una ley fuerte de grandes
números y la última como una ley débil. En muchas aplicaciones la forma más simple
p M
de mostrar X − E X → 0 es mostrar que X − E X → 0 y luego aplicar Teorema
10 (Chebyshev). Se enuncian enseguida dos leyes fuertes de grandes números.
Teorema 17. (LGN 1 de Kolmogorov) Sea {Xt } una sucesión de variables aleatorias
P∞ σ2
t
independientes con varianza finita Var(Xt ) = σt2 . Si 2
< ∞, entonces
t=1 t a.s.
X n − E X n converge casi seguramente a cero, esto es, X − E X → 0, siendo
1P n
Xn = Xt
n t=1
Teorema 18. (LGN 2 de Kolmogorov) Sea {Xt } una sucesión de variables aleatorias
independientes e idénticamente distribuı́das. Entonces una condición suficiente y
a.s.
necesaria para que X → µ es que E (Xt ) exista y sea igual a µ.
Teorema 19. (Teorema del lı́mite central) Sea {Xt } una sucesión de variables
aleatorias independientes e idénticamente distribuidas. Con E(Xt ) = µ y Var(Xt ) =
σt2 entonces
1 d
q (X n − E X n ) −→ N (0, 1)
Var(X n )
Relaciones entre lim E, AE y plim Sea Fn la función de distribución de Xn

y Fn → F en puntos de continuidad de F. En la Definición 6 se planteó plim Xn .
Ahora se define lı́m E y AE como sigue
Z ∞
lim E (Xn ) = lim x dFn (x) (1.1.10)
−∞
y Z ∞
AE Xn = x dFn (x) (1.1.11)
−∞
O dicho de otra forma, AE que se lee esperanza asintótica o media asintótica, es la

media de la distribución lı́mite.
Definición 20. Sea gT (θ) una sucesión no negativa de variables aleatorias

dependiente de un vector de parámetros θ. Se consideran ahora los tres modos de
convergencia uniforme de gT (θ) a 0:
1. P [ lim sup gT (θ) = 0] = 1,

T →∞ θ∈Θ
2. lim P [sup gT (θ) < ǫ] = 1 para algún ǫ > 0,

T →∞ θ∈Θ
3. lim ı́nf P [gT (θ) < ǫ] = 1 para algún ǫ > 0.

T →∞ θ∈Θ
Si se cumple 1.), se dice que gT (θ) converge a 0 uniformemente de manera casi

segura en θ ∈ Θ. Si se cumple 2.), se dice que gT (θ) converge a 0 uniformemente
en probabilidad en θ ∈ Θ. Si se cumple 3.), se tiene que gT (θ) converge a 0
semiuniformemente en probabilidad en θ ∈ Θ.
Teorema 21. Sean los supuestos:
1. El espacio de parámetro Θ es un subconjunto compacto del K-espacio

Euclideano (RK ). (Recordar que θ0 está en Θ)
2. QT (y, θ) es continua en θ ∈ Θ para todo y y es una función medible de y para

todo θ ∈ Θ,
3. T −1 QT (θ) converge a una función no estocástica Q(θ) uniformemente en

probabilidad en θ ∈ Θ cuando T tiende a infinito (∞), y Q(θ) alcanza un
único máximo local a θ0 . (La continuidad de Q(θ) se sigue de los supuestos).
θ̂T se define como un valor que satisface:
QT (θ̂T ) = máx QT (θ)

θ∈Θ
[se entiende que si θ̂T no es único, se selecciona un valor apropiado de tal manera
que θ̂T (y) sea una función medible de y.1 ]. Entonces θ̂T converge en probabilidad a
θ0
Teorema 22. Sean los supuestos:
1. Sea Θ un subconjunto abierto para el K-espacio Euclideano (ası́ el verdadero

valor θ0 es un punto interior de Θ)
∂QT
2. QT (y, θ) es una función medible de y para todo θ ∈ Θ, y existe y
∂θ
es continua en una vecindad abierta N1 (θ0 ) de θ0 . (Esto implica que QT es
continua para θ ∈ N1 )
3. Existe una vecindad abierta N2 (θ0 ) de θ0 tal que T −1 QT (θ) converge a una
función no estocástica Q(θ) uniformemente en probabilidad en θ en N2 (θ0 ), y
Q(θ) alcanza un máximo local estricto en θ0
Sea ΘT el conjunto de raı́ces de la ecuación

∂QT
=0 (1.1.12)
∂θ
que corresponden al máximo local. Si el conjunto es vacı́o, el conjunto ΘT es igual a
{0} Entonces, para algún ǫ > 0,
′
lim P [ ı́nf (θ − θ0 ) (θ − θ0 ) > ǫ] = 0
T →∞ θ∈ΘT
Teorema 23. Asumiendo supuestos del teorema anterior, y además:
∂ 2 QT
1. existe y es continua en una vecindad abierta convexa de θ0
∂θ∂θ′
1
Esto es posible por un teorema de Jennrich (1969, p.637)

∂ 2 QT
2. T −1 converge en probabilidad a una matriz finita singular:
∂θ∂θ′ ∗
θT

−1 ∂ 2 QT
A(θ0 ) = lim ET
∂θ∂θ′ ∗
θT
para alguna sucesión θT∗ tal que:

plim θT∗ = θ0

∂QT
3. T −1/2
→ N [0, B(θ0 )], donde:
∂θ θ0

−1 ∂QT ∂QT
B(θ0 ) = lim ET ×
∂θ θ0 ∂θ′ θ0
n o
Sea θ̂T una sucesión obtenida para escoger un elemento de ΘT definido en el
teorema anterior tal que:
plim θ̂T = θ0 .
(θ̂T se denomina una raı́z consistente). Entonces:
√
T (θ̂T − θ0 ) → N [0, A(θ0 )−1 B(θ0 )A(θ0 )−1 ]
Teorema 24. Suponiendo que gT (θ) converge en probabilidad a una función no
estocástica g(θ) uniformemente en θ en una vecindad abierta N (θ0 ), entonces
plim gT (θ̂T ) = g(θ0 ) si plim(θ̂T ) = θ0 y g(θ) es continua en θ0
Definición 25. Estimador de Máxima Verosimilitud Sea LT (θ) = L(y, θ)
la densidad conjunta de un vector de T variables aleatorias y = (y1 , y2 , . . . , yT )
caracterizada por un vector de K parámetros θ. Cuando nos referimos a ella como
una función de θ, la llamamos función de verosimilitud. El término Estimador de
Máxima Verosimilitud (EMV) se usa frecuentemente para significar dos conceptos
diferentes:
1. El valor de θ que maximiza globalmente la función de verosimilitud L(y, θ)
sobre el espacio de parámetros θ; o
2. Cualquier raı́z de la ecuación de verosimilitud
∂LT (θ)
=0 (1.1.13)
∂θ
que corresponda a un máximo local. Aquı́ lo usaremos en el segundo sentido.
1.2 Consistencia 12
1.2. Consistencia
Las condiciones para la consistencia del Estimador de Máxima Verosimilitud
(EMV) global o local se pueden obtener del Teorema 21 o 22 haciendo
QT (θ) = logLT (θ).
Se considera el logaritmo de la función de verosimilitud porque
T −1 logLT (θ)
usualmente converge a una constante finita. Tomando el logaritmo no cambia la

localización del máximo local o global.
Ahora, si se asume que yi (i = 1, 2, · · · , T ) son independientes e idénticamente
distribuidos con función de densidad f (·, θ), se puede escribir
T
X
log L (y, θ) = log f (yt , θ) (1.2.1)
i=1
En este caso se puede reemplazar el supuesto 3 del Teorema 21 y 22 por los 2

siguientes supuestos:
E sup | log f (yt , θ) | < ∞ (1.2.2)
θ∈Θ
y
log f (yt , θ) es una función continua de θ para cada yt . (1.2.3)
En el Teorema 26 se muestra que los supuestos 1.2.2 y 1.2.3 implican
T
1X
plim log f (yt , θ) = E log f (yt , θ) uniformemente en θ ∈ Θ (1.2.4)
T i=1
Además, por desigualdad de Jensen se tiene que

f (yt , θ) f (yt , θ)
E log < log E = 0 para θ 6= θ0 (1.2.5)
f (yt , θ0 ) f (yt , θ0 )
donde la esperanza se toma usando el valor real θ0 , y por tanto
E (log f (yt , θ)) < log E (f (yt , θ0 )) para θ 6= θ0 (1.2.6)
Como en la ecuación1.2.6 se tiene que
T −1 E (log LT (θ)) < T −1 E (log LT (θ0 ))

1.2 Consistencia 13
para θ 6= θ0 y para todo T. Sin embargo cuando se toma lı́mite a ambos lados de la
desigualdad 1.2.6 cuando T tiende a infinito, se tiene:
lim T −1 E (log LT (θ)) ≤ lim T −1 E (log LT (θ0 ))

T →∞ T →∞
Aquı́, generalmente se necesita asumir que: lim T −1 E(log LT (θ)) únicamente se

T →∞
maximice en θ = θ0 .
El hecho que los modelos 1.2.2 y 1.2.3 impliquen 1.2.4 se sigue del siguiente
teorema cuando se hace
gt (θ) = log f (yt , θ) − E (log f (yt , θ))
Teorema 26.
Sea gt (y, θ) una función medible de y en un espacio Euclideano para cada θ ∈ Θ,
un subconjunto compacto de RK (K-espacio Euclideano) y una función continua
de θ ∈ Θ para cada y. Asuma E(g(y, θ)) = 0. Sea {yi } una sucesión de vectores
aleatorios independientes e idénticamente distribuidos tales que

E sup |g(yt , θ)| < ∞.
θ∈Θ
T
X
Entonces T −1
gt (y, θ) converge uniformemente a 0 en probabilidad en θ ∈ Θ
t=1
Prueba. Particionando Θ en n regiones excluyentes Θn1 , Θn2 , . . . Θnn de tal modo

que la distancia entre dos puntos cualquiera dentro de cada Θni tienda a 0 cuando
n tiende a ∞. Sea θ1 , θ2 , . . . , θn , una sucesión arbitraria de K-vectores tales que
θi ∈ Θni , i = 1, 2, . . . , n. Entonces escribiendo gt (θ) para g (yt , θ), tenemos para
cualquier ǫ > 0
" #
X T

P supT −1 gt (θ) > ǫ (1.2.7)
θ∈Θ
t=1
"n ( )#
[ XT

sup T −1
≤ P gt (θ) > ǫ
i
θ∈Θn
i=1 t=1
" #
X n XT

≤ P supn T −1 gt (θ) > ǫ
θ∈Θi
i=1 t=1
" # " #
X n X T ǫ X n XT
ǫ
sup |gt (θ) − gt (θi )| >
≤ P T −1 gt (θi ) > + P T −1
t=1
2 t=1
θ∈Θn
i 2
i=1 i=1
1.2 Consistencia 14
Puesto que gt (θ) es uniformemente continua en θ ∈ Θ, tenemos para cada i

lim sup gt (θ) − gt (θi ) = 0 (1.2.8)
n→∞ θ∈Θn
i
pero, puesto que

sup gt (θ) − gt (θi ) ≤ 2 supgt (θ) (1.2.9)
θ∈Θn
i θ∈Θ
y el lado derecho de la desigualdad (1.2.9) es integrable por nuestros supuestos,

(1.2.8) implica por el teorema de convergencia de Lebesgue.2

lim E sup gt (θ) − gt (θi ) = 0 (1.2.10)
n→∞ n θ∈Θi
uniformemente para i. Se toma n lo suficientemente grande para que el valor esperado

en (1.2.10) sea menor que ǫ/2. Finalmente, la conclusión del teorema se sigue del
Teorema 18 (LGN 2 de Kolmogorov) cuando T tiende a infinito.
Este teorema puede generalizarse hasta decir que
T
X
T −1 gt (θi )
t=1
y
T
X
T −1 sup gt (θ) − gt (θi )
θ∈Θn
i
t=1
pueden ser sujetos a una Ley de Grandes Números.
Teorema 27. Sea gt (y, θ) una función medible de y en un espacio Euclideano para
cada t y para cada θ ∈ Θ, un subconjunto compacto de RK (K-espacio Euclideano)
y una función continua de θ uniformemente en y y t. Asumiendo Egt (y, θ) = 0.
Sea {yi } una sucesión de vectores aleatorios independientes y no necesariamente
idénticamente distribuidos tales que

1+δ

E sup gt (yt , θ) ≤M <∞
θ∈Θ
para algún δ > 0. Entonces

T
X
−1
T gt (yt , θ)
t=1
converge a 0 uniformemente en probabilidad en θ ∈ Θ

2
(Royden, 1968, p. 88)
1.3 Normalidad Asintótica 15
Teorema 28. Sean y1 , y2 , . . . , yT vectores de constantes. Se define la función de

distribución empı́rica de (y1 , y2 , . . . , yT ) por
T
X
FT (α) = T −1 χ(yt < α)
t=1
donde χ toma el valor 1 o 0 dependiendo si el evento en su argumento ocurre o no.

Se debe notar que yt < α significa que cada elemento del vector yt es menor que
el correspondiente elemento de α. Asumiendo que g(y, θ) es una función continua
y acotada de y en el espacio Euclideano y θ en un conjunto compacto Θ. También
asumiendo que FT converge a una función de distribución F. Entonces
T
X Z
−1
lim T g (yt , θ) = g (yt , θ) dF (y)
T →∞
t=1
uniformemente en θ.
1.3. Normalidad Asintótica

La normalidad asintótica del Estimador de Máxima Verosimilitud o más
precisamente una raı́z consistente de la ecuación de verosimilitud 1.1.13 se puede
analizar haciendo QT = log LT en el teorema (23). Si {yt } son independientes se
puede escribir
XT
log LT = log ft (yt , θ) (1.3.1)
t=1
donde ft es la densidad marginal de yt . Ası́ bajo consideraciones generales sobre ft

se puede aplicar una ley de grandes números a
∂ 2 log LT
∂θ∂θ′
y el teorema de lı́mite central a
∂ log LT
.
∂θ
Aún si los {yi } no son independientes se puede aplicar la ley de los grandes números
y el teorema de lı́mite central mientras que el grado de dependencia está limitado en
cierta manera. Ası́ se espera se mantengan los supuestos 2 y 3 del teorema (23) en
el caso del estimador de máxima verosimilitud.
Sin embargo cuando se usa las caracterı́sticas de Lt como una función de densidad
conjunta se pueden alcanzar resultados más especı́ficos que el teorema (23), y de
1.3 Normalidad Asintótica 16
acuerdo con las condiciones de regularidad en la función de verosimilitud3 se deduce

que:
A(θ0 ) = −B(θ0 ) (1.3.2)
Por tanto, haciendo (1.3.2) como un supuesto adicional y enunciándolo como un
teorema se tiene:
Teorema 29. Bajo los supuestos del teorema (23) y el supuesto anterior, el
estimador de máxima verosimilitud θ̂T satisface
 " 
 #−1 
√ 2
1 ∂ log LT
T θ̂T − θ0 −→ N 0, − lim E (1.3.3)
 T ∂θ∂θ′ θ0 
Si {yt } son independientes e idénticamente distribuidas con la función de densidad

común f (·, θ) se pueden reemplazar los supuestos 2 y 3 del teorema (23) además del
supuesto (1.3.2) con las siguientes condiciones sobre f (·, θ):
Z
∂f
dy = 0 (1.3.4)
∂θ
Z
∂2f
dy = 0 (1.3.5)
∂θ∂θ′
T
1 X ∂ 2 log f ∂ 2 log f
plim = E( ) (1.3.6)
T t=1 ∂θ∂θ′ ∂θ∂θ′
Se puede encontrar un conjunto suficiente de condiciones para 1.3.6 haciendo
∂ 2 log ft
gt (θ) =
∂θi ∂θj
en el Teorema 26
Teorema 30. (Liapounov CLT) Sea {Xt } independiente con E (Xt ) = µt , V (Xt ) =
σt2 y
E |Xt − µt |3 = m3t .
Si " #−1/2 " #1/3
n
X n
X
lim σt2 m3t = 0,
n→∞
t=1 t=1
entonces, Zn → N (0, 1)
3
Ver Apéndice A.
Capı́tulo 2
Modelos de Elección Binaria
2.1. Generalidades
2.1.1. Introducción
Un individuo en su vida cotidiana se enfrenta a muchas situaciones en las que debe
tomar una decisión. A veces, esta elección la hace de manera automática o por mera
intuición, sin ser consciente de que, tras cada opción, ha realizado un razonamiento
lógico. Sin embargo, en otras ocasiones el individuo debe tomar una decisión que
requiere una reflexión más profunda que la mera intuición.
En estos casos, el proceso de elección dependerá de determinados factores,
entre ellos sus propias preferencias y condicionantes y acarreará unas consecuencias
concretas.
Las repercusiones que se derivan de determinada elección pueden ser de distinta
trascendencia. No es lo mismo decidir sobre si viajar en taxi en bus urbano, que
decidir si conceder o negar un crédito a una empresa.
De manera análoga, la economı́a, como ciencia ligada al estudio de la forma en
que los agentes emplean los escasos recursos, está sujeta a los continuos procesos de
decisión entre las diferentes alternativas que se presentan en la vida cotidiana, tanto
a nivel macroeconómico como microeconómico. Ello indica que una de las tareas más
importantes en la actitud de los agentes económicos es la búsqueda de herramientas
que permitan objetivizar el problema de una forma racional. ([2],[13])
La teorı́a económica facilita modelos sobre la conducta de los agentes en
circunstancias similares, y la Econometrı́a desarrolla métodos para explicar el
comportamiento de los individuos ante los procesos de decisión, los cuales se pueden
realizar mediante la mera intuición económica o bien a través de un proceso objetivo
mediante uno de los modelos especı́ficos distintos a los modelos agregados, ya
que estos explican el comportamiento medio del grupo en lugar de interpretar el
comportamiento individual. De esta forma, la Econometrı́a pretende dar respuesta
2.1 Generalidades 18
a estas necesidades de la economı́a, planteando modelos que permitan medir y

cuantificar los hechos económicos, con el fin de proporcionar un marco teórico-
empı́rico que facilite los procesos objetivos de toma de decisión.
Por ejemplo, se supone un agente económico, una mujer casada, que se enfrenta
a la decisión de participar o nó en el mercado laboral. La decisión adoptada lleva
asociado unos factores o caracterı́sticas propias de la mujer (edad, número de hijos,
edad de los hijos, renta familiar, nivel de estudio, etc.). El hecho de que la mujer
opte por trabajar lleva asociados unos factores positivos (beneficios) y otros negativos
(costos). Ante esta disyuntiva, la mujer puede valorar los beneficios y los costos que
le supondrı́a la elección posible. Tras esta valoración de todos los factores (variables)
a favor y en contra, se marca su criterio de preferencia en función del cual tomará una
decisión.
Es evidente imaginar que la decisión adoptada presenta cierta aleatoriedad ya
que la respuesta puede ser distinta para cada una de las mujeres estudiadas, aún en
el caso de que los valores de las variables que las condicionasen fuesen idénticos. Es
decir, que dos mujeres con las mismas caracterı́sticas o condicionantes podrán optar
por decisiones diferentes. Sin embargo, a pesar de esas diferencias, las ordenaciones
de las preferencias de ambas mujeres tendrán en común algunos rasgos importantes
a partir de los que se podrı́a establecer un patrón de comportamiento medio de la
población de mujeres.
De esta forma, el estudio de los comportamientos individuales de las mujeres
puede servir para modelar el mercado laboral de la mujer, proporcionando un
instrumento para la planificación económica y social de las familias.
En general, esta posibilidad implica que a partir de la observación del
comportamiento de una muestra de individuos, se pueden obtener conclusiones
generales sobre el comportamiento medio de la población a la que pertenece dicha
muestra de individuos analizada. Esta posibilidad de establecer resultados generales a
partir del análisis de una muestra es un factor clave dentro de los estudios económicos,
puesto que permiten establecer medidas de polı́tica económica.
Ası́, cabe poner de manifiesto que para analizar los procesos de decisión se necesita
algún instrumento que permita describir las preferencias, ası́ como establecer una
ordenación posible de ellas. Por lo tanto, dentro del ámbito de la Econometrı́a, es
importante abordar los problemas de la decisión mediante un tipo de modelos que
permita analizar las conductas individuales y que, en consecuencia, pueda explicar
las preferencias o utilidades de los agentes económicos. La rama de la Econometrı́a
que se dedica a estudiar y modelar los procesos de decisión, ası́ como dar solución a
los procesos de elección entre diversas alternativas se denomina Microeconometrı́a.
Tradicionalmente, la Econometrı́a se enfrentaba a los problemas de decisión
utilizando los modelos agregados, los cuales explican el comportamiento medio del
grupo, de tal manera que haciendo uso del modelo general se definı́a la conducta
de los agentes. Sin embargo, cuando se necesitaba analizar los procesos de decisión
individual, y las relaciones causales inherentes al proceso de decisión, es de mayor

interés estudiar los modelos desde un punto de vista desagregado (datos individuales)
o analizar de cada individuo su comportamiento mas probable. Ası́, estos estudios
necesitan un marco de información con datos individuales o desagregados para cada
uno de los agentes económicos, lo cual supone un gran esfuerzo en el tratamiento de
la información.
La Microeconometrı́a nace por la necesidad de brindar una interpretación
económica de las pautas del comportamiento de los agentes económicos o individuos,
ası́ como la posibilidad de contrastar estadı́sticamente las hipótesis efectuadas ([15]).
Ha desarrollado un marco teórico-práctico de referencia donde fundamentar el estudio
de los procesos de decisión individual, gracias a los avances informáticos que permiten
el tratamiento de una gran cantidad de datos individuales. El gran interés de la
Microeconometrı́a se centra en que en estos tipos de técnicas econométricas permiten
resolver los problemas del tratamiento desagregado (individual) de la información.
Estos modelos facilitan, también, la tarea de identificar las caracterı́sticas o factores
que provocan un comportamiento diferente de los individuos ante los procesos de
decisión.
A pesar de la gran utilidad de estos modelos, las técnicas microeconométricas
presentan algunas limitaciones. Las estimaciones obtenidas mediante dichas técnicas
están determinadas de forma muy importante por los supuestos básicos establecidos,
es decir, los supuestos fundamentales (como por ejemplo, la normalidad de las
preferencias, errores de medida, simultaneidad de las relaciones, etc.). Estos son
aspectos no demasiado importantes desde el punto de vista económico, pero pueden
crear serios problemas (inconsistencias) en las estimaciones de los parámetros.
Es importante destacar que las técnicas tradicionales de estimación, como por
ejemplo Mı́nimos Cuadrados Ordinarios (MCO), resultan inapropiados dado el
carácter de discontinuidad que tiene el regresando y la no linealidad de la ecuación.
Por lo tanto, en estos modelos se deben recurrir a procesos de estimación no
lineales, donde la técnica generalmente usada es a través de Máxima Verosimilitud
(MV). Además, en Microeconometrı́a se dá gran importancia a los diagnósticos que
permiten validar correctamente los resultados del modelo, ası́ como en los supuestos
establecidos en su formulación teórica. La parte de la Econometrı́a que estudia
los problemas teóricos inherentes a este tipo de modelos se denomina Métodos
Microeconométricos.
El proceso de elección entre diferentes alternativas está sometido a ciertas
limitaciones, que radican en la asignación de un cierto grado de objetividad a
cada una de las posibles opciones a las que se enfrenta el individuo económico. La
Microeconometrı́a dá respuesta a este tipo de problemas asignando la probabilidad
de que un individuo elija una determinada alternativa entre un conjunto finito,
exhaustivo y mutuamente excluyente de éstas. Dicha probabilidad de elección
depende del conjunto de caracterı́sticas de cada una de las alternativas, ası́ como
de los condicionantes del individuo decisor.

Ası́, en el ejemplo anteriormente expuesto sobre la participación laboral de
la mujer casada, se puede establecer que el hecho de que la mujer trabaje o
nó está condicionado por dos tipos de caracterı́sticas:
Caracterı́sticas propias de la elección.

Caracterı́sticas propias de los agentes.
Cada uno de estos regresores o caracterı́sticas influyen en los procesos de decisión,

siendo el papel de la Microeconometrı́a determinar un modelo que permita, dadas
esas caracterı́sticas, explicar ese proceso de decisión. A tal fin, se establece un
valor numérico que permita ordenar las preferencias y que está asociado, en nuestro
ejemplo, con el hecho probabilı́stico de que la mujer decida trabajar.
Por lo tanto, en estos modelos lo que se explican no es el valor que toma el
regresando o variable endógena, sino la probabilidad de que el agente económico i
elija una determinada alternativa j, que dependerá de los factores que condicionan el
proceso de decisión, y de acuerdo con la función de distribución de la probabilidad que
se haya supuesto para el caso de elegir una alternativa frente a sus complementarias.
Es frecuente encontrar problemas económicos en donde la decisión a tomar
involucra dos o más alternativas, y la variable dependiente que se va a utilizar no
tiene un valor concreto o dicho de otra manera, no es cuantitativa y por tanto es
necesario cuantificarla a través de categorı́as mutuamente excluyentes, para mostrar
cuál es la alternativa elegida por el individuo. A los modelos que tienen una variable
dependiente con estas caracterı́sticas se les llama Modelos de Elección Discreta.
Cuando el individuo debe decidir entre dos alternativas, la variable dependiente sólo
mostrará dos categorı́as y por tanto este modelo se denomina Modelo de Respuesta
Dicotómica o Modelo de Elección Binaria; de la misma manera, cuando el individuo
debe decidir entre más de dos alternativas, el modelo se denomina Modelo de Elección
Múltiple o Modelo Multinomial. (Ver Tabla 2.1). Estos modelos están determinados
por:
El tipo de función de distribución que se use.
El proceso a seguir al efectuar la elección (ordenado o secuencial).
Por las caracterı́sticas propias de la elección y de los agentes.
Como el objetivo primordial de estos modelos es hallar la probabilidad que el
individuo elija una alternativa determinada, según el valor de las variables exógenas
o explicativas, estos modelos requieren un tratamiento econométrico particular.
Por tanto, en los modelos microeconométricos adquieren la mayor importancia, las
técnicas de recolección de la información o técnicas de muestreo, como quiera que
la validez de estos resultados, se verá condicionada por la representatividad de la
muestra.
Cuadro 2.1: Tipos de Modelos de Elección Discreta.
El regresor se refiere a:
Nro de alternativas Tipo de Tipo de función Caracterı́sticas Atributos
alternativas (de los individuos) (de las alternativas)
Modelos de Lineal Modelo de Probabilidad Lineal Truncado
respuesta dicotómica Complementarias Logı́stica Modelo Logit
(2 alternativas) Normal Tipificada Modelo Probit
Logit Multinomial Logit Condicional
Logı́stica - Logit Anidado - Logit Anidado
Modelos de No Ordenadas - Logit Mixto - Logit Mixto
Respuesta Múltiple Normal Tipificada Probit Multinomial Probit Condicional
(> 2 alternativas) Probit Multivariante Probit Multivariante
Ordenadas Logı́stica Logit Ordenado
2.1 Generalidades
Normal Tipificada Probit Ordenado
21
En los Modelos de Elección Discreta, su interpretación económica parte del

concepto de utilidad, el cual asume que la racionalidad de los agentes económicos los
hace comportarse de tal manera que maximicen la utilidad esperada que les brinda
cada una de las alternativas posibles sobre las que deben decidir. El planteamiento
teórico de las preferencias de los individuos permite ordenar las diferentes alternativas
en función del interés para el individuo decisor y proporciona un marco teórico en
el cual se fundamentan los modelos de elección discreta. Este marco teórico permite
establecer que la probabilidad que el individuo i-ésimo seleccione una de las dos
alternativas, depende directamente de que la utilidad brindada por dicha decisión
sea mayor que la brindada por la opción alterna. Se asume aquı́ que la utilidad
derivada de una elección Ui1 o Ui2 es función de las variables que representan las
caracterı́sticas propias de cada una de las alternativas y de las caracterı́sticas socio-
económicas del individuo. También existe una perturbación aleatoria ǫij que resume
las desviaciones que los agentes tienen respecto al comportamiento del agente medio.
En el caso de decisión binaria (j = 0, 1), se puede plantear en los siguientes
términos:
Ui0 : Nivel de utilidad que le proporciona la elección 0 al agente i.
Ui1 : Nivel de utilidad que le proporciona la elección 1 al agente i.
Xi0 : Vector de variables explicativas que caracterizan la elección de la
alternativa 0 por el agente i.
Xi1 : Vector de variables explicativas que caracterizan la elección de la
alternativa 1 por el agente i.
Además, suponiendo linealidad en las funciones, implicarı́a que:
Ui0 = U i0 + ǫi0 = α0 + Xi0 β0 + ǫi0 (2.1.1)
Ui1 = U i1 + ǫi1 = α1 + Xi1 β1 + ǫi1
donde los valores U i0 y U i1 representan las utilidades medias asociadas a cada
elección, las cuales pueden ser observadas y conocidas a través del proceso de
investigación. Las utilidades medias son función de una combinación lineal de las
variables explicativas observadas: Xi0 β0 y Xi1 β1 . Además, ǫi0 y ǫi1 representan
aquellos factores de la utilidad asociada a cada una de las alternativas que son
desconocidas y que pueden variar según los individuos y según la alternativa de la
que se trate. Se considera que estas son variables aleatorias ruido blanco, es decir,
independientemente distribuidas, con esperanza constante igual a cero y varianza
constante e igual σǫ2 ; además, generalmente se supone que siguen una función de
distribución normal.
El agente i elegirá la opción uno si la utilidad de esa elección supera la de la
opción cero y viceversa. Es decir,

1 si Ui1 > Ui0
Yi = (2.1.2)
0 si Ui0 > Ui1
Como consecuencia, se puede comprobar que la probabilidad que un individuo elija

la opción uno será:
P (Yi = 1) = P (Ui1 > Ui0 ) (2.1.3)

= P U i1 + ǫi1 > U i0 + ǫi0

= P U i1 − U i0 > ǫi0 − ǫi1

= P ǫi0 − ǫi1 < U i1 − U i0
= P (ǫi0 − ǫi1 < (α1 + Xi1 β) − (α0 + Xi0 β))
= P (ǫi0 − ǫi1 < (α1 − α0 ) + (Xi1 − Xi0 ) β)
Z Xi β
= F (Xi β) = f (ǫi0 − ǫi1 )d(ǫi0 − ǫi1 )
−∞
con Xi siendo el vector de atributos observados (medidos) de las alternativas y

del propio individuo y β es un vector de parámetros desconocidos, constantes para
todos los individuos pero que pueden variar entre una alternativa y otra.
A través de la ecuación 2.1.3 se determina la probabilidad que un individuo

elija
la opción uno, que depende de la distancia entre utilidades U i1 − U i0 observa-
das más que de la utilidad real. Ası́ mismo, dicha probabilidad viene dada por el
valor de la función de distribución (F en general) en el punto Xi1 β, es decir, F (Xi β).
Los Modelos de Elección Discreta se utilizan para la modelación de la elección

de modo de transporte, (es decir, para determinar la probabilidad de escoger un
modo de transporte, vehı́culo privado o algún tipo de transporte público) a partir
de determinadas variables y de las caracterı́sticas propias de las alternativas de
transporte (costo, distancia, comodidad, duración del viaje, entre otros). También
describen el comportamiento del individuo, frente a las diferentes alternativas
posibles, usando sistemas de elección probabilı́sticos. Esto es, en una situación
de elección entre un conjunto de alternativas finito, exhaustivo y con alternativas
mutuamente excluyentes, los modelos de elección cualitativa determinan la expresión
de la probabilidad, Pij , de que el individuo (el elector) i identificado por un vector
de caracterı́sticas, elija la alternativa j caracterizada por una serie de atributos.
Los modelos de elección discreta más utilizados en la práctica, son: el Logit y

el Probit. Ambos son modelos dicotómicos que analizan los problemas asociados
a la toma de decisiones cuando los agentes económicos se enfrentan a un proceso
de elección, en este caso binario. El criterio de selección entre opciones depende de
la probabilidad asociada a cada una de las alternativas que puede tener un individuo.
Para la especificación del modelo de elección binaria, se admite como válida la

teorı́a de la maximización de la utilidad aleatoria ([17]). Esta teorı́a postula que cada
individuo elige aquella opción que le reporta mayor utilidad (beneficio) y que ésta es
aleatoria, lo que obliga a plantear la elección en términos probabilı́sticos.
2.1.2. El Proceso de Elección

Una elección puede analizarse como una secuencia de decisiones que incluya los
siguientes pasos ([4]):
1. Definición del problema de elección
2. Generación de alternativas
3. Evaluación de los atributos de las alternativas
4. Elección
5. Ejecución de la alternativa elegida

Es evidente que los individuos no realizan este proceso siempre que deben
efectuar una elección, sino que pueden omitirlo y tomar una decisión, por ejemplo,
por hábito, convencionalismo social, intuición, etc. En cualquier caso, estos compor-
tamientos podrı́an describirse mediante un proceso de elección en el que el decisor
generase una única alternativa.
Para poder analizar este proceso será necesario precisar quién se considera
decisor (individuo, familia, grupo, etc.), cómo se genera el conjunto de alternativas
considerado (aquellas que el decisor juzga disponibles teniendo en cuenta sus
caracterı́sticas y restricciones personales), qué atributos van a caracterizar a las
alternativas y qué reglas se van a seguir para la elección.
Las reglas de decisión describen el mecanismo interno que utiliza el decisor para
procesar la información disponible y alcanzar una elección única. Existen numerosas
reglas de decisión propuestas ([10]), que se pueden clasificar en las siguientes
categorı́as ([4]):
Dominancia: Una alternativa es dominante respecto a otra si al menos un

atributo es mejor y en los demás no es peor. Esta regla puede no conducir a una
elección única. Puede añadirse complejidad definiendo un rango de indiferencia
(umbral mı́nimo de diferencia de valores para considerar un atributo mejor que
otro)
Satisfacción: Para cada atributo se considera un umbral mı́nimo de satisfacción

para el individuo, una alternativa puede ser eliminada si no alcanza este mı́nimo
para algún atributo.
Reglas lexicográficas: Se supone que los atributos están ordenados por

importancia, de modo que el individuo elige la alternativa que tiene el mayor
valor en el atributo más importante, en caso de igualdad se pasa al siguiente
atributo (del mismo modo que se realiza el orden alfabético de las palabras en
los diccionarios). También se puede utilizar esta regla para ir eliminando las
alternativas peores en cada atributo por orden de importancia.
Eliminación por aspectos: Es la combinación de las reglas lexicográficas y de

satisfacción. El individuo comienza por el atributo más importante y elimina
las alternativas que no alcanzan su umbral de satisfacción, si todavı́a hay varias
alternativas disponibles pasa al siguiente atributo en importancia (En [27] y
[3] se plantea la equivalencia de este tipo de elección con la maximización de
la utilidad aleatoria).
Utilidad: Se considera que los atributos son conmensurables y que el atractivo

de una alternativa, expresado por un vector de valores de los atributos, se puede
expresar mediante un escalar, denominado en general utilidad. El individuo
buscará maximizar esta utilidad (o minimizar sus costos). Esta regla implica
un comportamiento de tipo compensatorio, en el que una disminución en un
atributo puede ser compensada por una mejora en otro (al contrario de lo que
sucedı́a con las reglas anteriores).
Este comportamiento hipotético de maximización de la utilidad es el que

ha fundamentado casi todo el desarrollo de los modelos de elección discreta y
para la detección de elecciones que no siguen los principios de máxima utilidad,
especialmente con datos de preferencias declaradas, puede consultarse [26] y [25].
2.1.3. Teorı́a de la Utilidad Aleatoria

Al abordar el problema de modelación de la demanda en un contexto de
alternativas discretas, es preciso tener en cuenta los aspectos relevantes que rodean
el proceso de toma de decisiones de los individuos. Entre los más importantes cabe
señalar los siguientes:
Definición de la unidad que toma decisiones, determinación del conjunto de

elección.
Selección de los atributos que explican la utilidad de cada alternativa j.
Determinación de la regla de decisión que sigue la unidad tomadora de

decisiones.
El individuo es la unidad tı́pica de toma de decisiones, pero alternativamente

también puede considerarse a un grupo, como la familia o el hogar, a una empresa
o institución pública. Cada uno de ellos puede representar una única unidad de
decisión. Es importante señalar que aunque estudiemos la predicción de la demanda
agregada, hay que tener en cuenta las diferencias entre los individuos en el proceso
de decisión, debido principalmente a la existencia de distintos patrones de gustos.
Dado un conjunto universal de alternativas (C), el conjunto de elección de un

individuo n, (Cn ), está determinado por aquellas que éste tiene disponibles; a su
vez, este es un subconjunto del conjunto universal (Cn ⊂ C) y representa la región
factible en el problema de optimización del consumidor, definida a partir de las
distintas restricciones del individuo.
En un contexto de elección modal, el conjunto universal está determinado, por

ejemplo, por todos los modos de transporte existentes para realizar un viaje entre
el par origen-destino considerado. Es decir, si los modos existentes son automóvil,
bus y metro, un individuo particular podrı́a no tener disponible alguna de las
alternativas (por ejemplo, si no tiene permiso de conducir no tendrı́a disponible la
alternativa automóvil como conductor; si la parada de metro más cercana está a una
distancia superior a un kilómetro probablemente no serı́a factible para él ir en metro,
etc) y esto debe ser tomado en cuenta a la hora de determinar su conjunto de elección.
Identificadas las distintas alternativas, cada una de ellas es evaluada en términos

de un vector de atributos que representan sus caracterı́sticas. Ası́, por ejemplo, los
atributos para el automóvil pueden ser tiempo, costo y confort; para el bus, tiempo,
costo, frecuencia y confort, y para el metro, tiempo, costo, frecuencia y confort.
Para cada alternativa, los distintos atributos toman diferentes valores. El indivi-
duo elige, dados los valores de los atributos, aquella alternativa que considera mejor,
estableciendo una regla de decisión que describe el mecanismo interno utilizado para
procesar la información disponible y realizar la elección. Los procesos de decisión
pueden ser compensatorios, esto es, cambios en uno o más atributos pueden ser
compensados por cambios en otros; o no compensatorios, donde los buenos atributos
de una alternativa no permiten compensar los malos. Los procesos de naturaleza
compensatoria definen una función objetivo (normalmente, una función de utilidad)
que exprese el atractivo de la alternativa en términos de sus caracterı́sticas.
Está basado en el compromiso entre atributos, pues al elegir la alternativa con
la utilidad más alta, el individuo selecciona aquella que ofrece una combinación
óptima de los mismos. Este tipo de modelos no son apropiados para los procesos de
decisión caracterizados por discontinuidades, las cuales son mucho mejor expresadas
a través de los procesos no compensatorios. Por su parte, estos procesos definen
normas o umbrales que restringen el campo de alternativas factibles, como por

ejemplo que el costo del viaje no exceda de una determinada cantidad, ası́ se define
el costo del viaje máximo. Estas restricciones son consideradas por los individuos
en sus procesos de decisión. Se distinguen la elección por eliminación y la satisfacción.
En la elección por eliminación el individuo jerarquiza los atributos (por

ejemplo, el tiempo de viaje es más importante que el costo, el costo que el
tiempo de espera, etc.) y define un valor mı́nimo aceptable o umbral para cada
uno de ellos. Posteriormente, se jerarquizan las alternativas de mejor a peor en
relación al atributo, por ejemplo que el tiempo de viaje no sea mayor de veinte
minutos, y todas aquellas alternativas que no satisfagan esta restricción son
eliminadas y ası́ sucesivamente hasta quedarnos con una sola alternativa. Es
posible que repetido el proceso tengamos varias alternativas que cumplan todas
las restricciones establecidas, en este caso se elige una de manera compensatoria
(Ver [27]).
Por su parte, la satisfacción presenta varias maneras de búsqueda de la

estrategia de elección. Por ejemplo, podrı́a tratarse de un proceso cı́clico donde
los umbrales se modifican secuencialmente hasta encontrar una alternativa.
Asimismo, se podrı́a predefinir una regla de manera que la búsqueda se alcance
en el punto en el que se satisface la regla. En este caso, no todos los atributos
o alternativas tienen que ser considerados.
De los dos procesos de decisión comentados, el que ha sido más utilizado para
explicar el comportamiento de elección del individuo es el de Satisfacción. No obs-
tante, en algunos casos el individuo podrá no considerar este proceso como criterio
de elección, y en estas situaciones se analizará si las preferencias del individuo descri-
tas por sus elecciones cumplen con los axiomas que establece la teorı́a del consumidor.
La teorı́a en que se sustenta el comportamiento del consumidor parte del

supuesto que los individuos son racionales (homo economicus) y su toma de deci-
siones se basa en alcanzar unos objetivos dadas unas restricciones. En el contexto
de las elecciones discretas, estos objetivos se alcanzan maximizando la Función
de Utilidad Indirecta Condicional (FUIC) sobre el conjunto de elección del individuo.
La teorı́a de la utilidad aleatoria1 constituye el cuerpo teórico que permite tratar

empı́ricamente el problema de las elecciones discretas. A la hora de modelar las
decisiones de los individuos y obtener empı́ricamente la Función de Utilidad Indirecta
Condicional (FUIC), el investigador no dispone de información perfecta; es decir, no
1
Formalizado por [19], [9] y [17]. Desarrollos más recientes se pueden encontrar en [24]
puede observar todos los factores que participan en el proceso de elección. Puede
darse la situación en que dos individuos con el mismo conjunto de alternativas
disponibles, sujetos a las mismas condiciones para realizar un viaje concreto e
idénticas caracterı́sticas socioeconómicas, elijan distintas alternativas. Para resolver
este problema, se acude a la teorı́a probabilı́stica con la idea de tener en cuenta el
efecto de factores de naturaleza aleatoria y de este modo corregir las percepciones
incorrectas del analista. Ası́ pues, se define una función de utilidad que presenta dos
componentes: Una parte observable, determinada por el vector de caracterı́sticas
o atributos medibles de la alternativa y el vector de caracterı́sticas socioeconómicas
del individuo; y Una componente no observable o aleatoria, definida para
incorporar las distintas fuentes de aleatoriedad que han sido identificadas; En primer
lugar cualquier atributo no observado. El vector de atributos de las alternativas es
usualmente incompleto, no es posible medir el conjunto total de elementos que el
individuo considera en sus decisiones. Otra fuente de aparente aleatoriedad es la
variación no observada en los gustos: la función de utilidad puede tener elementos no
observados que varı́an entre individuos; en tercer lugar los errores en la medición de
los distintos atributos ası́ como los elementos de la función de utilidad no observables
que se reemplazan por otros elementos (variables proxy).
De este modo, la utilidad Ujn que obtiene el individuo n al elegir la alternativa
j es una variable aleatoria que se descompone en la suma de dos componentes: La
componente observable (Vjn ) y la no observable (ǫjn ) según se establece en la siguiente
expresión:
Ujn = Vjn + ǫjn j = 1, . . . , J, n = 1, . . . , N, j ∈ Cn (2.1.4)
Tanto la componente observable como la no observable dependen de los atributos
de las alternativas y de las caracterı́sticas socioeconómicas del individuo. La
probabilidad que el individuo n elija la alternativa j dado un conjunto de opciones
disponibles Cn es:
P (j|Cn ) = P [Vjn + ǫjn ≥ Vin + ǫin ] ∀i ∈ Cn (2.1.5)
= P [ǫin − ǫjn ≤ Vjn + Vin ]
Para especificar la parte observable (Vjn ) se usan dos tipos de variables:
Los atributos que caracterizan a la alternativa j para el individuo n. En el
ejemplo estos atributos son tiempo de viaje, costo del viaje, confort, seguridad,
etc.
El vector de variables socioeconómicas que caracterizan al individuo n. Por
ejemplo la renta, la posesión o no de vehı́culo, el tamaño del hogar, edad, sexo,
ocupación, nivel de estudios, etc.
Dos cuestiones se derivan una vez determinadas las variables a considerar:
La primera, que constituye el principal problema en la especificación de la parte
determinı́stica de la función de utilidad, está relacionada con la determinación

de una combinación de atributos y variables socioeconómicas que reflejen una
hipótesis razonable sobre el efecto de tales variables en la utilidad. Mientras que
la segunda consiste en determinar la forma funcional. En este sentido, resulta
interesante trabajar con especificaciones de funciones que definan una relación entre
las variables consideradas y que a su vez estén basadas en supuestos teóricos sobre
el comportamiento de los individuos, establecidos por el investigador con base en
el conocimiento del mercado objetivo que se analiza. Además que la especificación
presente buenas propiedades en el proceso de estimación.
Usualmente, se utilizan funciones que sean: Lineales en los parámetros, donde
las variables pueden entrar en forma polinómica, o empleando cualquier otra
transformación que permita relacionar los atributos con la función de utilidad. Por
otra parte, las variables pueden ser genéricas o especı́ficas; son genéricas cuando el
efecto marginal es el mismo para todas las alternativas y especı́ficas cuando la misma
variable presenta efectos diferentes en función de la alternativa que se trate. El pro-
blema radica en estudiar cuál debe ser la mejor especificación de la parte observable
de la función de utilidad dadas las variables y las caracterı́sticas del mercado objetivo.
2.1.4. Maximización de la Utilidad Aleatoria (RUM)

En los Modelos de Elección Discreta se representa el comportamiento de un
individuo que se enfrenta a la elección de una única alternativa entre un conjunto
finito de alternativas disponibles. La teorı́a de la utilidad aleatoria parte de un
individuo perfectamente racional que siempre opta por la alternativa que le supone
una mayor utilidad. La utilidad que le reporta al individuo n la alternativa j es
Unj , completamente conocida por el que realiza la elección. Desde el punto de vista
económico, Unj es una función de utilidad indirecta condicional 2 . De este modo el
individuo n escogerá la alternativa i si y sólo si
Uni > Unj , ∀j 6= i (2.1.6)

Note que en el modelo (2.1.4), la variable aleatoria determinı́stica Vnj será una
función de una serie de atributos observados (medidos) de las alternativas y del
propio individuo, que se denominarán xnj . Esta función requerirá para su calibración
el ajuste de unos parámetros β.
Vnj = f (xnj |β) (2.1.7)
En la mayor parte de los modelos de elección discreta que se emplean en la

actualidad, se emplean funciones lineales en los parámetros para representar esta
2
Para ver el paso de la utilidad directa a la utilidad indirecta condicional puede verse ([5])
utilidad representativa y se considera que los parámetros β son constantes para todos
los individuos pero pueden variar entre unas alternativas y otras, de este modo:
K
X
Vnj = βkj xknj (2.1.8)
k=1
En general se define ǫnj como la diferencia entre el valor real de la utilidad

y el valor que observa el analista. De este modo, las caracterı́sticas de ǫnj van a
depender de la forma en la que el analista haya representado la elección. El error no
está definido para una situación de elección en sı́, sino para la especificación que el
analista haya hecho de esa situación.3
Si el analista fuese capaz de determinar con absoluta precisión el valor de todas

las variables que explican la conducta del elector, ası́ como la forma precisa en la
que influyen, el valor del error serı́a cero. Si únicamente fuese debido a los errores
de medición de las variables podrı́a ser un simple ruido blanco. En la medida en que
este error se deba a la ausencia en el modelo de variables explicativas o a diferencias
en la especificación de la influencia de éstas en el comportamiento, la distribución
de estos errores y las correlaciones entre los errores de las distintas alternativas, los
distintos individuos o las elecciones de un mismo individuo podrán ser diferentes.
Si bien la elección del individuo, bajo las hipótesis mencionadas, es plenamente

determinista; el analista no va a conocer el valor de las utilidades reales, por lo que
lo único que va a poder conocer es la probabilidad de que una alternativa sea la de
mayor utilidad.
Como se ha comentado, el término ǫnj se trata como un error aleatorio de media

cero. Si se denomina f (ǫn ) a la función de densidad conjunta del vector aleatorio
ǫn = (ǫn1 , ǫn2 , . . . , ǫnJ ) se puede estimar la probabilidad que el individuo escoja
cada una de las alternativas, dado que conoce la utilidad representativa Vjn . La
probabilidad de que el individuo n escoja la alternativa i será:
Pni = P (Uni > Unj ), ∀j 6= i

= P (Vni + ǫni ≥ Vnj + ǫnj ), ∀j =
6 i
= P (ǫnj − ǫni ≤ Vni − Vnj ), ∀j =6 i
Esta es la probabilidad de que cada término aleatorio ǫnj − ǫni sea inferior a una
cantidad observada Vni − Vnj , por lo tanto se trata de una función de distribución
acumulada. A partir de la función de densidad conjunta f (ǫn ) se puede calcular esta
3
Ver [28].
probabilidad como:
Pni = P (ǫnj − ǫni ≤ Vni − Vnj ), ∀j 6= i (2.1.9)

Z
= I(ǫnj − ǫni ≤ Vni − Vnj )f (ǫn )dǫn ∀j 6= i
i
Siendo I(·) una función indicadora que valga uno si el individuo ha escogido la
alternativa i y cero en otro caso. Dependiendo de la distribución que cada modelo
asuma para el ǫnj se tendrá un valor cerrado de esta integral (en modelos como el
Logit o el Logit jerárquico) o tendrá que ser evaluada numéricamente por simulación
(como en el probit o el Logit mixto).
El proceso de calibrado del modelo consistirá en la estimación de los valores de

los coeficientes βkj . (k = 1, . . . , K j = 1, . . . , J). El procedimiento más empleado
es tomar como estimadores aquellos valores que maximicen la verosimilitud de la
muestra utilizada. La función de verosimilitud de una muestra determinada será en
general:
YN Y
L(β) = (Pni )yni (2.1.10)
n=1 i
con (
1, si el individuo n ha escogido la alternativa i;
yni =
0, e.o.c.
Para facilitar la maximización numérica se trabaja con el logaritmo neperiano de la
verosimilitud, esto es,
N X
X
£ = log L(β) = yni ln(Pni ) (2.1.11)
n=1 i
El estimador es el valor de β que maximiza la función de log-verosimilitud. Para

hallar el estimador de β existen diversos procedimientos numéricos, en algunos
casos se utilizan métodos de estimación, principalmente con modelos que requieren
simulación para calcular la probabilidad, como es el caso del Método de Máxima
Verosimilitud Simulada (MSL) el cual requiere condiciones estrictas para que el
estimador sea consistente, eficiente y asintóticamente normal.
La elección observada únicamente proporciona información acerca de cuál de

las utilidades es mayor. Por lo tanto, no se puede determinar la escala ni el nivel
de utilidades, ya que un cambio en éstos, igual para todas las utilidades, no va a
modificar el hecho de que la utilidad de una alternativa sea mayor que la de otra.
En este caso se podrá normalizar el modelo en cuanto a escala y nivel, en un proceso
2.2 Especificación del modelo 32
conocido como identificación.
Por este motivo, no pueden estimarse todos los parámetros de los modelos,
ni todos los elementos de la matriz de covarianza4 que caracteriza la distribución
conjunta de los términos de error.
2.2. Especificación del modelo

Un modelo de elección binaria se define como
P (Yi = 1) = F (Xi β), i = 1, 2, . . . , n (2.2.1)
donde
{Yi } es una sucesión de variables aleatorias binarias independientes que toman

el valor uno o cero
Xi es un vector de constantes conocidas de tamaño K
β es un vector de parámetros desconocidos de tamaño K
F es una función conocida, que puede ser función lineal o no lineal de las
variables originales
Entre las formas funcionales de F más frecuentemente usadas están:



 xβ en cuyo caso 2.2.1 se denomina Modelo de Probabilidad Lineal ,





 Z x

 1
2
F (xβ) = Φ(xβ) = −∞ √2π exp − t /2 dt llamado Modelo Probit,







 exβ

Λ(xβ) = y en este caso 2.2.1 se conoce como Modelo Logit.
1 + exβ
La estimación e interpretación de los modelos probabilı́sticos lineales plantea una

serie de problemas que han llevado a la búsqueda de otros modelos alternativos que
permitan estimaciones más fiables para las variables respuesta. Para evitar que la
variable endógena estimada pueda encontrarse fuera del rango (0, 1), las alternativas
disponibles llevan a utilizar modelos de probabilidad no lineales, donde la función
de especificación utilizada garantice un resultado en la estimación comprendido
4
Se denominará simplificadamente matriz de covarianza a la matriz de varianzas-covarianzas
2.3 Estimación para modelos de elección binaria 33
en el rango 0-1. Como las funciones de distribución cumplen este requisito, ya

que son funciones continuas que toman valores comprendidos entre 0 y 1, se
tienen varias alternativas para selección de F (·). Sin embargo, las más habituales
son la función de distribución logı́stica, que ha dado lugar al modelo Logit, y
la función de distribución de la normal tipificada, que ha dado lugar al modelo
Probit. Tanto los modelos Logit como los Probit relacionan, por tanto, la variable
endógena Yi con las variables explicativas Xki a través de una función de distribución.
Para el modelo Logit, se utiliza la función logı́stica por lo que su especificación

se convierte en:
1 eβ1 +β2 X2i +···+βk Xki
P (Yi = 1) = + ui = + ui
1 + e−(β1 +β2 X2i +···+βk Xki ) 1 + eβ1 +β2 X2i +···+βk Xki
eXi β
= + ui (2.2.2)
1 + eXi β
Ahora, en el caso del modelo Probit la función de distribución utilizada es la normal
tipificada, con lo que el modelo se especifica a través de la siguiente expresión
Z Xi β
1
P (Yi = 1) = √ exp − s2 /2 ds + ui (2.2.3)
−∞ 2π
Dada la similitud existente entre las curvas de la normal tipificada y de la
logı́stica, los resultados estimados por ambos modelos no difieren mucho entre sı́5 .
Sin embargo existen diferencias operativas, entre ellas el cálculo de la función de
distribución normal es más complejo que el de la logı́stica, ya que la primera sólo
puede calcularse en forma de integral. Esto hace que el modelo Logit sea usado con
mayor frecuencia en los estudios empı́ricos.
2.3. Estimación para modelos de elección binaria

2.3.1. Consistencia y normalidad asintótica del Estimador
de Máxima Verosimilitud
Para derivar las propiedades asintóticas del Estimador de Máxima Verosimilitud
(EMV) es necesario asumir los siguientes supuestos para el modelo 2.2.1:
Supuesto 2.3.1. La forma funcional F tiene derivada f y 0 < F (x) < 1, además
con f (x) > 0 para toda x, y derivada de segundo orden f p.
5
Discrepan en la rapidez con que las curvas se aproximan a los valores extremos, y ası́ la función
logı́stica es más achatada que la normal al alcanzar, esta última, más rápidamente los valores
extremos (0 y 1)
Supuesto 2.3.2. El espacio de parámetros B es un subconjunto abierto acotado de

un espacio Euclidiano k-dimensional
n
X
−1
Supuesto 2.3.3. {xi } son uniformemente acotados en i y lim n xi xpi es una
n→∞
i=1
matriz no singular finita. Además la distribución empı́rica de {xi } converge a una
función de distribución.
Ambos modelos, Probit y Logit, satisfacen el supuesto 2.3.1. El acotamiento de

{xi } es algo restrictivo y hasta podrı́a eliminarse. Sin embargo, se asume para hacer
más sencilla las pruebas de consistencia y normalidad asintótica.
La función de verosimilitud del modelo 2.2.1 está dada por
n
Y
L= [F (xi β)]yi [1 − F (xi β)]1−yi
i=1
De modo que:
n
X n
X
log L = yi log F (xi β) + (1 − yi ) log[1 − F (xi β)] (2.3.1)
i=1 i=1
Ahora, para hallar el Estimador de Máxima Verosimilitud, se debe encontrar la

∂ log L
derivada parcial de la ecuación anterior con respecto a β, es decir . Ası́:
∂β
Pn Pn
∂ log L ∂ i=1 y i log F (x p
i β) + i=1 (1 − y i ) log[1 − F (x p
i β)]
=
∂β ∂β
n
X yi f (xp β)xi − F (xp β)f (xp β)xi
i i i
=
i=1
F (xpi β)(1 − F (xi β))
p
Luego:
Xn
∂ log L yi − F (xpi β)
= f (xpi β)xi
∂β i=1
F (x p
i β)(1 − F (x p
i β))
Es decir que el Estimador de Máxima Verosimilitud βb es una solución (si existe) de
Xn
∂ log L yi − F (xpi β)
= f (xpi β)xi = 0 (2.3.2)
∂β i=1
F (x p
i β)(1 − F (x p
i β))
Para probar la consistencia de βb se deben verificar los supuestos del Teorema 22.
Los supuestos 1 y 2 se satisfacen claramente. Para verificar el supuesto 3 se debe
usar el teorema 27. Si se define

gi (y, β) = y − F xpi β0 log F xpi β , gi (y, β)
en una vecindad compacta de β0 que satisface todas las condiciones para gt (y, θ) en
n
X
−1
el teorema, debido a los supuestos 2.3.1 y 2.3.3. Además, lim n Fi0 log Fi existe
n→∞
i=1
Xn
Pn −1
por el teorema 28. Por tanto, n −1
y
i=1 i log Fi converge a lim n Fi0 log Fi ;
n→∞
i=1
Fi0 = F xpi β0 , uniformemente en probabilidad en β ∈ N (β0 ), una vecindad abierta
de β0 .
Un resultado similar se puede obtener para el segundo término del lado derecho
de 2.3.1. Por tanto
Q (β) = plim n−1 log L

n
X
−1
= lı́m n Fi0 log Fi
n→∞
i=1
n
X
+ lim n−1 (1 − Fi0 ) log (1 − Fi ) (2.3.3)
i=1
donde la convergencia es uniforme en β ∈ N (β0 ). Debido a los supuestos asumidos

se puede derivar dentro de la operación lı́mite en 2.3.3, para obtener
X Fi0n n
X 1 − Fi0
∂Q
= lim n−1 fi xi − lim n−1 fi xi , (2.3.4)
∂β i=1
Fi i=1
1 − Fi
El cual se desaparece cuando β = β0 . Puesto que

Xn
∂ 2 Q −1 fi02
= − lim n xi xpi , (2.3.5)
∂β∂β p βb0 i=1
Fi0 (1 − Fi0 )
Q alcanza un estricto máximo local en β = β0 . Ası́ el supuesto 3 del teorema 22 se

b
mantiene, con lo cual se prueba la consistencia de β.
Una solución de (2.3.2) puede no existir. Sin embargo, la eventual irresolubilidad
no afecta la consistencia de la prueba por que la probabilidad de que esto ocurra se
aproxima a cero cuando n tiende a infinito, como se muestra en el teorema 22.
Para demostrar la probabilidad asintótica se usa el teorema 29, lo cual significa
que se deben verificar los supuestos 1, 2 y 3 del teorema 23 y la ecuación (1.3.2).
Derivando (2.3.2) con respecto a β se tiene que:
Xn 2
∂ 2 log L yi − Fi
= − fi2 xi xpi
∂β∂β p i=1
Fi (1 − F i )
Xn
yi − Fi
+ fipxi xpi (2.3.6)
i=1
Fi (1 − Fi )
Por lo anterior se satisface el supuesto 1 del teorema 23. También se puede verificar
que los supuestos 2.3.1 y 2.3.3 implica el supuesto 2 del teorema 23 usando los
teoremas 24 y 27. De (2.3.2) se tiene que:
n
1 ∂ log L 1 X yi − Fi0
√ =√ fi0 xi (2.3.7)
n ∂β β0 n i=1 Fi0 (1 − Fi0 )
Del Teorema 19 se obtiene la normalidad asintótica de (2.3.7), porque cada término

en la sumatoria es independiente con el segundo momento acotado y el tercer
momento absoluto debido a los Supuestos 2.3.1, 2.3.2 y 2.3.3. Ası́, se satisface el
supuesto 3 del 23, y se obtiene

1 ∂ log L
√ → N (0, A) (2.3.8)
n ∂β β0
donde n
1X fi02
A = lim xi xpi (2.3.9)
n→∞ n Fi0 (1 − Fi0 )
i=1
Finalmente, de la ecuación 2.3.6 se obtiene

1 ∂ 2 log L
lim E = −A (2.3.10)
n→∞ n ∂β∂β p β0
verificando ası́ la ecuación (1.3.2). Por tanto, se tiene que:

√
n βb − β0 → N 0, A−1 (2.3.11)
Concavidad global de la función Verosimilitud en los modelos Logit y

Probit
Concavidad global significa que
∂ 2 log L
∂β∂β p
es una matriz definida negativa para β ∈ B. Por expansión de Taylor se obtiene

∂ log L
log L (β) = log L βb + β − βb
∂β p βb
1 p ∂ 2 log L
+ β−β b β − βb (2.3.12)
2 ∂β∂β p βb∗
b concavidad global implica que

donde β ∗ se encuentra entre β y β,

log L βb > log L (β)
para β 6= βb si βb es una solución de (2.3.2). Se debe probar la concavidad global para

los modelos Probit y Logit.
1. Para el modelo Logit se tiene

∂2Λ ∂Λ
Λ (x) = Λ (x) (1 − Λ (x)) y 2
= (1 − 2Λ) (2.3.13)
∂x ∂x
Ahora, insertando esta ecuación en 2.3.6 con F (x) = Λ se obtiene

X n
∂ 2 log L
= − Λi (1 − Λi ) xi xpi (2.3.14)
∂β∂β p i=1
Donde
Λi = Λ xpi β
Entonces del supuesto 2.3.3 se obtiene la concavidad global.
2. Para el modelo Probit se tiene que haciendo:
Fi = Φi
fi = φi
y
fip = −xpi βφi
donde φi es la función de densidad de N(0, 1), y reemplazando en (2.3.6) se
obtiene
X n
∂ 2 log L −2 −2 2

= − φi Φi (1 − Φi ) y i − 2y i Φi + Φi φi
∂β∂β p i=1

+ (yi − Φi ) Φi (1 − Φi ) xpi β xi xpi (2.3.15)
Por tanto se debe mostrar la positividad de

gy (x) ≡ y − 2yΦ + Φ2 φ + (y − Φ) Φ (1 − Φ) x
para y = 1 y para y = 0.
Primero, sea y = 1. Como

g1 (x) = (1 − Φ)2 (φ + Φx)
es suficiente demostrar que φ + Φx > 0. La desigualdad se satisface si
x ≥ 0, ası́ se asuma x < 0. Pero esto es equivalente a mostrar
φ > (1 − Φ) x para x > 0 (2.3.16)
que se obtiene de la identidad
Z ∞
2

−1
x exp −x /2 = 1 + y −2 exp −y 2 /2 dy (2.3.17)
x
Segundo, sea y = 0
g0 (x) = Φ2 [φ − (1 − Φ) x]
que es absolutamente positivo si x ≤ 0 y es positivo si x > 0 debido a
2.3.16. Demostrando ası́ la concavidad global para el caso Probit.
2.3.2. Métodos Iterativos para obtener el Estimador de

Máxima Verosimilitud
Los métodos iterativos se pueden usar para calcular una raı́z de la ecuación 2.3.2.
Para los modelos Logit y Probit, la iteración es simple por la concavidad global
probada en la sección anterior.
Enseguida se tratará la iteración del método de score y se le dará una adecuada
interpretación. El método de score se define como
( )−1
b b ∂ 2
log L ∂ log L
β2 = β1 − E (2.3.18)
∂β∂β p βb1 ∂β βb1
donde βb1 es un estimador inicial de β0 y βb2 es el estimador de segunda pasada. La

iteración se repite hasta que una sucesión de estimadores obtenidos sea convergente.
Al usar 2.3.2 y 2.3.6 la ecuación anterior se puede escribir como
 −1
Xn b
f 2 Xn
fb h i
b
β2 =  i
xi xi 
p
i xi yi − Fbi + fbi xpi βb1 , (2.3.19)
i=1
b
F i 1 − b
Fi i=1
b
Fi 1 − b
Fi
donde
Fbi = F xpi βb1
y
fbi = f xpi βb1
De la iteración 2.3.19 es posible hacer una interesante interpretación. De 2.2.1 se
obtiene
yi = F xpi β0 + ui
donde
Eui = 0
y
V ui = F xpi β0 1 − F xpi β0

el cual es un modelo de regresión no lineal heterocedástico. Expandiendo F xpi β0
en una serie de Taylor alrededor de β0 = βb1 y organizando términos se tiene
yi − Fbi + fbi xpi βb1 ∼

= fbi xpi β0 + ui (2.3.20)
Ası́ βb2 definido en 2.3.19 se puede interpretar como el estimador de Mı́nimos

Cuadrados
Ponderados (MCP) de β0 aplicado a 2.3.20 con V ui estimado por
Fbi 1 − Fbi . Por esta razón el método la iteración del método de score en el Modelo de
Elección Discreta, algunas veces se le conoce como Iteración de Mı́nimos Cuadrados
Ponderados No Lineal (MCPNL). (Walker y Duncan, 1967)
2.3.3. Método del Mı́nimo Chi-cuadrado de Berkson

Existen muchas variaciones del método Chi-cuadrado (M IN χ2 ), uno de los
cuales es el método de Berkson. Por ejemplo, el Estimador de Mı́nimos Cuadrados
Factibles Generalizados (MCFG) definido en Amemiya6 es un estimador (M IN χ2 ).
Otro ejemplo es el estimador Barankin-Gurland mencionado en Amemiya7 . Una
caracterı́stica común de estos estimadores es que el minimando evaluado en el
estimador es asintóticamente distribuido como chi-cuadrado, de donde se deriva su
nombre.
El método M IN χ2 en el contexto del Modelo Discreto, fué propuesto primero por
Berkson8 , para el modelo Logit pero puede usarse para cualquier modelo de Elección
Discreta. Es útil solamente cuando existen muchas observaciones de la variable
dependiente y que tienen el mismo valor del vector de variables independientes x
6
Amemiya, Sección 6.2
7
Amemiya, Sección 4.2.4
8
1944
(algunas veces referido como ”muchas observaciones por celda”). Ası́ que F (xpβ0 )
para el valor especı́fico de x puede ser estimado con precisión por la frecuencia
relativa de y cuando ésta es igual a 1.
Para explicar el método en detalle se deben definir nuevos sı́mbolos. Suponga
que el vector xi toma T valores vectoriales distintos x(1) , x(2) . . . , x(T ) y clasifica los
enteros (1, 2, . . . , n) en T conjuntos disjuntos I1 , I2 , . . . , IT por la regla: i ∈ It si
x(i) = x(t) . Sea P(t) = P (yi = 1) si i ∈ It . Además, sea nt el número de enteros
contenidos en It , X
rt = yi
i∈It
y
Pb(t) = rt /nt
n o
Nótese que Pb(t) constituye los estadı́sticos suficientes del modelo. También se
escribirá x(t) , P(t) y Pb(t) como xt , Pt y Pbt si no hay ambigüedad.
De 2.2.1 se tiene que

Pt = F xpt β0 , t = 1, 2, . . . , T. (2.3.21)
si F es uno a uno, lo cual es consecuencia del supuesto 2.3.1. Se puede invertir la

relación anterior para obtener
F −1 (Pt ) = xpt β0 (2.3.22)

donde F denota la función inversa de F . Al expandir F
−1
Pbt en una serie de
−1
Taylor alrededor de Pt (lo cual es posible por el supuesto 2.3.1) se obtiene

−1 b ∂F −1 b
F Pt = xt β0 +
p
P − P
∂Pt P ∗
t t
t
1
= xpt β0 + Pbt − Pt
f [F −1 (Pt∗ )]
≡ xpt β0 + vt + wt , (2.3.23)
donde Pt∗ se encuentra entre Pbt y Pt ,

1
vt = Pbt − Pt
f [F −1 (Pt )]
y
1 1
wt = − Pbt − Pt
f [F −1 (Pt∗ )] f [F −1 (Pt )]
El hecho que vt y wt dependan de n ha sido eliminado.

Puesto que
Pt (1 − Pt )
V vt ≡ σt2 = (2.3.24)
nt f 2 [F −1 (Pt )]

y debido a que wt es O n−1 t y por tanto puede ser ignorado para nt grandes
(como mostraremos más adelante), 2.3.23 define aproximadamente un modelo de
regresión lineal heterocedástico. El estimador M IN χ2 denotado βe se define como el
estimador Mı́nimo Cuadrado Ponderado (MCP) aplicado a 2.3.23 ignorando wt . Se
puede estimar σt2 por σ bt2 el cual se obtuvo sustituyendo Pbt por Pt en 2.3.24. Ası́
!−1
T
X T
X
βe = bt−2 xt xpt
σ bt−2 xt F −1 Pbt
σ (2.3.25)
t=1 t=1
se probará la consistencia y normalidad asintótica de βe (cuando n tiende a infinito

con T fijo) bajo supuestos 2.3.1, 2.3.3 y el siguiente supuesto adicional:
Supuesto 2.3.4. lı́mn→∞ (nt /n) = ct 6= 0 para t = 1, 2, . . . , T donde T es un entero

fijo.
Se asume el supuesto 2.3.4 para simplificar el análisis. Sin embargo, si ct = 0

para algún t se puede proceder como si las observaciones para ese t no existieran e
imponer los supuestos 2.3.3 y 2.3.4 en las observaciones restantes.
Insertando la ecuación (2.3.23) en la (2.3.25) y reorganizando términos, se obtiene
!−1
√ T
1 X −2 1 X −2
T
n βe − β0 = σ
b xt xpt √ σ
b xt (vt + wt ) (2.3.26)
n t=1 t n t=1 t
Como T es fijo, se tiene por Teorema (15) que
T T
1 X −2 X
plimn→∞ σ
bt xt xpt = σ −2
t xt xt
p
(2.3.27)
n t=1 t=1
donde
2 [F −1 (Pt )]
σ −2
t = ct f
[Pt (1 − Pt )]
También, al aplicar el Teorema (16) se obtiene

T T
1 X −2 X 1 −1
√ σ
bt xt (vt + wt ) = √ σ bt−1 σbt σt xt
n t=1 t=1
n

× σt−1 vt + σt−1 wt
T
X
LD
≡ σ −1 −1
t xt σt vt (2.3.28)
t=1
debido a que
plim n−1/2 σt−1 = σ −1

t
bt−1 σt = 1 y
plim σ
plim σt−1 wt = 0 (2.3.29)

Pero, debido a que {vt } son independientes, el vector σ1−1 v1 , σ2−1 v2 , . . . , σT−1 vT
converge a N (0, IT ). Por tanto
T T
!
X X
σ −1 −1
t xt σt vt → N 0, σ −2
t xt xt
p
(2.3.30)
t=1 t=1
Finalmente, de (2.3.26) hasta (2.3.30) y Teorema (16) se tiene que

 !−1 
√ T
X
n βe − β0 → N 0, σ −2
t xt xt
p  (2.3.31)
t=1
Puesto que A definido en 2.3.9 es también

T
X
A= σ −2
t xt xt
p
t=1
bajo el supuesto 2.3.4, y las ecuaciones (2.3.11) y (2.3.31) muestran que el

estimador M IN χ2 tiene la misma distribución asintótica que el Estimador de
Máxima Verosimilitud. El estimador M IN χ2 es más fácil de calcular que el
Estimador de Máxima Verosimilitud por que el primero es explı́citamente definido
en ecuación (2.3.25), mientras que el último requiere iteración. Sin embargo, el
método M IN χ2 requiere un gran número de observaciones en cada celda. Si
el modelo contiene varias variables independientes, esto puede ser imposible de
obtener. En la siguiente subsección se compararán los dos estimadores en más detalle.
En el modelo Probit,
F −1 b
Pt = Φ−1 b
Pt .
Aunque Φ−1 no tiene una forma explı́cita puede ser fácilmente evaluada numérica-
mente. La función Φ−1 (.) se conoce como la transformación Probit.
En el modelo Logit, se puede escribir explı́citamente

 
Pbt
Λ−1 Pbt = log   (2.3.32)
1 − Pbt
la cual es llamada transformación Logit o Logaritmo de las razones impares.
Cox9 mencionó la siguiente modificación de 2.3.32:

 h i 
 Pbt + (2nt )−1 
Λ−1
c Pbt = log h i . (2.3.33)
 1 − Pb + (2n )−1 
t t
Esta modificación tiene dos ventajas sobre la 2.3.32:

1. La transformación de la Ecuación (2.3.33) puede siempre estar definida
mientras 2.3.32 puede no estar definida si Pbt = 0 o 1 (Sin embargo, no es
recomendable usar la modificación de Cox cuando nt es pequeña)
2. Se puede mostrar que
EΛ−1
c Pbt − Λ−1 (Pt )
es del orden de n−2

t , mientras que

EΛ−1 Pbt − Λ−1 (Pt )
es del orden de n−1

t
Ası́ se ha probado la consistencia y la normalidad asintótica del estimador M IN χ2

de Berkson asumiendo que xi = xt para i ∈ IT . Sin embargo, en la práctica puede
ocurrir que un investigador procede como si xi = xt para i ∈ IT aún si xi 6= xt por
que las observaciones individuales xi no están disponibles y sólo esta disponible su
media grupal X
xt ≡ n−1
t xi .
i∈It
2
En este caso, el estimador M IN χ es generalmente inconsistente.
9
Cox, 1970 pag.33
2.3.4. Comparación entre el Estimador de Máxima Verosi-

militud y el Estimador Chi-cuadrado Mı́nimo
En un modelo simple donde el vector xt consiste de 1 y de una variable
independiente sencilla y donde T es pequeño, la media exacta y la varianza del
Estimador de Máxima Verosimilitud y el estimador M IN χ2 pueden calcularse por
medio de un método directo. Berkson 1955, 1957 lo hizo ası́ para el modelo Logit
y Probit respectivamente y encontró que el Error Cuadrado Medio exacto para el
estimador M IN χ2 era más pequeño que todos los ejemplos considerados.
Amemiya10 obtuvo la fórmula para el sesgo del orden de n−1 y el Error Cuadrado
Medio del orden de n−2 de MLE y de M IN χ2 en el modelo general Logit. El método
que empleó en su estudio fué: Usando la Ecuación (2.3.13) y el esquema de muestreo
descrito en la sección anterior, la ecuación normal 2.3.2 se reduce a
T
X h i
nt Pbt − Λ xpt β xt = 0 (2.3.34)
t=1
La ecuación anterior se refiere a la definición del Estimador de Máxima

Verosimilitud βb implı́citamente como una función de Pb1 , Pb2 , . . . , PbT , algo como

b b b b
β = g P1 , P2 , . . . , PT .
Expandiendo g en una serie de Taylor alrededor de P1 , P2 , . . . , PT y notando que
g(P1 , P2 , . . . , PT ) = β0
se obtiene
X 1 XX
βb − β0 ∼
= gt ut +gts ut us
t
2 t s
1 XXX
+ g ut us ur , (2.3.35)
6 t s r tsr
donde
ut = Pbt − Pt
y gt , gts y gtsr representan las derivadas parciales de primer, segundo y tercer orden
de g evaluadas en (P1 , P2 , . . . , PT ), respectivamente. El sesgo del Estimador de
Máxima Verosimilitud al orden de n−1 se obtiene tomando la esperanza de los dos
primeros términos del lado derecho de la Ecuación (2.3.35). El Error Cuadrado
Medio del Estimador de Máxima Verosimilitud al orden de n−2 se obtiene calculando
10
Amemiya, 1980b
2.4 Prueba de Hipótesis 45
el Error Cuadrado Medio del lado derecho de la ecuación anterior, ignorando los
términos de orden menor a n−2 . No es necesario considerar términos más altos en la
expansión de Taylor porque el Eukt para k ≥ 5 es a lo más del orden de n−3 t . Una
expansión de Taylor para el estimador M IN χ2 βe se obtiene expandiendo el lado
derecho de la Ecuación 2.3.25 alrededor de Pt .
Usando estas fórmulas, Amemiya calculó los Errores Cuadrados Medios aproxi-
mados del Estimador de Máxima Verosimilitud y el estimador M IN χ2 en algunos
ejemplos tanto artificiales como empı́ricos y encontró que el estimador M IN χ2 tiene
un Error Cuadrado Medio más pequeño que el Estimador de Máxima Verosimilitud
en todos los ejemplos considerados. Sin embargo, la diferencia entre las dos matrices
del Error Cuadrado Medio pueden no ser ni definida positiva ni definida negativa
(Ghosh y Sinha, 1981). De hecho Davis 1984 mostró ejemplos en los cuales el Es-
timador de Máxima Verosimilitud tiene un Error Cuadrado Medio menor de n−2 y
ofreció un argumento intuitivo que mostró que para un T grande, es más probable
que el Estimador de Máxima Verosimilitud tenga un error cuadrático medio más
pequeño.
Smith, Savin y Robertson (1984) realizaron un estudio Monte Carlo del Modelo Logit
con una variable independiente y encontraron que aunque en estimación puntual el
M IN χ2 era mejor que el Estimador de Máxima Verosimilitud, como en los estudios
de Berkson y Amemiya, la convergencia de la distribución del estimador M IN χ2 a
una distribución normal era algunas veces relativamente lenta, siendo poco satisfac-
toria en una instancia como n = 480.
2.4. Prueba de Hipótesis

Para probar una hipótesis en un único parámetro, se puede realizar una prueba
normal estándar usando la normalidad asintótica bien sea del Estimador de Máxima
Verosimilitud o M IN χ2 . Una hipótesis lineal puede probarse usando métodos
generales. El problema de escoger un modelo entre varias alternativas puede ser
resuelto bien sea por el Criterio de Información de Akaike (AIC) o por la prueba de
Cox de hipótesis no anidadas.
Aquı́ se tratará sólo una prueba chi-cuadrado basada en el estimador M IN χ2 de

Berkson debido a que esto no es un caso especial de las pruebas discutidas. La prueba
estadı́stica es la Weighted Sum of Squared Residuals (WSSR)11 de la ecuación 2.3.23
11
Suma Ponderada de los Cuadrados Residuales (SPCR)
2.4 Prueba de Hipótesis 46
definida por
T
X h i2
b pe
W SSR = bt−2
σ F −1
Pt − xt β (2.4.1)
i=1
En el modelo de regresión normal heterocedástico y ∼ N (Xβ, D) con D conocido,

p
y − XβbG D−1 y − XβbG
se distribuye como χ2T −K . De esto se puede deducir que WSSR como se define
anteriormente es asintóticamente distribuido como χ2T −K .
Se usa este hecho para escoger entre el modelo no restringido

Pt = F xpt β0
y el modelo restringido
Pt = F xp1t β10
donde x1t y β10 son los primeros K − q elementos de xt y β0 respectivamente. Sean
W SSRu y W SSRc los valores de la Ecuación 2.4.1 derivados de los modelos no
restringido y restringido, respectivamente. Se deberı́a escoger el modelo no restringido
si y sólo si
W SSRc − W SSRu > χ2q,α (2.4.2)
donde χ2q,α denota el valor crı́tico α % de χ2q .
Para escoger entre modelos no anidados, se puede usar la siguiente variación del
Criterio de Información de Akaike:
1
AIC = W SSR + K (2.4.3)
2
Esto puede justificarse sobre la base que en el modelo de regresión normal
heterocedástico mencionado antes,
p
y − XβbG D−1 y − XβbG = −2 log L
aparte de un término constante.

En lugar de 2.4.1 se puede usar
T
X h i−1 h i2
nt Pbt 1 − Pbt Pbt − F xpt βe , (2.4.4)
t=1
puesto que esta es asintóticamente equivalente a 2.4.1.

2.5 Análisis Discriminante 47
2.5. Análisis Discriminante

El propósito del Análisis discriminante es medir las caracterı́sticas de un
individuo o de un objeto y con base en las medidas, clasificarlo en uno de dos
posibles grupos.
Es posible enunciar el problema estadı́sticamente como sigue: Supóngase que el

vector de variables aleatorias x∗ se genera de acuerdo a alguna densidad g1 o g0 , se
va a clasificar una observación dada en x∗ , denotada x∗i , en el grupo caracterizado
por g1 o g2 . Es útil definir yi = 1 si x∗ se genera por g1 y yi = 0 si es generado
por g0 . Se debe predecir yi basados en x∗ . La información esencial necesaria para la
predicción es la probabilidad condicional P (yi = 1|x∗i ).
Se ignorará el problema de la predicción dada la probabilidad condicional y se

encamina la pregunta de cómo especificar y estimar la probabilidad condicional.
Por Teorema de Bayes se tiene

g1 (x∗1 ) q1
P (yi = 1|x∗i ) = (2.5.1)
g1 (x∗1 ) q1 + g0 (x∗i ) q0
donde q1 y q0 denotan las probabilidades marginales P (yi = 1) y P (yi = 0)
respectivamente. Se evaluará la ecuación anterior, asumiendo que g1 y g0 son las
densidades de N (µ1 , Σ1 ) y N (µ0 , Σ0 ), respectivamente. Este supuesto se enuncia
formalmente como
x∗i | (yi = 1) ∼ N (µ1 , Σ1 )
x∗i | (yi = 0) ∼ N (µ0 , Σ0 ) (2.5.2)
Esta es la forma más comúnmente usada de Análisis Discriminante, también llamado
Análisis Discriminante Normal.
Bajo la Ecuación (2.5.2), el modelo (2.5.1) se reduce al siguiente modelo Logit

Cuadrático:
P (yi = 1|x∗i ) = Λ β(1) + β(2)
p
x∗i + x∗p
i Ax∗
i , (2.5.3)
donde
1 p −1 1
β(1) = µ0 Σ0 µ0 − µp1 Σ−1
1 µ1 + log q1 − log q0 (2.5.4)
2 2
1 1
− log |Σ1 | + log |Σ0 |
2 2
β(2) = Σ−1 −1
1 µ1 − Σ0 µ0 (2.5.5)
y
1 −1
A=Σ0 − Σ−1 1 (2.5.6)
2
En el caso especial Σ‘1 = Σ0 el cual se asume frecuentemente en aplicaciones
econométricas, se tiene A = 0; por tanto, la Ecuación 2.5.3 se reduce al Modelo
Logit Lineal:
P (yi = 1|x∗i ) = Λ xpi β (2.5.7)
donde
β(1) + β(2)
p
x∗i = xpi β
de acuerdo la notación de la sección 2.2
Se considera la estimación Máxima Verosimilitud los parámetros µ1 , µ0 , Σ1 , Σ0 , q1

y q0 basados en las observaciones (yi , x∗i ), i = 1, 2, . . . , n. La determinación de q1 y q0
varı́a de acuerdo a los autores. Se ha adoptado aquı́ el enfoque de Warner (1963) y
se trata a q1 y q0 como parámetros desconocidos a estimar. La función verosimilitud
puede escribirse como
n
Y
L= [g1 (x∗i ) q1 ]yi [g0 (x∗i ) q0 ]1−yi (2.5.8)
i=1
Igualando las derivadas de log L a 0 produce los siguientes estimadores Máxima

Verosimilitud:
1.
n1
qb1 = , (2.5.9)
n
Pn
donde n1 = i=1 yi
2.
n0
qb0p = , (2.5.10)
n
donde n0 = n − n1
3. n
1 X
µ
b1 = yi x∗i (2.5.11)
n1 i=1
4. n
1 X
µ
b0 = (1 − yi ) x∗i (2.5.12)
n0 i=1
5. n
X
b1 = 1
Σ yi (x∗i − µ
b1 ) (x∗i − µ
bi )p (2.5.13)
n1 i=1
y
6. n
b 1 X
Σ0 = (1 − yi ) (x∗i − µ
b0 ) (x∗i − µ
b0 )p (2.5.14)
n0 i=1
Si Σ1 = Σ0 (≡ Σ) como se asume frecuentemente, las Ecuaciones 2.5.13 y 2.5.14

deberı́an reemplazarse por
" n
1 X
Σb = yi (x∗i − µ
b1 ) (x∗i − µ
bi )p
n i=1
n
#
X
+ (1 − yi ) (x∗i − µ
b0 ) (x∗i − µ
b0 )p
(2.5.15)
i=1
Los estimadores Máxima Verosimilitud de β(1) , β(2) y A se obtienen insertando estos

estimados al lado derecho de las Ecuaciones 2.5.4, 2.5.5 y 2.5.6.
El análisis Discriminante es frecuentemente usado en análisis de elección de
modos de transporte.
Al modelo definido por la Ecuación 2.5.2 con Σ1 = Σ0 y por la Ecuación

2.5.7, se
p
le llama Modelo de Análisis Discriminante (MAD) y al estimado de β ≡ β(1) , β(2)
p
obtenido insertando las Ecuaciones 2.5.11, 2.5.12 y 2.5.15 en Ecuaciones 2.5.4

y 2.5.5 con Σ1 = Σ0 se le conoce como el estimador AD, denotado por βDA p
.
De otro lado si se asume sólo la Ecuación 2.5.7 y no la Ecuación 2.5.2, se tiene
un modelo Logit. Se denota el Estimador de Máxima Verosimilitud Logit de β por βbΛ .
El rendimiento relativo de los dos estimadores dependerá crı́ticamente de la

distribución real asumida para x∗i . Si se asume Ecuación 2.5.2 con Σ1 = Σ0 además
de la Ecuación 2.5.7, el estimador de DA es el Estimador de Máxima Verosimilitud
genuino y por tanto deberı́a ser asintóticamente más eficiente que el Estimador
de Máxima Verosimilitud Logit. Sin embargo, si no se asume la Ecuación 2.5.2, el
estimador Análisis Discriminante (DA) pierde su consistencia en general, mientras
el Estimador de Máxima Verosimilitud Logit la mantiene. Ası́ se esperarı́a que el
Estimador de Máxima Verosimilitud Logit sea más robusto.
2.6 Predicción Agregada 50
2.6. Predicción Agregada

Se considera
P ahora el problema de predecir la proporción agregada
r ≡ n−1 ni=1 yi en el Modelo de Elección Discreta (2.2.1). Esto es un proble-
ma frecuente de importancia práctica para los hacedores de polı́ticas. Por ejemplo
en el problema de elección de transporte, serı́a deseable saber la proporción
de gente que, en una comunidad, usen el tránsito cuando se aplica una nueva
tarifa y los otros valores de las variables independientes x prevalecen. Se asu-
me que β (sin el subı́ndice 0) se ha estimado del anterior muestreo. Sin embargo,
para simplificar el análisis se asumirá que el valor estimado de β es igual al valor real.
La predicción de r deberı́a hacerse basándose en la distribución condicional de r

dado {xi }. Cuando n es grande, se presenta la siguiente distribución asintótica:
" n n
#
A
X X
r ∼ N n−1 Fi , n−2 Fi (1 − Fi ) (2.6.1)
i=1 i=1
Una vez se calcula la media y la varianza asintótica se tiene toda la información

necesaria para predecir r.
Si se observa cada xi , i = 1, 2, . . . , n, se puede calcular adecuadamente la
media y la varianza de la Ecuación (2.6.1). Sin embargo, puesto que es más
real asumir que no se puede observar cada xi se considerará el problema de
cómo estimar la media y la varianza para la distribución (2.6.1) en esa situación.
Para ese propósito se asumirá que {xi } son variables aleatorias independientes
e idénticamente distribuidas con la misma función de distribución k-variada
G. Entonces la media y la varianza asintótica de r puede estimarse por EF (xpβ)
y n−1 EF (1 − F ) respectivamente, donde E es la esperanza tomada con respecto a G.
Westin (1974) estudió la evaluación de EF cuando F = Λ (distribución logı́stica)

y x ∼ N (µx , Σx ). El notó que la densidad de

p ≡ Λ xpβ
está dada por

( 2 )
1 1 1 p
f (p) = √ exp − 2 log −µ , (2.6.2)
2πσ p(1 − p) 2σ 1−p
donde
µ = µpx β
y
σ 2 = β pΣx β
2.6 Predicción Agregada 51
Puesto que la media de esta densidad no tiene una expresión de forma cerrada,
se debe evaluar Z
pf (p) dp
numéricamente para valores de µ y σ 2 -
McFadden y Reid 1975 mostraron que si F = Φ (distribución normal estándar)

y x ∼ N (µx , Σx ) como antes, se tiene
h −1/2 i
EΦ xpβ = Φ 1 + σ 2 µ (2.6.3)
Ası́ la evaluación de EF es mucho más sencilla que en el caso Logit.
Westin y McFadden no consideraron la evaluación de la varianza asintótica de

r, la cual constituye una importante pieza de información para el propósito de
predicción.
Otra deficiencia de estos estudios es que la variabilidad debida a la variación de

β se ignora totalmente. Se sugiere un modo parcialmente bayesiano de tratar este
problema. Dado un b
β estimado
de β se trata β como una variable aleatoria con
la distribución N β,b Σβ . Un estimado de la matriz de covarianza asintótica del
estimador βb puede usarse para Σβ .
Se hace referencia al modelo (2.6.1) como la distribución asintótica de r

condicionalmente en {xi } y β. La distribución de r condicional en {xi } pero no
en β, por lo tanto, está dado por
" n n n
#
A
X X X
r ∼ N Eβ n−1 Fi , Eβ n−2 Fi (1 − Fi ) + Vβ n−1 Fi (2.6.4)
i=1 i=1 i=1
Finalmente, si todas las observaciones en {xi } no están disponibles y {xi } pueden

referirse como variables aleatorias independientes e idénticamente distribuidas, se
puede aproximar la distribución (2.6.4) por
A
r ∼ N Ex Eβ F, n−1 Ex Eβ F (1 − F ) + Ex Vβ F (2.6.5)
.
Capı́tulo 3
Modelos de Respuesta Múltiple
3.1. Inferencia Estadı́stica

Asumiendo que la variable dependiente yi toma mi + 1 valores 0, 1, . . . , mi , un
modelo de elección múltiple multinomial general se define como:
P (yi = j) = Fij (x∗ , θ), i = 1, 2, . . . , n y (3.1.1)

j = 1, 2, . . . , mi ,
donde x∗ y θ son vectores de variables y parámetros independientes, respectiva-

mente. La ecuación anterior se podrı́a escribir eventualmente como Pij = Fij . Existe
también la posibilidad que no todas las variables y parámetros independientes estén
incluidas en el argumento de cada Fij . Nótese que P (Yi = 0) (≡ Fi0 ) no necesita
especificarse porque debe ser igual a uno menos la suma de las mi probabilidades
definidas en 3.1.1.
Es importante hacer que mi dependa de i porque en muchas aplicaciones los

individuos enfrentan diferentes conjuntos de elección. Por ejemplo, en análisis de
selección del modo de transporte, viajar por metro no se incluye en el conjunto de
elecciones de quienes viven fueran de su área de servicio.
Para definirPel Estimador de Máxima Verosimilitud de θ en el modelo 3.1.1

es útil definir ni=1 (mi + 1) variables binarias.
yij = 1 si yi = j (3.1.2)
yij = 0 si yi 6= j, i = 1, 2, . . . , n y
j = 0, 1, . . . , mi ,
3.1 Inferencia Estadı́stica 53
Luego se puede escribir la función Log verosimilitud como

mi
n X
X
log L = yij log Fij , (3.1.3)
i=1 j=0
lo cual es una generalización natural de

n
X n
X

log L = yi log F xpi β + (1 − yi ) log 1 − F xpi β (3.1.4)
i=1 i=1
El Estimador de Máxima Verosimilitud θ̂ de θ se define como una solución de la

ecuación normal
∂ log L
=0
∂θ
Muchos de los resultados sobre el Estimador de Máxima Verosimilitud en el caso
binario se mantienen aún para el modelo 3.1.1. Un conjunto razonable de condiciones
suficientes para su consistencia y normalidad asintótica se pueden encontrar usando
los teoremas definidos en la sección inicial de Fundamentos como se hizo para el caso
binario. También se puede mostrar la equivalencia del método de scoring y la iteración
Mı́nimos Cuadrados Ponderados No Lineal (NLWLS)1 (N LGLS para ser exacto).
Pero aquı́ se demostrarán éstos conceptos bajo un modelo un poco menos general
que 3.1.1. Asumiendo
′ ′ ′
P (yi = j) = Fj (xi1 β1 , xi2 β2 , . . . , xiH βH ), (3.1.5)
i = 1, 2, . . . , n y j = 1, 2, . . . , m,
donde H es un entero fijo. En la mayorı́a de los ejemplos especı́ficos del Modelo
Multinomial se tiene H = m pero aquı́ no es necesario. Note que se ha asumido
ahora que m no depende de i para simplificar el análisis.
Al replantear los supuestos 2.3.1, 2.3.2 y 2.3.3 con las siguientes modificaciones
obvias se obtienen los siguientes supuestos:
Supuesto 3.1.1. Fij tiene derivadas parciales
∂Fij
fijk ≡ ′

∂ xik βk
y derivadas parciales de segundo orden
∂fijk
fijkl ≡ ′

∂ xil βl
para cada i, j, k, l y 0 < Fij < 1 y fijk > 0 para cada i,j y k.
1
Nonlinear Weighted Least Squares, Walker y Duncan, 1967
Supuesto 3.1.2. El espacio de parámetros B es un subconjunto acotado abierto de

un espacio Euclideano.
Supuesto 3.1.3. {xih } son uniformemente acotados en i para cada h y

n
X
−1 ′
lim n xih xih
n→∞
i=1
es una matriz finita no singular para cada h. Además la función empı́rica de

distribución de {xih } converge a una función de distribución.
Bajo estos supuestos el Estimador de Máxima Verosimilitud β̂ de

´
β = β´1 , β´2 , ..., β´H
puede mostrarse consistente y asintóticamente normal. Para derivar la matriz

asintótica de covarianza, se empieza ası́:
Derivando 3.1.3 con respecto a βk , se obtiene:
n m
∂ log L X X
= yij Fij−1 fijk xik (3.1.6)
∂βk i=1 j=0
Derivando 3.1.6 con respecto a β´l se tiene que :
XX n m XX n m
∂ 2 log L ′ ′
′ = − yij Fij−2 fijk fijl xik xil + yij Fij−1 fijkl xik xil (3.1.7)
∂βk ∂βl i=1 j=0 i=1 j=0
Al tomar la esperanza y notando

m
X
fijkl = 0,
j=0
se obtiene que
n m
∂ 2 log L X X −1 k l ′
−E ′ = Fij fij fij xik xil ≡ Akl (3.1.8)
∂βk ∂βl i=1 j=0
Definiendo A = {Akl }. Entonces se puede mostrar bajo los supuestos 3.1.1, 3.1.2
y 3.1.2 que
√
n β̂ − β → N 0, lim nA−1 (3.1.9)
n→∞
Para mostrar las equivalencias entre el método de scoring y el de iteración NLWLS

(Minimos Cuadrados Ponderados No Lineal)2 , es conveniente reescribir (3.1.6) y
(3.1.8) usando la siguiente notación vectorial:
′
yi = (yi1 , yi2 , . . . , yim ) (3.1.10)
′
Fi = (Fi1 , Fi2 , . . . , Fim )
′
fki = fi1k , fi2k , . . . , fim
k
′ ′
Λi = E (yi − Fi ) (yi − Fi ) = D(Fi ) − Fi Fi
donde D (Fi ) es la matriz diagonal de la cual el j-ésimo elemento diagonal es Fij .

Entonces, usando las identidades
m
X
Fij = 1
j=0
y
m
X
fijk = 0
j=0
y notando:
′
Λ−1
i = D
−1
(Fi ) + Fi0−1 II (3.1.11)
donde I es un m-vector de unos, se obtiene de (3.1.6) y (3.1.8)
n
∂ log L X ′
= xik fki Λ−1
i (yi − Fi ) (3.1.12)
∂βk i=1
y
n
∂ 2 log L X ′
−E ′ = xik fki Λ−1 l ′
i fi xil (3.1.13)
∂βk ∂βl i=1
k
Suponga que β̄ es el estimador inicial de β, sean F̄i , f̄i y Λ̄i , respectivamente, Fi ,
fki , y Λi evaluados en β̄ y definiendo
n
X k′ −1 l ′
Ākl = xik f̄i Λ̄i f̄i xil (3.1.14)
i=1
y
2
(Ver Amemiya, 1976b)
n
X H
X n
X
k′ −1 h ′ k′ −1
c̄k = xik f̄i Λ̄i f̄i xih β̄h + xik f̄i Λ̄i yi − F̄i (3.1.15)
i=1 h=1 i=1
Entonces el estimador de segunda pasada β obtenido por la iteración de método

de scoring iniciado desde β̂ está dado por
−1
β = Ā c̄, (3.1.16)
donde
Ā = Ākl
y
′ ′ ′
′
c̄ = c̄1 , c̄2 , . . . , c̄m .
Es posible interpretar (3.1.16) como una iteración NLGLS. De (3.1.5) se obtiene:
yi = Fi + ui , i = 1, 2, . . . , n (3.1.17)
′ ′
donde Eui = 0, Eui ui = Λi , y Eui uj = 0 para i 6= j. Expandiendo Fi en series
′
de Taylor alrededor de xih β̄h , h = 1, 2, . . . , H, se obtiene
H
X H
X
h ′ ∼ h ′
yi − F̄i + f̄i xih β̄h = f̄i xih β̄h + ui , i = 1, 2, . . . , n (3.1.18)
h=1 h=1
La aproximación 3.1.18 puede referirse como un modelo de regresión lineal de

mn observaciones con una matriz de covarianza no escalar. Si se estima Λi por Λ̄i y
aplicando Estimador Mı́nimos Cuadrados Factibles Generalizados (FGLS) a 3.1.18,
el estimador resultante es precisamente 3.1.16.
Luego, se deriva el estimador MIN χ2 de β en el modelo 3.1.5, siguiendo a

Amemiya (1976b). Ahora, en la sección 2.3.3, se asume que hay muchas observaciones
con el mismo valor de variables independientes y asumiendo que el vector de variables
independientes toma T valores distintos, la ecuación 3.1.5 se puede escribir como:
′ ′ ′

Ptj = Fj xt1 β1 , xt2 β2 , . . . , xtH βH , (3.1.19)
t = 1, 2, . . . , T y j = 1, 2, . . . , m
Para definir el estimador MIN χ2 de β, se debe poder invertir m ecuaciones en

′ ′ ′
3.1.19 para cada t y resolverlas para H variables xt1 β1 , xt2 β2 , ..., xtH βH . Asumiendo
por el momento que H = m.
Si además, se asume que el Jacobiano no desaparece, se obtiene

′
xtk βk = Gk (Pt1 , Pt2 , . . . , Ptm ) , (3.1.20)
t = 1, 2, . . . , T y k = 1, 2, . . . , m
Como en la sección 2.3.3, se define

X
rtj = yij ,
i∈It
donde It es el conjunto de i para el cual
xih = xth
para todo h, y
rtj
P̂tj = ,
nt
donde nt es el número de enteros en It . Expandiendo

Gk P̂t1 , P̂t2 , ..., P̂tm
en series de Taylor alrededor de
(Pt1 , Pt2 , ..., Ptm )
y usando 3.1.20, se obtiene

m
X
Gk P̂t1 , P̂t2 , . . . , P̂tm ∼ j
′
= xtk βk + gtk P̂tj − Ftj , (3.1.21)
j=1
t = 1, 2, . . . , T y k = 1, 2, . . . , m
donde
j ∂Gk
gtk = .
∂Ptj
La ecuación 3.1.21 es una generalización de 2.3.22, pero acá se escribe como una
ecuación aproximada, ignorando un término de error que corresponde a wt en 2.3.22.
La ecuación 3.1.21 es una ecuación de regresión lineal aproximada con una matriz
de covarianza no escalar que depende de

Λt ≡ E P̂t − Ft P̂t − Ft ´= n−1 t [D (Ft ) − Ft F´t ] ,
donde
P̂t = P̂t1 , P̂t2 , ..., P̂tm ´
y
Ft = (Ft1 , Ft2 , ..., Ftm )´.
El estimador MIN χ2 β̃ de β se define como Estimador Mı́nimos Cuadrados
Factibles Generalizados (FGLS) aplicado a 3.1.21, usando
h i
Λ̂t = n−1
t D P̂t − P̂t P̂t́
como un estimador de Λt .
La consistencia y normalidad asintóticamente de β̃ puede probarse usando un

método similar al empleado en el 2.3.22. Sea Ω−1 la matriz de covarianza asintótica
de β̃, esto es,
√
n β̃ − β → N 0, limn→∞ nΩ−1 .
Entonces se puede deducir de 3.1.21 que el k, l-ésimo sub-bloque de Ω está dado por
X n ′ o−1 ′
Ωkl = xtk Gt Λt Gt xtl , (3.1.22)
kl
t
′
donde Gt es una matriz m × m cuya k-ésima fila es igual a
1 2 m

gtk , gtk , ..., gtk
y {}−1
kl denota el k,l-ésimo elemento de la inversa de la matriz dentro de {}.
Ahora, se obtiene de la ecuación 3.1.13 que:

X n ′ o ′
Akl = xtk Ft Λ−1
t F t xtl , (3.1.23)
kl
t
′
donde Ft es una matriz m × m cuya k-ésima fila es igual a
1 2 m

ftk , ftk , ..., ftk .
Ası́ la equivalencia asintótica del estimador MIN χ2 y el Estimador de Máxima

Verosimilitud se sigue de la identidad
′
G−1
t = Ft
En el desarrollo anterior se asumió H = m.
Asumiendo H < m, se puede invertir la ecuación 3.1.19 y obtener

′
xtk βk = Gk (Pt1 , Pt2 , . . . , Ptm ) , (3.1.24)
t = 1, 2, . . . , T y k = 1, 2, . . . , H,
Pero la selección de la función Gk no es única. Amemiya (1976b) mostró que

el estimador MIN χ2 es asintóticamente eficiente sólo cuando se escoge la función
Gk correcta dentro de las muchas posibles. Este hecho disminuye la utilidad del
método. Para este caso Amemiya (1977c) propuso el siguiente método, el cual
siempre conduce a un estimador asintóticamente eficiente:
Paso 1: Se usa alguna Gk en (3.1.24) y defina

µ̂tk = Gk P̂t1 , P̂t2 ..., P̂tm
h
Paso 2: En (3.1.18) se reemplaza Fi y fi por Fi y fhi evaluado en µ̂tk y se
′
reemplaza xih β̄h por µ̂tk
Paso 3: Se aplica FGLS en (3.1.18) usando Λi evaluado en µ̂tk .
Se concluye esta subsección generalizando la Suma Ponderada de Residuos

Cuadrados3 definido por los modelos 2.4.1 y 2.4.4 al caso multinomial.
No se escribirá el análogo de 2.4.1 explı́citamente porque requerirı́a una

complicada notación aunque la idea es sencilla. A cambio, se afirmará que es de
la forma X̂−1
y − Xβ̂G ´ y − Xβ̂G
obtenido de la ecuación de regresión 3.1.21.
Esta se distribuye asintóticamente chi-cuadrado con grados de libertad igual a

mT menos el número de parámetros de regresión.

Ahora, considerando la generalización de 2.4.4. Se define el vector F̃t = Ft β̃ .
Entonces, el análogo de 2.4.4 es
3
Weighted Sum of Squared Residuals (WSSR)
3.2 Análisis Discriminante Multinomial (DA) 60
T
X ′
−1
W SSR = P̂t − F̃t Λ̂t P̂t − F̃t (3.1.25)
t=1
XT ′ h ′
i
= nt P̂t − F̃t D(P̂t )−1 + P̂t0−1 II P̂t − F̃t
t=1
T
X m
X (P̂tj − F̃tj )2
= nt
t=1 j=0 P̂tj
Este es asintóticamente equivalente al análogo de 2.4.1.
3.2. Análisis Discriminante Multinomial (DA)

El modelo del análisis discriminante analizado en la sección 2.5 sobre Modelos
de Elección Binaria se puede generalizar para producir análisis discriminante
multinomial definido por

x∗i (yi = j) ∼ N (µj , Σj ) (3.2.1)
y
P (yi = j) = qj (3.2.2)
para i = 1, 2, · · · , n y j = 0, 1, · · · , m. Mediante la Regla de Bayes se obtiene
gj (x∗i )qj
P (yi = j|x∗i ) = m (3.2.3)
X
gk (x∗i )qk
k=0
donde gj es la función de densidad de N (µj , Σj ). Tal como se obtuvo el modelo

(2.5.3) del modelo (2.5.1) se puede obtener de (3.2.3)
P (yi = j|x∗i ) ′
= Λ(β j(1) + β ′j(2) x∗i + x∗i Ax∗i ) (3.2.4)
P (yi = 0|xi )
∗
donde β j(1) , β j(2) , y A son similares a (2.5.3), (2.5.4) y (2.5.5) excepto que los
subı́ndices 1 y 0 se deben cambiar a j y 0 respectivamente.
′
De igual manera, el término x∗i Ax∗i desaparece si todos los Σ’s son idénticos. Si
se escribe
β j(1) + β ′j(2) x∗i = β ′j xi ,
3.3 Principales Modelos de Respuesta Múltiple 61
el modelo Análisis Discriminante con varianzas idénticas se puede escribir exacta-

mente en la forma de 3.3.25, excepto por una modificación de los subı́ndices de β y
x 4.
3.3. Principales Modelos de Respuesta Múltiple

3.3.1. Introducción
Los modelos de elección dicotómica o binaria se pueden generalizar para el caso
de más de dos opciones, dando origen a los Modelos de Respuesta Múltiple,
donde se generaliza el proceso de elección de tal forma que el agente económico se
enfrenta a varias alternativas posibles.
Estas alternativas se pueden presentar de forma ordenada, no ordenada o
secuencial, dando origen a un tratamiento especı́fico de la variable endógena del
modelo y, por consiguiente, a diferentes tipos de modelación. Surgen ası́ los modelos
denominados
Modelos de Respuesta Ordenada Surgen cuando las decisiones de los
individuos pueden ordenarse.
Modelos de Respuesta No Ordenada.
Es el modelo donde el proceso de elección no implica ninguna ordenación. Entre
los modelos de Respuesta no Ordenada se destacan:
• Modelo Logit Multinomial o Modelo Logit Simple(MNL)

• Modelo Probit Multinomial (MNP)
• Modelo Multinomial Logit Jerárquico o Anidado (NL)
Los Modelos de Respuesta Múltiple, analizan la elección que un individuo realiza

en función de un conjunto de variables explicativas o regresores. Éstas pueden ser de
dos tipos:
Las que se refieren a las Caracterı́sticas Propias del Individuo, por
ejemplo: la edad, nivel de renta, distancia al puesto de trabajo, etc., y
Las que se refieren a los Aspectos Especı́ficos de cada Alternativa
concreta, por ejemplo: tiempo empleado en el trayecto según se vaya a
pie, en automóvil o en autobús, costo monetario del medio al realizar el
desplazamiento, el precio de la leche según la marca elegida, el precio del bien
o servicio según la elección realizada.
4
Los ejemplos de los modelos multinomiales se encuentran en los artı́culos de Powers y
otros(1978) y Uhler(1968), los cuales se resumen por Amemiya(1981)
La variable dependiente o regresando se suele construir asignando el valor 0 a

la primera alternativa, 1 a la segunda, y ası́ sucesivamente, hasta el número de
alternativas o categorı́as menos uno. Ası́, en el caso del problema de decidir cómo ir
a trabajar, se asigna el valor 0 a la opción ir a pie, 1 a la opción ir en automóvil y 2
a la alternativa ir en autobús, siendo en total tres las alternativas entre las que el
agente debe decidir.
El enfoque teórico de este tipo de modelos se fundamenta en la teorı́a de la

utilidad del agente económico. En este caso, se supone que el agente económico es
racional y que elige la alternativa u opción que le va a brindar una mayor utilidad.
Además, el modelo se puede concebir como un problema de decisión, en el sentido
de que se debe elegir una opción entre un conjunto de M alternativas, que se plantea
en los siguientes términos:
Suponiendo que Ui0 , Ui1 , . . . , Uim , . . . , Ui(M −1) representan las utilidades de las M
alternativas5 para el individuo i-ésimo, las variables Xi0 ∗
, Xi1
∗
, . . . , Xim
∗
, . . . , Xi(M
∗
−1)
son el conjunto de caracterı́sticas propias de la elección tal y como las percibe el
individuo (precio del trayecto, duración del desplazamiento, etc) y Xi∗∗ es el conjunto
de caracterı́sticas personales del individuo (edad, nivel de renta, etc). Se supone,
además, linealidad en las funciones6 de tal forma que la especificación del modelo
serı́a:
∗
Ui0 = Vi0 + ǫi0 = β0 + Xi0 δ + Xi∗∗ γ0 + ǫi0 (3.3.1)
∗
Ui1 = Vi1 + ǫi1 = β1 + Xi1 δ + Xi∗∗ γ1 + ǫi1
···
∗
Uim = Vim + ǫim = βm + Xmj δ + Xi∗∗ γm + ǫim
···
∗ ∗∗
Ui(M −1) = Vi(M −1) + ǫi(M −1) = β(M −1) + Xi(M −1) δ + Xi γ(M −1) + ǫi(M −1)
El individuo elige una determinada opción si la utilidad que le proporciona dicha

alternativa es mayor que la utilidad que le proporciona el resto de alternativas. Es
decir:
5
Se refiere a diferenciales de utilidad, no a niveles
6
El supuesto de linealidad es importante, puesto que si se reemplaza Ui por log Ui los resultados
no son los mismos


 0 si Ui0 > Uim ∀m 6= 0


 1 si Ui1 > Uim ∀m =6 1
Yi = 2 si Ui2 > Uim ∀m = 6 2 (3.3.2)



 ···

(M − 1) si Ui(M −1) > Uim ∀m 6= (M − 1)
Un enfoque alternativo para plantear el problema de la elección entre múltiples
alternativas es el enfoque de la variable latente. En él se supone la existencia de
una variable inobservable o latente no limitada en su rango de variación, Yi∗ , que
depende de las caracterı́sticas propias de la decisión, Xi∗ , o del individuo Xi∗∗ . Sobre
esta variable latente se aplica una regla de observabilidad que genera las alternativas
que se observan en la realidad. Desde este punto de vista, los valores de la variable
real u observada Yi que mide las distintas categorı́as se fundamentan de acuerdo con
el siguiente patrón o esquema:


 0 si Yi∗ ≤ c1

1 si c1 ≤ Yi∗ ≤ c2
Yi = (3.3.3)

 ···

(M − 1) si c(M −1) ≥ Yi∗
donde c1 , c2 , . . . , cM −1 son los valores de los umbrales o barreras. Formalmente se
puede expresar el modelo de respuesta múltiple a través de la relación siguiente:
Yi∗ = F (Xi β) + ui = F (Zi + ui )
donde:
Yi∗ : Es una variable latente (no observada)
F (.): Es una función no lineal de una combinación lineal de las caracterı́sticas

o ı́ndice
Zi : Xi β es el ı́ndice del modelo
ui : Es una variable aleatoria
Por tanto, en el proceso de especificación de los modelos de respuesta múltiple

influyen los siguientes elementos:
1. El tipo de función F (.) elegida: Generalmente se utilizan la función de

distribución Logı́stica, la función de distribución de la Normal y la función
Valor Extremo o función de Gompit.
2. Los diferentes criterios de elección ante los que se presenta el individuo: Es

decir, si el problema presentado es un proceso de elección ordenado, una
elección ordenada jerarquizada o no ordenada.
3. El tipo de variables a considerar en el estudio o caracterı́sticas (regresores):

Es necesario determinar aquellas que son propias del individuo y que, por
tanto, son comunes a todas las alternativas (edad, renta, nivel de estudios,
etc.) y las caracterı́sticas especı́ficas de cada una de las alternativas (precio,
tiempo, distancia, etc.). En la elección a realizar intervendrán ambos tipos de
caracterı́sticas. Ası́, en la elección del medio de transporte influye tanto el nivel
de renta del usuario como la velocidad o tiempo de duración del desplazamiento,
además del precio del tiquete, en su caso.
3.3.2. Modelos de Respuesta Múltiple Ordenado

Definición
Una definición general de un modelo ordenado es
P (y = j|x, θ) = p (Sj )
para alguna medida de probabilidad p dependiendo de x y θ y una secuencia

finita de intervalos sucesivos {Sj } dependiendo de x y θ tal que Uj Sj = R, donde R
es la recta real.
En el modelo ordenado los valores que toma corresponden a una partición de la

recta real, mientras en el no ordenado corresponden bien sea a una partición no su-
cesiva de la recta real o a una partición de un espacio Euclideano de mayor dimensión.
En la mayorı́a de las aplicaciones el modelo ordenado es de la forma
′
′

P (y = j|x, α, θ) = F αj+1 − x θ − F αj − x θ , j = 0, 1, . . . , m, (3.3.4)
α0 = −∞, αj ≤ αj+1 , αm+1 = ∞,
para alguna función de distribución F . Si F = φ, 3.3.4 define el modelo probit

ordenado; y si F = Λ, define el modelo Logit ordenado.7 .
7
Pratt (1981) mostró que la función log-verosimilitud del modelo 3.3.4basada en observaciones
(yi , xi ) , i = 1, 2, ..., n, en (y, x) es globalmente cóncava si f , derivada de F , es positiva y logf es
cóncava
El modelo 3.3.4 se deduce considerando una variable aleatoria continua no

observada y ∗ que determina el resultado de y por la regla
y = j si y sólo si αj < y ∗ < αj+1 , j = 0, 1, . . . , m (3.3.5)

′
Si la función de distribución de y ∗ − x β es F , el modelo 3.3.5 implica 3.3.4.
Especificación
El modelo de respuesta múltiple ordenado relaciona la variable Yi con las
variables, X2i , . . . , Xki a través de la siguiente ecuación:
Yi∗ = F (Xi β) + ui = F (Zi + ui )
Donde:
Yi∗ : Es una variable latente (no observada) que cuantifica las distintas
categorı́as
F (.): Es una función no lineal del tipo Logı́stica, distribución Normal o bien la
distribución Valor Extremo
Xi β: Es una combinación lineal de las variables o caracterı́sticas que se

denomina ı́ndice del modelo y se denota por Zi
ui : Es una variable aleatoria
Para los valores de la variable real u observada, Yi , que mide las distintas
categorı́as, en el caso de cuatro categorı́as, el esquema de la variable se fundamenta
de acuerdo con el siguiente patrón:


 0 si Yi∗ ≤ c1

1 si c1 ≤ Yi∗ ≤ c2
Yi = (3.3.6)

 2 si c2 ≤ Yi∗ ≤ c3

3 si c3 ≥ Yi∗
Se debe subrayar que existe una correspondencia entre el orden de los valores de
la variable real u observada y el orden de la variable latente, es decir, que si Yi < Yj
implica que Yi∗ < Yj∗ .
Desde el punto de vista gráfico, un modelo ordenado en el que se contemplan

cuatro categorı́as (0, 1, 2 y 3) y tan sólo interviene un único regresor o caracterı́stica
se representan en el eje de abscisas los valores que toman las caracterı́sticas, mientras
que en el eje de ordenadas se representan las tres categorı́as.
La probabilidad de elegir cada una de las categorı́as de Yi viene definida por la

siguiente relación:
P (Yi = 0/Xi , β, c) = F (c1 − Xi β) (3.3.7)

P (Yi = 1/Xi , β, c) = F (c2 − Xi β) − F (c1 − Xi β)
P (Yi = 2/Xi , β, c) = F (c3 − Xi β) − F (c2 − Xi β)
P (Yi = 3/Xi , β, c) = 1 − F (c3 − Xi β)
Donde F (.) es la función de distribución o de densidad acumulada de la ecuación

elegida en la especificación del modelo.
Los valores de los umbrales o barreras cm y los valores de β se estiman

conjuntamente mediante el método de la Máxima Verosimilitud, y se debe cumplir
la siguiente restricción:
c 1 < c2 < c3
En el caso particular que la función de distribución elegida sea la de la normal,
es decir, que el modelo especificado objeto del análisis sea el Probit Ordenado,
la probabilidad de elegir cada una de las categorı́as de Yi se puede reescalar y
vendrá definida por la siguiente relación:
P (Yi = 0/Xi , β, c) = Φ(c1 − Xi β) (3.3.8)

P (Yi = 1/Xi , β, c) = Φ(c2 − Xi β) − Φ(c1 − Xi β)
P (Yi = 2/Xi , β, c) = Φ(c3 − Xi β) − Φ(c2 − Xi β)
P (Yi = 3/Xi , β, c) = 1 − Φ(c3 − Xi β)
Interpretación
La interpretación de los Modelos Ordenados es análoga a la de los modelos
Logit, Probit y Valor Extremo. Ası́, la interpretación de los parámetros del Modelo
Ordenado se puede efectuar a través de las derivadas parciales, en concreto a través
de los efectos marginales, mientras que la comparación entre distintas situaciones se
puede efectuar a través del cociente odds.
Únicamente se interpretará el Modelo Ordenado Probit ya que la explicación del

Modelo Ordenado Logit y el Modelo Ordenado Valor Extremo es análogo.
1. La interpretación de los parámetros
La interpretación de los parámetros se puede efectuar a través de las derivadas
parciales para los distintos modelos estudiados; ası́, en el caso del Modelo
Ordenado Probit descrito a través del sistema 3.3.8, el efecto marginal del
regresor para cada categorı́a es:
∂P (Yi = 0)
= −φ(c1 − Xi β)βk (3.3.9)
∂Xk
∂P (Yi = 1)
= −φ(c2 − Xi β)βk − φ(c1 − Xi β)βk
∂Xk
∂P (Yi = 2)
= −φ(c3 − Xi β)βk + φ(c2 − Xi β)βk
∂Xk
∂P (Yi = 3)
= −φ(c3 − Xi β)βk
∂Xk
En general, los coeficientes estimados en los Modelos Ordenados no cuantifican
directamente el incremento en la probabilidad dado el aumento unitario en
la correspondiente variable independiente. La magnitud de la variación en la
probabilidad depende del nivel original de ésta y, por tanto, de los valores
iniciales de todos y cada uno de los regresores y de sus coeficientes. Por tanto,
mientras el signo de los coeficientes sı́ que indica perfectamente la dirección
del cambio, la magnitud de la variación depende del valor concreto que tome
la función de densidad, lo cual depende de la pendiente de dicha función en
el punto Xi (Xi es igual al vector [X2i , . . . , Xki ]). Naturalmente, cuanto más
elevada sea dicha pendiente, mayor será el impacto del cambio en el valor del
regresor, el cual a su vez va a incidir en el valor de la variable latente Yi∗ .
2. Interpretación de La ratio Odds o riesgo
El cociente entre la utilidad de que se elija una opción frente al resto de
alternativas,(M − 1) opciones, se mide a través de la probabilidad asignada
a esta frente a la utilidad del resto de opciones y se le denomina odds. Que se
cuantifica mediante la siguiente proporción:
Pi
1 − Pi
El odds también, se utiliza para comparar situaciones distintas o bien para
interpretar el modelo. En efecto, el cociente entre odds se emplea para comparar
utilidades de distintas situaciones, o bien para interpretar el modelo. Ası́, en
el caso, que se compare la situación del individuo i con la del individuo j
(situación de referencia) se tiene:
Pi
(1−Pi )
Cociente entre odds = Pj
(3.3.10)
(1−Pj )
En el caso de que el valor de la Ratio Odds sea:
Mayor que Uno: La utilidad de la situación i es más elevada que la de la

situación j.
Menor que Uno: La utilidad de la situación j es más elevada que la de la
situación i.
La unidad : Las unidades de las situaciones i y j son iguales.
Estimación Máximo-Verosimilitud
La función de probabilidad conjunta de un modelo de elección múltiple ordenado
parte del supuesto de que se dispone de una muestra de tamaño I (i = 1, 2, . . . , I)
bajo la hipótesis de independencia entre los distintos individuos y se puede expresar
a través de la siguiente relación:
I
Y
P rob(u1 , u2 , . . . , ui , . . . , uI ) = P rob(u1 )P rob(u2 ) . . . P rob(ui ) . . . P rob(uI ) = P rob(ui )
i=1I
(3.3.11)
De forma alternativa, utilizando la función de probabilidad en términos de la variable
Yi , se tiene:
I
Y
P rob(Y1 , Y2 , . . . , Yi , . . . , YI ) = P rob(Y1 )P rob(Y2 ) . . . P rob(Yi ) . . . P rob(YI ) = P rob(Yi )
i=1
(3.3.12)
teniendo en cuenta que Yi puede tomar el valor cero, uno, dos, tres,. . . , se obtiene:
Y Y Y Y
P rob(Yi = 0) P rob(Yi = 1) P rob(Yi = 2) P rob(Yi = 3) . . .
i∈Yi =0 i∈Yi =1 i∈Yi =2 i∈Yi =3
(3.3.13)
a partir de la función de la probabilidad conjunta 3.3.13 se puede obtener la
función de verosimilitud, que se define como:
Y Y Y Y
L= P rob(Yi = 0) P rob(Yi = 1) P rob(Yi = 2) P rob(Yi = 3) . . .
i∈Yi =0 i∈Yi =1 i∈Yi =2 i∈Yi =3
(3.3.14)
mientras que el logaritmo de la función de verosimilitud es:
X X X
£ = ln L = P rob(Yi = 0) + P rob(Yi = 1) + P rob(Yi = 2) . . .
i∈Yi =0 i∈Yi =1 i∈Yi =2
(3.3.15)
Al sustituir en 3.3.15 la probabilidad de cada opción, Prob(Yi = ...), por distintas

especificaciones se obtiene el logaritmo de la función de verosimilitud del Modelo
Ordenado. Las funciones más utilizadas en la especificación son la Logı́stica y la
de distribución Normal obteniendo los Modelos Ordenado Logit y Ordenado Probit
respectivamente.
El logaritmo de la función de verosimilitud, en particular la ecuación 3.3.15,

no es lineal, con lo cual para obtener los estimadores máximo-verosı́miles de los
parámetros se deben aplicar métodos de estimación no lineales a través de algún
algoritmo de optimización.
Los estimadores obtenidos por el proceso de máxima verosimilitud son consis-

tentes y asintóticamente eficientes. Igualmente son asintóticamente normales, con lo
que los contrastes de hipótesis son asintóticos. Ası́, cuando I (tamaño de la muestra)
tiende a infinito, el contraste de significación individual de los parámetros se puede
realizar a través de una distribución normal. En este caso, todos los tests propuestos
para estudiar la bondad del ajuste en los modelos de variable dicotómica son válidos
para los Modelos Ordenados.
3.3.3. Modelos de Respuesta Múltiple No Ordenados

3.3.4. Definición
Los modelos de elección múltiple entre alternativas no ordenadas pueden venir
generados por modelos de utilidad aleatoria, modelos que suponen que los individuos
son agentes racionales, que disponen de información perfecta, y que se enfrentan a
un conjunto de alternativas a las que les asocian una utilidad. Ahora bien, desde
el punto de vista del investigador, esta utilidad no es directamente observable,
descomponiéndose en dos componentes, una parte observable Vnj , que dependerá de
un conjunto de atributos medibles para cada individuo y alternativa, y una aleatoria
ǫnj . Una formulación habitual es la del modelo de utilidad aleatoria aditivo:
Ujn = Vjn + ǫjn , j = 1, . . . , J (3.3.16)
donde Ujn es la utilidad que al individuo n-ésimo le reporta la alternativa j, y,

J es el número de alternativas disponibles.
Un individuo escogerá siempre la alternativa que le proporcione mayor utilidad,

de modo que si el individuo n-ésimo selecciona la alternativa j, es porque la utilidad
reportada Ujn es la mayor de todas.
Unj ≥ Unk ⇔ Vnj − Vnk ≥ ǫnk − ǫnj , ∀k 6= j, k = 1, . . . , J (3.3.17)

La decisión observada revela cuál de las alternativas proporciona mayor utilidad,

pero no sus utilidades, que no son observables.
Dado que no se conoce con exactitud el componente aleatorio, y por tanto, no se

puede determinar con certeza si (ecuación anterior) se cumple, se debe pasar a un
marco probabilı́stico. Ası́, la probabilidad de que el individuo n escoja la alternativa
j viene dada por
P (Yn = j) = Pnj = P (ǫnk ≤ ǫnj + (Vnj − Vnk )), ∀k 6= j, k = 1, . . . , J (3.3.18)
Dependiendo de la especificación del componente aleatorio ǫnj y de la parte

medible Vnj se pueden generar distintos modelos. Dentro de los modelos de elección
discreta los más utilizados son:
El Logit Multinomial (Mc Fadden (1974)), que se deriva a partir de asumir que
los términos de error ǫnj presentan una distribución Gumbel homoscedástica e
independiente, y
El Logit Jerárquico o Anidado (Williams (1977)), que desarrollado como una

extensión del anterior, en el que se considera una partición disjunta de las
alternativas en grupos de tal forma que las alternativas incluidas en cada grupo
presentan correlación en sus términos de error; siguiendo estos también una
distribución Gumbel.
Sin embargo, ambos modelos poseen supuestos simplificadores que no siempre
son sostenibles. Su principal limitación es la propiedad conocida con el nombre de
Independencia de Alternativas Irrelevantes y que consiste en que el cociente
de probabilidades entre dos alternativas no depende de las caracterı́sticas o atributos
del resto de las alternativas.
En el modelo Logit Jerárquico al agrupar las alternativas en subgrupos de

caracterı́sticas similares, esta propiedad se mantiene entre las alternativas de un
mismo subgrupo, pero no entre ellos. Esta propiedad aunque simplifica el proceso de
estimación, supone una restricción importante en la modelación del comportamiento
de los individuos que no parece muy razonable en numerosas situaciones, puesto
que la hipótesis subyacente es que la elección entre dos alternativas cualesquiera no
depende de las caracterı́sticas o atributos de una tercera.
Los diferentes modelos de comportamiento de maximización de la utilidad
aleatoria se diferencian principalmente en la especificación que suponen para la
densidad de los factores no observados f (ǫn ).
Los principales modelos de elección discreta son:

Logit (MNL): errores Gumbel independientes e idénticos (iid.). Por lo

tanto no admite correlación entre alternativas ni entre elecciones y requiere
homoscedasticidad (varianzas iguales para todas las alternativas y para todas
las elecciones).
Probit (MNP): se supone que los factores no observados distribuyen conjun-

tamente normal: (ǫn1 , ǫn2 , . . . , ǫnJ ) ∼ N (0, Ω). Con una matriz de covarianza
Ω completa, el modelo puede reflejar cualquier patrón de correlación y admite
heterocedasticidad. Sus dificultades estriban en la necesidad de simulación pa-
ra el cálculo de las integrales y en el hecho de que sólo admite la distribución
normal para los coeficientes, cuando en ocasiones puede ser oportuno establecer
otras distribuciones.
Modelos de Valor Extremo Generalizados (GEV): se admiten patrones de

correlación entre alternativas. Uno de los más sencillos y utilizados es el
Logit jerárquico o anidado (NL), en el que las alternativas se estructuran en
grupos llamados nidos, de modo que los factores no observados tienen la misma
correlación para las alternativas en el interior del nido y no existe correlación
con las restantes. En general no requieren simulación para su estimación.
3.3.5. Modelo Logit Multinomial

Si consideramos la hipótesis de que los errores distribuyen idéntica e inde-
pendientemente Gumbel con media cero y varianza σ 2 , obtenemos el Modelo
Logit Multinomial o Logit Simple (MNL). Es decir, El modelo Logit (o
Logit Multinomial, MNL) se obtiene suponiendo que cada ǫnj distribuye según una
distribución de Gumbel, o valor extremo tipo I 8 , independiente e idéntica (es decir,
con la misma varianza): ǫnj ∼ Gumbel iid.
La elección de una distribución de Gumbel no se debe a la sencillez de la fórmula

Logit obtenida, sino que se obtiene al tomar en consideración que los residuos
de cada alternativa no son interesantes en sı́ mismos, sino que sólo interesa el
máximo de las utilidades aleatorias. Bajo condiciones poco restrictivas (residuos con
distribución exponencial, normal, Weibull o Gumbel), el máximo entre alternativas
se distribuye según la distribución de Gumbel9 o valor extremo tipo I con parámetro
de localización 0.
Si una variable ǫ se distribuye según una distribución de Gumbel10 de parámetro

8
Gumbel, 1958
9
véase Sørensen, 2003: 19
10
Las principales propiedades de esta distribución se pueden consultar en Ben-Akiva y Lerman
(1985: 104-105)
de localización η y parámetro de escala µ, su función de distribución es:

F (ǫ) = exp −e−µ (ǫ − η) , µ > 0 (3.3.19)
y su función de densidad es:

F (ǫ) = µe−µ (ǫ − η) exp −e−µ (ǫ − η) (3.3.20)
La moda de la distribución es η, la media es η + γ/µ, siendo γ la constante de
Euler (∼ 0,577), la varianza11 es π 2 /6µ2 .
En el modelo Logit se emplea la distribución Gumbel con parámetro de localiza-

ción cero. Debe señalarse que, aunque en muchas ocasiones se afirma que los errores
tienen media nula, en realidad su media es γ/µ (al ser una distribución sesgada), si
bien este valor no es observable al trabajarse siempre con diferencias entre utilida-
des, y la diferencia entre dos términos aleatorios con la misma media tiene media cero.
La diferencia entre dos distribuciones de Gumbel, con parámetro de escala µ y

parámetro de localización nulo, distribuye logı́stica, es decir,
ǫ∗nji = ǫnj − ǫni
tiene la función de distribución:
∗
eµǫnji
F (ǫ∗nji )
= ∗ (3.3.21)
1 + eµǫnji
La distribución logı́stica es muy similar a la distribución normal. Su varianza es
el doble de la Gumbel, por lo que para la logı́stica estándar la varianza12 es π 2 /3.
De este modo, cuando se habla de errores Gumbel en los modelos de la familia Logit
debe entenderse que esa expresión se refiere al error de cada alternativa, si bien lo
observable es la diferencia con distribución logı́stica. Puede verse la similitud entre
estas distribuciones en la Figura 3.1, en la que se aprecia también el sesgo de la
distribución Gumbel.
Para calcular la probabilidad de que el individuo n escoja la alternativa i de

acuerdo con la ecuación
Pni = P (Uni > Unj , ∀j 6= i)
Pni = P (Vni + ǫni ≥ Vnj + ǫnj ∀j =
6 i)
Pni = P (ǫnj − ǫni ≤ Vni + Vnj ∀j =6 i)
11
Una deducción analı́tica de estos valores para η = 0 se puede encontrar en Louviere, Hensher
y Swait (2000: 142-143)
12
Para una deducción formal de los momentos de esta distribución puede consultarse Gumbel,
1958: 126-128
Grafica de comparacion
0.25
Normal
Logit
Gumbel
0.2
0.15
f(x)
0.1
0.05
0
−10 −5 0 5 10
x
Figura 3.1: Comparación entre distribuciones normal, Gumbel y logı́stica
se obtiene la conocida expresión del modelo Logit:
eµVni
Pni = P (3.3.22)
eµVnj
El parámetro de escala no es identificable, por lo que habitualmente se fija su
valor en 1. De este modo, los coeficientes del modelo (en el caso de una formulación
lineal en los parámetros), se están multiplicando por este parámetro, relacionado con
la varianza de los errores. Esto tiene importancia al comparar resultados de modelos
diferentes (la normalización habitual es diferente para el modelo probit) o en el caso
de parámetros de escala diferentes: En lo sucesivo se supondrá que el parámetro de
escala es 1 y se omitirá de la formulación, por lo que la probabilidad pasa a ser:
eVni
Pni = P Vnj (3.3.23)
e
En el caso de que la parte observada de la utilidad sea lineal en los parámetros,
que es la especificación más habitual, Vnj = xnj β donde β es el vector traspuesto de
β = (β 1 , . . . , β k ) , entonces la probabilidad se puede expresar como:
exni β
Pni = P xnj β
(3.3.24)
je
o escrita de otra forma13 ,

13
(McFadden, 1974)
′
exp xnj β
Pni = Pmn ′
, n = 1, 2, . . . , t y j = 0, 1, . . . , mn , (3.3.25)
k=0 exp xnk β
donde se puede asumir xn0 = 0 sin pérdida de generalidad.
Si bien Train (2003: 41) afirma que bajo condiciones generales, cualquier función
se puede aproximar de forma arbitrariamente cercana mediante una función lineal
en los parámetros (teniendo en cuenta que las variables entren transformadas14 ),
existen circunstancias que pueden hacer más adecuadas funciones no lineales15 . Por
otro lado, la función de log-verosimilitud de la muestra, en el modelo lineal, es
globalmente cóncava en los parámetros β, lo que facilita su maximización numérica16 .
Por otra parte, el Modelo Logit Multinomial (MNL) descansa sobre

el supuesto de Independencia de Alternativas Irrelevantes (IAI). Éste se
expresa prácticamente en que el cociente entre las probabilidades de elección de
dos alternativas i y j es constante y sólo depende de las utilidades de ambas
alternativas; ası́, es independiente de las utilidades del resto de las alternativas.
La expresión de esta propiedad es fácil de obtener a partir de la ecuación anterior, ası́:
Pni
= eβ(Vi −Vj ) (3.3.26)
Pnj
En un principio, esta propiedad tuvo su importancia ya que permitı́a analizar

la demanda de nuevas alternativas sin necesidad de reestimar el modelo, bastaba
simplemente con conocer sus atributos. El problema se presenta cuando existen
alternativas correlacionadas (por ejemplo, automóvil como conductor y automóvil
como acompañante, o distintos modos de transporte público como metro y bus),
porque el modelo conduce a predicciones sesgadas. 17 .
Como el MNL supone errores Gumbel independientes e idénticamente distribui-

dos, entonces no acepta correlación ni heterocedasticidad. Luego la matriz de cova-
rianza asociada a este modelo es diagonal. Además como la varianza del término
Gumbel se asocia con el factor de escala, se tiene
14
véase McFadden, 1981: 220 y Ben-Akiva y Lerman, 1985: 62-64
15
Train (2003: 56-58) presenta ejemplos de parámetros que no entran linealmente en la función
de utilidad
16
McFadden, 1973
17
Una ilustración interesante de este problema puede verse en Mayberry (1973)
 
1 ··· 0
  π2
Σ = σ 2  ... . . . ...  = σ 2 IJn ×Jn = 2 IJn ×Jn (3.3.27)
6λ
0 ··· 1
Para que el modelo sea identificable, se debe fijar el valor del factor de escala.
En la mayorı́a de los casos implı́citamente se hace el supuesto que el factor de escala
(λ) es igual a uno.
Otros modelos de elección discreta permiten considerar correlación entre las

variables e incluso la existencia de heterocedasticidad. Conforme más general es la
matriz de covarianza, más compleja es la implementación del modelo y su estimación.
La estimación del modelo Logit se realiza a partir de la maximización de la función

de log-verosimilitud de la muestra, ası́:
mi
n X
X
log L = yij log Pij (3.3.28)
i=1 j=0
Siguiendo a McFadden(1974) se mostrará la concavidad global de 3.3.28.
A partir de derivar la ecuación 3.3.28 con respecto a β, se tiene que:
∂ log L X X yij ∂Pij

= (3.3.29)
∂β i j
Pij ∂β
P P Pn Pmi
donde i y j denotan i=1 y j=0 , respectivamente.
Ahora, derivando la ecuación 3.3.29 una vez más, se obtiene:

∂ 2 log L X X yij ∂ 2 Pij 1 ∂Pij ∂Pij
= − (3.3.30)
∂β∂β ′ i j
Pij ∂β∂β ′ Pij ∂β ∂β ′
Por tanto, derivando la ecuación 3.3.25 y después de cierta manipulación se tiene

que:
∂Pij
= Pij (xij − x̄i ) (3.3.31)
∂β
donde, P ′
k exp(xik β)xik
x̄i = P ′
k exp(xik β)
y
∂ 2 Pij ′
= Pij (xij − x̄i ) (xij − x̄i ) (3.3.32)
∂β∂β ′
P ′ ′
Pij k exp xik β xik xik ′
− P ′
+ Pij x̄i x̄i
k exp xik β
Por último, insertando las ecuaciones 3.3.31 y 3.3.32 en la ecuación 3.3.30 se

obtiene:
∂ 2 log L X X ′
′ = Pij (xij − x̄i ) (xij − x̄i ) (3.3.33)
∂β∂β i j
el cual, curiosamente, no depende de yij . Como Pij > 0 en este modelo, la matriz
′
3.3.33 es definida negativa a menos que (xij − x̄i ) α = 0 para cada i y j para algún
α 6= 0. Puesto que tal evento es extremadamente improbable, se puede concluir para
todos los propósitos prácticos que la Función Log Verosimilitud es Globalmente
Cóncava en el Modelo Logit multinomial.
Las principales limitaciones del modelo Logit se centran en los siguientes aspectos:
El modelo, al suponer los parámetros β constantes, no admite variaciones
aleatorias en los gustos de los individuos. Se supone que todos ellos tienen
la misma respuesta ante una variación en las variables explicativas. Las
variaciones sistemáticas sı́ se pueden reflejar introduciendo, en la función de
utilidad, interacciones de las variables de nivel de servicio con las caracterı́sticas
del individuo
El modelo exhibe la citada propiedad de independencia de alternativas
irrelevantes (IIA), dado que, por la formulación de la probabilidad, se obtiene
que el cociente de las probabilidades de elección de dos alternativas no depende
de las propiedades de las restantes alternativas:
Pin eVni
= Vni = eβ(Vni −Vnk ) (3.3.34)
Pnk e
Como se ha dicho, otros modelos permiten otros patrones de sustitución
admitiendo la existencia de correlación entre alternativas, el más sencillo es
el Logit jerárquico.
El modelo no admite correlación entre las observaciones, lo que puede hacer

poco adecuada su utilización para datos de panel y encuestas en preferencias
declaradas con varias respuestas por individuo, en los que existen factores no
observados correlacionados a lo largo del tiempo, si bien si pueden acomodarse
dinámicas relacionadas con factores observados (puede verse una discusión en
Train, 2003: 54-56).
El modelo no admite diferencias en la variabilidad de la evaluación de la utilidad
para distintas alternativas (p.ej. el hecho de que el tiempo de viaje en vehı́culo
privado sea mucho más variable que el tiempo de viaje en metro) o distintos
individuos.
Para superar las limitaciones del MNL han ido surgiendo en la literatura un
amplio abanico de modelos, de diferentes complejidades. La mayorı́a de ellos parten
de la base del modelo Logit (residuos Gumbel), a excepción, principalmente, del
modelo probit (residuos normales).
Una limitación adicional del modelo Logit es que las colas de la función de
probabilidad son simétricas y delgadas, lo que puede no corresponderse con la
realidad en algunas situaciones18 .
3.3.6. Modelo Logit Jerárquico o Anidado (NL)

El Modelo Logit Jerárquico o Anidado (NL) permite agrupar las alternativas
que el analista considera similares en conjuntos, conocidos como nidos. Dentro de
cada nido se mantiene la Independencia de Alternativas Irrelevantes (IAI),
mientras que entre nidos diferentes la razón de probabilidades entre alternativas
puede depender de las propiedades de otras alternativas de los nidos, pero no de las
de otros nidos diferentes. En este sentido se podrı́a hablar de una independencia de
nidos irrelevantes19 .
Pueden existir nidos tanto en serie como en paralelo, dando lugar a la estructura
de árbol que caracteriza a estos modelos. Aparecen unos parámetros de escala
adicionales en cada nido que, en cierto modo, reflejan la estructura de correlación.
Uno de estos parámetros debe ser fijado para evitar problemas de identificación,
existiendo dos estrategias diferentes para realizarlo, inferior o superior, en función
de si la restricción se aplica en uno de los nidos inferiores o en el nido principal.
18
Para abordar esta limitación se ha desarrollado la familia de modelos Dogit (Gaudry y Dagenais,
1978, 1979) e IPT-L (Inverse Power Transformation Logit, Gaudry, 1981)
19
(Train, 2003: 84)
La estructura de la matriz de covarianza obtenida es diagonal por bloques.

Cuando dos o más alternativas están agrupadas en un nido, los elementos no
diagonales correspondientes serán distintos de cero. Los elementos de la diagonal
siguen siendo idénticos, manteniéndose la homocedasticidad caracterı́stica del
MNL20 .
El modelo Logit Jerárquico o Anidado resuelve en parte el problema de la

Independencia de Alternativas Irrelevantes (IAI), de manera que es posible
considerar cierto patrón de correlación entre alternativas agrupándolas en jerarquı́as
o nidos21 . Cada nido o jerarquı́a es representado por una alternativa compuesta frente
al resto de las alternativas disponibles. Un ejemplo de una estructura jerárquica o
anidada puede ser la de la siguiente figura.
La obtención del modelo NL se basa en los siguientes supuestos:
Se agrupa en jerarquı́as o nidos a todos los subconjuntos de opciones

correlacionadas entre sı́, es decir, aquellas que presentan ciertas semejanzas.
Cada jerarquı́a o nido es representado por una alternativa compuesta frente a

las demás que están disponibles a la población.
20
(véase Munizaga y Álvarez-Daziano, 2001; Espino, 2003: 36)
21
Williams, 1977; Daly y Zachary, 1978
La estimación sigue un proceso secuencial donde se estima primero un MNL

para aquellas opciones más similares que se han agrupado en un nido, por ejemplo
para las alternativas A3 y A4 del nido inferior de la figura, omitiendo todas aquellas
variables que tengan el mismo valor22 para este subconjunto de opciones, AI (q).
La necesidad de omitir estas variables se debe al hecho de que el MNL trabaja
en diferencias. Éstas son introducidas posteriormente en el nido superior, pues-
to que afectan a la elección entre la jerarquı́a inferior y el resto de opciones en AS (Q).
La forma en que se introduce el nido inferior en la jerarquı́a superior es a través

de la alternativa compuesta NI , a la cual se le asocia una utilidad representativa de
todo el nido, que va a tener dos componentes23 :
la primera considera como variable la Utilidad Máxima Esperada24 de las

alternativas del nido: X
EM U = ln exp(Vj ) (3.3.35)
Aj ∈AI (q)
siendo Vj la utilidad de la alternativa j del nido, en la cual no se tiene en cuenta

el vector de variables W, es decir, aquellas que toman el mismo valor para las
alternativas del subconjunto de alternativas AI (q).
Y la segunda que considera el vector de los atributos comunes a todos los

componentes del nido, W. De este modo, la utilidad compuesta del nido viene
dada por:
Ũj = φEM U + αW (3.3.36)
donde φ y α son parámetros a estimar.
Realizado todo el proceso de estimación para el nido inferior, se estima un MNL

para la jerarquı́a superior donde se incluye la alternativa compuesta y el resto de
alternativas contenidas en el nido superior.
De acuerdo con este modelo, la probabilidad de que un individuo n elija la

alternativa del nido Aj ∈ AI (q) es igual a la probabilidad de que elija la alternativa
compuesta (en el nido superior) por la probabilidad condicional de que opte por Aj ,
en la jerarquı́a inferior, dado que escogió la alternativa compuesta.
En el caso del ejemplo mostrado en la figura donde hay dos niveles jerárquicos,
esta probabilidad serı́a:
22
Denominadas como vector W
23
(ver Sobel, 1980; Ortúzar, 1983)
24
EMU, Expected Maximum Utility
exp(φEM U + αW + θS Z S ) exp(θI ZJI )

Pnj = P S S
∗ P I I
(3.3.37)
Aj ∈AS (q) exp(φEM U + αW + θ Z ) Aj ∈AI (q) exp(θ Zi )
denotando los superı́ndices I y S (como en la Figura 1) los niveles jerárquicos

inferior y superior, respectivamente; Z I y Z S los vectores de los atributos de las
alternativas disponibles en ambos niveles y θ, α y φ, los parámetros a estimar.
La consistencia interna requerida por el modelo establece, para el caso de dos

niveles jerárquicos25 , que:
0<φ≤1 (3.3.38)
Si φ es igual a 1, el modelo NL es matemáticamente equivalente al MNL.
Si φ es menor que 0 significa que el aumento de la utilidad de una alternativa

del nido disminuirá la probabilidad de elegir dicha opción.
Si φ es igual a 0 significa que el aumento de la utilidad de una alternativa del

nido no alterarı́a la probabilidad de elección de la alternativa.
Si φ es mayor que 1, el aumento de la utilidad de una alternativa del

nido aumentarı́a tanto su probabilidad de elección cómo la del resto de las
alternativas del nido.
Si el número de jerarquı́as o nidos definidos es superior a 2, la consistencia

interna del modelo vendrı́a definida de la siguiente manera:
0 < φ1 ≤ φ2 ≤ φ3 · · · ≤ φS ≤ 1 (3.3.39)
siendo φ1 el parámetro correspondiente al nido del nivel inferior y φS al nido
de nivel superior de cada rama del árbol26 .
La matriz de covarianza para este modelo para el caso que hemos supuesto en
nuestro planteamiento será:
 
σ2 · · · 0
 
Σ =  ... . . . σ34
2  (3.3.40)
2
0 σ43 σ2
25
considerado en la figura y en la definición de la probabilidad de elección de la alternativa j
para el individuo n
26
(Ortúzar y Willumsen, 2001)
Al igual que en el modelo MNL, se trata de un modelo homocedástico y presenta

correlación entre las alternativas 3 y 4 que están agrupadas en un mismo nido (la
covarianza entre la alternativa 3 y 4 es distinta de cero y σ34 = σ43 ). 27 .
A pesar de que el modelo NL permite resolver, parcialmente, el problema de la
correlación entre alternativas y se presenta como un modelo más completo que el
MNL, éste posee aún algunas limitaciones28 :
No permite considerar variaciones en los gustos, al igual que el MNL, ni

funciones de utilidad heterocedásticas.
No permite tratar los problemas de correlación entre alternativas pertenecientes
a distintos nidos; sólo considera las interdependencias entre opciones de los
nidos que se haya especificado en la estructura jerárquica a modelizar.
Las posibles estructuras jerárquicas aumentan conforme aumenta el número de
alternativas en proporción no lineal. 29 . No obstante, el problema combinatorio
se reduce al estudiar aquellas estructuras que teórica o intuitivamente son más
razonables.
Uno de los problemas potenciales de la estimación del modelo por el método
secuencial es la transmisión de errores y distinto valor de los parámetros en
los distintos nidos 30 . Sin embargo, éstos se han podido solucionar gracias a
la aparición de distintos programas que permiten la estimación simultánea del
modelo.
En el modelo Logit multinomial, definido anteriormente, se recalcó su debilidad

cuando algunas de las alternativas son similares. El modelo Logit anidado (o no
independiente) mitiga esa debilidad hasta cierto punto31 .
Se analizará un modelo tricótonomo en detalle y luego se generalizarán los

resultados obtenidos a un caso multinomial general.
Consideremos el modelo bus rojo-bus azul una vez más como ilustración. Sean
Uj = µj + ǫj , j = 0, 1y2
las utilidades asociadas con automóvil, bus rojo, y bus azul. (Para evitar
complicaciones innecesarias en la notación, se ha suprimido el subscrito i). Se recalca
27
Para una explicación más clara de este modelo ver Carrasco y Ortúzar (2002)
28
(Ortúzar y Willumsem, 2001)
29
Sobel (1980) encuentra 26 estructuras posibles para un conjunto de cuatro alternativas
30
(ver Ortúzar et al., 1987)
31
Este modelo se le atribuye a McFadden (1997) y se desarrolla con mayor detalle en un artı́culo
posterior de McFadden (1981)
antes que no es razonable asumir la independencia entre ǫ1 y ǫ2 , aunque ǫ0 se puede

asumir independiente de las otras dos. McFadden sugirió la siguiente distribución
bivariada como una forma conveniente de tener en cuenta una correlación entre ǫ1 y
ǫ2 :
ρ
F (ǫ1 , ǫ2 ) = exp − exp(−ρ−1 ǫ1 ) + exp(−ρ−1 ǫ2 ) , 0<ρ≤1 (3.3.41)
Johnson y Kotz (1972, p.256) llamó a esta distribución distribución de valor

extremo bivariada tipo B de Gumbel. Se puede mostrar que el coeficiente de
correlación es 1 − ρ2 . Si el ρ = 1 (el caso de independencia), F (ǫ1 , ǫ2 ) llega a ser
el producto de dos distribuciones de valor extremo Tipo I - en otras palabras, el
modelo Logit multinomial. Como para ǫ0 , se asume F (ǫ0 ) = exp[− exp(−ǫ0 )] como
en el modelo Logit multinomial.
Bajo estas presunciones se puede mostrar:
exp(µ0 )
P (y = 0) = (3.3.42)
exp(µ0 ) + [exp(ρ−1 µ1 ) + exp(ρ−1 µ2 )]ρ
y
exp(ρ−1 µ1 )
P (y = 1y =
6 0) = (3.3.43)
exp(ρ−1 µ1 ) + exp(ρ−1 µ2 )
Las otras probabilidades se pueden deducir de 3.3.42 y 3.3.43. Por lo tanto estas
dos ecuaciones definen un modelo Logit anidado en el caso tricotónomo. Dividiendo
el numerador y el denominador de 3.3.42 por el exp(µ0 ) y los de 3.3.43 por
exp(−ρ−1 µ1 ),
notamos que las probabilidades dependen de µ2 − µ0 , µ1 − µ0 y ρ. Normalmente se

especificarı́a
′
µj = xj β, j = 0, 1, 2.
La forma de estas dos probabilidades es intuitivamente atractiva. La ecuación
3.3.43 muestra que la selección entre las dos alternativas similares se hace de acuerdo
a un modelo binario Logit, mientras 3.3.42 sugiere que la escogencia entre carro y
no carro es también igual a un modelo Logit excepto que se usa un cierto tipo de
promedio ponderado del exp(µ1 ) y exp(µ2 ).
Para obtener 3.3.42, nótese que

P (y = 0) = P (U0 > U1 , U0 > U2 ) (3.3.44)

= P (µ0 + ǫ0 > µ1 + ǫ1 , µ0 + ǫ0 > µ2 + ǫ2 )
Z ∞ Z ǫ0 +µ0 −µ1 Z ǫ0 +µ0 −µ2
= exp(−ǫ0 )
−∞ −∞ −∞
× exp [− exp(−ǫ0 )] f (ǫ1 , ǫ2 ) dǫ2 ] dǫ1 } dǫ0
Z ∞

= exp(−ǫ0 ) exp [− exp(−ǫ0 )] × exp − exp −ρ−1 (ǫ0 + µ0 − µ1 )
−∞
ρ
+ exp −ρ−1 (ǫ0 + µ0 − µ2 ) dǫ0
Z ∞
= exp(−ǫ0 ) exp [−α exp(−ǫ0 )] dǫ0
−∞
−1
= α
donde, ρ
α = 1 + exp (−µ0 ) exp ρ−1 µ1 + exp ρ−1 µ2
Para obtener 3.3.43, primero se puede observar que

P (y = 1y 6= 0) = P U1 > U2 U1 > U0 o U2 > U0 (3.3.45)
= P (U1 > U2 )
donde la última igualdad se obtiene del particular supuesto distribucional. Por tanto,
se tiene que
P (U1 > U2 ) = P (µ1 + ǫ1 > µ2 + ǫ2 ) (3.3.46)

Z ∞ Z ǫ1 +µ1 −µ2
= f (ǫ1 , ǫ2 ) dǫ2 dǫ1
−∞ −∞
Z ∞
ρ−1
= exp(−ǫ1 ) 1 + exp −ρ−1 (µ1 − µ2 )
−∞
ρ
× exp − exp (−ǫ1 ) × 1 + exp −ρ−1 (µ1 − µ2 ) dǫ1
−1 −1
= 1 + exp −ρ (µ1 − µ2 )
donde en la tercera igualdad se usa
∂F (ǫ1 , ǫ2 ) ρ−1
= exp −ρ−1 ǫ1 + exp −ρ−1 ǫ2 (3.3.47)
∂ǫ1

× exp −ρ−1 ǫ1 F (ǫ1 , ǫ2 )
El modelo definido por 3.3.42 y 3.3.43 se reduce al modelo Logit multinomial si

ρ = 1. Por consiguiente la hipótesis IAI, que es equivalente a la hipótesis ρ = 1, puede
probarse contra la hipótesis alternativa del modelo Logit Anidado por cualquiera de
las tres pruebas asintóticas que son:
La prueba de proporción de probabilidad (The Likelihood ratio test (LRT))
La prueba de Wald’s (Wald, 1943)
La prueba Rao’s score (Rao, 1947)
Para generalizar el Modelo Logit Anidado tricotónomo definido por 3.3.42 y 3.3.43
al caso general de m + 1 respuestas. Supone que los m + 1 enteros 0, 1, · · · , m pueden
particionarse naturalmente en S grupos para que cada grupo consista en alternativas
similares. Escribiendo la partición como
[ [ [
(0, 1, 2, . . . , m) = B1 B2 , . . . , Bs (3.3.48)
S
Donde denotan la unión. Luego McFadden sugiere la distribución conjunta
S
" # ρs
X X
−1
F (ǫ0 , ǫ1 , · · · , ǫm ) = exp{− as exp(−ρs ǫj ) } (3.3.49)
s=1 j∈Bs
Entonces puede mostrarse que

P ρs
X as [ j∈Bs exp(ρ−1s µj )]
Pj = PS P , s = 1, 2... (3.3.50)
a [ exp(−ρ −1 ǫ )]ρτ
j∈Bs s=1 τ j∈Bτ τ j
exp(ρ−1
s µj )
P (y = j|j ∈ Bs ) = P s = 1, 2... (3.3.51)
k∈Bs exp(ρs µk )
−1
Note que 3.3.50 y 3.3.51 son generalizaciones de 3.3.42 y 3.3.43 respectivamente.

Por tanto, estas probabilidades definen completamente el modelo. Podemos
interpretar
X
ρτ
[ exp(ρ−1
τ µj )]
j∈Bτ
como una clase de media ponderada de exp(µ) para j ∈ B.
El modelo Logit anidado definido por 3.3.50 y 3.3.51 se puede estimar por MLE,
pero también puede estimarse consistentemente mediante un método natural de dos
′
pasos, el cual es computacionalmente más simple. Suponga que µj = xj β.
Primero, la parte de la función de verosimilitud que es el producto de las

probabilidades condicionales de la forma 3.3.51 se maximiza para producir un
estimador de ρ−1
s β
Segundo, este estimador se inserta en el lado derecho 3.3.50, y el producto de

3.3.50 sobre s e i (el cual se suprime) se maximiza para obtener los estimadores
de ρ′ s y a′ s (uno de los a′ s se puede establecer arbitrariamente)32 .
En un modelo Logit anidado a gran escala, el método de los dos pasos es

especialmente útil debido a la infactibilidad próxima de MLE. Otro mérito del
método de dos pasos es que produce estimadores consistentes que se pueden usar
para iniciar una iteración Newton- Raphson para calcular MLE, como lo hacen
Haussman y McFadden.
3.3.7. Modelo Probit Multinomial (MNP)

El Modelo Probit Multinomial (MNP) se obtiene de suponer una distribución
de probabilidad conjunta para el término de perturbación aleatoria Normal Multi-
variada con media cero y matriz de covarianza arbitraria33 .
En este sentido, el Modelo Probit Multinomial MNP permite considerar hetero-

cedasticidad y correlación entre los distintos términos del error. La posibilidad de
poder definir cualquier matriz de covarianzas otorga gran flexibilidad y le confiere al
Modelo Probit Multinomial MNP la capacidad para estudiar una gama más amplia
de comportamientos.
Una cuestión importante de este modelo es la dificultad a la hora de establecer

la función de verosimilitud debido a que no existe una expresión cerrada para la
probabilidad de elección de las alternativas. Para más de tres opciones, no es posible,
analı́ticamente, estimar el modelo y hay que solventar este problema empleando
procedimientos de simulación.
Los problemas observados en la estimación de modelos MNP derivaron en su

no utilización por muchos años, y también en la búsqueda de modelos flexibles que
fueran más fácilmente tratables desde el punto de vista computacional. Ası́ surgió el
Modelo Logit Mixto (ML).
32
La matriz de covarianza asintótica de estos elementos es dada por McFadden (1981)
33
(Daganzo, 1979)
El modelo probit supone que los errores siguen conjuntamente una distribución
normal. Esto es, (de acuerdo con el Teorema Central del Lı́mite), la distribución
resultante de la suma de una gran cantidad de componentes independientes no
observadas, por lo que parece un supuesto razonable para el término de error34 .
El modelo Probit permite un rango de comportamientos humanos mucho

más amplio del admitido por el MNL35 , al ser capaz de incluir correlaciones,
heterocedasticidades y variaciones en los gustos.
Su única limitación reside en la utilización de la distribución normal que, si bien

en la mayorı́a de las situaciones proporciona una representación adecuada de las
componentes aleatorias36 , puede ser inadecuada en ciertas situaciones, y conducir a
predicciones erróneas. Es el caso de coeficientes que únicamente tengan sentido que
posean un determinado signo.
Si se introduce la función de densidad de la distribución normal en la ecuación
Pni = P (ǫnj − ǫni ≤ Vni − Vnj ∀j 6= i)

Z
= I(ǫnj − ǫni ≤ Vni − Vnj ∀j 6= i)f (ǫn )dǫn
i
la integral resultante carece de expresión analı́tica, y debe ser resuelta por

simulación. Existen diversos procedimientos para resolver esta integral (integración
numérica, aproximación de Clark, etc.), el más empleado es el simulador GWK
(Geweke-Hajivassiliou-Keane), desarrollado a partir de los trabajos de estos autores:
Geweke (1989 y 1991), Hajivassiliou37 y Keane (1990, 1994). Este estimador permite
reducir la dimensión de la integral.
Varias experiencias han verificado su utilidad y relativa exactitud38 .
La dificultad relativa de esta integración ha provocado que el modelo probit

haya sido poco empleado en la práctica para la elección modal, a pesar de su
potencia39 . En los últimos años, los reseñados avances en la simulación, junto con el
34
(Ben-Akiva y Lerman, 1985: 129, Munizaga, 1997: 7)
35
Hausman y Wise, 1978
36
Train, 2003: 101
37
referenciado en Hajivassiliou y McFadden, 1998
38
Hajivassiliou, McFadden y Ruud, 1996; Börsh-Supan y Hajivassiliou, 1993. Puede encontrarse
una descripción de estos simuladores en Ortúzar (2000b: 150-157) o en Train (2003: 119-137)
39
Según Sørensen (2003: 30) se ha empleado en modelos de asignación cuando existen abundantes
superposiciones entre rutas
desarrollo de la informática, han soslayado parcialmente estos inconvenientes. Sin

embargo, la aparición del modelo Logit mixto ha relegado de nuevo al modelo probit.
La identificación del modelo probit es mucho más compleja que la del modelo
Logit multinomial, en el que las limitaciones impuestas a la matriz de covarianza
por la estructura del modelo eliminan ya numerosos parámetros.
En el modelo probit la matriz de covarianza es completa, y no todos sus

elementos van a poder ser estimados de forma independiente. Es necesario fijar
elementos en la matriz de covarianza de las diferencias entre utilidades40 .
Sea Uj , j = 0, 1, 2, · · · , m la utilidad estocástica asociada con la j-ésima

alternativa para un individuo particular. El Modelo Probit Multinomial, es el
modelo en el cual Uj se distribuyen conjunta y normalmente41 .
Este modelo raramente se ha usado en la práctica hasta hace poco, debido a

su dificultad computacional (excepto, por supuesto, cuando m = 1 en cuyo caso el
modelo se reduce a un modelo del probit binario que se discutió antes). Para ilustrar
la complejidad del problema, considere el caso de m = 2. Por tanto, para evaluar
P (y = 2), por ejemplo, se debe calcular la integral múltiple
P (y = 2) = P (U2 > U1 , U2 > U0 ) (3.3.52)

Z ∞ Z U2 Z U2
= f (U0 , U1 , U2 )dU0 dU1 dU2
−∞ −∞ −∞
donde f es una densidad normal trivariada. El cálculo directo de tal integral es

complicado incluso para el caso de m = 3. Además, 3.3.52 debe evaluarse en cada
paso de un método iterativo para maximizar la función de verosimilitud.
Haussman y Wise (1978) estimaron un modelo probit tricotonomo para explicar

la elección modal entre manejar el automóvil propio, tomar colectivo, y tomar un
autobús, para 557 obreros en Washington D.C.
Ellos evaluaron integrales de la forma (3.3.52) usando la expansión de series y
notaron que el método es factible para un modelo con más de cinco alternativas.
40
Walker, 2001: 34-35
41
Dicho modelo se propuso primero por Aitchison y Bennett (1970)
Capı́tulo 4
Aplicación
4.1. Introducción
La simulación es el método numérico más frecuentemente usado para la esti-
mación de Modelos de Elección Discreta desde [20], ası́ como en recientes estudios
y textos de [28]. El objetivo ahora es presentar el desarrollo de la aplicación pero
usando otro método de estimación, basado en el enfoque de Cuadratura Gaussiana
(Ver [7], [12]).
La fórmula de Cuadratura Gaussiana ha sido popularizada por ([7]) para la

estimación del componente de error del modelo panel probit. En ([6]) se resaltan
algunas dificultades numéricas y estadı́sticas al aplicarlos a modelos con efectos de
grupo. Con un número mediano o grande de individuos en un grupo, la función
de verosimilitud del modelo calculado por la fórmula de Cuadratura Gaussiana
puede ser numéricamente inestable, y peor aún, imposible de calcular. La inferencia
estadı́stica puede ser también insegura. Pero estas dificultades se pueden resolver
con un algoritmo cuidadosamente diseñado y la selección adecuada del número de
puntos de cuadratura. Sin embargo, con un número muy grande de individuos en
un grupo, la fórmula Cuadratura Gaussiana de la integral puede presentar grandes
errores de aproximación numérica.
4.2. Fuente de datos

4.2.1. Caso Estados Unidos
Estos primeros datos se toman del Panel Study Income Dinamics (PSID) para
el mercado laboral de los Estados Unidos. Consta de 19 variables sobre mujeres
blancas casadas en edades entre 30 y 60 años.
4.2 Fuente de datos 89
Como se expresa en la descripción detallada que se encuentra en su sitio Web, el

Panel Study Income Dinamics (PSID) [29]
“es un examen longitudinal de una muestra representativa de los

individuos estadounidenses (hombres, mujeres, y niños) y sus familias. Se
desarrolla desde 1968. Los datos se recogen anualmente, y los archivos
de datos contienen la total extensión de la información recogida en el
curso del estudio. Los datos del PSID se utilizan para análisis de sección-
cruzada, longitudinales e intergeneracionales, y para estudiar tanto a
individuos como a familias. El estudio acentúa los aspectos dinámicos
del comportamiento económico y demográfico, pero contiene una amplia
gama de medidas, incluyendo las sociológicas y psicológicas. Entre 1968
y 1988, el PSID recogió la información referente a casi 37.500 individuos
y cubren tanto como 21 años de sus vidas”.
El PSID proporciona una amplia variedad de información de la familia y a

nivel individual, ası́ como una cierta información sobre las localizaciones en las
cuales residen los hogares. El foco central de los datos es económico y demográfico,
con detalles sustanciales en orı́genes y cantidades de renta, empleo, cambios de la
composición de la familia, y localización residencial. El contenido de naturaleza más
sociológica o psicológica también se incluye en algunas partes del estudio.
A continuación se procede a presentar un caso de aplicación utilizando in-

formación tomada de la Base de Datos PSID. El archivo contiene datos sobre
la participación laboral de mujeres casadas. Se trata de información referente a
753 mujeres, de las cuales 428 reportan estar trabajando durante un determina-
do año. Los datos se agrupan por rango de edades, resultando en 11 grupos diferentes.
Aquı́ se plantea un modelo discreto de elección binaria con el cual se busca

explicar la probabilidad de que una mujer casada decida participar en el mercado
laboral. En este caso la variable dependiente inlf tomará el valor de 1 si la mujer
encuestada está trabajando y 0 en cualquier otro caso. Las variables explicativas de
la participación de la mujer en la fuerza laboral son:
educ Número de años de estudios.

exper Número de años de experiencia laboral.
exper2 La variable exper elevada al cuadrado.
ingresop Ingreso propio (en miles).
hijos6 Número de hijos menores de 6 años.
4.2 Fuente de datos 90
4.2.2. Caso Colombia

Los datos usados en esta parte del trabajo se toman de la Encuesta Continua de
Hogares realizada por el DANE pertenecientes al segundo trimestre del año 2005
referente al mercado laboral en las principales ciudades colombianas. Consta de
2929 registros de mujeres en edades entre 15 y 90 años.
La encuesta de Hogares es el sistema de recolección de datos que en nuestro

paı́s ha venido utilizando el DANE (Departamento Administrativo Nacional de
Estadı́stica) desde 1970 para obtener información de familias y hogares colombianos.
Desde 1976 se conoció como Encuesta Nacional de Hogares cubriendo las principales
ciudades (Bogotá, Medellı́n, Cali, Barranqulla, Bucaramanga, Pasto y Manizales)
y sus correspondientes áreas metropolitanas. La Encuesta Nacional de Hogares
presentaba limitaciones principalmente en la frecuencia trimestral y la rotación
de personal operativo que realizaba la captura de la información dificultando el
seguimiento de los hogares no informantes.
En el segundo trimestre de 2001 se dió paso a un nuevo sistema conocido

como Encuesta Continua de Hogares que se caracteriza por una mayor cobertura,
frecuencia en la recolección y presentación de datos (mensual en lugar de trimestral)
ası́ como cambios importantes en los conceptos que permiten la estimación de
la fuerza de trabajo. Se presenta ası́ una nueva caracterización en la definición
de ciertas variables que modifican los análisis macro y microeconométricos de los
indicadores del mercado laboral.
La Encuesta Continua de Hogares tiene como objetivo principal proporcionar

información básica acerca del tamaño y estructura de la fuerza de trabajo de la
población colombiana (empleo, desempleo e inactividad). Además, permite obtener
datos de variables adicionales como: sexo, edad, estado civil, educación, entre otras.
De manera similar al caso anterior, se plantea un modelo discreto de elección

binaria con el cual se busca explicar la probabilidad de que una mujer casada decida
participar en el mercado laboral nacional. En este caso la variable partic tomará el
valor de 1 si la mujer encuestada está trabajando y 0 en cualquier otro caso. Las
variables usadas para explicar la participación de la mujer en la fuerza laboral son:
educat Número de años de estudios.

exper Número de años de experiencia laboral.
exper2 La variable exper elevada al cuadrado.
ingresop Ingreso propio (en miles).
hijos6 Número de hijos menores de 6 años.
4.3 Metodologı́a 91
Para este caso, los datos se agruparon por ciudad, correspondientes con las
capitales de departamento objeto de estudio de la Encuesta Continua de Hogares
resultando 13 grupos diferentes.
4.3. Metodologı́a
4.3.1. Cuadratura Gaussiana
Considerando el siguiente modelo de elección binaria de componente aleatorio:
yij∗ = xij β + εij (4.3.1)
para grupos j = 1, . . . , J e individuos i = 1, . . . , Nj en el j-ésimo grupo, donde

x es un vector de variables exógenas. La perturbación en 4.3.1 se genera por un
componente de error
εij = uj + vij (4.3.2)
donde uj y vij son mutuamente independientes, uj son i.i.d. para todo j y vij son i.i.d.
para todo i y j. El signo de la variable latente y ∗ determina la variable dicotómica
observada I como I = 1 si y ∗ > 0 y 0 de otro modo. Sea F la función de distribución
condicional de ε condicional en u, y sea f la función de densidad de u. La función
de Log-Verosimilitud para el modelo es:
J
X
L= ln P rob I1j , · · · , INj ,j (4.3.3)
j=1
donde,
Z Nj
Y
∞
P rob I1j , · · · , INj ,j = f (uij ) [F (bij |uj ) − F (aij |uj )] duu
−∞ i=1
aij = −xij β y bij = ∞ si Ij = 1, y aij = −∞ y bij = −xij β si Iij = 0. Para un Modelo

Probit, tanto u como v se asumen normalmente distribuidas. Una normalización
tı́pica para el modelo Probit especifica una media cero y una varianza uno para la
disturbancia total ε. Sea ρ la correlación de individuos dentro de un grupo. Para
este modelo normalizado de componente aleatorio ρ es también la varianza de u. Por
tanto, uj es N (0, ρ) y v N (0, 1 − ρ). La función Log-Verosimilitud para este modelo
de componente de error Probit, puede ser escrito de manera más exacta, usando la
simetrı́a de una densidad normal como:
 " !# 
X J  Z ∞ Nj
Y 1 
1 −( 21 u2 ) xij β + ρ 2 u
L= ln e Φ Dij du (4.3.4)
 −∞ (2π) 21 (1 − ρ) 2
1

j=1 i=1
4.3 Metodologı́a 92
donde Φ es la función de distribución normal estándar, y D es un indicador de signo

tal que Dij = 1 si Iij = 1 y Dij = −1 en cualquier otro caso.
La probabilidad conjunta de respuesta individuales dentro de un grupo en (4.3.4)

involucra una integral simple, cuyo integrando es un producto de funciones de
probabilidad univariadas. En ([7]) demostraron que estas probabilidades conjuntas
podrı́an ser correctamente calculadas por la Cuadratura Gauss-Hermite. La
Cuadratura Gaussiana calcula la integral
Z ∞
2
e−z g(z)dz
−∞
usando la fórmula de integración:

Z ∞ M
X
−z 2
e g(z)dz = wm g(zm ) (4.3.5)
−∞ m=1
donde M es el número definido de puntos; las zs y las ws son las abscisas y los pesos
de los M puntos Gauss-Hermite. Si g en (4.3.5) es un polinomio de grado menor que
2M − 1, el cálculo de la integración de Gauss-Hermite es exacta.
La teorı́a se basa en Polinomios Ortogonales 1 . Las abscisas y los pesos están

disponibles de Stroud y Secrets (1966) y Abramowitz y Stegun (1964). Prest et al.
(1992) proporcionan programas de cómputo para generar las abscisas y los pesos con
un número especı́fico de puntos. Dados los puntos z y los pesos w Gauss-Hermite, la
verosimilitud en 4.3.4 puede ser evaluada por la fórmula Gauss-Hermite como:
 " !# 
XJ X M
1 YNj 1
xij β + (2ρ) 2 zm 
L= ln w Φ Dij du (4.3.6)
m=1 m (π) 21 1
(1 − ρ) 2 
j=1 i=1
En ([7]) muestran la utilidad de la Cuadratura Gaussiana con un ejemplo

de Datos Panel consistente de 1550 unidades muestrales con un máximo de 11
periodos para cada uno. Basados en la estabilidad de los estimados sugirieron que la
cuadratura de 2 o 4 puntos serı́an suficientes. El enfoque de Cuadratura Gaussiana
es computacionalmente eficiente comparado con otras técnicas de Cuadratura, tales
como la de integración trapezoidal 2 . Por tanto, el enfoque de Cuadratura Gaussiana
se usa muy frecuentemente en la literatura de la econometrı́a empı́rica.
1
ver por ejemplo Press et al., 1992, capı́tulo 4
2
Heckman y Willis, 1975
4.4 Resultados 93
4.3.2. Criterio
Como elemento central de la aplicación se calcula la función de verosimilitud del
modelo mediante el enfoque de Cuadratura Gaussiana y se investiga la validez de la
aplicabilidad de la técnica numérica. El principio es recalcular la estimación usando
dos números diferentes de puntos de cuadratura y comparar la log-verosimilitud y
los coeficientes entre el modelo original y los otros dos modelos estimados. Si el
cambio es menor que 0.01 % entonces la elección del punto de cuadratura no afecta
significativamente los resultados. Para un cambio mayor a 0.1 % se debe dudar del
enfoque de cuadratura para el modelo.
4.4. Resultados
4.4.1. Caso Estados Unidos
Los resultados de la ejecución de la estimación se presentan al final del trabajo,
más exactamente en el Apéndice B (Aplicación). En la Tabla 1 del mismo se
muestran los resultados producto de utilizar un procedimiento de cuadratura Gauss-
Hermite adaptativo, con 8 puntos, utilizando como grupos las edades. Observando
el test de Wald, las variables elegidas resultan ser conjuntamente significativas en
explicar la probabilidad de que una mujer casada participe en el mercado laboral.
Si observamos el estadı́stico de prueba z, todas resultan ser indidividualmente
significativas. Además de tener los signos adecuados.
Por ejemplo una mayor cantidad de niños menores de 6 años afecta negativamente
la probabilidad de que una mujer casada decida participar en el mercado laboral.
Es de resaltar el signo negativo del coeficiente asociado a exper2. Esto significa que
a medida que aumente la experiencia, la probabilidad de participar en el mercado
laboral aumenta (signo positivo de exper pero a una tasa decreciente). Igualmente
mayor número de años de estudios afecta positivamente la probabilidad de participar
en el mercado laboral, y una conclusión que parece también lógica y consistente con
la realidad, se observa que un factor que hace que las mujeres casadas tengan que
buscar trabajo es que el ingreso familiar no sea suficiente. Por tanto a mayor ingreso
familiar, menor probabilidad de que las mujeres casadas tengan que buscar trabajo.
Además:
lnsig2u Representa el logaritmo del efecto individual.

Sigma Muestra la desviación estándar del efecto individual.
rho Es el porcentaje de la varianza total explicado por el componente de varianza
al nivel del panel.
4.4 Resultados 94
Cuando rho es cero, el componente de varianza no es importante, y el estimador

panel no es diferente del estimador agrupado (estimador pooled). Para contrastar
esto se utiliza un test de razón de verosimilitudes, como se observa se puede rechazar
la hipótesis nula, y por consiguiente nuestra estimación es adecuada.
En la Tabla 2 se presentan los efectos marginales y la probabilidad que una mujer

con unas caracterı́sticas promedio participe en el mercado laboral de Estados Unidos.
Uno de los elementos claves que valida la utilización del procedimiento de

cuadratura es la estabilidad de los parámetros estimados mediante la utilización de
diferentes puntos de cuadratura. En esta parte del trabajo se estiman dos modelos
alternativos uno con 12 puntos y otro con 16 puntos, basados en la siguiente concepto:
si los coeficientes no cambian en mas que una diferencia relativa del 0,01 %, la
elección de los puntos de cuadratura no afecta significativamente el resultado, y
los resultados pueden ser interpretados con confianza; sin embargo si los resultados
cambian de manera apreciable con una diferencia relativa mayor o igual al 1 %,
el método de cuadratura será inestable y no conveniente. Los resultados de este
análisis de sensibilidad se presentan en la tabla 3 y 4 donde se puede observar que
las diferencias relativas son inferiores al 0,01 % por lo consiguiente el procedimiento
de cuadratura usado es estable y confiable.
4.4.2. Caso Colombia

En la Tabla 5 se presentan los resultados después de utilizar un procedimiento
de cuadratura Gauss-Hermite adaptativo, con 8 puntos, utilizando como grupos las
ciudades. Observando el test de Wald, las variables elegidas resultan ser conjunta-
mente significativas en explicar la probabilidad de que una mujer casada participe
en el mercado laboral. Si observamos el estadı́stico de prueba z, todas resultan ser
indidividualmente significativas. Además de tener los signos adecuados.
Por ejemplo, la variable hijos6, a mayor cantidad de niños menores de 6 años,la

probabilidad de que una mujer casada decida participar en el mercado laboral
se afecta negativamente. Es de resaltar el signo negativo del coeficiente asociado
a exper2. Esto quiere decir que en la medida que aumente la experiencia, la
probabilidad de participar en el mercado laboral aumenta (signo positivo de exper
pero a una tasa decreciente). Igualmente, la variable educ indica que a mayor
número de años de estudios la probabilidad de participar en el mercado laboral se
ve afectada positivamente y una conclusión que parece también lógica y consistente
con la realidad, se observa que una variable que hace que las mujeres casadas tengan
que buscar trabajo es que el ingreso familiar no sea suficiente. Por tanto a mayor
ingreso familiar, menor probabilidad de que las mujeres casadas tengan que buscar
4.4 Resultados 95
trabajo. También:
lnsig2u Representa el logaritmo del efecto individual.

Sigma Muestra la desviación estándar del efecto individual.
rho Es el porcentaje de la varianza total explicado por el componente de varianza
al nivel del panel.
Cuando rho = 0, el componente de varianza no es importante, y el estimador panel

no es diferente del estimador agrupado (estimador pooled). Para contrastar esto
se utiliza un test de razón de verosimilitudes, como se puede observar se puede
rechazar la hipótesis nula, y por consiguiente nuestra estimación es adecuada.
En la Tabla 6 del Apéndice B se presentan los efectos marginales y la probabi-

lidad de que una mujer con unas caracterı́sticas promedio participe en el mercado
laboral.
Uno de los elementos claves que valida la utilización del procedimiento de

cuadratura es la estabilidad de los parámetros estimados mediante la utilización de
diferentes puntos de cuadratura. En esta parte del presente trabajo se estiman dos
modelos alternativos uno con 8 puntos y otro con 12 puntos, la idea anterior aún se
mantiene. Los resultados de este análisis de sensibilidad se presentan en la tabla 7 y
8, obsérvese que las diferencias relativas son inferiores al 0,01 % por lo consiguiente
el procedimiento de cuadratura es también estable y confiable.
A manera de conclusión, se puede enunciar que los resultados de la aplicación

son consistentes con estudios teóricos similares, (Ver [14]) además se presenta en la
siguiente tabla la comparación de algunos parámetros estimados para la regresión
probit tanto para el caso de Estados Unidos como para Colombia:
Comparativo EE.UU. Colombia

ingresop -.0140223 -5.71e-08
exper .1216683 .0368012
hijos6 -.7917483 -.0262662
educat .056473 .0136696
Log verosimilit. -415.6071 -1807.4794
P(partic) (predict) 0.5778022 0.5445877
Como se puede apreciar, los signos de los coeficientes se mantienen en los dos
casos y la probabilidad que una mujer casada y con unas caracterı́sticas promedio,
participe en el mercado laboral son aproximadamente iguales para los dos paı́ses:
0.5778 y 0.5446 para Estados Unidos y Colombia respectivamente.
Apéndice A
Función de Verosimilitud
A.1. Condiciones de regularidad

1. xi , i = 1, . . . , n, i.i.d. ∼ f (xi ; θ0 ).
′
2. Si θ 6= θ0 ⇒ f (xi µ) 6= f (xi ; θ0 ).
3. θ ∈ Θ, Θ es compacto.
4. ln f (xi ; θ) continua para cada θ ∈ Θ con probabilidad uno.
5. E [supθ |ln f (x; θ)|] < ∞.
6. θ0 es un punto interior de Θ.
7. f (x; θ) es dos veces diferenciable y estrictamente positiva en un entorno de θ0 .

R R
8. supθ ∇θ f (x; θ)dx < ∞ y supθ ∇θθ f (x; θ)dx < ∞
′
9. I(θ0 , x) ≡ E(s(θ0 , x)s(θ0 , x) ) existe y es no-singular.
10. E [supθ kH(x; θ)k] < ∞.
Las condiciones 1. a 5. son necesarias para consistencia, el resto también hace falta
para normalidad asintótica. Ver [23] para mas detalles.
Apéndice B
Aplicación
B.1. Caso EE.UU.

TABLA 1
Regresion probit efectos aleat. Numero de obs = 753

Variable grupo (i): grupo Numero de grupos = 11
Efectos aleat u_i ~ Gaussiano Obs por grupo: min = 6

prom = 68.5
max = 105
Chi2 Wald(5) = 158.66
Log verosimilit. = -415.6071 Prob > chi2 = 0.0000
------------------------------------------------------------------------------
inlf | Coef. Err. Std. z P>|z| [95% Interval Conf.]
-------------+----------------------------------------------------------------
ingresop | -.0140223 .0048943 -2.87 0.004 -.0236149 -.0044298
exper | .1216683 .0188973 6.44 0.000 .0846302 .1587063
exper2 | -.0020395 .0006166 -3.31 0.001 -.003248 -.000831
hijos6 | -.7917483 .1206739 -6.56 0.000 -1.028265 -.5552319
educ | .1326852 .0252501 5.25 0.000 .083196 .1821744
_cons | -1.99356 .3317149 -6.01 0.000 -2.643709 -1.34341
-------------+----------------------------------------------------------------
/lnsig2u | -1.726882 .606595 -2.915786 -.5379772
-------------+----------------------------------------------------------------
Sigma | .4217086 .1279032 .2327261 .764152
rho | .1509869 .0777593 .0513787 .3686583
------------------------------------------------------------------------------
Test razon-verosiml. de rho=0: chibar2(01) = 23.30 Prob >= chibar2 = 0.000
B.1 Caso EE.UU. 98
TABLA 2
Probabilidad que una mujer casada con unas caracterı́sticas promedio, participe
en el mercado laboral es: 0.57780221
------------------------------------------------------------------------------
variable | dy/dx Err. Std. z P>|z| [ 95% I.C. ] X
---------+--------------------------------------------------------------------
ingresop | -.0067914 .00186 -3.66 0.000 -.010428 -.003155 20.129
exper | .0466689 .00712 6.55 0.000 .032708 .060629 10.6308
exper2 | -.0009576 .00023 -4.14 0.000 -.001411 -.000504 178.039
hijos6 | -.2094332 .04033 -5.19 0.000 -.288478 -.130388 .237716
educ | .056473 .00958 5.90 0.000 .037702 .075244 12.2869
------------------------------------------------------------------------------
TABLA 3
Reajuste del modelo intpoints() = 12
Iteracion 0: log likelihood = -415.60604

Iteracion 1: log likelihood = -415.60602

Variable Grupo(i): grupo Numero de grupos = 11
Efectos Aleat. u_i ~ Gaussiano Obs por grupo: min = 6

prom = 68.5
max = 105
Chi2 Wald(5) = 158.11
Log verosimlit. = -415.60602 Prob > chi2 = 0.0000
------------------------------------------------------------------------------
inlf | Coef. Err. Std. z P>|z| [95% Interval Conf.]
-------------+----------------------------------------------------------------
ingresop | -.0140176 .0048962 -2.86 0.004 -.023614 -.0044212
exper | .1216736 .0188992 6.44 0.000 .0846319 .1587153
exper2 | -.0020391 .0006167 -3.31 0.001 -.0032479 -.0008303
hijos6 | -.7920814 .1210485 -6.54 0.000 -1.029332 -.5548307
educ | .1326736 .025253 5.25 0.000 .0831786 .1821686
_cons | -1.994287 .3324886 -6.00 0.000 -2.645953 -1.342621
-------------+----------------------------------------------------------------
/lnsig2u | -1.724547 .6102672 -2.920649 -.5284452
-------------+----------------------------------------------------------------
sigma_u | .4222011 .1288278 .232161 .7678026
rho | .1512864 .0783576 .0511422 .3708796
------------------------------------------------------------------------------
B.1 Caso EE.UU. 99
Iteracion 0: log verosimil. = -415.60604

Iteracion 1: log verosimil. = -415.60602

Variable Grupo(i): grupo Numero de grupos = 11
Efectos Aleat. u_i ~ Gausiano Obs por grupo: min = 6

prom = 68.5
max = 105
Chi2 Wald(5) = 158.11
------------------------------------------------------------------------------
inlf | Coef. Err.Std. z P>|z| [95% Interval Conf.]
-------------+----------------------------------------------------------------
ingresop | -.0140176 .0048962 -2.86 0.004 -.023614 -.0044212
exper | .1216736 .0188992 6.44 0.000 .0846319 .1587153
exper2 | -.0020391 .0006167 -3.31 0.001 -.0032479 -.0008303
hijos6 | -.7920814 .1210485 -6.54 0.000 -1.029332 -.5548307
educ | .1326736 .025253 5.25 0.000 .0831786 .1821686
_cons | -1.994287 .3324886 -6.00 0.000 -2.645953 -1.342621
-------------+----------------------------------------------------------------
/lnsig2u | -1.724547 .6102672 -2.920649 -.5284452
-------------+----------------------------------------------------------------
sigma_u | .4222011 .1288278 .232161 .7678026
rho | .1512864 .0783576 .0511422 .3708796
------------------------------------------------------------------------------
TABLA 4
Chequeo de Cuadratura
Cuadratura Cuadratura Cuadratura

ajustada comparada comparada
8 puntos 12 puntos 16 puntos
-----------------------------------------------------
Log -415.6071 -415.60602 -415.60602
verosimilit .00108309 .00108309 Diferencia
-2.606e-06 -2.606e-06 Diferencia relativa
-----------------------------------------------------
inlf: -.01402233 -.0140176 -.0140176
ingresop 4.732e-06 4.732e-06 Diferencia
B.1 Caso EE.UU. 100
-.00033746 -.00033746 Diferencia relativa

-----------------------------------------------------
inlf: .12166826 .12167357 .12167357
exper 5.312e-06 5.312e-06 Diferencia
.00004366 .00004366 Diferencia relativa
-----------------------------------------------------
inlf: -.00203948 -.00203912 -.00203912
exper2 3.568e-07 3.568e-07 Diferencia
-----------------------------------------------------
inlf: -.79174834 -.79208144 -.79208144
hijos6 -.0003331 -.0003331 Diferencia
-----------------------------------------------------
inlf: .13268519 .1326736 .1326736
educ -.00001159 -.00001159 Diferencia
-----------------------------------------------------
inlf: -1.9935596 -1.9942868 -1.9942868
_cons -.00072723 -.00072723 Diferencia
-----------------------------------------------------
lnsig2u: -1.7268816 -1.7245469 -1.7245469
_cons .00233467 .00233467 Diferencia
-----------------------------------------------------
B.2 Caso Colombia 101
B.2. Caso Colombia

TABLA 5

Variable Grupo(i): codig Numero de grupos = 13
Efectos aleat u_i ~ Gaussiano Obs por grupo: min = 178

prom = 225.2
max = 286
Chi2 Wald(5) = 277.24

------------------------------------------------------------------------------
partic | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ingreso | -5.71e-08 1.97e-08 -2.90 0.004 -9.57e-08 -1.85e-08
exper | .0368012 .006254 5.88 0.000 .0245436 .0490588
exper2 | -.0008962 .0000984 -9.11 0.000 -.001089 -.0007033
hijos6 | -.0427552 .0318552 -1.34 0.180 -.1051903 .0196799
educat | .0375077 .006714 5.59 0.000 .0243484 .050667
_cons | -.2420671 .1455181 -1.66 0.096 -.5272773 .0431431
-------------+----------------------------------------------------------------
/lnsig2u | -2.855496 .4450994 -3.727875 -1.983117
-------------+----------------------------------------------------------------
sigma_u | .2398484 .0533782 .1550609 .370998
rho | .0543979 .0228954 .0234793 .1209869
------------------------------------------------------------------------------
Prueba razon-verosimiltud de rho=0: chibar2(01) = 72.59 Prob >= chibar2 = 0.000
TABLA 6
y = Pr(partic) (predict) = Probabilidad que una mujer casada con unas

caracterı́sticas promedio, participe en el mercado laboral es: 0.54458778
------------------------------------------------------------------------------
variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X
---------+--------------------------------------------------------------------
ingreso | -2.43e-08 .00000 -3.17 0.002 -3.9e-08 -9.3e-09 959835
exper | .0135194 .00245 5.51 0.000 .008711 .018328 26.8801
exper2 | -.0003399 .00004 -8.76 0.000 -.000416 -.000264 973.871
hijos6 | -.0262662 .01236 -2.13 0.034 -.050491 -.002041 .587773
educat | .0136696 .00261 5.24 0.000 .00856 .018779 8.98429
------------------------------------------------------------------------------
TABLA 7
Iteracion 0: log verosimilit. = -1807.4794

Iteracion 1: log verosimilit. = -1807.4794

Variable Grupo (i): codig Numero de grupos = 13
Efectos aleat. u_i ~ Gaussian Obs por grupo: min = 178

prom = 225.2
max = 286
Wald chi2(5) = 277.24
Log versoimilit = -1807.4794 Prob > chi2 = 0.0000
------------------------------------------------------------------------------
-------------+----------------------------------------------------------------
ingreso | -5.71e-08 1.97e-08 -2.90 0.004 -9.57e-08 -1.85e-08
exper | .0368011 .006254 5.88 0.000 .0245435 .0490588
exper2 | -.0008962 .0000984 -9.11 0.000 -.001089 -.0007033
hijos6 | -.0427553 .0318552 -1.34 0.180 -.1051904 .0196798
educat | .0375077 .006714 5.59 0.000 .0243484 .050667
_cons | -.2420475 .1455354 -1.66 0.096 -.5272916 .0431966
-------------+----------------------------------------------------------------
/lnsig2u | -2.855496 .4450975 -3.727871 -1.983121
-------------+----------------------------------------------------------------
sigma_u | .2398485 .053378 .1550612 .3709974
rho | .0543979 .0228953 .0234794 .1209866
------------------------------------------------------------------------------
Iteracion 0: log verosimilit = -1807.4794

Iteracion 1: log verosimilit = -1807.4794
Regresion probit efectos aleat. Numero de obs. = 2928

Variable grupo(i): codig Number of groups = 13
Efectos Aleator u_i ~ Gaussian Obs por grupo: min = 178

prom = 225.2
max = 286
Wald chi2(5) = 277.24

Log versosimilit = -1807.4794 Prob > chi2 = 0.0000
------------------------------------------------------------------------------
-------------+----------------------------------------------------------------
ingreso | -5.71e-08 1.97e-08 -2.90 0.004 -9.57e-08 -1.85e-08
exper | .0368011 .006254 5.88 0.000 .0245435 .0490588
exper2 | -.0008962 .0000984 -9.11 0.000 -.001089 -.0007033
hijos6 | -.0427553 .0318552 -1.34 0.180 -.1051904 .0196798
educat | .0375077 .006714 5.59 0.000 .0243484 .050667
_cons | -.2420475 .1455354 -1.66 0.096 -.5272916 .0431966
-------------+----------------------------------------------------------------
/lnsig2u | -2.855496 .4450975 -3.727871 -1.983121
-------------+----------------------------------------------------------------
sigma_u | .2398485 .053378 .1550612 .3709974
rho | .0543979 .0228953 .0234794 .1209866
------------------------------------------------------------------------------
TABLA 8
Chequeo de Cuadratura
Cuadratura Cuadratura Cuadratura
ajustada comparada comparada
4 puntos 8 puntos 12 puntos
-----------------------------------------------------
Log -1807.4794 -1807.4794 -1807.4794
verosimilit. .00001241 .00001241 Diferencia
-----------------------------------------------------
partic: -5.712e-08 -5.712e-08 -5.712e-08
ingreso -1.822e-14 -1.822e-14 Diferencia
3.190e-07 3.190e-07 Diferencia relativa
-----------------------------------------------------
partic: .03680117 .03680115 .03680115
exper -2.516e-08 -2.516e-08 Diferencia
-----------------------------------------------------
partic: -.00089616 -.00089616 -.00089616
exper2 1.630e-10 1.630e-10 Diferencia
-----------------------------------------------------
partic: -.04275517 -.0427553 -.0427553
hijos6 -1.300e-07 -1.300e-07 Diferencia
3.041e-06 3.041e-06 Diferencia relativa

-----------------------------------------------------
partic: .03750771 .03750771 .03750771
educat -5.370e-09 -5.370e-09 Diferencia
-----------------------------------------------------
partic: -.24206709 -.24204749 -.24204749
_cons .0000196 .0000196 Diferencia
-----------------------------------------------------
lnsig2u: -2.8554961 -2.8554958 -2.8554958
_cons 2.661e-07 2.662e-07 Diferencia
-----------------------------------------------------
Bibliografı́a
[1] Amemiya, T. (1981) “Qualitative Response Models: A Survey,” Journal of Econome-

trics Literature, 19, 4, pp. 481-536.
[2] Amemiya, T. (1985) Advanced Econometrics Harvard University Press : Cambridge,

Massachusetts..
[3] Batley, R.P.; Daly, A.J. (2004) “Departure time choice under uncertainty: a model of
random utility maximisation for wagers” European Transport Conference, Strasbourg.
[4] M. Ben Akiva, S. Lerman, (1985) “Discrete Choice Analysis: Theory and application
to Travel Demand”, MIT Press, Cambridge, Mass .
[5] Blayac, T. y Causse, A. (2001) “Value of travel time: a theoretical legitimization

of some nonlinear representative utility in discrete choice models,” Transportation
Research, Vol.35B.
[6] Borjas y Sueyoshi. (1994). Journal of Econometrics, vol. 64, pp. 164-182
[7] Butler, J.S., y Moffitt, R. (1982) “A computationally efficient quadrature procedure

for the one-factor multinomial factor,” Econometrica, 50, 761-764.
[8] Cabrer Borrás, C;. Sancho Pérez, A; Serrano Domingo, G. (2001) Microeconometria
y Decisión. Ed. Pirámide.
[9] Domenich, T., y McFadden, D.L. (1975) “Urban Travel Demand: A Behavioral
Analysis.” North Holland Publishing Co.
[10] Foerster, J. F. (1979). “Mode choice decision process models: a comparison of

compensatory and non-compensatory structures”. Transportation Research, 13A:17-
28.
[11] Geweke, J; Keune, and Runkle, D,. (1994) “Alternative computational aproaches to
inference in the multinomial probit model” Review of Econometrics and Statistics.
76, 609-632.
[12] Geweke, K,. (1996) “Monte Carlo simulation and numerical integration.” Handbook
of Computational Economics. 731-800, Elsevier Science, Amsterdam.
Bibliografı́a 106
[13] Green W. H., (2002) Econometric Analysis. Prentice Hall; 5th edition.
[14] Lee, L-f. (2000) “A numerically stable quadrature procedure for the one-factor
random-component discrete choice model,” Journal of Econometrics, Volume 95,
Number 1, March 2000 , pp. 117-129(13).
[15] Maddala. G. S,. (2001) Introduction to Econometrics. Wiley, 3rd edition.
[16] Maddala. G. S,. (1983) “Limited Dependant and Qualitative variables in Econome-
trics” Introduction to Econometrics. Cambridge University Press, New York.
[17] Manski, C. (1977) The structure of random utility models. Theory and Decision 8.
229-254.
[18] Manski. Ch;. McFadden D., (1981). “Alternative Estimators and Sample Design for
Discrete Choice Analysis” Structural Analyisis of Discrete data with Econometrics
Aplication. MIT Press, Cambridge, 2-30.
[19] McFadden, D.(1974). “Conditional Logit Analysis of Qualitative Choice Behavior.”

Frontiers in Econometrics. Academic Press. 105-142.
[20] McFadden, D.(1984). “Econometric Analysis of Qualitative Response Models.”

Handbook of Econometrics. Vol 2 Amsterdam.
[21] McFadden, D.(1987). “Regresion based Especification Test for the Multinomial Logit
Model.” Journal of Econometrics. 34. 63-82.
[22] McFadden, D.(2000). “Economic Choices.” Prize Lecture. December 8, 2000. 330-365.
[23] Newey, Whitney, and Daniel McFadden (1994) Handbook of Econometrics, Volume 4,
North Holland.
[24] Ortúzar, J. de D. y L. G. Willumsen (2001) Modelling Transport Third Edition, John

Wiley and Sons, Ltd., West Sussex, England.
[25] Rouwendal, J. and Blaeij, A.T. de (2004). “Inconsistent and lexicographic choices
in stated preference analysis.” Tinbergen Institute Discussion Paper, Tinbergen
Institute, Amsterdam TI 2004-038/3.
[26] Sælensminde, K. (2002). The impact of choice inconsistencies in stated choice studies
Environmental and Resource Economics, vol. 23, pp. 403-420
[27] Tversky, A. (1972). “Elimination by aspects: a theory of choice”, Psychological review,

79, pp.281-299.
[28] Train, K. (2003). Discrete Choice Methods with Simulation Cambridge University
Press, p. 19.
Bibliografı́a 107
[29] PSID Web-Site: http://psidonline.isr.umich.edu/
[30] Zuluaga Dı́az F. (2005) Econometrı́a de Datos de Panel: Revisión y una Aplicación.
Tesis de Maestrı́a, Departamento de Ciencias Básicas, Universidad EAFIT, Medellı́n,
Col. 111 pp.

Modelos de Eleccion Discreta: Revisi On y Aplicaci On Mediante Cuadratura Gaussiana

Cargado por

Copyright:

Formatos disponibles

Modelos de Eleccion Discreta: Revisi On y Aplicaci On Mediante Cuadratura Gaussiana

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Modelos de Eleccion Discreta: Revisi On y Aplicaci On Mediante Cuadratura Gaussiana

Cargado por

Copyright:

Formatos disponibles

View metadata, citation and similar papers at core.ac.

uk brought to you by CORE

MODELOS DE ELECCION DISCRETA

Tesis presentada por

Elio Fabio Sánchez Trujillo

para optar al tı́tulo de

Departamento de Ciencias Básicas

Medellı́n, Sept. de 2008

Douglas Gómez Cabrera.

Tuve la fortuna de conocer durante las jornadas académicas de esta Maestrı́a a

Elio Fabio Sánchez Trujillo.

2. Modelos de Elección Binaria 17

3. Modelos de Respuesta Múltiple 52

3.3.2. Modelos de Respuesta Múltiple Ordenado . . . . . . . . . . . 64

El presente trabajo titulado MODELOS DE ELECCION DISCRETA

Palabras Claves: Elección Discreta, Logit, Probit, Estimador de Máxima

This work titled MODELOS DE ELECCION DISCRETA Revisión

Keywords: Discret Choice, Logit, Probit, Maximum Likelihood Estimator,

La Economı́a como ciencia social preocupada por el estudio de la optimización

La Econometrı́a usa herramientas de la Matemática y la Estadı́stica para

A su vez, la Microeconometrı́a nace por la necesidad de brindar una interpre-

Dado que lo que se intenta representar es el comportamiento del individuo, y

Los Modelos de Elección Discreta se clasifican de acuerdo al número de alter-

El presente documento titulado MODELOS DE ELECCION DISCRETA

1.1. Definiciones Básicas

Sea Ω un espacio muestral abstracto, se define la colección A de subconjuntos de

Definición 1. La colección A de subconjuntos de Ω se llama un σ-álgebra si satisface

E ∈ A ⇒ E ∈ A. (E se refiere al complemento de E con respecto a Ω.)

Definición 2. Una medida de probabilidad, denotada por P (·), es un conjunto

Si {Ej } es una colección contable de conjuntos disyuntos en A, entonces

Definición 3. Espacio de probabilidad Dado un espacio muestral Ω, una σ-

Por otro lado, suponiendo X = ci con probabilidad pi , i = 1, 2, · · · , K y tomando

A continuación se definen cuatro tipos de convergencia para una sucesión de

Definición 6. Convergencia en probabilidad Una sucesión de variables

para cualquier ǫ > 0 También se escribe como:

Definición 7. Convergencia en cuadrados medios Una sucesión {Xn } se dice

lim E(Xn − X)2 = 0.

También se escribe como:

Definición 8. Convergencia en distribución Una sucesión {Xn } se dice que

y F se llama la distribución lı́mite de {Xn }. Si {Xn } y {Yn } tienen la misma

también se escribe como:

Por consiguiente, de las definiciones (7) y (8) se obtiene que:

La desigualdad (1.1.8) se llama la Desigualdad de Chebyshev. Modificando

Obsérvese que la declaración

Teorema 14. Si Xn y X son K-vectores de variables aleatorias y si g(·) es una

Relaciones entre lim E, AE y plim Sea Fn la función de distribución de Xn

O dicho de otra forma, AE que se lee esperanza asintótica o media asintótica, es la

Definición 20. Sea gT (θ) una sucesión no negativa de variables aleatorias

1. P [ lim sup gT (θ) = 0] = 1,

2. lim P [sup gT (θ) < ǫ] = 1 para algún ǫ > 0,

3. lim ı́nf P [gT (θ) < ǫ] = 1 para algún ǫ > 0.

Si se cumple 1.), se dice que gT (θ) converge a 0 uniformemente de manera casi

Teorema 21. Sean los supuestos:

1. El espacio de parámetro Θ es un subconjunto compacto del K-espacio

2. QT (y, θ) es continua en θ ∈ Θ para todo y y es una función medible de y para

3. T −1 QT (θ) converge a una función no estocástica Q(θ) uniformemente en

θ̂T se define como un valor que satisface:

QT (θ̂T ) = máx QT (θ)

Teorema 22. Sean los supuestos: