Modelos de Eleccion Discreta: Revisi On y Aplicaci On Mediante Cuadratura Gaussiana

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 114

View metadata, citation and similar papers at core.ac.

uk brought to you by CORE


provided by Repositorio Institucional Universidad EAFIT

MODELOS DE ELECCION DISCRETA


Revisión y aplicación mediante cuadratura gaussiana

Tesis presentada por

Elio Fabio Sánchez Trujillo


Douglas Gómez Cabrera

para optar al tı́tulo de


Magı́ster en Matemáticas Aplicadas

Director
Francisco Iván Zuluaga Dı́az
Magı́ster Matemáticas Aplicadas

Departamento de Ciencias Básicas


Universidad Eafit
Medellı́n
2008
Nota de aceptación

Jairo Villegas G.
Coordinador de la Maestrı́a

Francisco Zuluaga D.
Director del trabajo

Medellı́n, Sept. de 2008

ii
Agradecemos a nuestro Director Francisco Iván Zuluaga Dı́az, Magı́ster en
Matemáticas Aplicadas, por su dedicación y paciencia, sugerencias y apoyo constante
durante este trabajo. Sin su fundamental colaboración este proyecto no hubiese sido
posible.

iii
Existen muchas personas que incidieron de una u otra manera para que este
proceso de cualificación a nivel de Maestrı́a lo pudiera culminar con éxito. Agradezco
de manera especial al amigo y profesor Jairo Villegas, Coordinador de la Maestrı́a,
como también a los profesores Gustavo Mejı́a y Mauro Montealegre.
A la Universidad Eafit, a la Universidad de la Amazonia, que con su inicativa y
apoyo nos permitió cualificarnos a este nivel de conocimiento.
A mi esposa, Graciela, a mis hijas, Karina, Danna y Mellissa, que sin su apoyo,
comprensión, Cariño, amor y acompañamiento no hubiera sido posible terminar este
proceso, a ellas que son una bendición de Dios, todo mi amor.

Douglas Gómez Cabrera.


Florencia, Caquetá
Septiembre, 2008

Tuve la fortuna de conocer durante las jornadas académicas de esta Maestrı́a a


mucha gente brillante y colaboradora como nadie, es allı́ donde siempre habrá un
deuda de gratitud con un gran maestro como es Jairo Villegas. Debo mencionar a
docentes como Gustavo Mejı́a y Mauro Montealegre, pues su apoyo y colaboración
me comprometieron a concluir esta tarea.
A la Universidad de la Amazonia, que con su apoyo nos permitió cualificarnos
a este nuevo nivel para seguir trabajando por el progreso y desarrollo de nuestra
región.
Por supuesto, mantengo una deuda infinita con mi esposa, Carmen Rossy, y mis
hijos, Fabio Andrés y Juan José, a quienes les robé muchos dı́as y noches para concluir
este sueño. Ellos son mi Fuerza, mi Luz, mi Amor y mi Razón.
A Dios y a mi Padre en el seno celestial. A mi Madre, a quien debo Todo, desde
el comienzo. (En el más amplio sentido de la palabra.)

Elio Fabio Sánchez Trujillo.


Florencia, Caquetá
Septiembre, 2008
Índice general

Introducción 1

1. Fundamentos 3
1.1. Definiciones Básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3. Normalidad Asintótica . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2. Modelos de Elección Binaria 17


2.1. Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.2. El Proceso de Elección . . . . . . . . . . . . . . . . . . . . . . 24
2.1.3. Teorı́a de la Utilidad Aleatoria . . . . . . . . . . . . . . . . . . 25
2.1.4. Maximización de la Utilidad Aleatoria (RUM) . . . . . . . . . 29
2.2. Especificación del modelo . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3. Estimación para modelos de elección binaria . . . . . . . . . . . . . . 33
2.3.1. Consistencia y normalidad asintótica del Estimador de Máxi-
ma Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.2. Métodos Iterativos para obtener el Estimador de Máxima
Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.3.3. Método del Mı́nimo Chi-cuadrado de Berkson . . . . . . . . . 39
2.3.4. Comparación entre el Estimador de Máxima Verosimilitud y
el Estimador Chi-cuadrado Mı́nimo . . . . . . . . . . . . . . . 44
2.4. Prueba de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.5. Análisis Discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.6. Predicción Agregada . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3. Modelos de Respuesta Múltiple 52


3.1. Inferencia Estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2. Análisis Discriminante Multinomial (DA) . . . . . . . . . . . . . . . . 60
3.3. Principales Modelos de Respuesta Múltiple . . . . . . . . . . . . . . . 61
3.3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

v
Índice General vi

3.3.2. Modelos de Respuesta Múltiple Ordenado . . . . . . . . . . . 64


3.3.3. Modelos de Respuesta Múltiple No Ordenados . . . . . . . . . 69
3.3.4. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.3.5. Modelo Logit Multinomial . . . . . . . . . . . . . . . . . . . . 71
3.3.6. Modelo Logit Jerárquico o Anidado (NL) . . . . . . . . . . . . 77
3.3.7. Modelo Probit Multinomial (MNP) . . . . . . . . . . . . . . . 85

4. Aplicación 88
4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.2. Fuente de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.2.1. Caso Estados Unidos . . . . . . . . . . . . . . . . . . . . . . . 88
4.2.2. Caso Colombia . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.3. Metodologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.3.1. Cuadratura Gaussiana . . . . . . . . . . . . . . . . . . . . . . 91
4.3.2. Criterio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.4.1. Caso Estados Unidos . . . . . . . . . . . . . . . . . . . . . . . 93
4.4.2. Caso Colombia . . . . . . . . . . . . . . . . . . . . . . . . . . 94

A. Función de Verosimilitud 96
A.1. Condiciones de regularidad . . . . . . . . . . . . . . . . . . . . . . . . 96

B. Aplicación 97
B.1. Caso EE.UU. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
B.2. Caso Colombia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

Bibliografı́a 105
Resumen

El presente trabajo titulado MODELOS DE ELECCION DISCRETA


Revisión y aplicación mediante cuadratura gaussiana recoge los fundamen-
tos caracterı́sticos de estos modelos de gran uso en Microeconometrı́a. Se describen
las caracterı́sticas de los Modelos de Elección Binaria y de los Modelos de Elección
Múltiple o Multinomiales. Por último, se presenta una aplicación práctica de la
dinámica laboral de mujeres casadas en Estados Unidos y en Colombia usando
Cuadratura Gaussiana. Los modelos estimados son altamente significativos en sus
parámetros y el procedimiento de cuadratura gaussiana es estable y confiable.

Palabras Claves: Elección Discreta, Logit, Probit, Estimador de Máxima


Verosimilitud, Cuadratura Gaussiana.

This work titled MODELOS DE ELECCION DISCRETA Revisión


y aplicación mediante cuadratura gaussiana gathers the characteristic
foundations of this models which are useful in Microeconometrics. Characteristics
of Binary Choice and Multinomial Choice Models are described. Lastly, a practical
application about labor dynamic of married women, both, in United States and
Colombia using Gaussian Quadrature is presented. Estimated models are highly
significant in their parameters and the procedure of Gaussian Quadrature is stable
and reliable.

Keywords: Discret Choice, Logit, Probit, Maximum Likelihood Estimator,


Gaussian Quadrature.
Introducción

La Economı́a como ciencia social preocupada por el estudio de la optimización


que hacen los agentes de los recursos escasos, está sujeta a los permanentes procesos
de decisión que se presentan en la vida cotidiana tanto a nivel microeconómico como
macroeconómico.

La Econometrı́a usa herramientas de la Matemática y la Estadı́stica para


estudiar planteamientos económicos. En un sentido amplio, usa métodos estadı́sticos
aplicados al análisis económico asumiendo datos agregados y conclusiones generali-
zadas sobre el comportamiento de las personas y/o firmas. Sin embargo una de las
tareas más importantes en el estudio del comportamiento de los agentes económicos
es buscar herramientas que permitan cuantificar el problema de una forma objetiva
y racional. ([2],[13])

A su vez, la Microeconometrı́a nace por la necesidad de brindar una interpre-


tación económica de las pautas del comportamiento de los agentes económicos o
individuos, ası́ como la posibilidad de contrastar estadı́sticamente las hipótesis
efectuadas([15]). Desarrolla todo un conjunto de modelos, métodos y técnicas para
el estudio de los recursos escasos dentro de las familias y empresas, y de cómo se
emplean estos recursos en el ámbito de la toma de decisiones racionales de los agentes
individuales. También facilita la tarea de identificar las caracterı́sticas o factores que
provocan un comportamiento diferente de los individuos ante los procesos de decisión.

Dado que lo que se intenta representar es el comportamiento del individuo, y


éste se plasma en las decisiones que toma, los Modelos de Elección Discreta se han
revelado como una de las herramientas más útiles y extendidas. Estos modelos,
basados en la teorı́a de la maximización de la utilidad aleatoria, se han desarrollado
entre la Econometrı́a y la Ingenierı́a del Transporte, que constituye una de sus
principales aplicaciones. Los Modelos de Elección Discreta permiten la modelación
de variables cualitativas, mediante el uso de técnicas propias de las variables
discretas. Una variable es discreta cuando está formada por un número finito de
alternativas que miden cualidades. Esta caracterı́stica exige la codificación como
Introducción 2

paso previo a la modelación, proceso por el cual las alternativas de las variables se
transforman en códigos o valores cuánticos, susceptibles de ser modelados utilizando
técnicas econométricas.

Los Modelos de Elección Discreta se clasifican de acuerdo al número de alter-


nativas incluidas en la variable endógena. Se distinguen los modelos de respuesta
dicotómica frente a los denominados modelos de respuesta multinomial o elección
múltiple. Según la función utilizada para la estimación de la probabilidad se habla
de Modelo Logit o Modelo Probit. Si las alternativas de la variable endógena
son excluyentes o incorporan información ordinal se habla de Modelos con datos
no ordenados y Modelos con datos ordenados. Dentro de los primeros, según los
regresores se refieran a aspectos especı́ficos de la muestra o de las alternativas
entre las que se ha de elegir, se distingue entre los modelos multinomiales y los
condicionales.

El presente documento titulado MODELOS DE ELECCION DISCRETA


Revisión y aplicación mediante cuadratura gaussiana, recoge los funda-
mentos caracterı́sticos de estos modelos. En el primer capı́tulo se fijan los elementos
conceptuales esenciales y se presentan definiciones y fundamentos básicos de la teorı́a.
El segundo capı́tulo se centra en caracterı́sticas de los Modelos de Respuesta Binaria.
En el tercer capı́tulo se introducen los conceptos referentes a los Modelos de Elección
Múltiple, como extensión de los modelos dicotómicos. El último capitulo se refiere a
la implementación concreta de una aplicación que toma como escenario el mercado
laboral de mujeres a partir de datos de Estados Unidos y de Colombia. Se plantea
un Modelo Discreto de Elección Binaria con el cual se busca explicar la probabilidad
de que una mujer casada decida participar en el mercado laboral en estos paı́ses
mediante variables explicativas comunes.
Capı́tulo 1

Fundamentos

1.1. Definiciones Básicas


Inicialmente se recuerdan algunas definiciones básicas necesarias para el posterior
desarrollo del trabajo. En esta parte referimos a ([2]) y a ([30]) de donde se citan
las siguientes definiciones:

Sea Ω un espacio muestral abstracto, se define la colección A de subconjuntos de


Ω que posee cierta propiedades deseables.

Definición 1. La colección A de subconjuntos de Ω se llama un σ-álgebra si satisface


las propiedades

Ω∈A

E ∈ A ⇒ E ∈ A. (E se refiere al complemento de E con respecto a Ω.)

Ej ∈ A, j = 1, 2, · · · ⇒ ∪∞
j=1 Ej ∈ A

Definición 2. Una medida de probabilidad, denotada por P (·), es un conjunto


de funciones de valor real que se define sobre una σ-álgebra A y satisface las
propiedades

E ∈ A ⇒ P (E) ≥ 0

P (Ω) = 1

Si {Ej } es una colección contable de conjuntos disyuntos en A, entonces


!
[ X
P Ej = P (Ej )
j j
1.1 Definiciones Básicas 4

Definición 3. Espacio de probabilidad Dado un espacio muestral Ω, una σ-


álgebra A asociada con Ω y una medida de probabilidad P (·) definida sobre A, se
llama espacio de probabilidad a la tripleta (Ω, A, P )
Definición 4. Una variable aleatoria en (Ω, A, P ) es una función de valor real
definida sobre un espacio muestral Ω, denotada X (ω) para w ∈ Ω, tal que para
cualquier numero real x,
{ω|X (ω) < x} ∈ A
Definición 5. La Función de Distribución F (x) de una variable aleatoria X(ω)
se define como:
F (x) = P {ω|X (ω) < x} (1.1.1)
La función de distribución puede definirse para cualquier variable aleatoria porque
una probabilidad se asigna a cada elemento de A y de
{ω|X (ω) < x}
para algún x. Se escribirá
P {ω|X (ω) < x}
como
P (X < x)
Una función de distribución tiene las propiedades
F (−∞) = 0
F(∞) = 1
Es no decreciente y continua hacia la izquierda
Usando una función de distribución, se puede definir el valor esperado de una
variable aleatoria si es discreta, continua o mixta. Esto se hace por medio de la
integral de Riemann-Stieltjes que es una generalización sencilla de la integral de
Riemann. Si X es una variable aleatoria con una función de distribución F y si
Y = h (X) ,
donde h(·) es medible en el espacio de Borel. El valor esperado de Y , se denota como
E(Y ) y se define ası́: Se divide un intervalo [a, b] en n intervalos con los puntos finales
a = x0 < x1 < · · · < xn−1 < xn = b
y si x∗i es un punto arbitrario en [xi , xi+1 ]. Se define la suma parcial
n−1
X
Sn = (x∗i ) [F (xi+1 ) − F (xi )] (1.1.2)
i=0
1.1 Definiciones Básicas 5

asociado con esta partición del intervalo [a, b]. Si, para algún ǫ > 0, allı́ existe un
número real A y una partición tal que para cada partición más fina y para cualquier
elección de x∗i , |Sn − A| < ǫ, se denominará A a la integral de Riemann-Stieltjes y
se denota por: Z b
h (x) dF (x)
a
Esta existe si h es una función continua excepto posiblemente para un número
contable de discontinuidades, con tal de que, siempre que su discontinuidad coincida
con que F, sea continua hacia la derecha. Finalmente, el valor esperado de Y , E(Y )
se define como:
Z ∞ Z b
E(Y ) = h (x) dF (x) = lim h (x) dF (x) (1.1.3)
−∞ a

con tal de que el lı́mite (que puede ser +∞ o −∞) exista sin tener en cuenta que
a −→ −∞ y b −→ ∞.
dF
Si existe y es igual a f (x),
dx
F (xi+1 ) − F (xi ) = f (x∗i ) (xi+1 − xi )

para algún x∗i ∈ [xi+1 , xi ] por el teorema del valor medio. Por tanto,
Z ∞
E(h (X)) = h (x) f (x) dx (1.1.4)
−∞

Por otro lado, suponiendo X = ci con probabilidad pi , i = 1, 2, · · · , K y tomando


a < c1 y ck < b; entonces, para n suficientemente grande, cada intervalo contiene a
lo máximo uno de los ci ’s. Entonces, de los n términos en el sumando de 1.1.2 sólo
K términos contienen ci ’s no ceros. Por consiguiente
Z b K
X
h (x) dF (x) = h(ci )pi (1.1.5)
a i=1

A continuación se definen cuatro tipos de convergencia para una sucesión de


variables aleatorias y se muestra la relación entre ellos en varios teoremas.

Definición 6. Convergencia en probabilidad Una sucesión de variables


aleatorias {Xn } se dice que converge a una variable aleatoria X en probabilidad
si
lim P (|Xn − X| > ǫ) = 0
n→∞
1.1 Definiciones Básicas 6

para cualquier ǫ > 0 También se escribe como:


p
Xn → X

o como:
plim Xn = X

Definición 7. Convergencia en cuadrados medios Una sucesión {Xn } se dice


que converge a X en cuadrados medios si

lim E(Xn − X)2 = 0.


n→∞

También se escribe como:


M
Xn → X

Definición 8. Convergencia en distribución Una sucesión {Xn } se dice que


converge a X en distribución si la función de distribución Fn de Xn converge a la
función de distribución F de X en cada punto de continuidad de F . Se escribe
d
Xn → X

y F se llama la distribución lı́mite de {Xn }. Si {Xn } y {Yn } tienen la misma


distribución lı́mite, se escribe:
LD
Xn → Yn

Definición 9. Convergencia casi segura Una sucesión {Xn } se dice que converge
a X casi seguramente si
n o
P ω | lim Xn (ω) = X(ω) = 1
n→∞

también se escribe como:


a.s.
Xn → X

Los próximos cuatro teoremas establecen las relaciones lógicas entre los cuatro
modos de convergencia, detallados en la siguiente figura,
a.s.

M P d
Teorema 10. (Chebyshev)
  P
E Xn2 → 0 ⇒ Xn → 0
1.1 Definiciones Básicas 7

Prueba. Z Z
  ∞
E Xn2 = 2
x dFn (x) ≥ ǫ 2
dFn (x) (1.1.6)
−∞ S

donde
S = x|x2 ≥ ǫ2
pero se tiene que:
Z Z −ǫ Z ∞
dFn (x) = dFn (x) + dFn (x) (1.1.7)
S −∞ ǫ
= Fn (−ǫ) + [1 − Fn (ǫ)]
= P (Xn < −ǫ) + P (Xn ≥ ǫ)
≥ P [Xn2 > ǫ2 ]

Por consiguiente, de las definiciones (7) y (8) se obtiene que:

E (Xn2 )
P [Xn2 >ǫ ]≤ 2
(1.1.8)
ǫ2
que es el teorema que sigue inmediatamente de la definición (9)

La desigualdad (1.1.8) se llama la Desigualdad de Chebyshev. Modificando


la prueba ligeramente, se puede establecer la siguiente generalización de dicha
desigualdad:

Eg(Xn )
P [g(Xn ) > ǫ2 ] ≤ (1.1.9)
ǫ2
donde g(·) es una función continua no negativa.

Obsérvese que la declaración


M p
Xn → X ⇒ Xn → X,

donde X puede ser una constante o una variable aleatoria, se sigue del teorema (10)
si se considera Xn − X como el Xn del teorema.
P d
Teorema 11. Xn → X ⇒ Xn → X
a.s. P
Teorema 12. Xn → X ⇒ Xn → X
d P
Teorema 13. Xn → α ⇒ Xn → α
1.1 Definiciones Básicas 8

Teorema 14. Si Xn y X son K-vectores de variables aleatorias y si g(·) es una


función de RK a R tal que el conjunto E de puntos discontinuos de g(·) es cerrado
y P (X ∈ E) = 0. Si
d
Xn → X,
entonces
d
g(Xn ) → g(X).
La convergencia en distribución de los elementos individuales del vector Xn para
los correspondientes elementos del vector X no son suficientes para obtener los
resultados anteriores. Sin embargo, si los elementos de Xn son independientes para
cada n, la convergencia separada es suficiente.
Teorema 15. Sea Xn un vector de variables aleatorias con un numero fijo finito de
elementos. Si g es una función de valor real continua en un punto vectorial constante
α. Entonces:
P P
Xn → α ⇒ g(Xn ) → g(α)
P P
Teorema 16. Si Xn → X y Yn → α, entonces:
d
1. Xn + Yn → X + α
d
2. Xn · Yn → αX
d
3. (Xn /Yn ) → X/α, ∀α 6= 0

Ley de los Grandes Números Dada una sucesión de variables aleatorias {Xt },
se define n
X
−1
X=n Xt .
t=1

Una Ley de  Grandes Números (LGN) especifica las condiciones bajo  a.s.las cuales
X − E X converge a 0 bien sea en forma casi segura (X − E X → 0) o en
 P
probabilidad (X −E X → 0). La primera se conoce como una ley fuerte de grandes
números y la última como una ley débil. En muchas aplicaciones la forma más simple
 p  M
de mostrar X − E X → 0 es mostrar que X − E X → 0 y luego aplicar Teorema
10 (Chebyshev). Se enuncian enseguida dos leyes fuertes de grandes números.
Teorema 17. (LGN 1 de Kolmogorov) Sea {Xt } una sucesión de variables aleatorias
P∞ σ2
t
independientes con varianza finita Var(Xt ) = σt2 . Si 2
< ∞, entonces
 t=1 t  a.s.
X n − E X n converge casi seguramente a cero, esto es, X − E X → 0, siendo
1P n
Xn = Xt
n t=1
1.1 Definiciones Básicas 9

Teorema 18. (LGN 2 de Kolmogorov) Sea {Xt } una sucesión de variables aleatorias
independientes e idénticamente distribuı́das. Entonces una condición suficiente y
a.s.
necesaria para que X → µ es que E (Xt ) exista y sea igual a µ.

Teorema 19. (Teorema del lı́mite central) Sea {Xt } una sucesión de variables
aleatorias independientes e idénticamente distribuidas. Con E(Xt ) = µ y Var(Xt ) =
σt2 entonces
1  d
q (X n − E X n ) −→ N (0, 1)
Var(X n )

Relaciones entre lim E, AE y plim Sea Fn la función de distribución de Xn


y Fn → F en puntos de continuidad de F. En la Definición 6 se planteó plim Xn .
Ahora se define lı́m E y AE como sigue
Z ∞
lim E (Xn ) = lim x dFn (x) (1.1.10)
−∞

y Z ∞
AE Xn = x dFn (x) (1.1.11)
−∞

O dicho de otra forma, AE que se lee esperanza asintótica o media asintótica, es la


media de la distribución lı́mite.

Definición 20. Sea gT (θ) una sucesión no negativa de variables aleatorias


dependiente de un vector de parámetros θ. Se consideran ahora los tres modos de
convergencia uniforme de gT (θ) a 0:

1. P [ lim sup gT (θ) = 0] = 1,


T →∞ θ∈Θ

2. lim P [sup gT (θ) < ǫ] = 1 para algún ǫ > 0,


T →∞ θ∈Θ

3. lim ı́nf P [gT (θ) < ǫ] = 1 para algún ǫ > 0.


T →∞ θ∈Θ

Si se cumple 1.), se dice que gT (θ) converge a 0 uniformemente de manera casi


segura en θ ∈ Θ. Si se cumple 2.), se dice que gT (θ) converge a 0 uniformemente
en probabilidad en θ ∈ Θ. Si se cumple 3.), se tiene que gT (θ) converge a 0
semiuniformemente en probabilidad en θ ∈ Θ.

Teorema 21. Sean los supuestos:

1. El espacio de parámetro Θ es un subconjunto compacto del K-espacio


Euclideano (RK ). (Recordar que θ0 está en Θ)
1.1 Definiciones Básicas 10

2. QT (y, θ) es continua en θ ∈ Θ para todo y y es una función medible de y para


todo θ ∈ Θ,

3. T −1 QT (θ) converge a una función no estocástica Q(θ) uniformemente en


probabilidad en θ ∈ Θ cuando T tiende a infinito (∞), y Q(θ) alcanza un
único máximo local a θ0 . (La continuidad de Q(θ) se sigue de los supuestos).

θ̂T se define como un valor que satisface:

QT (θ̂T ) = máx QT (θ)


θ∈Θ

[se entiende que si θ̂T no es único, se selecciona un valor apropiado de tal manera
que θ̂T (y) sea una función medible de y.1 ]. Entonces θ̂T converge en probabilidad a
θ0

Teorema 22. Sean los supuestos:

1. Sea Θ un subconjunto abierto para el K-espacio Euclideano (ası́ el verdadero


valor θ0 es un punto interior de Θ)
∂QT
2. QT (y, θ) es una función medible de y para todo θ ∈ Θ, y existe y
∂θ
es continua en una vecindad abierta N1 (θ0 ) de θ0 . (Esto implica que QT es
continua para θ ∈ N1 )

3. Existe una vecindad abierta N2 (θ0 ) de θ0 tal que T −1 QT (θ) converge a una
función no estocástica Q(θ) uniformemente en probabilidad en θ en N2 (θ0 ), y
Q(θ) alcanza un máximo local estricto en θ0

Sea ΘT el conjunto de raı́ces de la ecuación


∂QT
=0 (1.1.12)
∂θ
que corresponden al máximo local. Si el conjunto es vacı́o, el conjunto ΘT es igual a
{0} Entonces, para algún ǫ > 0,

lim P [ ı́nf (θ − θ0 ) (θ − θ0 ) > ǫ] = 0
T →∞ θ∈ΘT

Teorema 23. Asumiendo supuestos del teorema anterior, y además:

∂ 2 QT
1. existe y es continua en una vecindad abierta convexa de θ0
∂θ∂θ′
1
Esto es posible por un teorema de Jennrich (1969, p.637)
1.1 Definiciones Básicas 11

 
∂ 2 QT
2. T −1 converge en probabilidad a una matriz finita singular:
∂θ∂θ′ ∗
θT
 
−1 ∂ 2 QT
A(θ0 ) = lim ET
∂θ∂θ′ ∗
θT

para alguna sucesión θT∗ tal que:


plim θT∗ = θ0

 
∂QT
3. T −1/2
→ N [0, B(θ0 )], donde:
∂θ θ0
   
−1 ∂QT ∂QT
B(θ0 ) = lim ET ×
∂θ θ0 ∂θ′ θ0

n o
Sea θ̂T una sucesión obtenida para escoger un elemento de ΘT definido en el
teorema anterior tal que:
plim θ̂T = θ0 .
(θ̂T se denomina una raı́z consistente). Entonces:

T (θ̂T − θ0 ) → N [0, A(θ0 )−1 B(θ0 )A(θ0 )−1 ]
Teorema 24. Suponiendo que gT (θ) converge en probabilidad a una función no
estocástica g(θ) uniformemente en θ en una vecindad abierta N (θ0 ), entonces
plim gT (θ̂T ) = g(θ0 ) si plim(θ̂T ) = θ0 y g(θ) es continua en θ0
Definición 25. Estimador de Máxima Verosimilitud Sea LT (θ) = L(y, θ)
la densidad conjunta de un vector de T variables aleatorias y = (y1 , y2 , . . . , yT )
caracterizada por un vector de K parámetros θ. Cuando nos referimos a ella como
una función de θ, la llamamos función de verosimilitud. El término Estimador de
Máxima Verosimilitud (EMV) se usa frecuentemente para significar dos conceptos
diferentes:
1. El valor de θ que maximiza globalmente la función de verosimilitud L(y, θ)
sobre el espacio de parámetros θ; o
2. Cualquier raı́z de la ecuación de verosimilitud
∂LT (θ)
=0 (1.1.13)
∂θ
que corresponda a un máximo local. Aquı́ lo usaremos en el segundo sentido.
1.2 Consistencia 12

1.2. Consistencia
Las condiciones para la consistencia del Estimador de Máxima Verosimilitud
(EMV) global o local se pueden obtener del Teorema 21 o 22 haciendo

QT (θ) = logLT (θ).

Se considera el logaritmo de la función de verosimilitud porque

T −1 logLT (θ)

usualmente converge a una constante finita. Tomando el logaritmo no cambia la


localización del máximo local o global.
Ahora, si se asume que yi (i = 1, 2, · · · , T ) son independientes e idénticamente
distribuidos con función de densidad f (·, θ), se puede escribir
T
X
log L (y, θ) = log f (yt , θ) (1.2.1)
i=1

En este caso se puede reemplazar el supuesto 3 del Teorema 21 y 22 por los 2


siguientes supuestos:  
E sup | log f (yt , θ) | < ∞ (1.2.2)
θ∈Θ
y
log f (yt , θ) es una función continua de θ para cada yt . (1.2.3)
En el Teorema 26 se muestra que los supuestos 1.2.2 y 1.2.3 implican
T
1X
plim log f (yt , θ) = E log f (yt , θ) uniformemente en θ ∈ Θ (1.2.4)
T i=1

Además, por desigualdad de Jensen se tiene que


   
f (yt , θ) f (yt , θ)
E log < log E = 0 para θ 6= θ0 (1.2.5)
f (yt , θ0 ) f (yt , θ0 )

donde la esperanza se toma usando el valor real θ0 , y por tanto

E (log f (yt , θ)) < log E (f (yt , θ0 )) para θ 6= θ0 (1.2.6)

Como en la ecuación1.2.6 se tiene que

T −1 E (log LT (θ)) < T −1 E (log LT (θ0 ))


1.2 Consistencia 13

para θ 6= θ0 y para todo T. Sin embargo cuando se toma lı́mite a ambos lados de la
desigualdad 1.2.6 cuando T tiende a infinito, se tiene:

lim T −1 E (log LT (θ)) ≤ lim T −1 E (log LT (θ0 ))


T →∞ T →∞

Aquı́, generalmente se necesita asumir que: lim T −1 E(log LT (θ)) únicamente se


T →∞
maximice en θ = θ0 .
El hecho que los modelos 1.2.2 y 1.2.3 impliquen 1.2.4 se sigue del siguiente
teorema cuando se hace

gt (θ) = log f (yt , θ) − E (log f (yt , θ))

Teorema 26.
Sea gt (y, θ) una función medible de y en un espacio Euclideano para cada θ ∈ Θ,
un subconjunto compacto de RK (K-espacio Euclideano) y una función continua
de θ ∈ Θ para cada y. Asuma E(g(y, θ)) = 0. Sea {yi } una sucesión de vectores
aleatorios independientes e idénticamente distribuidos tales que
 
E sup |g(yt , θ)| < ∞.
θ∈Θ

T
X
Entonces T −1
gt (y, θ) converge uniformemente a 0 en probabilidad en θ ∈ Θ
t=1

Prueba. Particionando Θ en n regiones excluyentes Θn1 , Θn2 , . . . Θnn de tal modo


que la distancia entre dos puntos cualquiera dentro de cada Θni tienda a 0 cuando
n tiende a ∞. Sea θ1 , θ2 , . . . , θn , una sucesión arbitraria de K-vectores tales que
θi ∈ Θni , i = 1, 2, . . . , n. Entonces escribiendo gt (θ) para g (yt , θ), tenemos para
cualquier ǫ > 0
" #
X T

P sup T −1 gt (θ) > ǫ (1.2.7)
θ∈Θ
t=1
"n ( )#
[ XT

sup T −1
≤ P gt (θ) > ǫ
i
θ∈Θn
i=1 t=1
" #
X n XT

≤ P supn T −1 gt (θ) > ǫ
θ∈Θi
i=1 t=1
" # " #
X n X T ǫ X n XT
ǫ
sup |gt (θ) − gt (θi )| >
≤ P T −1 gt (θi ) > + P T −1
t=1
2 t=1
θ∈Θn
i 2
i=1 i=1
1.2 Consistencia 14

Puesto que gt (θ) es uniformemente continua en θ ∈ Θ, tenemos para cada i



lim sup gt (θ) − gt (θi ) = 0 (1.2.8)
n→∞ θ∈Θn
i

pero, puesto que


sup gt (θ) − gt (θi ) ≤ 2 sup gt (θ) (1.2.9)
θ∈Θn
i θ∈Θ

y el lado derecho de la desigualdad (1.2.9) es integrable por nuestros supuestos,


(1.2.8) implica por el teorema de convergencia de Lebesgue.2
 

lim E sup gt (θ) − gt (θi ) = 0 (1.2.10)
n→∞ n θ∈Θi

uniformemente para i. Se toma n lo suficientemente grande para que el valor esperado


en (1.2.10) sea menor que ǫ/2. Finalmente, la conclusión del teorema se sigue del
Teorema 18 (LGN 2 de Kolmogorov) cuando T tiende a infinito.
Este teorema puede generalizarse hasta decir que
T
X
T −1 gt (θi )
t=1

y
T
X
T −1 sup gt (θ) − gt (θi )
θ∈Θn
i
t=1

pueden ser sujetos a una Ley de Grandes Números.

Teorema 27. Sea gt (y, θ) una función medible de y en un espacio Euclideano para
cada t y para cada θ ∈ Θ, un subconjunto compacto de RK (K-espacio Euclideano)
y una función continua de θ uniformemente en y y t. Asumiendo Egt (y, θ) = 0.
Sea {yi } una sucesión de vectores aleatorios independientes y no necesariamente
idénticamente distribuidos tales que
 
1+δ

E sup gt (yt , θ) ≤M <∞
θ∈Θ

para algún δ > 0. Entonces


T
X
−1
T gt (yt , θ)
t=1

converge a 0 uniformemente en probabilidad en θ ∈ Θ


2
(Royden, 1968, p. 88)
1.3 Normalidad Asintótica 15

Teorema 28. Sean y1 , y2 , . . . , yT vectores de constantes. Se define la función de


distribución empı́rica de (y1 , y2 , . . . , yT ) por
T
X
FT (α) = T −1 χ(yt < α)
t=1

donde χ toma el valor 1 o 0 dependiendo si el evento en su argumento ocurre o no.


Se debe notar que yt < α significa que cada elemento del vector yt es menor que
el correspondiente elemento de α. Asumiendo que g(y, θ) es una función continua
y acotada de y en el espacio Euclideano y θ en un conjunto compacto Θ. También
asumiendo que FT converge a una función de distribución F. Entonces
T
X Z
−1
lim T g (yt , θ) = g (yt , θ) dF (y)
T →∞
t=1

uniformemente en θ.

1.3. Normalidad Asintótica


La normalidad asintótica del Estimador de Máxima Verosimilitud o más
precisamente una raı́z consistente de la ecuación de verosimilitud 1.1.13 se puede
analizar haciendo QT = log LT en el teorema (23). Si {yt } son independientes se
puede escribir
XT
log LT = log ft (yt , θ) (1.3.1)
t=1

donde ft es la densidad marginal de yt . Ası́ bajo consideraciones generales sobre ft


se puede aplicar una ley de grandes números a

∂ 2 log LT
∂θ∂θ′
y el teorema de lı́mite central a
∂ log LT
.
∂θ
Aún si los {yi } no son independientes se puede aplicar la ley de los grandes números
y el teorema de lı́mite central mientras que el grado de dependencia está limitado en
cierta manera. Ası́ se espera se mantengan los supuestos 2 y 3 del teorema (23) en
el caso del estimador de máxima verosimilitud.
Sin embargo cuando se usa las caracterı́sticas de Lt como una función de densidad
conjunta se pueden alcanzar resultados más especı́ficos que el teorema (23), y de
1.3 Normalidad Asintótica 16

acuerdo con las condiciones de regularidad en la función de verosimilitud3 se deduce


que:
A(θ0 ) = −B(θ0 ) (1.3.2)
Por tanto, haciendo (1.3.2) como un supuesto adicional y enunciándolo como un
teorema se tiene:

Teorema 29. Bajo los supuestos del teorema (23) y el supuesto anterior, el
estimador de máxima verosimilitud θ̂T satisface
 " 
 #−1 
√   2
1 ∂ log LT
T θ̂T − θ0 −→ N 0, − lim E (1.3.3)
 T ∂θ∂θ′ θ0 

Si {yt } son independientes e idénticamente distribuidas con la función de densidad


común f (·, θ) se pueden reemplazar los supuestos 2 y 3 del teorema (23) además del
supuesto (1.3.2) con las siguientes condiciones sobre f (·, θ):
Z
∂f
dy = 0 (1.3.4)
∂θ
Z
∂2f
dy = 0 (1.3.5)
∂θ∂θ′
T
1 X ∂ 2 log f ∂ 2 log f
plim = E( ) (1.3.6)
T t=1 ∂θ∂θ′ ∂θ∂θ′
Se puede encontrar un conjunto suficiente de condiciones para 1.3.6 haciendo

∂ 2 log ft
gt (θ) =
∂θi ∂θj

en el Teorema 26

Teorema 30. (Liapounov CLT) Sea {Xt } independiente con E (Xt ) = µt , V (Xt ) =
σt2 y  
E |Xt − µt |3 = m3t .
Si " #−1/2 " #1/3
n
X n
X
lim σt2 m3t = 0,
n→∞
t=1 t=1

entonces, Zn → N (0, 1)

3
Ver Apéndice A.
Capı́tulo 2

Modelos de Elección Binaria

2.1. Generalidades
2.1.1. Introducción
Un individuo en su vida cotidiana se enfrenta a muchas situaciones en las que debe
tomar una decisión. A veces, esta elección la hace de manera automática o por mera
intuición, sin ser consciente de que, tras cada opción, ha realizado un razonamiento
lógico. Sin embargo, en otras ocasiones el individuo debe tomar una decisión que
requiere una reflexión más profunda que la mera intuición.
En estos casos, el proceso de elección dependerá de determinados factores,
entre ellos sus propias preferencias y condicionantes y acarreará unas consecuencias
concretas.
Las repercusiones que se derivan de determinada elección pueden ser de distinta
trascendencia. No es lo mismo decidir sobre si viajar en taxi en bus urbano, que
decidir si conceder o negar un crédito a una empresa.
De manera análoga, la economı́a, como ciencia ligada al estudio de la forma en
que los agentes emplean los escasos recursos, está sujeta a los continuos procesos de
decisión entre las diferentes alternativas que se presentan en la vida cotidiana, tanto
a nivel macroeconómico como microeconómico. Ello indica que una de las tareas más
importantes en la actitud de los agentes económicos es la búsqueda de herramientas
que permitan objetivizar el problema de una forma racional. ([2],[13])
La teorı́a económica facilita modelos sobre la conducta de los agentes en
circunstancias similares, y la Econometrı́a desarrolla métodos para explicar el
comportamiento de los individuos ante los procesos de decisión, los cuales se pueden
realizar mediante la mera intuición económica o bien a través de un proceso objetivo
mediante uno de los modelos especı́ficos distintos a los modelos agregados, ya
que estos explican el comportamiento medio del grupo en lugar de interpretar el
comportamiento individual. De esta forma, la Econometrı́a pretende dar respuesta
2.1 Generalidades 18

a estas necesidades de la economı́a, planteando modelos que permitan medir y


cuantificar los hechos económicos, con el fin de proporcionar un marco teórico-
empı́rico que facilite los procesos objetivos de toma de decisión.
Por ejemplo, se supone un agente económico, una mujer casada, que se enfrenta
a la decisión de participar o nó en el mercado laboral. La decisión adoptada lleva
asociado unos factores o caracterı́sticas propias de la mujer (edad, número de hijos,
edad de los hijos, renta familiar, nivel de estudio, etc.). El hecho de que la mujer
opte por trabajar lleva asociados unos factores positivos (beneficios) y otros negativos
(costos). Ante esta disyuntiva, la mujer puede valorar los beneficios y los costos que
le supondrı́a la elección posible. Tras esta valoración de todos los factores (variables)
a favor y en contra, se marca su criterio de preferencia en función del cual tomará una
decisión.
Es evidente imaginar que la decisión adoptada presenta cierta aleatoriedad ya
que la respuesta puede ser distinta para cada una de las mujeres estudiadas, aún en
el caso de que los valores de las variables que las condicionasen fuesen idénticos. Es
decir, que dos mujeres con las mismas caracterı́sticas o condicionantes podrán optar
por decisiones diferentes. Sin embargo, a pesar de esas diferencias, las ordenaciones
de las preferencias de ambas mujeres tendrán en común algunos rasgos importantes
a partir de los que se podrı́a establecer un patrón de comportamiento medio de la
población de mujeres.
De esta forma, el estudio de los comportamientos individuales de las mujeres
puede servir para modelar el mercado laboral de la mujer, proporcionando un
instrumento para la planificación económica y social de las familias.
En general, esta posibilidad implica que a partir de la observación del
comportamiento de una muestra de individuos, se pueden obtener conclusiones
generales sobre el comportamiento medio de la población a la que pertenece dicha
muestra de individuos analizada. Esta posibilidad de establecer resultados generales a
partir del análisis de una muestra es un factor clave dentro de los estudios económicos,
puesto que permiten establecer medidas de polı́tica económica.
Ası́, cabe poner de manifiesto que para analizar los procesos de decisión se necesita
algún instrumento que permita describir las preferencias, ası́ como establecer una
ordenación posible de ellas. Por lo tanto, dentro del ámbito de la Econometrı́a, es
importante abordar los problemas de la decisión mediante un tipo de modelos que
permita analizar las conductas individuales y que, en consecuencia, pueda explicar
las preferencias o utilidades de los agentes económicos. La rama de la Econometrı́a
que se dedica a estudiar y modelar los procesos de decisión, ası́ como dar solución a
los procesos de elección entre diversas alternativas se denomina Microeconometrı́a.
Tradicionalmente, la Econometrı́a se enfrentaba a los problemas de decisión
utilizando los modelos agregados, los cuales explican el comportamiento medio del
grupo, de tal manera que haciendo uso del modelo general se definı́a la conducta
de los agentes. Sin embargo, cuando se necesitaba analizar los procesos de decisión
2.1 Generalidades 19

individual, y las relaciones causales inherentes al proceso de decisión, es de mayor


interés estudiar los modelos desde un punto de vista desagregado (datos individuales)
o analizar de cada individuo su comportamiento mas probable. Ası́, estos estudios
necesitan un marco de información con datos individuales o desagregados para cada
uno de los agentes económicos, lo cual supone un gran esfuerzo en el tratamiento de
la información.
La Microeconometrı́a nace por la necesidad de brindar una interpretación
económica de las pautas del comportamiento de los agentes económicos o individuos,
ası́ como la posibilidad de contrastar estadı́sticamente las hipótesis efectuadas ([15]).
Ha desarrollado un marco teórico-práctico de referencia donde fundamentar el estudio
de los procesos de decisión individual, gracias a los avances informáticos que permiten
el tratamiento de una gran cantidad de datos individuales. El gran interés de la
Microeconometrı́a se centra en que en estos tipos de técnicas econométricas permiten
resolver los problemas del tratamiento desagregado (individual) de la información.
Estos modelos facilitan, también, la tarea de identificar las caracterı́sticas o factores
que provocan un comportamiento diferente de los individuos ante los procesos de
decisión.
A pesar de la gran utilidad de estos modelos, las técnicas microeconométricas
presentan algunas limitaciones. Las estimaciones obtenidas mediante dichas técnicas
están determinadas de forma muy importante por los supuestos básicos establecidos,
es decir, los supuestos fundamentales (como por ejemplo, la normalidad de las
preferencias, errores de medida, simultaneidad de las relaciones, etc.). Estos son
aspectos no demasiado importantes desde el punto de vista económico, pero pueden
crear serios problemas (inconsistencias) en las estimaciones de los parámetros.
Es importante destacar que las técnicas tradicionales de estimación, como por
ejemplo Mı́nimos Cuadrados Ordinarios (MCO), resultan inapropiados dado el
carácter de discontinuidad que tiene el regresando y la no linealidad de la ecuación.
Por lo tanto, en estos modelos se deben recurrir a procesos de estimación no
lineales, donde la técnica generalmente usada es a través de Máxima Verosimilitud
(MV). Además, en Microeconometrı́a se dá gran importancia a los diagnósticos que
permiten validar correctamente los resultados del modelo, ası́ como en los supuestos
establecidos en su formulación teórica. La parte de la Econometrı́a que estudia
los problemas teóricos inherentes a este tipo de modelos se denomina Métodos
Microeconométricos.
El proceso de elección entre diferentes alternativas está sometido a ciertas
limitaciones, que radican en la asignación de un cierto grado de objetividad a
cada una de las posibles opciones a las que se enfrenta el individuo económico. La
Microeconometrı́a dá respuesta a este tipo de problemas asignando la probabilidad
de que un individuo elija una determinada alternativa entre un conjunto finito,
exhaustivo y mutuamente excluyente de éstas. Dicha probabilidad de elección
depende del conjunto de caracterı́sticas de cada una de las alternativas, ası́ como
2.1 Generalidades 20

de los condicionantes del individuo decisor.


Ası́, en el ejemplo anteriormente expuesto sobre la participación laboral de
la mujer casada, se puede establecer que el hecho de que la mujer trabaje o
nó está condicionado por dos tipos de caracterı́sticas:

Caracterı́sticas propias de la elección.


Caracterı́sticas propias de los agentes.

Cada uno de estos regresores o caracterı́sticas influyen en los procesos de decisión,


siendo el papel de la Microeconometrı́a determinar un modelo que permita, dadas
esas caracterı́sticas, explicar ese proceso de decisión. A tal fin, se establece un
valor numérico que permita ordenar las preferencias y que está asociado, en nuestro
ejemplo, con el hecho probabilı́stico de que la mujer decida trabajar.
Por lo tanto, en estos modelos lo que se explican no es el valor que toma el
regresando o variable endógena, sino la probabilidad de que el agente económico i
elija una determinada alternativa j, que dependerá de los factores que condicionan el
proceso de decisión, y de acuerdo con la función de distribución de la probabilidad que
se haya supuesto para el caso de elegir una alternativa frente a sus complementarias.
Es frecuente encontrar problemas económicos en donde la decisión a tomar
involucra dos o más alternativas, y la variable dependiente que se va a utilizar no
tiene un valor concreto o dicho de otra manera, no es cuantitativa y por tanto es
necesario cuantificarla a través de categorı́as mutuamente excluyentes, para mostrar
cuál es la alternativa elegida por el individuo. A los modelos que tienen una variable
dependiente con estas caracterı́sticas se les llama Modelos de Elección Discreta.
Cuando el individuo debe decidir entre dos alternativas, la variable dependiente sólo
mostrará dos categorı́as y por tanto este modelo se denomina Modelo de Respuesta
Dicotómica o Modelo de Elección Binaria; de la misma manera, cuando el individuo
debe decidir entre más de dos alternativas, el modelo se denomina Modelo de Elección
Múltiple o Modelo Multinomial. (Ver Tabla 2.1). Estos modelos están determinados
por:
El tipo de función de distribución que se use.
El proceso a seguir al efectuar la elección (ordenado o secuencial).
Por las caracterı́sticas propias de la elección y de los agentes.
Como el objetivo primordial de estos modelos es hallar la probabilidad que el
individuo elija una alternativa determinada, según el valor de las variables exógenas
o explicativas, estos modelos requieren un tratamiento econométrico particular.
Por tanto, en los modelos microeconométricos adquieren la mayor importancia, las
técnicas de recolección de la información o técnicas de muestreo, como quiera que
la validez de estos resultados, se verá condicionada por la representatividad de la
muestra.
Cuadro 2.1: Tipos de Modelos de Elección Discreta.
El regresor se refiere a:
Nro de alternativas Tipo de Tipo de función Caracterı́sticas Atributos
alternativas (de los individuos) (de las alternativas)
Modelos de Lineal Modelo de Probabilidad Lineal Truncado
respuesta dicotómica Complementarias Logı́stica Modelo Logit
(2 alternativas) Normal Tipificada Modelo Probit
Logit Multinomial Logit Condicional
Logı́stica - Logit Anidado - Logit Anidado
Modelos de No Ordenadas - Logit Mixto - Logit Mixto
Respuesta Múltiple Normal Tipificada Probit Multinomial Probit Condicional
(> 2 alternativas) Probit Multivariante Probit Multivariante
Ordenadas Logı́stica Logit Ordenado

2.1 Generalidades
Normal Tipificada Probit Ordenado

21
2.1 Generalidades 22

En los Modelos de Elección Discreta, su interpretación económica parte del


concepto de utilidad, el cual asume que la racionalidad de los agentes económicos los
hace comportarse de tal manera que maximicen la utilidad esperada que les brinda
cada una de las alternativas posibles sobre las que deben decidir. El planteamiento
teórico de las preferencias de los individuos permite ordenar las diferentes alternativas
en función del interés para el individuo decisor y proporciona un marco teórico en
el cual se fundamentan los modelos de elección discreta. Este marco teórico permite
establecer que la probabilidad que el individuo i-ésimo seleccione una de las dos
alternativas, depende directamente de que la utilidad brindada por dicha decisión
sea mayor que la brindada por la opción alterna. Se asume aquı́ que la utilidad
derivada de una elección Ui1 o Ui2 es función de las variables que representan las
caracterı́sticas propias de cada una de las alternativas y de las caracterı́sticas socio-
económicas del individuo. También existe una perturbación aleatoria ǫij que resume
las desviaciones que los agentes tienen respecto al comportamiento del agente medio.
En el caso de decisión binaria (j = 0, 1), se puede plantear en los siguientes
términos:
Ui0 : Nivel de utilidad que le proporciona la elección 0 al agente i.
Ui1 : Nivel de utilidad que le proporciona la elección 1 al agente i.
Xi0 : Vector de variables explicativas que caracterizan la elección de la
alternativa 0 por el agente i.
Xi1 : Vector de variables explicativas que caracterizan la elección de la
alternativa 1 por el agente i.
Además, suponiendo linealidad en las funciones, implicarı́a que:
Ui0 = U i0 + ǫi0 = α0 + Xi0 β0 + ǫi0 (2.1.1)
Ui1 = U i1 + ǫi1 = α1 + Xi1 β1 + ǫi1
donde los valores U i0 y U i1 representan las utilidades medias asociadas a cada
elección, las cuales pueden ser observadas y conocidas a través del proceso de
investigación. Las utilidades medias son función de una combinación lineal de las
variables explicativas observadas: Xi0 β0 y Xi1 β1 . Además, ǫi0 y ǫi1 representan
aquellos factores de la utilidad asociada a cada una de las alternativas que son
desconocidas y que pueden variar según los individuos y según la alternativa de la
que se trate. Se considera que estas son variables aleatorias ruido blanco, es decir,
independientemente distribuidas, con esperanza constante igual a cero y varianza
constante e igual σǫ2 ; además, generalmente se supone que siguen una función de
distribución normal.
El agente i elegirá la opción uno si la utilidad de esa elección supera la de la
opción cero y viceversa. Es decir,

1 si Ui1 > Ui0
Yi = (2.1.2)
0 si Ui0 > Ui1
2.1 Generalidades 23

Como consecuencia, se puede comprobar que la probabilidad que un individuo elija


la opción uno será:
P (Yi = 1) = P (Ui1 > Ui0 ) (2.1.3)

= P U i1 + ǫi1 > U i0 + ǫi0

= P U i1 − U i0 > ǫi0 − ǫi1

= P ǫi0 − ǫi1 < U i1 − U i0
= P (ǫi0 − ǫi1 < (α1 + Xi1 β) − (α0 + Xi0 β))
= P (ǫi0 − ǫi1 < (α1 − α0 ) + (Xi1 − Xi0 ) β)
Z Xi β
= F (Xi β) = f (ǫi0 − ǫi1 )d(ǫi0 − ǫi1 )
−∞

con Xi siendo el vector de atributos observados (medidos) de las alternativas y


del propio individuo y β es un vector de parámetros desconocidos, constantes para
todos los individuos pero que pueden variar entre una alternativa y otra.

A través de la ecuación 2.1.3 se determina la probabilidad que un individuo


 elija
la opción uno, que depende de la distancia entre utilidades U i1 − U i0 observa-
das más que de la utilidad real. Ası́ mismo, dicha probabilidad viene dada por el
valor de la función de distribución (F en general) en el punto Xi1 β, es decir, F (Xi β).

Los Modelos de Elección Discreta se utilizan para la modelación de la elección


de modo de transporte, (es decir, para determinar la probabilidad de escoger un
modo de transporte, vehı́culo privado o algún tipo de transporte público) a partir
de determinadas variables y de las caracterı́sticas propias de las alternativas de
transporte (costo, distancia, comodidad, duración del viaje, entre otros). También
describen el comportamiento del individuo, frente a las diferentes alternativas
posibles, usando sistemas de elección probabilı́sticos. Esto es, en una situación
de elección entre un conjunto de alternativas finito, exhaustivo y con alternativas
mutuamente excluyentes, los modelos de elección cualitativa determinan la expresión
de la probabilidad, Pij , de que el individuo (el elector) i identificado por un vector
de caracterı́sticas, elija la alternativa j caracterizada por una serie de atributos.

Los modelos de elección discreta más utilizados en la práctica, son: el Logit y


el Probit. Ambos son modelos dicotómicos que analizan los problemas asociados
a la toma de decisiones cuando los agentes económicos se enfrentan a un proceso
de elección, en este caso binario. El criterio de selección entre opciones depende de
la probabilidad asociada a cada una de las alternativas que puede tener un individuo.

Para la especificación del modelo de elección binaria, se admite como válida la


teorı́a de la maximización de la utilidad aleatoria ([17]). Esta teorı́a postula que cada
2.1 Generalidades 24

individuo elige aquella opción que le reporta mayor utilidad (beneficio) y que ésta es
aleatoria, lo que obliga a plantear la elección en términos probabilı́sticos.

2.1.2. El Proceso de Elección


Una elección puede analizarse como una secuencia de decisiones que incluya los
siguientes pasos ([4]):
1. Definición del problema de elección

2. Generación de alternativas

3. Evaluación de los atributos de las alternativas

4. Elección

5. Ejecución de la alternativa elegida


Es evidente que los individuos no realizan este proceso siempre que deben
efectuar una elección, sino que pueden omitirlo y tomar una decisión, por ejemplo,
por hábito, convencionalismo social, intuición, etc. En cualquier caso, estos compor-
tamientos podrı́an describirse mediante un proceso de elección en el que el decisor
generase una única alternativa.

Para poder analizar este proceso será necesario precisar quién se considera
decisor (individuo, familia, grupo, etc.), cómo se genera el conjunto de alternativas
considerado (aquellas que el decisor juzga disponibles teniendo en cuenta sus
caracterı́sticas y restricciones personales), qué atributos van a caracterizar a las
alternativas y qué reglas se van a seguir para la elección.

Las reglas de decisión describen el mecanismo interno que utiliza el decisor para
procesar la información disponible y alcanzar una elección única. Existen numerosas
reglas de decisión propuestas ([10]), que se pueden clasificar en las siguientes
categorı́as ([4]):

Dominancia: Una alternativa es dominante respecto a otra si al menos un


atributo es mejor y en los demás no es peor. Esta regla puede no conducir a una
elección única. Puede añadirse complejidad definiendo un rango de indiferencia
(umbral mı́nimo de diferencia de valores para considerar un atributo mejor que
otro)

Satisfacción: Para cada atributo se considera un umbral mı́nimo de satisfacción


para el individuo, una alternativa puede ser eliminada si no alcanza este mı́nimo
para algún atributo.
2.1 Generalidades 25

Reglas lexicográficas: Se supone que los atributos están ordenados por


importancia, de modo que el individuo elige la alternativa que tiene el mayor
valor en el atributo más importante, en caso de igualdad se pasa al siguiente
atributo (del mismo modo que se realiza el orden alfabético de las palabras en
los diccionarios). También se puede utilizar esta regla para ir eliminando las
alternativas peores en cada atributo por orden de importancia.

Eliminación por aspectos: Es la combinación de las reglas lexicográficas y de


satisfacción. El individuo comienza por el atributo más importante y elimina
las alternativas que no alcanzan su umbral de satisfacción, si todavı́a hay varias
alternativas disponibles pasa al siguiente atributo en importancia (En [27] y
[3] se plantea la equivalencia de este tipo de elección con la maximización de
la utilidad aleatoria).

Utilidad: Se considera que los atributos son conmensurables y que el atractivo


de una alternativa, expresado por un vector de valores de los atributos, se puede
expresar mediante un escalar, denominado en general utilidad. El individuo
buscará maximizar esta utilidad (o minimizar sus costos). Esta regla implica
un comportamiento de tipo compensatorio, en el que una disminución en un
atributo puede ser compensada por una mejora en otro (al contrario de lo que
sucedı́a con las reglas anteriores).

Este comportamiento hipotético de maximización de la utilidad es el que


ha fundamentado casi todo el desarrollo de los modelos de elección discreta y
para la detección de elecciones que no siguen los principios de máxima utilidad,
especialmente con datos de preferencias declaradas, puede consultarse [26] y [25].

2.1.3. Teorı́a de la Utilidad Aleatoria


Al abordar el problema de modelación de la demanda en un contexto de
alternativas discretas, es preciso tener en cuenta los aspectos relevantes que rodean
el proceso de toma de decisiones de los individuos. Entre los más importantes cabe
señalar los siguientes:

Definición de la unidad que toma decisiones, determinación del conjunto de


elección.

Selección de los atributos que explican la utilidad de cada alternativa j.

Determinación de la regla de decisión que sigue la unidad tomadora de


decisiones.
2.1 Generalidades 26

El individuo es la unidad tı́pica de toma de decisiones, pero alternativamente


también puede considerarse a un grupo, como la familia o el hogar, a una empresa
o institución pública. Cada uno de ellos puede representar una única unidad de
decisión. Es importante señalar que aunque estudiemos la predicción de la demanda
agregada, hay que tener en cuenta las diferencias entre los individuos en el proceso
de decisión, debido principalmente a la existencia de distintos patrones de gustos.

Dado un conjunto universal de alternativas (C), el conjunto de elección de un


individuo n, (Cn ), está determinado por aquellas que éste tiene disponibles; a su
vez, este es un subconjunto del conjunto universal (Cn ⊂ C) y representa la región
factible en el problema de optimización del consumidor, definida a partir de las
distintas restricciones del individuo.

En un contexto de elección modal, el conjunto universal está determinado, por


ejemplo, por todos los modos de transporte existentes para realizar un viaje entre
el par origen-destino considerado. Es decir, si los modos existentes son automóvil,
bus y metro, un individuo particular podrı́a no tener disponible alguna de las
alternativas (por ejemplo, si no tiene permiso de conducir no tendrı́a disponible la
alternativa automóvil como conductor; si la parada de metro más cercana está a una
distancia superior a un kilómetro probablemente no serı́a factible para él ir en metro,
etc) y esto debe ser tomado en cuenta a la hora de determinar su conjunto de elección.

Identificadas las distintas alternativas, cada una de ellas es evaluada en términos


de un vector de atributos que representan sus caracterı́sticas. Ası́, por ejemplo, los
atributos para el automóvil pueden ser tiempo, costo y confort; para el bus, tiempo,
costo, frecuencia y confort, y para el metro, tiempo, costo, frecuencia y confort.

Para cada alternativa, los distintos atributos toman diferentes valores. El indivi-
duo elige, dados los valores de los atributos, aquella alternativa que considera mejor,
estableciendo una regla de decisión que describe el mecanismo interno utilizado para
procesar la información disponible y realizar la elección. Los procesos de decisión
pueden ser compensatorios, esto es, cambios en uno o más atributos pueden ser
compensados por cambios en otros; o no compensatorios, donde los buenos atributos
de una alternativa no permiten compensar los malos. Los procesos de naturaleza
compensatoria definen una función objetivo (normalmente, una función de utilidad)
que exprese el atractivo de la alternativa en términos de sus caracterı́sticas.
Está basado en el compromiso entre atributos, pues al elegir la alternativa con
la utilidad más alta, el individuo selecciona aquella que ofrece una combinación
óptima de los mismos. Este tipo de modelos no son apropiados para los procesos de
decisión caracterizados por discontinuidades, las cuales son mucho mejor expresadas
a través de los procesos no compensatorios. Por su parte, estos procesos definen
2.1 Generalidades 27

normas o umbrales que restringen el campo de alternativas factibles, como por


ejemplo que el costo del viaje no exceda de una determinada cantidad, ası́ se define
el costo del viaje máximo. Estas restricciones son consideradas por los individuos
en sus procesos de decisión. Se distinguen la elección por eliminación y la satisfacción.

En la elección por eliminación el individuo jerarquiza los atributos (por


ejemplo, el tiempo de viaje es más importante que el costo, el costo que el
tiempo de espera, etc.) y define un valor mı́nimo aceptable o umbral para cada
uno de ellos. Posteriormente, se jerarquizan las alternativas de mejor a peor en
relación al atributo, por ejemplo que el tiempo de viaje no sea mayor de veinte
minutos, y todas aquellas alternativas que no satisfagan esta restricción son
eliminadas y ası́ sucesivamente hasta quedarnos con una sola alternativa. Es
posible que repetido el proceso tengamos varias alternativas que cumplan todas
las restricciones establecidas, en este caso se elige una de manera compensatoria
(Ver [27]).

Por su parte, la satisfacción presenta varias maneras de búsqueda de la


estrategia de elección. Por ejemplo, podrı́a tratarse de un proceso cı́clico donde
los umbrales se modifican secuencialmente hasta encontrar una alternativa.
Asimismo, se podrı́a predefinir una regla de manera que la búsqueda se alcance
en el punto en el que se satisface la regla. En este caso, no todos los atributos
o alternativas tienen que ser considerados.

De los dos procesos de decisión comentados, el que ha sido más utilizado para
explicar el comportamiento de elección del individuo es el de Satisfacción. No obs-
tante, en algunos casos el individuo podrá no considerar este proceso como criterio
de elección, y en estas situaciones se analizará si las preferencias del individuo descri-
tas por sus elecciones cumplen con los axiomas que establece la teorı́a del consumidor.

La teorı́a en que se sustenta el comportamiento del consumidor parte del


supuesto que los individuos son racionales (homo economicus) y su toma de deci-
siones se basa en alcanzar unos objetivos dadas unas restricciones. En el contexto
de las elecciones discretas, estos objetivos se alcanzan maximizando la Función
de Utilidad Indirecta Condicional (FUIC) sobre el conjunto de elección del individuo.

La teorı́a de la utilidad aleatoria1 constituye el cuerpo teórico que permite tratar


empı́ricamente el problema de las elecciones discretas. A la hora de modelar las
decisiones de los individuos y obtener empı́ricamente la Función de Utilidad Indirecta
Condicional (FUIC), el investigador no dispone de información perfecta; es decir, no
1
Formalizado por [19], [9] y [17]. Desarrollos más recientes se pueden encontrar en [24]
2.1 Generalidades 28

puede observar todos los factores que participan en el proceso de elección. Puede
darse la situación en que dos individuos con el mismo conjunto de alternativas
disponibles, sujetos a las mismas condiciones para realizar un viaje concreto e
idénticas caracterı́sticas socioeconómicas, elijan distintas alternativas. Para resolver
este problema, se acude a la teorı́a probabilı́stica con la idea de tener en cuenta el
efecto de factores de naturaleza aleatoria y de este modo corregir las percepciones
incorrectas del analista. Ası́ pues, se define una función de utilidad que presenta dos
componentes: Una parte observable, determinada por el vector de caracterı́sticas
o atributos medibles de la alternativa y el vector de caracterı́sticas socioeconómicas
del individuo; y Una componente no observable o aleatoria, definida para
incorporar las distintas fuentes de aleatoriedad que han sido identificadas; En primer
lugar cualquier atributo no observado. El vector de atributos de las alternativas es
usualmente incompleto, no es posible medir el conjunto total de elementos que el
individuo considera en sus decisiones. Otra fuente de aparente aleatoriedad es la
variación no observada en los gustos: la función de utilidad puede tener elementos no
observados que varı́an entre individuos; en tercer lugar los errores en la medición de
los distintos atributos ası́ como los elementos de la función de utilidad no observables
que se reemplazan por otros elementos (variables proxy).
De este modo, la utilidad Ujn que obtiene el individuo n al elegir la alternativa
j es una variable aleatoria que se descompone en la suma de dos componentes: La
componente observable (Vjn ) y la no observable (ǫjn ) según se establece en la siguiente
expresión:
Ujn = Vjn + ǫjn j = 1, . . . , J, n = 1, . . . , N, j ∈ Cn (2.1.4)
Tanto la componente observable como la no observable dependen de los atributos
de las alternativas y de las caracterı́sticas socioeconómicas del individuo. La
probabilidad que el individuo n elija la alternativa j dado un conjunto de opciones
disponibles Cn es:
P (j|Cn ) = P [Vjn + ǫjn ≥ Vin + ǫin ] ∀i ∈ Cn (2.1.5)
= P [ǫin − ǫjn ≤ Vjn + Vin ]
Para especificar la parte observable (Vjn ) se usan dos tipos de variables:
Los atributos que caracterizan a la alternativa j para el individuo n. En el
ejemplo estos atributos son tiempo de viaje, costo del viaje, confort, seguridad,
etc.
El vector de variables socioeconómicas que caracterizan al individuo n. Por
ejemplo la renta, la posesión o no de vehı́culo, el tamaño del hogar, edad, sexo,
ocupación, nivel de estudios, etc.
Dos cuestiones se derivan una vez determinadas las variables a considerar:
La primera, que constituye el principal problema en la especificación de la parte
2.1 Generalidades 29

determinı́stica de la función de utilidad, está relacionada con la determinación


de una combinación de atributos y variables socioeconómicas que reflejen una
hipótesis razonable sobre el efecto de tales variables en la utilidad. Mientras que
la segunda consiste en determinar la forma funcional. En este sentido, resulta
interesante trabajar con especificaciones de funciones que definan una relación entre
las variables consideradas y que a su vez estén basadas en supuestos teóricos sobre
el comportamiento de los individuos, establecidos por el investigador con base en
el conocimiento del mercado objetivo que se analiza. Además que la especificación
presente buenas propiedades en el proceso de estimación.
Usualmente, se utilizan funciones que sean: Lineales en los parámetros, donde
las variables pueden entrar en forma polinómica, o empleando cualquier otra
transformación que permita relacionar los atributos con la función de utilidad. Por
otra parte, las variables pueden ser genéricas o especı́ficas; son genéricas cuando el
efecto marginal es el mismo para todas las alternativas y especı́ficas cuando la misma
variable presenta efectos diferentes en función de la alternativa que se trate. El pro-
blema radica en estudiar cuál debe ser la mejor especificación de la parte observable
de la función de utilidad dadas las variables y las caracterı́sticas del mercado objetivo.

2.1.4. Maximización de la Utilidad Aleatoria (RUM)


En los Modelos de Elección Discreta se representa el comportamiento de un
individuo que se enfrenta a la elección de una única alternativa entre un conjunto
finito de alternativas disponibles. La teorı́a de la utilidad aleatoria parte de un
individuo perfectamente racional que siempre opta por la alternativa que le supone
una mayor utilidad. La utilidad que le reporta al individuo n la alternativa j es
Unj , completamente conocida por el que realiza la elección. Desde el punto de vista
económico, Unj es una función de utilidad indirecta condicional 2 . De este modo el
individuo n escogerá la alternativa i si y sólo si

Uni > Unj , ∀j 6= i (2.1.6)


Note que en el modelo (2.1.4), la variable aleatoria determinı́stica Vnj será una
función de una serie de atributos observados (medidos) de las alternativas y del
propio individuo, que se denominarán xnj . Esta función requerirá para su calibración
el ajuste de unos parámetros β.

Vnj = f (xnj |β) (2.1.7)

En la mayor parte de los modelos de elección discreta que se emplean en la


actualidad, se emplean funciones lineales en los parámetros para representar esta
2
Para ver el paso de la utilidad directa a la utilidad indirecta condicional puede verse ([5])
2.1 Generalidades 30

utilidad representativa y se considera que los parámetros β son constantes para todos
los individuos pero pueden variar entre unas alternativas y otras, de este modo:
K
X
Vnj = βkj xknj (2.1.8)
k=1

En general se define ǫnj como la diferencia entre el valor real de la utilidad


y el valor que observa el analista. De este modo, las caracterı́sticas de ǫnj van a
depender de la forma en la que el analista haya representado la elección. El error no
está definido para una situación de elección en sı́, sino para la especificación que el
analista haya hecho de esa situación.3

Si el analista fuese capaz de determinar con absoluta precisión el valor de todas


las variables que explican la conducta del elector, ası́ como la forma precisa en la
que influyen, el valor del error serı́a cero. Si únicamente fuese debido a los errores
de medición de las variables podrı́a ser un simple ruido blanco. En la medida en que
este error se deba a la ausencia en el modelo de variables explicativas o a diferencias
en la especificación de la influencia de éstas en el comportamiento, la distribución
de estos errores y las correlaciones entre los errores de las distintas alternativas, los
distintos individuos o las elecciones de un mismo individuo podrán ser diferentes.

Si bien la elección del individuo, bajo las hipótesis mencionadas, es plenamente


determinista; el analista no va a conocer el valor de las utilidades reales, por lo que
lo único que va a poder conocer es la probabilidad de que una alternativa sea la de
mayor utilidad.

Como se ha comentado, el término ǫnj se trata como un error aleatorio de media


cero. Si se denomina f (ǫn ) a la función de densidad conjunta del vector aleatorio
ǫn = (ǫn1 , ǫn2 , . . . , ǫnJ ) se puede estimar la probabilidad que el individuo escoja
cada una de las alternativas, dado que conoce la utilidad representativa Vjn . La
probabilidad de que el individuo n escoja la alternativa i será:

Pni = P (Uni > Unj ), ∀j 6= i


= P (Vni + ǫni ≥ Vnj + ǫnj ), ∀j =
6 i
= P (ǫnj − ǫni ≤ Vni − Vnj ), ∀j =6 i

Esta es la probabilidad de que cada término aleatorio ǫnj − ǫni sea inferior a una
cantidad observada Vni − Vnj , por lo tanto se trata de una función de distribución
acumulada. A partir de la función de densidad conjunta f (ǫn ) se puede calcular esta
3
Ver [28].
2.1 Generalidades 31

probabilidad como:

Pni = P (ǫnj − ǫni ≤ Vni − Vnj ), ∀j 6= i (2.1.9)


Z
= I(ǫnj − ǫni ≤ Vni − Vnj )f (ǫn )dǫn ∀j 6= i
i

Siendo I(·) una función indicadora que valga uno si el individuo ha escogido la
alternativa i y cero en otro caso. Dependiendo de la distribución que cada modelo
asuma para el ǫnj se tendrá un valor cerrado de esta integral (en modelos como el
Logit o el Logit jerárquico) o tendrá que ser evaluada numéricamente por simulación
(como en el probit o el Logit mixto).

El proceso de calibrado del modelo consistirá en la estimación de los valores de


los coeficientes βkj . (k = 1, . . . , K j = 1, . . . , J). El procedimiento más empleado
es tomar como estimadores aquellos valores que maximicen la verosimilitud de la
muestra utilizada. La función de verosimilitud de una muestra determinada será en
general:
YN Y
L(β) = (Pni )yni (2.1.10)
n=1 i
con (
1, si el individuo n ha escogido la alternativa i;
yni =
0, e.o.c.
Para facilitar la maximización numérica se trabaja con el logaritmo neperiano de la
verosimilitud, esto es,
N X
X
£ = log L(β) = yni ln(Pni ) (2.1.11)
n=1 i

El estimador es el valor de β que maximiza la función de log-verosimilitud. Para


hallar el estimador de β existen diversos procedimientos numéricos, en algunos
casos se utilizan métodos de estimación, principalmente con modelos que requieren
simulación para calcular la probabilidad, como es el caso del Método de Máxima
Verosimilitud Simulada (MSL) el cual requiere condiciones estrictas para que el
estimador sea consistente, eficiente y asintóticamente normal.

La elección observada únicamente proporciona información acerca de cuál de


las utilidades es mayor. Por lo tanto, no se puede determinar la escala ni el nivel
de utilidades, ya que un cambio en éstos, igual para todas las utilidades, no va a
modificar el hecho de que la utilidad de una alternativa sea mayor que la de otra.
En este caso se podrá normalizar el modelo en cuanto a escala y nivel, en un proceso
2.2 Especificación del modelo 32

conocido como identificación.

Por este motivo, no pueden estimarse todos los parámetros de los modelos,
ni todos los elementos de la matriz de covarianza4 que caracteriza la distribución
conjunta de los términos de error.

2.2. Especificación del modelo


Un modelo de elección binaria se define como

P (Yi = 1) = F (Xi β), i = 1, 2, . . . , n (2.2.1)

donde

{Yi } es una sucesión de variables aleatorias binarias independientes que toman


el valor uno o cero

Xi es un vector de constantes conocidas de tamaño K

β es un vector de parámetros desconocidos de tamaño K

F es una función conocida, que puede ser función lineal o no lineal de las
variables originales

Entre las formas funcionales de F más frecuentemente usadas están:




 xβ en cuyo caso 2.2.1 se denomina Modelo de Probabilidad Lineal ,





 Z x

 1  
2
F (xβ) = Φ(xβ) = −∞ √2π exp − t /2 dt llamado Modelo Probit,







 exβ

Λ(xβ) = y en este caso 2.2.1 se conoce como Modelo Logit.
1 + exβ

La estimación e interpretación de los modelos probabilı́sticos lineales plantea una


serie de problemas que han llevado a la búsqueda de otros modelos alternativos que
permitan estimaciones más fiables para las variables respuesta. Para evitar que la
variable endógena estimada pueda encontrarse fuera del rango (0, 1), las alternativas
disponibles llevan a utilizar modelos de probabilidad no lineales, donde la función
de especificación utilizada garantice un resultado en la estimación comprendido
4
Se denominará simplificadamente matriz de covarianza a la matriz de varianzas-covarianzas
2.3 Estimación para modelos de elección binaria 33

en el rango 0-1. Como las funciones de distribución cumplen este requisito, ya


que son funciones continuas que toman valores comprendidos entre 0 y 1, se
tienen varias alternativas para selección de F (·). Sin embargo, las más habituales
son la función de distribución logı́stica, que ha dado lugar al modelo Logit, y
la función de distribución de la normal tipificada, que ha dado lugar al modelo
Probit. Tanto los modelos Logit como los Probit relacionan, por tanto, la variable
endógena Yi con las variables explicativas Xki a través de una función de distribución.

Para el modelo Logit, se utiliza la función logı́stica por lo que su especificación


se convierte en:
1 eβ1 +β2 X2i +···+βk Xki
P (Yi = 1) = + ui = + ui
1 + e−(β1 +β2 X2i +···+βk Xki ) 1 + eβ1 +β2 X2i +···+βk Xki
eXi β
= + ui (2.2.2)
1 + eXi β
Ahora, en el caso del modelo Probit la función de distribución utilizada es la normal
tipificada, con lo que el modelo se especifica a través de la siguiente expresión
Z Xi β
1  
P (Yi = 1) = √ exp − s2 /2 ds + ui (2.2.3)
−∞ 2π
Dada la similitud existente entre las curvas de la normal tipificada y de la
logı́stica, los resultados estimados por ambos modelos no difieren mucho entre sı́5 .
Sin embargo existen diferencias operativas, entre ellas el cálculo de la función de
distribución normal es más complejo que el de la logı́stica, ya que la primera sólo
puede calcularse en forma de integral. Esto hace que el modelo Logit sea usado con
mayor frecuencia en los estudios empı́ricos.

2.3. Estimación para modelos de elección binaria


2.3.1. Consistencia y normalidad asintótica del Estimador
de Máxima Verosimilitud
Para derivar las propiedades asintóticas del Estimador de Máxima Verosimilitud
(EMV) es necesario asumir los siguientes supuestos para el modelo 2.2.1:
Supuesto 2.3.1. La forma funcional F tiene derivada f y 0 < F (x) < 1, además
con f (x) > 0 para toda x, y derivada de segundo orden f p.
5
Discrepan en la rapidez con que las curvas se aproximan a los valores extremos, y ası́ la función
logı́stica es más achatada que la normal al alcanzar, esta última, más rápidamente los valores
extremos (0 y 1)
2.3 Estimación para modelos de elección binaria 34

Supuesto 2.3.2. El espacio de parámetros B es un subconjunto abierto acotado de


un espacio Euclidiano k-dimensional
n
X
−1
Supuesto 2.3.3. {xi } son uniformemente acotados en i y lim n xi xpi es una
n→∞
i=1
matriz no singular finita. Además la distribución empı́rica de {xi } converge a una
función de distribución.

Ambos modelos, Probit y Logit, satisfacen el supuesto 2.3.1. El acotamiento de


{xi } es algo restrictivo y hasta podrı́a eliminarse. Sin embargo, se asume para hacer
más sencilla las pruebas de consistencia y normalidad asintótica.
La función de verosimilitud del modelo 2.2.1 está dada por
n
Y
L= [F (xi β)]yi [1 − F (xi β)]1−yi
i=1

De modo que:
n
X n
X
log L = yi log F (xi β) + (1 − yi ) log[1 − F (xi β)] (2.3.1)
i=1 i=1

Ahora, para hallar el Estimador de Máxima Verosimilitud, se debe encontrar la


∂ log L
derivada parcial de la ecuación anterior con respecto a β, es decir . Ası́:
∂β
Pn Pn 
∂ log L ∂ i=1 y i log F (x p
i β) + i=1 (1 − y i ) log[1 − F (x p
i β)]
=
∂β ∂β

n
X yi f (xp β)xi − F (xp β)f (xp β)xi
i i i
=
i=1
F (xpi β)(1 − F (xi β))
p

Luego:
Xn
∂ log L yi − F (xpi β)
= f (xpi β)xi
∂β i=1
F (x p
i β)(1 − F (x p
i β))

Es decir que el Estimador de Máxima Verosimilitud βb es una solución (si existe) de

Xn
∂ log L yi − F (xpi β)
= f (xpi β)xi = 0 (2.3.2)
∂β i=1
F (x p
i β)(1 − F (x p
i β))
2.3 Estimación para modelos de elección binaria 35

Para probar la consistencia de βb se deben verificar los supuestos del Teorema 22.
Los supuestos 1 y 2 se satisfacen claramente. Para verificar el supuesto 3 se debe
usar el teorema 27. Si se define
  
gi (y, β) = y − F xpi β0 log F xpi β , gi (y, β)

en una vecindad compacta de β0 que satisface todas las condiciones para gt (y, θ) en
n
X
−1
el teorema, debido a los supuestos 2.3.1 y 2.3.3. Además, lim n Fi0 log Fi existe
n→∞
i=1
Xn
Pn −1
por el teorema 28. Por tanto, n −1
y
i=1 i log Fi converge a lim n Fi0 log Fi ;
n→∞
 i=1
Fi0 = F xpi β0 , uniformemente en probabilidad en β ∈ N (β0 ), una vecindad abierta
de β0 .
Un resultado similar se puede obtener para el segundo término del lado derecho
de 2.3.1. Por tanto

Q (β) = plim n−1 log L


n
X
−1
= lı́m n Fi0 log Fi
n→∞
i=1
n
X
+ lim n−1 (1 − Fi0 ) log (1 − Fi ) (2.3.3)
i=1

donde la convergencia es uniforme en β ∈ N (β0 ). Debido a los supuestos asumidos


se puede derivar dentro de la operación lı́mite en 2.3.3, para obtener
X Fi0n n
X 1 − Fi0
∂Q
= lim n−1 fi xi − lim n−1 fi xi , (2.3.4)
∂β i=1
Fi i=1
1 − Fi

El cual se desaparece cuando β = β0 . Puesto que


Xn
∂ 2 Q −1 fi02
= − lim n xi xpi , (2.3.5)
∂β∂β p βb0 i=1
Fi0 (1 − Fi0 )

Q alcanza un estricto máximo local en β = β0 . Ası́ el supuesto 3 del teorema 22 se


b
mantiene, con lo cual se prueba la consistencia de β.
Una solución de (2.3.2) puede no existir. Sin embargo, la eventual irresolubilidad
no afecta la consistencia de la prueba por que la probabilidad de que esto ocurra se
aproxima a cero cuando n tiende a infinito, como se muestra en el teorema 22.
Para demostrar la probabilidad asintótica se usa el teorema 29, lo cual significa
que se deben verificar los supuestos 1, 2 y 3 del teorema 23 y la ecuación (1.3.2).
2.3 Estimación para modelos de elección binaria 36

Derivando (2.3.2) con respecto a β se tiene que:

Xn  2
∂ 2 log L yi − Fi
= − fi2 xi xpi
∂β∂β p i=1
Fi (1 − F i )
Xn  
yi − Fi
+ fipxi xpi (2.3.6)
i=1
Fi (1 − Fi )

Por lo anterior se satisface el supuesto 1 del teorema 23. También se puede verificar
que los supuestos 2.3.1 y 2.3.3 implica el supuesto 2 del teorema 23 usando los
teoremas 24 y 27. De (2.3.2) se tiene que:
n
1 ∂ log L 1 X yi − Fi0
√ =√ fi0 xi (2.3.7)
n ∂β β0 n i=1 Fi0 (1 − Fi0 )

Del Teorema 19 se obtiene la normalidad asintótica de (2.3.7), porque cada término


en la sumatoria es independiente con el segundo momento acotado y el tercer
momento absoluto debido a los Supuestos 2.3.1, 2.3.2 y 2.3.3. Ası́, se satisface el
supuesto 3 del 23, y se obtiene

1 ∂ log L
√ → N (0, A) (2.3.8)
n ∂β β0

donde n
1X fi02
A = lim xi xpi (2.3.9)
n→∞ n Fi0 (1 − Fi0 )
i=1

Finalmente, de la ecuación 2.3.6 se obtiene



1 ∂ 2 log L
lim E = −A (2.3.10)
n→∞ n ∂β∂β p β0

verificando ası́ la ecuación (1.3.2). Por tanto, se tiene que:


√   
n βb − β0 → N 0, A−1 (2.3.11)

Concavidad global de la función Verosimilitud en los modelos Logit y


Probit
Concavidad global significa que

∂ 2 log L
∂β∂β p
2.3 Estimación para modelos de elección binaria 37

es una matriz definida negativa para β ∈ B. Por expansión de Taylor se obtiene


  ∂ log L  
log L (β) = log L βb + β − βb
∂β p βb
1 p ∂ 2 log L  
+ β−β b β − βb (2.3.12)
2 ∂β∂β p βb∗

b concavidad global implica que


donde β ∗ se encuentra entre β y β,
 
log L βb > log L (β)

para β 6= βb si βb es una solución de (2.3.2). Se debe probar la concavidad global para


los modelos Probit y Logit.

1. Para el modelo Logit se tiene


∂2Λ ∂Λ
Λ (x) = Λ (x) (1 − Λ (x)) y 2
= (1 − 2Λ) (2.3.13)
∂x ∂x

Ahora, insertando esta ecuación en 2.3.6 con F (x) = Λ se obtiene


X n
∂ 2 log L
= − Λi (1 − Λi ) xi xpi (2.3.14)
∂β∂β p i=1

Donde 
Λi = Λ xpi β

Entonces del supuesto 2.3.3 se obtiene la concavidad global.

2. Para el modelo Probit se tiene que haciendo:

Fi = Φi

fi = φi
y
fip = −xpi βφi
donde φi es la función de densidad de N(0, 1), y reemplazando en (2.3.6) se
obtiene
X n
∂ 2 log L −2 −2  2

= − φi Φi (1 − Φi ) y i − 2y i Φi + Φi φi
∂β∂β p i=1

+ (yi − Φi ) Φi (1 − Φi ) xpi β xi xpi (2.3.15)
2.3 Estimación para modelos de elección binaria 38

Por tanto se debe mostrar la positividad de



gy (x) ≡ y − 2yΦ + Φ2 φ + (y − Φ) Φ (1 − Φ) x
para y = 1 y para y = 0.

Primero, sea y = 1. Como


g1 (x) = (1 − Φ)2 (φ + Φx)
es suficiente demostrar que φ + Φx > 0. La desigualdad se satisface si
x ≥ 0, ası́ se asuma x < 0. Pero esto es equivalente a mostrar
φ > (1 − Φ) x para x > 0 (2.3.16)
que se obtiene de la identidad
Z ∞
2
  
−1
x exp −x /2 = 1 + y −2 exp −y 2 /2 dy (2.3.17)
x

Segundo, sea y = 0
g0 (x) = Φ2 [φ − (1 − Φ) x]
que es absolutamente positivo si x ≤ 0 y es positivo si x > 0 debido a
2.3.16. Demostrando ası́ la concavidad global para el caso Probit.

2.3.2. Métodos Iterativos para obtener el Estimador de


Máxima Verosimilitud
Los métodos iterativos se pueden usar para calcular una raı́z de la ecuación 2.3.2.
Para los modelos Logit y Probit, la iteración es simple por la concavidad global
probada en la sección anterior.
Enseguida se tratará la iteración del método de score y se le dará una adecuada
interpretación. El método de score se define como
(  )−1
b b ∂ 2
log L ∂ log L
β2 = β1 − E (2.3.18)
∂β∂β p βb1 ∂β βb1

donde βb1 es un estimador inicial de β0 y βb2 es el estimador de segunda pasada. La


iteración se repite hasta que una sucesión de estimadores obtenidos sea convergente.
Al usar 2.3.2 y 2.3.6 la ecuación anterior se puede escribir como
 −1
Xn b
f 2 Xn
fb h i
b
β2 =   i
 xi xi 
p
 i  xi yi − Fbi + fbi xpi βb1 , (2.3.19)
i=1
b
F i 1 − b
Fi i=1
b
Fi 1 − b
Fi
2.3 Estimación para modelos de elección binaria 39

donde  
Fbi = F xpi βb1
y  
fbi = f xpi βb1
De la iteración 2.3.19 es posible hacer una interesante interpretación. De 2.2.1 se
obtiene 
yi = F xpi β0 + ui
donde
Eui = 0
y  
V ui = F xpi β0 1 − F xpi β0

el cual es un modelo de regresión no lineal heterocedástico. Expandiendo F xpi β0
en una serie de Taylor alrededor de β0 = βb1 y organizando términos se tiene

yi − Fbi + fbi xpi βb1 ∼


= fbi xpi β0 + ui (2.3.20)

Ası́ βb2 definido en 2.3.19 se puede interpretar como el estimador de Mı́nimos


Cuadrados
  Ponderados (MCP) de β0 aplicado a 2.3.20 con V ui estimado por
Fbi 1 − Fbi . Por esta razón el método la iteración del método de score en el Modelo de
Elección Discreta, algunas veces se le conoce como Iteración de Mı́nimos Cuadrados
Ponderados No Lineal (MCPNL). (Walker y Duncan, 1967)

2.3.3. Método del Mı́nimo Chi-cuadrado de Berkson


Existen muchas variaciones del método Chi-cuadrado (M IN χ2 ), uno de los
cuales es el método de Berkson. Por ejemplo, el Estimador de Mı́nimos Cuadrados
Factibles Generalizados (MCFG) definido en Amemiya6 es un estimador (M IN χ2 ).
Otro ejemplo es el estimador Barankin-Gurland mencionado en Amemiya7 . Una
caracterı́stica común de estos estimadores es que el minimando evaluado en el
estimador es asintóticamente distribuido como chi-cuadrado, de donde se deriva su
nombre.
El método M IN χ2 en el contexto del Modelo Discreto, fué propuesto primero por
Berkson8 , para el modelo Logit pero puede usarse para cualquier modelo de Elección
Discreta. Es útil solamente cuando existen muchas observaciones de la variable
dependiente y que tienen el mismo valor del vector de variables independientes x
6
Amemiya, Sección 6.2
7
Amemiya, Sección 4.2.4
8
1944
2.3 Estimación para modelos de elección binaria 40

(algunas veces referido como ”muchas observaciones por celda”). Ası́ que F (xpβ0 )
para el valor especı́fico de x puede ser estimado con precisión por la frecuencia
relativa de y cuando ésta es igual a 1.
Para explicar el método en detalle se deben definir nuevos sı́mbolos. Suponga
que el vector xi toma T valores vectoriales distintos x(1) , x(2) . . . , x(T ) y clasifica los
enteros (1, 2, . . . , n) en T conjuntos disjuntos I1 , I2 , . . . , IT por la regla: i ∈ It si
x(i) = x(t) . Sea P(t) = P (yi = 1) si i ∈ It . Además, sea nt el número de enteros
contenidos en It , X
rt = yi
i∈It
y
Pb(t) = rt /nt
n o
Nótese que Pb(t) constituye los estadı́sticos suficientes del modelo. También se
escribirá x(t) , P(t) y Pb(t) como xt , Pt y Pbt si no hay ambigüedad.

De 2.2.1 se tiene que



Pt = F xpt β0 , t = 1, 2, . . . , T. (2.3.21)

si F es uno a uno, lo cual es consecuencia del supuesto 2.3.1. Se puede invertir la


relación anterior para obtener

F −1 (Pt ) = xpt β0 (2.3.22)


 
donde F denota la función inversa de F . Al expandir F
−1
Pbt en una serie de
−1

Taylor alrededor de Pt (lo cual es posible por el supuesto 2.3.1) se obtiene


 
−1 b ∂F −1  b 
F Pt = xt β0 +
p
P − P
∂Pt P ∗
t t
t
1  
= xpt β0 + Pbt − Pt
f [F −1 (Pt∗ )]
≡ xpt β0 + vt + wt , (2.3.23)

donde Pt∗ se encuentra entre Pbt y Pt ,


1  
vt = Pbt − Pt
f [F −1 (Pt )]
y  
1 1 
wt = − Pbt − Pt
f [F −1 (Pt∗ )] f [F −1 (Pt )]
2.3 Estimación para modelos de elección binaria 41

El hecho que vt y wt dependan de n ha sido eliminado.


Puesto que
Pt (1 − Pt )
V vt ≡ σt2 = (2.3.24)
nt f 2 [F −1 (Pt )]

y debido a que wt es O n−1 t y por tanto puede ser ignorado para nt grandes
(como mostraremos más adelante), 2.3.23 define aproximadamente un modelo de
regresión lineal heterocedástico. El estimador M IN χ2 denotado βe se define como el
estimador Mı́nimo Cuadrado Ponderado (MCP) aplicado a 2.3.23 ignorando wt . Se
puede estimar σt2 por σ bt2 el cual se obtuvo sustituyendo Pbt por Pt en 2.3.24. Ası́
!−1
T
X T
X  
βe = bt−2 xt xpt
σ bt−2 xt F −1 Pbt
σ (2.3.25)
t=1 t=1

se probará la consistencia y normalidad asintótica de βe (cuando n tiende a infinito


con T fijo) bajo supuestos 2.3.1, 2.3.3 y el siguiente supuesto adicional:

Supuesto 2.3.4. lı́mn→∞ (nt /n) = ct 6= 0 para t = 1, 2, . . . , T donde T es un entero


fijo.

Se asume el supuesto 2.3.4 para simplificar el análisis. Sin embargo, si ct = 0


para algún t se puede proceder como si las observaciones para ese t no existieran e
imponer los supuestos 2.3.3 y 2.3.4 en las observaciones restantes.
Insertando la ecuación (2.3.23) en la (2.3.25) y reorganizando términos, se obtiene
!−1
√   T
1 X −2 1 X −2
T
n βe − β0 = σ
b xt xpt √ σ
b xt (vt + wt ) (2.3.26)
n t=1 t n t=1 t
Como T es fijo, se tiene por Teorema (15) que
T T
1 X −2 X
plimn→∞ σ
bt xt xpt = σ −2
t xt xt
p
(2.3.27)
n t=1 t=1

donde
2 [F −1 (Pt )]
σ −2
t = ct f
[Pt (1 − Pt )]
2.3 Estimación para modelos de elección binaria 42

También, al aplicar el Teorema (16) se obtiene


T T
1 X −2 X 1  −1
√ σ
bt xt (vt + wt ) = √ σ bt−1 σbt σt xt
n t=1 t=1
n

× σt−1 vt + σt−1 wt
T
X
LD
≡ σ −1 −1
t xt σt vt (2.3.28)
t=1

debido a que

plim n−1/2 σt−1 = σ −1


t
bt−1 σt = 1 y
plim σ
plim σt−1 wt = 0 (2.3.29)

Pero, debido a que {vt } son independientes, el vector σ1−1 v1 , σ2−1 v2 , . . . , σT−1 vT
converge a N (0, IT ). Por tanto
T T
!
X X
σ −1 −1
t xt σt vt → N 0, σ −2
t xt xt
p
(2.3.30)
t=1 t=1

Finalmente, de (2.3.26) hasta (2.3.30) y Teorema (16) se tiene que


 !−1 
√   T
X
n βe − β0 → N 0, σ −2
t xt xt
p  (2.3.31)
t=1

Puesto que A definido en 2.3.9 es también


T
X
A= σ −2
t xt xt
p

t=1

bajo el supuesto 2.3.4, y las ecuaciones (2.3.11) y (2.3.31) muestran que el


estimador M IN χ2 tiene la misma distribución asintótica que el Estimador de
Máxima Verosimilitud. El estimador M IN χ2 es más fácil de calcular que el
Estimador de Máxima Verosimilitud por que el primero es explı́citamente definido
en ecuación (2.3.25), mientras que el último requiere iteración. Sin embargo, el
método M IN χ2 requiere un gran número de observaciones en cada celda. Si
el modelo contiene varias variables independientes, esto puede ser imposible de
obtener. En la siguiente subsección se compararán los dos estimadores en más detalle.
2.3 Estimación para modelos de elección binaria 43

En el modelo Probit,    
F −1 b
Pt = Φ−1 b
Pt .
Aunque Φ−1 no tiene una forma explı́cita puede ser fácilmente evaluada numérica-
mente. La función Φ−1 (.) se conoce como la transformación Probit.

En el modelo Logit, se puede escribir explı́citamente


 
  Pbt
Λ−1 Pbt = log    (2.3.32)
1 − Pbt

la cual es llamada transformación Logit o Logaritmo de las razones impares.

Cox9 mencionó la siguiente modificación de 2.3.32:


 h i 
   Pbt + (2nt )−1 
Λ−1
c Pbt = log h i . (2.3.33)
 1 − Pb + (2n )−1 
t t

Esta modificación tiene dos ventajas sobre la 2.3.32:


1. La transformación de la Ecuación (2.3.33) puede siempre estar definida
mientras 2.3.32 puede no estar definida si Pbt = 0 o 1 (Sin embargo, no es
recomendable usar la modificación de Cox cuando nt es pequeña)
2. Se puede mostrar que  
EΛ−1
c Pbt − Λ−1 (Pt )

es del orden de n−2


t , mientras que
 
EΛ−1 Pbt − Λ−1 (Pt )

es del orden de n−1


t

Ası́ se ha probado la consistencia y la normalidad asintótica del estimador M IN χ2


de Berkson asumiendo que xi = xt para i ∈ IT . Sin embargo, en la práctica puede
ocurrir que un investigador procede como si xi = xt para i ∈ IT aún si xi 6= xt por
que las observaciones individuales xi no están disponibles y sólo esta disponible su
media grupal X
xt ≡ n−1
t xi .
i∈It
2
En este caso, el estimador M IN χ es generalmente inconsistente.
9
Cox, 1970 pag.33
2.3 Estimación para modelos de elección binaria 44

2.3.4. Comparación entre el Estimador de Máxima Verosi-


militud y el Estimador Chi-cuadrado Mı́nimo
En un modelo simple donde el vector xt consiste de 1 y de una variable
independiente sencilla y donde T es pequeño, la media exacta y la varianza del
Estimador de Máxima Verosimilitud y el estimador M IN χ2 pueden calcularse por
medio de un método directo. Berkson 1955, 1957 lo hizo ası́ para el modelo Logit
y Probit respectivamente y encontró que el Error Cuadrado Medio exacto para el
estimador M IN χ2 era más pequeño que todos los ejemplos considerados.
Amemiya10 obtuvo la fórmula para el sesgo del orden de n−1 y el Error Cuadrado
Medio del orden de n−2 de MLE y de M IN χ2 en el modelo general Logit. El método
que empleó en su estudio fué: Usando la Ecuación (2.3.13) y el esquema de muestreo
descrito en la sección anterior, la ecuación normal 2.3.2 se reduce a
T
X h i
nt Pbt − Λ xpt β xt = 0 (2.3.34)
t=1

La ecuación anterior se refiere a la definición del Estimador de Máxima


Verosimilitud βb implı́citamente como una función de Pb1 , Pb2 , . . . , PbT , algo como
 
b b b b
β = g P1 , P2 , . . . , PT .

Expandiendo g en una serie de Taylor alrededor de P1 , P2 , . . . , PT y notando que

g(P1 , P2 , . . . , PT ) = β0

se obtiene
X 1 XX
βb − β0 ∼
= gt ut +gts ut us
t
2 t s
1 XXX
+ g ut us ur , (2.3.35)
6 t s r tsr

donde
ut = Pbt − Pt
y gt , gts y gtsr representan las derivadas parciales de primer, segundo y tercer orden
de g evaluadas en (P1 , P2 , . . . , PT ), respectivamente. El sesgo del Estimador de
Máxima Verosimilitud al orden de n−1 se obtiene tomando la esperanza de los dos
primeros términos del lado derecho de la Ecuación (2.3.35). El Error Cuadrado
Medio del Estimador de Máxima Verosimilitud al orden de n−2 se obtiene calculando
10
Amemiya, 1980b
2.4 Prueba de Hipótesis 45

el Error Cuadrado Medio del lado derecho de la ecuación anterior, ignorando los
términos de orden menor a n−2 . No es necesario considerar términos más altos en la
expansión de Taylor porque el Eukt para k ≥ 5 es a lo más del orden de n−3 t . Una
expansión de Taylor para el estimador M IN χ2 βe se obtiene expandiendo el lado
derecho de la Ecuación 2.3.25 alrededor de Pt .

Usando estas fórmulas, Amemiya calculó los Errores Cuadrados Medios aproxi-
mados del Estimador de Máxima Verosimilitud y el estimador M IN χ2 en algunos
ejemplos tanto artificiales como empı́ricos y encontró que el estimador M IN χ2 tiene
un Error Cuadrado Medio más pequeño que el Estimador de Máxima Verosimilitud
en todos los ejemplos considerados. Sin embargo, la diferencia entre las dos matrices
del Error Cuadrado Medio pueden no ser ni definida positiva ni definida negativa
(Ghosh y Sinha, 1981). De hecho Davis 1984 mostró ejemplos en los cuales el Es-
timador de Máxima Verosimilitud tiene un Error Cuadrado Medio menor de n−2 y
ofreció un argumento intuitivo que mostró que para un T grande, es más probable
que el Estimador de Máxima Verosimilitud tenga un error cuadrático medio más
pequeño.
Smith, Savin y Robertson (1984) realizaron un estudio Monte Carlo del Modelo Logit
con una variable independiente y encontraron que aunque en estimación puntual el
M IN χ2 era mejor que el Estimador de Máxima Verosimilitud, como en los estudios
de Berkson y Amemiya, la convergencia de la distribución del estimador M IN χ2 a
una distribución normal era algunas veces relativamente lenta, siendo poco satisfac-
toria en una instancia como n = 480.

2.4. Prueba de Hipótesis


Para probar una hipótesis en un único parámetro, se puede realizar una prueba
normal estándar usando la normalidad asintótica bien sea del Estimador de Máxima
Verosimilitud o M IN χ2 . Una hipótesis lineal puede probarse usando métodos
generales. El problema de escoger un modelo entre varias alternativas puede ser
resuelto bien sea por el Criterio de Información de Akaike (AIC) o por la prueba de
Cox de hipótesis no anidadas.

Aquı́ se tratará sólo una prueba chi-cuadrado basada en el estimador M IN χ2 de


Berkson debido a que esto no es un caso especial de las pruebas discutidas. La prueba
estadı́stica es la Weighted Sum of Squared Residuals (WSSR)11 de la ecuación 2.3.23
11
Suma Ponderada de los Cuadrados Residuales (SPCR)
2.4 Prueba de Hipótesis 46

definida por
T
X h   i2
b pe
W SSR = bt−2
σ F −1
Pt − xt β (2.4.1)
i=1

En el modelo de regresión normal heterocedástico y ∼ N (Xβ, D) con D conocido,


 p  
y − XβbG D−1 y − XβbG

se distribuye como χ2T −K . De esto se puede deducir que WSSR como se define
anteriormente es asintóticamente distribuido como χ2T −K .

Se usa este hecho para escoger entre el modelo no restringido



Pt = F xpt β0

y el modelo restringido 
Pt = F xp1t β10
donde x1t y β10 son los primeros K − q elementos de xt y β0 respectivamente. Sean
W SSRu y W SSRc los valores de la Ecuación 2.4.1 derivados de los modelos no
restringido y restringido, respectivamente. Se deberı́a escoger el modelo no restringido
si y sólo si
W SSRc − W SSRu > χ2q,α (2.4.2)
donde χ2q,α denota el valor crı́tico α % de χ2q .

Para escoger entre modelos no anidados, se puede usar la siguiente variación del
Criterio de Información de Akaike:
1
AIC = W SSR + K (2.4.3)
2
Esto puede justificarse sobre la base que en el modelo de regresión normal
heterocedástico mencionado antes,
 p  
y − XβbG D−1 y − XβbG = −2 log L

aparte de un término constante.


En lugar de 2.4.1 se puede usar
T
X h  i−1 h  i2
nt Pbt 1 − Pbt Pbt − F xpt βe , (2.4.4)
t=1

puesto que esta es asintóticamente equivalente a 2.4.1.


2.5 Análisis Discriminante 47

2.5. Análisis Discriminante


El propósito del Análisis discriminante es medir las caracterı́sticas de un
individuo o de un objeto y con base en las medidas, clasificarlo en uno de dos
posibles grupos.

Es posible enunciar el problema estadı́sticamente como sigue: Supóngase que el


vector de variables aleatorias x∗ se genera de acuerdo a alguna densidad g1 o g0 , se
va a clasificar una observación dada en x∗ , denotada x∗i , en el grupo caracterizado
por g1 o g2 . Es útil definir yi = 1 si x∗ se genera por g1 y yi = 0 si es generado
por g0 . Se debe predecir yi basados en x∗ . La información esencial necesaria para la
predicción es la probabilidad condicional P (yi = 1|x∗i ).

Se ignorará el problema de la predicción dada la probabilidad condicional y se


encamina la pregunta de cómo especificar y estimar la probabilidad condicional.

Por Teorema de Bayes se tiene


g1 (x∗1 ) q1
P (yi = 1|x∗i ) = (2.5.1)
g1 (x∗1 ) q1 + g0 (x∗i ) q0
donde q1 y q0 denotan las probabilidades marginales P (yi = 1) y P (yi = 0)
respectivamente. Se evaluará la ecuación anterior, asumiendo que g1 y g0 son las
densidades de N (µ1 , Σ1 ) y N (µ0 , Σ0 ), respectivamente. Este supuesto se enuncia
formalmente como
x∗i | (yi = 1) ∼ N (µ1 , Σ1 )
x∗i | (yi = 0) ∼ N (µ0 , Σ0 ) (2.5.2)
Esta es la forma más comúnmente usada de Análisis Discriminante, también llamado
Análisis Discriminante Normal.

Bajo la Ecuación (2.5.2), el modelo (2.5.1) se reduce al siguiente modelo Logit


Cuadrático:  
P (yi = 1|x∗i ) = Λ β(1) + β(2)
p
x∗i + x∗p
i Ax∗
i , (2.5.3)
donde
1 p −1 1
β(1) = µ0 Σ0 µ0 − µp1 Σ−1
1 µ1 + log q1 − log q0 (2.5.4)
2 2
1 1
− log |Σ1 | + log |Σ0 |
2 2

β(2) = Σ−1 −1
1 µ1 − Σ0 µ0 (2.5.5)
2.5 Análisis Discriminante 48

y
1 −1 
A=Σ0 − Σ−1 1 (2.5.6)
2
En el caso especial Σ‘1 = Σ0 el cual se asume frecuentemente en aplicaciones
econométricas, se tiene A = 0; por tanto, la Ecuación 2.5.3 se reduce al Modelo
Logit Lineal: 
P (yi = 1|x∗i ) = Λ xpi β (2.5.7)
donde
β(1) + β(2)
p
x∗i = xpi β
de acuerdo la notación de la sección 2.2

Se considera la estimación Máxima Verosimilitud los parámetros µ1 , µ0 , Σ1 , Σ0 , q1


y q0 basados en las observaciones (yi , x∗i ), i = 1, 2, . . . , n. La determinación de q1 y q0
varı́a de acuerdo a los autores. Se ha adoptado aquı́ el enfoque de Warner (1963) y
se trata a q1 y q0 como parámetros desconocidos a estimar. La función verosimilitud
puede escribirse como
n
Y
L= [g1 (x∗i ) q1 ]yi [g0 (x∗i ) q0 ]1−yi (2.5.8)
i=1

Igualando las derivadas de log L a 0 produce los siguientes estimadores Máxima


Verosimilitud:

1.
n1
qb1 = , (2.5.9)
n
Pn
donde n1 = i=1 yi

2.
n0
qb0p = , (2.5.10)
n
donde n0 = n − n1

3. n
1 X
µ
b1 = yi x∗i (2.5.11)
n1 i=1

4. n
1 X
µ
b0 = (1 − yi ) x∗i (2.5.12)
n0 i=1
2.5 Análisis Discriminante 49

5. n
X
b1 = 1
Σ yi (x∗i − µ
b1 ) (x∗i − µ
bi )p (2.5.13)
n1 i=1
y

6. n
b 1 X
Σ0 = (1 − yi ) (x∗i − µ
b0 ) (x∗i − µ
b0 )p (2.5.14)
n0 i=1

Si Σ1 = Σ0 (≡ Σ) como se asume frecuentemente, las Ecuaciones 2.5.13 y 2.5.14


deberı́an reemplazarse por
" n
1 X
Σb = yi (x∗i − µ
b1 ) (x∗i − µ
bi )p
n i=1
n
#
X
+ (1 − yi ) (x∗i − µ
b0 ) (x∗i − µ
b0 )p
(2.5.15)
i=1

Los estimadores Máxima Verosimilitud de β(1) , β(2) y A se obtienen insertando estos


estimados al lado derecho de las Ecuaciones 2.5.4, 2.5.5 y 2.5.6.
El análisis Discriminante es frecuentemente usado en análisis de elección de
modos de transporte.

Al modelo definido por la Ecuación 2.5.2 con Σ1 = Σ0 y por la Ecuación


 2.5.7, se
 p
le llama Modelo de Análisis Discriminante (MAD) y al estimado de β ≡ β(1) , β(2)
p

obtenido insertando las Ecuaciones 2.5.11, 2.5.12 y 2.5.15 en Ecuaciones 2.5.4


y 2.5.5 con Σ1 = Σ0 se le conoce como el estimador AD, denotado por βDA p
.
De otro lado si se asume sólo la Ecuación 2.5.7 y no la Ecuación 2.5.2, se tiene
un modelo Logit. Se denota el Estimador de Máxima Verosimilitud Logit de β por βbΛ .

El rendimiento relativo de los dos estimadores dependerá crı́ticamente de la


distribución real asumida para x∗i . Si se asume Ecuación 2.5.2 con Σ1 = Σ0 además
de la Ecuación 2.5.7, el estimador de DA es el Estimador de Máxima Verosimilitud
genuino y por tanto deberı́a ser asintóticamente más eficiente que el Estimador
de Máxima Verosimilitud Logit. Sin embargo, si no se asume la Ecuación 2.5.2, el
estimador Análisis Discriminante (DA) pierde su consistencia en general, mientras
el Estimador de Máxima Verosimilitud Logit la mantiene. Ası́ se esperarı́a que el
Estimador de Máxima Verosimilitud Logit sea más robusto.
2.6 Predicción Agregada 50

2.6. Predicción Agregada


Se considera
P ahora el problema de predecir la proporción agregada
r ≡ n−1 ni=1 yi en el Modelo de Elección Discreta (2.2.1). Esto es un proble-
ma frecuente de importancia práctica para los hacedores de polı́ticas. Por ejemplo
en el problema de elección de transporte, serı́a deseable saber la proporción
de gente que, en una comunidad, usen el tránsito cuando se aplica una nueva
tarifa y los otros valores de las variables independientes x prevalecen. Se asu-
me que β (sin el subı́ndice 0) se ha estimado del anterior muestreo. Sin embargo,
para simplificar el análisis se asumirá que el valor estimado de β es igual al valor real.

La predicción de r deberı́a hacerse basándose en la distribución condicional de r


dado {xi }. Cuando n es grande, se presenta la siguiente distribución asintótica:
" n n
#
A
X X
r ∼ N n−1 Fi , n−2 Fi (1 − Fi ) (2.6.1)
i=1 i=1

Una vez se calcula la media y la varianza asintótica se tiene toda la información


necesaria para predecir r.
Si se observa cada xi , i = 1, 2, . . . , n, se puede calcular adecuadamente la
media y la varianza de la Ecuación (2.6.1). Sin embargo, puesto que es más
real asumir que no se puede observar cada xi se considerará el problema de
cómo estimar la media y la varianza para la distribución (2.6.1) en esa situación.
Para ese propósito se asumirá que {xi } son variables aleatorias independientes
e idénticamente distribuidas con la misma función de distribución k-variada
G. Entonces la media y la varianza asintótica de r puede estimarse por EF (xpβ)
y n−1 EF (1 − F ) respectivamente, donde E es la esperanza tomada con respecto a G.

Westin (1974) estudió la evaluación de EF cuando F = Λ (distribución logı́stica)


y x ∼ N (µx , Σx ). El notó que la densidad de

p ≡ Λ xpβ

está dada por


(    2 )
1 1 1 p
f (p) = √ exp − 2 log −µ , (2.6.2)
2πσ p(1 − p) 2σ 1−p

donde
µ = µpx β
y
σ 2 = β pΣx β
2.6 Predicción Agregada 51

Puesto que la media de esta densidad no tiene una expresión de forma cerrada,
se debe evaluar Z
pf (p) dp

numéricamente para valores de µ y σ 2 -

McFadden y Reid 1975 mostraron que si F = Φ (distribución normal estándar)


y x ∼ N (µx , Σx ) como antes, se tiene
 h −1/2 i
EΦ xpβ = Φ 1 + σ 2 µ (2.6.3)

Ası́ la evaluación de EF es mucho más sencilla que en el caso Logit.

Westin y McFadden no consideraron la evaluación de la varianza asintótica de


r, la cual constituye una importante pieza de información para el propósito de
predicción.

Otra deficiencia de estos estudios es que la variabilidad debida a la variación de


β se ignora totalmente. Se sugiere un modo parcialmente bayesiano de tratar este
problema. Dado un b
 β estimado
 de β se trata β como una variable aleatoria con
la distribución N β,b Σβ . Un estimado de la matriz de covarianza asintótica del
estimador βb puede usarse para Σβ .

Se hace referencia al modelo (2.6.1) como la distribución asintótica de r


condicionalmente en {xi } y β. La distribución de r condicional en {xi } pero no
en β, por lo tanto, está dado por
" n n n
#
A
X X X
r ∼ N Eβ n−1 Fi , Eβ n−2 Fi (1 − Fi ) + Vβ n−1 Fi (2.6.4)
i=1 i=1 i=1

Finalmente, si todas las observaciones en {xi } no están disponibles y {xi } pueden


referirse como variables aleatorias independientes e idénticamente distribuidas, se
puede aproximar la distribución (2.6.4) por
A  
r ∼ N Ex Eβ F, n−1 Ex Eβ F (1 − F ) + Ex Vβ F (2.6.5)

.
Capı́tulo 3

Modelos de Respuesta Múltiple

3.1. Inferencia Estadı́stica


Asumiendo que la variable dependiente yi toma mi + 1 valores 0, 1, . . . , mi , un
modelo de elección múltiple multinomial general se define como:

P (yi = j) = Fij (x∗ , θ), i = 1, 2, . . . , n y (3.1.1)


j = 1, 2, . . . , mi ,

donde x∗ y θ son vectores de variables y parámetros independientes, respectiva-


mente. La ecuación anterior se podrı́a escribir eventualmente como Pij = Fij . Existe
también la posibilidad que no todas las variables y parámetros independientes estén
incluidas en el argumento de cada Fij . Nótese que P (Yi = 0) (≡ Fi0 ) no necesita
especificarse porque debe ser igual a uno menos la suma de las mi probabilidades
definidas en 3.1.1.

Es importante hacer que mi dependa de i porque en muchas aplicaciones los


individuos enfrentan diferentes conjuntos de elección. Por ejemplo, en análisis de
selección del modo de transporte, viajar por metro no se incluye en el conjunto de
elecciones de quienes viven fueran de su área de servicio.

Para definirPel Estimador de Máxima Verosimilitud de θ en el modelo 3.1.1


es útil definir ni=1 (mi + 1) variables binarias.

yij = 1 si yi = j (3.1.2)
yij = 0 si yi 6= j, i = 1, 2, . . . , n y
j = 0, 1, . . . , mi ,
3.1 Inferencia Estadı́stica 53

Luego se puede escribir la función Log verosimilitud como


mi
n X
X
log L = yij log Fij , (3.1.3)
i=1 j=0

lo cual es una generalización natural de


n
X n
X
  
log L = yi log F xpi β + (1 − yi ) log 1 − F xpi β (3.1.4)
i=1 i=1

El Estimador de Máxima Verosimilitud θ̂ de θ se define como una solución de la


ecuación normal
∂ log L
=0
∂θ
Muchos de los resultados sobre el Estimador de Máxima Verosimilitud en el caso
binario se mantienen aún para el modelo 3.1.1. Un conjunto razonable de condiciones
suficientes para su consistencia y normalidad asintótica se pueden encontrar usando
los teoremas definidos en la sección inicial de Fundamentos como se hizo para el caso
binario. También se puede mostrar la equivalencia del método de scoring y la iteración
Mı́nimos Cuadrados Ponderados No Lineal (NLWLS)1 (N LGLS para ser exacto).
Pero aquı́ se demostrarán éstos conceptos bajo un modelo un poco menos general
que 3.1.1. Asumiendo
′ ′ ′
P (yi = j) = Fj (xi1 β1 , xi2 β2 , . . . , xiH βH ), (3.1.5)
i = 1, 2, . . . , n y j = 1, 2, . . . , m,
donde H es un entero fijo. En la mayorı́a de los ejemplos especı́ficos del Modelo
Multinomial se tiene H = m pero aquı́ no es necesario. Note que se ha asumido
ahora que m no depende de i para simplificar el análisis.

Al replantear los supuestos 2.3.1, 2.3.2 y 2.3.3 con las siguientes modificaciones
obvias se obtienen los siguientes supuestos:
Supuesto 3.1.1. Fij tiene derivadas parciales
∂Fij
fijk ≡ ′

∂ xik βk
y derivadas parciales de segundo orden
∂fijk
fijkl ≡ ′

∂ xil βl
para cada i, j, k, l y 0 < Fij < 1 y fijk > 0 para cada i,j y k.
1
Nonlinear Weighted Least Squares, Walker y Duncan, 1967
3.1 Inferencia Estadı́stica 54

Supuesto 3.1.2. El espacio de parámetros B es un subconjunto acotado abierto de


un espacio Euclideano.

Supuesto 3.1.3. {xih } son uniformemente acotados en i para cada h y


n
X
−1 ′
lim n xih xih
n→∞
i=1

es una matriz finita no singular para cada h. Además la función empı́rica de


distribución de {xih } converge a una función de distribución.

Bajo estos supuestos el Estimador de Máxima Verosimilitud β̂ de



β = β´1 , β´2 , ..., β´H

puede mostrarse consistente y asintóticamente normal. Para derivar la matriz


asintótica de covarianza, se empieza ası́:
Derivando 3.1.3 con respecto a βk , se obtiene:
n m
∂ log L X X
= yij Fij−1 fijk xik (3.1.6)
∂βk i=1 j=0

Derivando 3.1.6 con respecto a β´l se tiene que :

XX n m XX n m
∂ 2 log L ′ ′
′ = − yij Fij−2 fijk fijl xik xil + yij Fij−1 fijkl xik xil (3.1.7)
∂βk ∂βl i=1 j=0 i=1 j=0

Al tomar la esperanza y notando


m
X
fijkl = 0,
j=0

se obtiene que
n m
∂ 2 log L X X −1 k l ′
−E ′ = Fij fij fij xik xil ≡ Akl (3.1.8)
∂βk ∂βl i=1 j=0

Definiendo A = {Akl }. Entonces se puede mostrar bajo los supuestos 3.1.1, 3.1.2
y 3.1.2 que
√    
n β̂ − β → N 0, lim nA−1 (3.1.9)
n→∞
3.1 Inferencia Estadı́stica 55

Para mostrar las equivalencias entre el método de scoring y el de iteración NLWLS


(Minimos Cuadrados Ponderados No Lineal)2 , es conveniente reescribir (3.1.6) y
(3.1.8) usando la siguiente notación vectorial:


yi = (yi1 , yi2 , . . . , yim ) (3.1.10)

Fi = (Fi1 , Fi2 , . . . , Fim )
′
fki = fi1k , fi2k , . . . , fim
k

′ ′
Λi = E (yi − Fi ) (yi − Fi ) = D(Fi ) − Fi Fi

donde D (Fi ) es la matriz diagonal de la cual el j-ésimo elemento diagonal es Fij .


Entonces, usando las identidades
m
X
Fij = 1
j=0
y
m
X
fijk = 0
j=0

y notando:

Λ−1
i = D
−1
(Fi ) + Fi0−1 II (3.1.11)
donde I es un m-vector de unos, se obtiene de (3.1.6) y (3.1.8)
n
∂ log L X ′
= xik fki Λ−1
i (yi − Fi ) (3.1.12)
∂βk i=1
y
n
∂ 2 log L X ′
−E ′ = xik fki Λ−1 l ′
i fi xil (3.1.13)
∂βk ∂βl i=1
k
Suponga que β̄ es el estimador inicial de β, sean F̄i , f̄i y Λ̄i , respectivamente, Fi ,
fki , y Λi evaluados en β̄ y definiendo
n
X k′ −1 l ′
Ākl = xik f̄i Λ̄i f̄i xil (3.1.14)
i=1
y
2
(Ver Amemiya, 1976b)
3.1 Inferencia Estadı́stica 56

n
X H
X n
X
k′ −1 h ′ k′ −1 
c̄k = xik f̄i Λ̄i f̄i xih β̄h + xik f̄i Λ̄i yi − F̄i (3.1.15)
i=1 h=1 i=1

Entonces el estimador de segunda pasada β obtenido por la iteración de método


de scoring iniciado desde β̂ está dado por
−1
β = Ā c̄, (3.1.16)
donde 
Ā = Ākl
y
 ′ ′ ′
′
c̄ = c̄1 , c̄2 , . . . , c̄m .

Es posible interpretar (3.1.16) como una iteración NLGLS. De (3.1.5) se obtiene:

yi = Fi + ui , i = 1, 2, . . . , n (3.1.17)
′ ′
donde Eui = 0, Eui ui = Λi , y Eui uj = 0 para i 6= j. Expandiendo Fi en series

de Taylor alrededor de xih β̄h , h = 1, 2, . . . , H, se obtiene
H
X H
X
h ′ ∼ h ′
yi − F̄i + f̄i xih β̄h = f̄i xih β̄h + ui , i = 1, 2, . . . , n (3.1.18)
h=1 h=1

La aproximación 3.1.18 puede referirse como un modelo de regresión lineal de


mn observaciones con una matriz de covarianza no escalar. Si se estima Λi por Λ̄i y
aplicando Estimador Mı́nimos Cuadrados Factibles Generalizados (FGLS) a 3.1.18,
el estimador resultante es precisamente 3.1.16.

Luego, se deriva el estimador MIN χ2 de β en el modelo 3.1.5, siguiendo a


Amemiya (1976b). Ahora, en la sección 2.3.3, se asume que hay muchas observaciones
con el mismo valor de variables independientes y asumiendo que el vector de variables
independientes toma T valores distintos, la ecuación 3.1.5 se puede escribir como:

 ′ ′ ′

Ptj = Fj xt1 β1 , xt2 β2 , . . . , xtH βH , (3.1.19)
t = 1, 2, . . . , T y j = 1, 2, . . . , m

Para definir el estimador MIN χ2 de β, se debe poder invertir m ecuaciones en


′ ′ ′
3.1.19 para cada t y resolverlas para H variables xt1 β1 , xt2 β2 , ..., xtH βH . Asumiendo
por el momento que H = m.
3.1 Inferencia Estadı́stica 57

Si además, se asume que el Jacobiano no desaparece, se obtiene



xtk βk = Gk (Pt1 , Pt2 , . . . , Ptm ) , (3.1.20)
t = 1, 2, . . . , T y k = 1, 2, . . . , m

Como en la sección 2.3.3, se define


X
rtj = yij ,
i∈It

donde It es el conjunto de i para el cual

xih = xth

para todo h, y
rtj
P̂tj = ,
nt
donde nt es el número de enteros en It . Expandiendo
 
Gk P̂t1 , P̂t2 , ..., P̂tm

en series de Taylor alrededor de

(Pt1 , Pt2 , ..., Ptm )

y usando 3.1.20, se obtiene


  m
X  
Gk P̂t1 , P̂t2 , . . . , P̂tm ∼ j

= xtk βk + gtk P̂tj − Ftj , (3.1.21)
j=1
t = 1, 2, . . . , T y k = 1, 2, . . . , m

donde
j ∂Gk
gtk = .
∂Ptj
La ecuación 3.1.21 es una generalización de 2.3.22, pero acá se escribe como una
ecuación aproximada, ignorando un término de error que corresponde a wt en 2.3.22.

La ecuación 3.1.21 es una ecuación de regresión lineal aproximada con una matriz
de covarianza no escalar que depende de
  
Λt ≡ E P̂t − Ft P̂t − Ft ´= n−1 t [D (Ft ) − Ft F´t ] ,

donde  
P̂t = P̂t1 , P̂t2 , ..., P̂tm ´
3.1 Inferencia Estadı́stica 58

y
Ft = (Ft1 , Ft2 , ..., Ftm )´.
El estimador MIN χ2 β̃ de β se define como Estimador Mı́nimos Cuadrados
Factibles Generalizados (FGLS) aplicado a 3.1.21, usando
h   i
Λ̂t = n−1
t D P̂t − P̂t P̂t́

como un estimador de Λt .

La consistencia y normalidad asintóticamente de β̃ puede probarse usando un


método similar al empleado en el 2.3.22. Sea Ω−1 la matriz de covarianza asintótica
de β̃, esto es,
√   
n β̃ − β → N 0, limn→∞ nΩ−1 .
Entonces se puede deducir de 3.1.21 que el k, l-ésimo sub-bloque de Ω está dado por
X n ′ o−1 ′
Ωkl = xtk Gt Λt Gt xtl , (3.1.22)
kl
t

donde Gt es una matriz m × m cuya k-ésima fila es igual a
1 2 m

gtk , gtk , ..., gtk

y {}−1
kl denota el k,l-ésimo elemento de la inversa de la matriz dentro de {}.

Ahora, se obtiene de la ecuación 3.1.13 que:


X n ′ o ′
Akl = xtk Ft Λ−1
t F t xtl , (3.1.23)
kl
t

donde Ft es una matriz m × m cuya k-ésima fila es igual a
1 2 m

ftk , ftk , ..., ftk .

Ası́ la equivalencia asintótica del estimador MIN χ2 y el Estimador de Máxima


Verosimilitud se sigue de la identidad

G−1
t = Ft

En el desarrollo anterior se asumió H = m.

Asumiendo H < m, se puede invertir la ecuación 3.1.19 y obtener


3.1 Inferencia Estadı́stica 59


xtk βk = Gk (Pt1 , Pt2 , . . . , Ptm ) , (3.1.24)
t = 1, 2, . . . , T y k = 1, 2, . . . , H,

Pero la selección de la función Gk no es única. Amemiya (1976b) mostró que


el estimador MIN χ2 es asintóticamente eficiente sólo cuando se escoge la función
Gk correcta dentro de las muchas posibles. Este hecho disminuye la utilidad del
método. Para este caso Amemiya (1977c) propuso el siguiente método, el cual
siempre conduce a un estimador asintóticamente eficiente:

Paso 1: Se usa alguna Gk en (3.1.24) y defina


 
µ̂tk = Gk P̂t1 , P̂t2 ..., P̂tm
h
Paso 2: En (3.1.18) se reemplaza Fi y fi por Fi y fhi evaluado en µ̂tk y se

reemplaza xih β̄h por µ̂tk

Paso 3: Se aplica FGLS en (3.1.18) usando Λi evaluado en µ̂tk .

Se concluye esta subsección generalizando la Suma Ponderada de Residuos


Cuadrados3 definido por los modelos 2.4.1 y 2.4.4 al caso multinomial.

No se escribirá el análogo de 2.4.1 explı́citamente porque requerirı́a una


complicada notación aunque la idea es sencilla. A cambio, se afirmará que es de
la forma   X̂−1  
y − Xβ̂G ´ y − Xβ̂G
obtenido de la ecuación de regresión 3.1.21.

Esta se distribuye asintóticamente chi-cuadrado con grados de libertad igual a


mT menos el número de parámetros de regresión.
 
Ahora, considerando la generalización de 2.4.4. Se define el vector F̃t = Ft β̃ .
Entonces, el análogo de 2.4.4 es
3
Weighted Sum of Squared Residuals (WSSR)
3.2 Análisis Discriminante Multinomial (DA) 60

T 
X ′  
−1
W SSR = P̂t − F̃t Λ̂t P̂t − F̃t (3.1.25)
t=1
XT  ′ h ′
i 
= nt P̂t − F̃t D(P̂t )−1 + P̂t0−1 II P̂t − F̃t
t=1
T
X m
X (P̂tj − F̃tj )2
= nt
t=1 j=0 P̂tj

Este es asintóticamente equivalente al análogo de 2.4.1.

3.2. Análisis Discriminante Multinomial (DA)


El modelo del análisis discriminante analizado en la sección 2.5 sobre Modelos
de Elección Binaria se puede generalizar para producir análisis discriminante
multinomial definido por

x∗i (yi = j) ∼ N (µj , Σj ) (3.2.1)
y

P (yi = j) = qj (3.2.2)
para i = 1, 2, · · · , n y j = 0, 1, · · · , m. Mediante la Regla de Bayes se obtiene

gj (x∗i )qj
P (yi = j|x∗i ) = m (3.2.3)
X
gk (x∗i )qk
k=0

donde gj es la función de densidad de N (µj , Σj ). Tal como se obtuvo el modelo


(2.5.3) del modelo (2.5.1) se puede obtener de (3.2.3)

P (yi = j|x∗i ) ′
= Λ(β j(1) + β ′j(2) x∗i + x∗i Ax∗i ) (3.2.4)
P (yi = 0|xi )

donde β j(1) , β j(2) , y A son similares a (2.5.3), (2.5.4) y (2.5.5) excepto que los
subı́ndices 1 y 0 se deben cambiar a j y 0 respectivamente.

De igual manera, el término x∗i Ax∗i desaparece si todos los Σ’s son idénticos. Si
se escribe
β j(1) + β ′j(2) x∗i = β ′j xi ,
3.3 Principales Modelos de Respuesta Múltiple 61

el modelo Análisis Discriminante con varianzas idénticas se puede escribir exacta-


mente en la forma de 3.3.25, excepto por una modificación de los subı́ndices de β y
x 4.

3.3. Principales Modelos de Respuesta Múltiple


3.3.1. Introducción
Los modelos de elección dicotómica o binaria se pueden generalizar para el caso
de más de dos opciones, dando origen a los Modelos de Respuesta Múltiple,
donde se generaliza el proceso de elección de tal forma que el agente económico se
enfrenta a varias alternativas posibles.
Estas alternativas se pueden presentar de forma ordenada, no ordenada o
secuencial, dando origen a un tratamiento especı́fico de la variable endógena del
modelo y, por consiguiente, a diferentes tipos de modelación. Surgen ası́ los modelos
denominados
Modelos de Respuesta Ordenada Surgen cuando las decisiones de los
individuos pueden ordenarse.
Modelos de Respuesta No Ordenada.
Es el modelo donde el proceso de elección no implica ninguna ordenación. Entre
los modelos de Respuesta no Ordenada se destacan:

• Modelo Logit Multinomial o Modelo Logit Simple(MNL)


• Modelo Probit Multinomial (MNP)
• Modelo Multinomial Logit Jerárquico o Anidado (NL)

Los Modelos de Respuesta Múltiple, analizan la elección que un individuo realiza


en función de un conjunto de variables explicativas o regresores. Éstas pueden ser de
dos tipos:
Las que se refieren a las Caracterı́sticas Propias del Individuo, por
ejemplo: la edad, nivel de renta, distancia al puesto de trabajo, etc., y
Las que se refieren a los Aspectos Especı́ficos de cada Alternativa
concreta, por ejemplo: tiempo empleado en el trayecto según se vaya a
pie, en automóvil o en autobús, costo monetario del medio al realizar el
desplazamiento, el precio de la leche según la marca elegida, el precio del bien
o servicio según la elección realizada.
4
Los ejemplos de los modelos multinomiales se encuentran en los artı́culos de Powers y
otros(1978) y Uhler(1968), los cuales se resumen por Amemiya(1981)
3.3 Principales Modelos de Respuesta Múltiple 62

La variable dependiente o regresando se suele construir asignando el valor 0 a


la primera alternativa, 1 a la segunda, y ası́ sucesivamente, hasta el número de
alternativas o categorı́as menos uno. Ası́, en el caso del problema de decidir cómo ir
a trabajar, se asigna el valor 0 a la opción ir a pie, 1 a la opción ir en automóvil y 2
a la alternativa ir en autobús, siendo en total tres las alternativas entre las que el
agente debe decidir.

El enfoque teórico de este tipo de modelos se fundamenta en la teorı́a de la


utilidad del agente económico. En este caso, se supone que el agente económico es
racional y que elige la alternativa u opción que le va a brindar una mayor utilidad.
Además, el modelo se puede concebir como un problema de decisión, en el sentido
de que se debe elegir una opción entre un conjunto de M alternativas, que se plantea
en los siguientes términos:

Suponiendo que Ui0 , Ui1 , . . . , Uim , . . . , Ui(M −1) representan las utilidades de las M
alternativas5 para el individuo i-ésimo, las variables Xi0 ∗
, Xi1

, . . . , Xim

, . . . , Xi(M

−1)
son el conjunto de caracterı́sticas propias de la elección tal y como las percibe el
individuo (precio del trayecto, duración del desplazamiento, etc) y Xi∗∗ es el conjunto
de caracterı́sticas personales del individuo (edad, nivel de renta, etc). Se supone,
además, linealidad en las funciones6 de tal forma que la especificación del modelo
serı́a:


Ui0 = Vi0 + ǫi0 = β0 + Xi0 δ + Xi∗∗ γ0 + ǫi0 (3.3.1)

Ui1 = Vi1 + ǫi1 = β1 + Xi1 δ + Xi∗∗ γ1 + ǫi1
···

Uim = Vim + ǫim = βm + Xmj δ + Xi∗∗ γm + ǫim
···
∗ ∗∗
Ui(M −1) = Vi(M −1) + ǫi(M −1) = β(M −1) + Xi(M −1) δ + Xi γ(M −1) + ǫi(M −1)

El individuo elige una determinada opción si la utilidad que le proporciona dicha


alternativa es mayor que la utilidad que le proporciona el resto de alternativas. Es
decir:
5
Se refiere a diferenciales de utilidad, no a niveles
6
El supuesto de linealidad es importante, puesto que si se reemplaza Ui por log Ui los resultados
no son los mismos
3.3 Principales Modelos de Respuesta Múltiple 63



 0 si Ui0 > Uim ∀m 6= 0


 1 si Ui1 > Uim ∀m =6 1
Yi = 2 si Ui2 > Uim ∀m = 6 2 (3.3.2)



 ···

(M − 1) si Ui(M −1) > Uim ∀m 6= (M − 1)
Un enfoque alternativo para plantear el problema de la elección entre múltiples
alternativas es el enfoque de la variable latente. En él se supone la existencia de
una variable inobservable o latente no limitada en su rango de variación, Yi∗ , que
depende de las caracterı́sticas propias de la decisión, Xi∗ , o del individuo Xi∗∗ . Sobre
esta variable latente se aplica una regla de observabilidad que genera las alternativas
que se observan en la realidad. Desde este punto de vista, los valores de la variable
real u observada Yi que mide las distintas categorı́as se fundamentan de acuerdo con
el siguiente patrón o esquema:


 0 si Yi∗ ≤ c1

1 si c1 ≤ Yi∗ ≤ c2
Yi = (3.3.3)

 ···

(M − 1) si c(M −1) ≥ Yi∗
donde c1 , c2 , . . . , cM −1 son los valores de los umbrales o barreras. Formalmente se
puede expresar el modelo de respuesta múltiple a través de la relación siguiente:

Yi∗ = F (Xi β) + ui = F (Zi + ui )

donde:

Yi∗ : Es una variable latente (no observada)

F (.): Es una función no lineal de una combinación lineal de las caracterı́sticas


o ı́ndice

Zi : Xi β es el ı́ndice del modelo

ui : Es una variable aleatoria

Por tanto, en el proceso de especificación de los modelos de respuesta múltiple


influyen los siguientes elementos:

1. El tipo de función F (.) elegida: Generalmente se utilizan la función de


distribución Logı́stica, la función de distribución de la Normal y la función
Valor Extremo o función de Gompit.
3.3 Principales Modelos de Respuesta Múltiple 64

2. Los diferentes criterios de elección ante los que se presenta el individuo: Es


decir, si el problema presentado es un proceso de elección ordenado, una
elección ordenada jerarquizada o no ordenada.

3. El tipo de variables a considerar en el estudio o caracterı́sticas (regresores):


Es necesario determinar aquellas que son propias del individuo y que, por
tanto, son comunes a todas las alternativas (edad, renta, nivel de estudios,
etc.) y las caracterı́sticas especı́ficas de cada una de las alternativas (precio,
tiempo, distancia, etc.). En la elección a realizar intervendrán ambos tipos de
caracterı́sticas. Ası́, en la elección del medio de transporte influye tanto el nivel
de renta del usuario como la velocidad o tiempo de duración del desplazamiento,
además del precio del tiquete, en su caso.

3.3.2. Modelos de Respuesta Múltiple Ordenado


Definición
Una definición general de un modelo ordenado es

P (y = j|x, θ) = p (Sj )

para alguna medida de probabilidad p dependiendo de x y θ y una secuencia


finita de intervalos sucesivos {Sj } dependiendo de x y θ tal que Uj Sj = R, donde R
es la recta real.

En el modelo ordenado los valores que toma corresponden a una partición de la


recta real, mientras en el no ordenado corresponden bien sea a una partición no su-
cesiva de la recta real o a una partición de un espacio Euclideano de mayor dimensión.

En la mayorı́a de las aplicaciones el modelo ordenado es de la forma

 ′
  ′

P (y = j|x, α, θ) = F αj+1 − x θ − F αj − x θ , j = 0, 1, . . . , m, (3.3.4)
α0 = −∞, αj ≤ αj+1 , αm+1 = ∞,

para alguna función de distribución F . Si F = φ, 3.3.4 define el modelo probit


ordenado; y si F = Λ, define el modelo Logit ordenado.7 .

7
Pratt (1981) mostró que la función log-verosimilitud del modelo 3.3.4basada en observaciones
(yi , xi ) , i = 1, 2, ..., n, en (y, x) es globalmente cóncava si f , derivada de F , es positiva y logf es
cóncava
3.3 Principales Modelos de Respuesta Múltiple 65

El modelo 3.3.4 se deduce considerando una variable aleatoria continua no


observada y ∗ que determina el resultado de y por la regla

y = j si y sólo si αj < y ∗ < αj+1 , j = 0, 1, . . . , m (3.3.5)



Si la función de distribución de y ∗ − x β es F , el modelo 3.3.5 implica 3.3.4.

Especificación
El modelo de respuesta múltiple ordenado relaciona la variable Yi con las
variables, X2i , . . . , Xki a través de la siguiente ecuación:

Yi∗ = F (Xi β) + ui = F (Zi + ui )

Donde:

Yi∗ : Es una variable latente (no observada) que cuantifica las distintas
categorı́as

F (.): Es una función no lineal del tipo Logı́stica, distribución Normal o bien la
distribución Valor Extremo

Xi β: Es una combinación lineal de las variables o caracterı́sticas que se


denomina ı́ndice del modelo y se denota por Zi

ui : Es una variable aleatoria

Para los valores de la variable real u observada, Yi , que mide las distintas
categorı́as, en el caso de cuatro categorı́as, el esquema de la variable se fundamenta
de acuerdo con el siguiente patrón:


 0 si Yi∗ ≤ c1

1 si c1 ≤ Yi∗ ≤ c2
Yi = (3.3.6)

 2 si c2 ≤ Yi∗ ≤ c3

3 si c3 ≥ Yi∗
Se debe subrayar que existe una correspondencia entre el orden de los valores de
la variable real u observada y el orden de la variable latente, es decir, que si Yi < Yj
implica que Yi∗ < Yj∗ .

Desde el punto de vista gráfico, un modelo ordenado en el que se contemplan


cuatro categorı́as (0, 1, 2 y 3) y tan sólo interviene un único regresor o caracterı́stica
se representan en el eje de abscisas los valores que toman las caracterı́sticas, mientras
que en el eje de ordenadas se representan las tres categorı́as.
3.3 Principales Modelos de Respuesta Múltiple 66

La probabilidad de elegir cada una de las categorı́as de Yi viene definida por la


siguiente relación:

P (Yi = 0/Xi , β, c) = F (c1 − Xi β) (3.3.7)


P (Yi = 1/Xi , β, c) = F (c2 − Xi β) − F (c1 − Xi β)
P (Yi = 2/Xi , β, c) = F (c3 − Xi β) − F (c2 − Xi β)
P (Yi = 3/Xi , β, c) = 1 − F (c3 − Xi β)

Donde F (.) es la función de distribución o de densidad acumulada de la ecuación


elegida en la especificación del modelo.

Los valores de los umbrales o barreras cm y los valores de β se estiman


conjuntamente mediante el método de la Máxima Verosimilitud, y se debe cumplir
la siguiente restricción:
c 1 < c2 < c3
En el caso particular que la función de distribución elegida sea la de la normal,
es decir, que el modelo especificado objeto del análisis sea el Probit Ordenado,
la probabilidad de elegir cada una de las categorı́as de Yi se puede reescalar y
vendrá definida por la siguiente relación:

P (Yi = 0/Xi , β, c) = Φ(c1 − Xi β) (3.3.8)


P (Yi = 1/Xi , β, c) = Φ(c2 − Xi β) − Φ(c1 − Xi β)
P (Yi = 2/Xi , β, c) = Φ(c3 − Xi β) − Φ(c2 − Xi β)
P (Yi = 3/Xi , β, c) = 1 − Φ(c3 − Xi β)

Interpretación
La interpretación de los Modelos Ordenados es análoga a la de los modelos
Logit, Probit y Valor Extremo. Ası́, la interpretación de los parámetros del Modelo
Ordenado se puede efectuar a través de las derivadas parciales, en concreto a través
de los efectos marginales, mientras que la comparación entre distintas situaciones se
puede efectuar a través del cociente odds.

Únicamente se interpretará el Modelo Ordenado Probit ya que la explicación del


Modelo Ordenado Logit y el Modelo Ordenado Valor Extremo es análogo.
1. La interpretación de los parámetros
La interpretación de los parámetros se puede efectuar a través de las derivadas
parciales para los distintos modelos estudiados; ası́, en el caso del Modelo
3.3 Principales Modelos de Respuesta Múltiple 67

Ordenado Probit descrito a través del sistema 3.3.8, el efecto marginal del
regresor para cada categorı́a es:

∂P (Yi = 0)
= −φ(c1 − Xi β)βk (3.3.9)
∂Xk
∂P (Yi = 1)
= −φ(c2 − Xi β)βk − φ(c1 − Xi β)βk
∂Xk
∂P (Yi = 2)
= −φ(c3 − Xi β)βk + φ(c2 − Xi β)βk
∂Xk
∂P (Yi = 3)
= −φ(c3 − Xi β)βk
∂Xk
En general, los coeficientes estimados en los Modelos Ordenados no cuantifican
directamente el incremento en la probabilidad dado el aumento unitario en
la correspondiente variable independiente. La magnitud de la variación en la
probabilidad depende del nivel original de ésta y, por tanto, de los valores
iniciales de todos y cada uno de los regresores y de sus coeficientes. Por tanto,
mientras el signo de los coeficientes sı́ que indica perfectamente la dirección
del cambio, la magnitud de la variación depende del valor concreto que tome
la función de densidad, lo cual depende de la pendiente de dicha función en
el punto Xi (Xi es igual al vector [X2i , . . . , Xki ]). Naturalmente, cuanto más
elevada sea dicha pendiente, mayor será el impacto del cambio en el valor del
regresor, el cual a su vez va a incidir en el valor de la variable latente Yi∗ .
2. Interpretación de La ratio Odds o riesgo
El cociente entre la utilidad de que se elija una opción frente al resto de
alternativas,(M − 1) opciones, se mide a través de la probabilidad asignada
a esta frente a la utilidad del resto de opciones y se le denomina odds. Que se
cuantifica mediante la siguiente proporción:

Pi
1 − Pi
El odds también, se utiliza para comparar situaciones distintas o bien para
interpretar el modelo. En efecto, el cociente entre odds se emplea para comparar
utilidades de distintas situaciones, o bien para interpretar el modelo. Ası́, en
el caso, que se compare la situación del individuo i con la del individuo j
(situación de referencia) se tiene:

Pi
(1−Pi )
Cociente entre odds = Pj
(3.3.10)
(1−Pj )
3.3 Principales Modelos de Respuesta Múltiple 68

En el caso de que el valor de la Ratio Odds sea:

Mayor que Uno: La utilidad de la situación i es más elevada que la de la


situación j.
Menor que Uno: La utilidad de la situación j es más elevada que la de la
situación i.
La unidad : Las unidades de las situaciones i y j son iguales.

Estimación Máximo-Verosimilitud
La función de probabilidad conjunta de un modelo de elección múltiple ordenado
parte del supuesto de que se dispone de una muestra de tamaño I (i = 1, 2, . . . , I)
bajo la hipótesis de independencia entre los distintos individuos y se puede expresar
a través de la siguiente relación:
I
Y
P rob(u1 , u2 , . . . , ui , . . . , uI ) = P rob(u1 )P rob(u2 ) . . . P rob(ui ) . . . P rob(uI ) = P rob(ui )
i=1I
(3.3.11)
De forma alternativa, utilizando la función de probabilidad en términos de la variable
Yi , se tiene:
I
Y
P rob(Y1 , Y2 , . . . , Yi , . . . , YI ) = P rob(Y1 )P rob(Y2 ) . . . P rob(Yi ) . . . P rob(YI ) = P rob(Yi )
i=1
(3.3.12)
teniendo en cuenta que Yi puede tomar el valor cero, uno, dos, tres,. . . , se obtiene:
Y Y Y Y
P rob(Yi = 0) P rob(Yi = 1) P rob(Yi = 2) P rob(Yi = 3) . . .
i∈Yi =0 i∈Yi =1 i∈Yi =2 i∈Yi =3
(3.3.13)
a partir de la función de la probabilidad conjunta 3.3.13 se puede obtener la
función de verosimilitud, que se define como:
Y Y Y Y
L= P rob(Yi = 0) P rob(Yi = 1) P rob(Yi = 2) P rob(Yi = 3) . . .
i∈Yi =0 i∈Yi =1 i∈Yi =2 i∈Yi =3
(3.3.14)
mientras que el logaritmo de la función de verosimilitud es:

X X X
£ = ln L = P rob(Yi = 0) + P rob(Yi = 1) + P rob(Yi = 2) . . .
i∈Yi =0 i∈Yi =1 i∈Yi =2
(3.3.15)
3.3 Principales Modelos de Respuesta Múltiple 69

Al sustituir en 3.3.15 la probabilidad de cada opción, Prob(Yi = ...), por distintas


especificaciones se obtiene el logaritmo de la función de verosimilitud del Modelo
Ordenado. Las funciones más utilizadas en la especificación son la Logı́stica y la
de distribución Normal obteniendo los Modelos Ordenado Logit y Ordenado Probit
respectivamente.

El logaritmo de la función de verosimilitud, en particular la ecuación 3.3.15,


no es lineal, con lo cual para obtener los estimadores máximo-verosı́miles de los
parámetros se deben aplicar métodos de estimación no lineales a través de algún
algoritmo de optimización.

Los estimadores obtenidos por el proceso de máxima verosimilitud son consis-


tentes y asintóticamente eficientes. Igualmente son asintóticamente normales, con lo
que los contrastes de hipótesis son asintóticos. Ası́, cuando I (tamaño de la muestra)
tiende a infinito, el contraste de significación individual de los parámetros se puede
realizar a través de una distribución normal. En este caso, todos los tests propuestos
para estudiar la bondad del ajuste en los modelos de variable dicotómica son válidos
para los Modelos Ordenados.

3.3.3. Modelos de Respuesta Múltiple No Ordenados


3.3.4. Definición
Los modelos de elección múltiple entre alternativas no ordenadas pueden venir
generados por modelos de utilidad aleatoria, modelos que suponen que los individuos
son agentes racionales, que disponen de información perfecta, y que se enfrentan a
un conjunto de alternativas a las que les asocian una utilidad. Ahora bien, desde
el punto de vista del investigador, esta utilidad no es directamente observable,
descomponiéndose en dos componentes, una parte observable Vnj , que dependerá de
un conjunto de atributos medibles para cada individuo y alternativa, y una aleatoria
ǫnj . Una formulación habitual es la del modelo de utilidad aleatoria aditivo:

Ujn = Vjn + ǫjn , j = 1, . . . , J (3.3.16)

donde Ujn es la utilidad que al individuo n-ésimo le reporta la alternativa j, y,


J es el número de alternativas disponibles.

Un individuo escogerá siempre la alternativa que le proporcione mayor utilidad,


de modo que si el individuo n-ésimo selecciona la alternativa j, es porque la utilidad
reportada Ujn es la mayor de todas.

Unj ≥ Unk ⇔ Vnj − Vnk ≥ ǫnk − ǫnj , ∀k 6= j, k = 1, . . . , J (3.3.17)


3.3 Principales Modelos de Respuesta Múltiple 70

La decisión observada revela cuál de las alternativas proporciona mayor utilidad,


pero no sus utilidades, que no son observables.

Dado que no se conoce con exactitud el componente aleatorio, y por tanto, no se


puede determinar con certeza si (ecuación anterior) se cumple, se debe pasar a un
marco probabilı́stico. Ası́, la probabilidad de que el individuo n escoja la alternativa
j viene dada por

P (Yn = j) = Pnj = P (ǫnk ≤ ǫnj + (Vnj − Vnk )), ∀k 6= j, k = 1, . . . , J (3.3.18)

Dependiendo de la especificación del componente aleatorio ǫnj y de la parte


medible Vnj se pueden generar distintos modelos. Dentro de los modelos de elección
discreta los más utilizados son:
El Logit Multinomial (Mc Fadden (1974)), que se deriva a partir de asumir que
los términos de error ǫnj presentan una distribución Gumbel homoscedástica e
independiente, y

El Logit Jerárquico o Anidado (Williams (1977)), que desarrollado como una


extensión del anterior, en el que se considera una partición disjunta de las
alternativas en grupos de tal forma que las alternativas incluidas en cada grupo
presentan correlación en sus términos de error; siguiendo estos también una
distribución Gumbel.
Sin embargo, ambos modelos poseen supuestos simplificadores que no siempre
son sostenibles. Su principal limitación es la propiedad conocida con el nombre de
Independencia de Alternativas Irrelevantes y que consiste en que el cociente
de probabilidades entre dos alternativas no depende de las caracterı́sticas o atributos
del resto de las alternativas.

En el modelo Logit Jerárquico al agrupar las alternativas en subgrupos de


caracterı́sticas similares, esta propiedad se mantiene entre las alternativas de un
mismo subgrupo, pero no entre ellos. Esta propiedad aunque simplifica el proceso de
estimación, supone una restricción importante en la modelación del comportamiento
de los individuos que no parece muy razonable en numerosas situaciones, puesto
que la hipótesis subyacente es que la elección entre dos alternativas cualesquiera no
depende de las caracterı́sticas o atributos de una tercera.
Los diferentes modelos de comportamiento de maximización de la utilidad
aleatoria se diferencian principalmente en la especificación que suponen para la
densidad de los factores no observados f (ǫn ).

Los principales modelos de elección discreta son:


3.3 Principales Modelos de Respuesta Múltiple 71

Logit (MNL): errores Gumbel independientes e idénticos (iid.). Por lo


tanto no admite correlación entre alternativas ni entre elecciones y requiere
homoscedasticidad (varianzas iguales para todas las alternativas y para todas
las elecciones).

Probit (MNP): se supone que los factores no observados distribuyen conjun-


tamente normal: (ǫn1 , ǫn2 , . . . , ǫnJ ) ∼ N (0, Ω). Con una matriz de covarianza
Ω completa, el modelo puede reflejar cualquier patrón de correlación y admite
heterocedasticidad. Sus dificultades estriban en la necesidad de simulación pa-
ra el cálculo de las integrales y en el hecho de que sólo admite la distribución
normal para los coeficientes, cuando en ocasiones puede ser oportuno establecer
otras distribuciones.

Modelos de Valor Extremo Generalizados (GEV): se admiten patrones de


correlación entre alternativas. Uno de los más sencillos y utilizados es el
Logit jerárquico o anidado (NL), en el que las alternativas se estructuran en
grupos llamados nidos, de modo que los factores no observados tienen la misma
correlación para las alternativas en el interior del nido y no existe correlación
con las restantes. En general no requieren simulación para su estimación.

3.3.5. Modelo Logit Multinomial


Si consideramos la hipótesis de que los errores distribuyen idéntica e inde-
pendientemente Gumbel con media cero y varianza σ 2 , obtenemos el Modelo
Logit Multinomial o Logit Simple (MNL). Es decir, El modelo Logit (o
Logit Multinomial, MNL) se obtiene suponiendo que cada ǫnj distribuye según una
distribución de Gumbel, o valor extremo tipo I 8 , independiente e idéntica (es decir,
con la misma varianza): ǫnj ∼ Gumbel iid.

La elección de una distribución de Gumbel no se debe a la sencillez de la fórmula


Logit obtenida, sino que se obtiene al tomar en consideración que los residuos
de cada alternativa no son interesantes en sı́ mismos, sino que sólo interesa el
máximo de las utilidades aleatorias. Bajo condiciones poco restrictivas (residuos con
distribución exponencial, normal, Weibull o Gumbel), el máximo entre alternativas
se distribuye según la distribución de Gumbel9 o valor extremo tipo I con parámetro
de localización 0.

Si una variable ǫ se distribuye según una distribución de Gumbel10 de parámetro


8
Gumbel, 1958
9
véase Sørensen, 2003: 19
10
Las principales propiedades de esta distribución se pueden consultar en Ben-Akiva y Lerman
(1985: 104-105)
3.3 Principales Modelos de Respuesta Múltiple 72

de localización η y parámetro de escala µ, su función de distribución es:


 
F (ǫ) = exp −e−µ (ǫ − η) , µ > 0 (3.3.19)
y su función de densidad es:
 
F (ǫ) = µe−µ (ǫ − η) exp −e−µ (ǫ − η) (3.3.20)
La moda de la distribución es η, la media es η + γ/µ, siendo γ la constante de
Euler (∼ 0,577), la varianza11 es π 2 /6µ2 .

En el modelo Logit se emplea la distribución Gumbel con parámetro de localiza-


ción cero. Debe señalarse que, aunque en muchas ocasiones se afirma que los errores
tienen media nula, en realidad su media es γ/µ (al ser una distribución sesgada), si
bien este valor no es observable al trabajarse siempre con diferencias entre utilida-
des, y la diferencia entre dos términos aleatorios con la misma media tiene media cero.

La diferencia entre dos distribuciones de Gumbel, con parámetro de escala µ y


parámetro de localización nulo, distribuye logı́stica, es decir,
ǫ∗nji = ǫnj − ǫni
tiene la función de distribución:

eµǫnji
F (ǫ∗nji )
= ∗ (3.3.21)
1 + eµǫnji
La distribución logı́stica es muy similar a la distribución normal. Su varianza es
el doble de la Gumbel, por lo que para la logı́stica estándar la varianza12 es π 2 /3.
De este modo, cuando se habla de errores Gumbel en los modelos de la familia Logit
debe entenderse que esa expresión se refiere al error de cada alternativa, si bien lo
observable es la diferencia con distribución logı́stica. Puede verse la similitud entre
estas distribuciones en la Figura 3.1, en la que se aprecia también el sesgo de la
distribución Gumbel.

Para calcular la probabilidad de que el individuo n escoja la alternativa i de


acuerdo con la ecuación
Pni = P (Uni > Unj , ∀j 6= i)
Pni = P (Vni + ǫni ≥ Vnj + ǫnj ∀j =
6 i)
Pni = P (ǫnj − ǫni ≤ Vni + Vnj ∀j =6 i)
11
Una deducción analı́tica de estos valores para η = 0 se puede encontrar en Louviere, Hensher
y Swait (2000: 142-143)
12
Para una deducción formal de los momentos de esta distribución puede consultarse Gumbel,
1958: 126-128
3.3 Principales Modelos de Respuesta Múltiple 73

Grafica de comparacion
0.25
Normal
Logit
Gumbel
0.2

0.15

f(x)
0.1

0.05

0
−10 −5 0 5 10
x

Figura 3.1: Comparación entre distribuciones normal, Gumbel y logı́stica

se obtiene la conocida expresión del modelo Logit:

eµVni
Pni = P (3.3.22)
eµVnj
El parámetro de escala no es identificable, por lo que habitualmente se fija su
valor en 1. De este modo, los coeficientes del modelo (en el caso de una formulación
lineal en los parámetros), se están multiplicando por este parámetro, relacionado con
la varianza de los errores. Esto tiene importancia al comparar resultados de modelos
diferentes (la normalización habitual es diferente para el modelo probit) o en el caso
de parámetros de escala diferentes: En lo sucesivo se supondrá que el parámetro de
escala es 1 y se omitirá de la formulación, por lo que la probabilidad pasa a ser:

eVni
Pni = P Vnj (3.3.23)
e
En el caso de que la parte observada de la utilidad sea lineal en los parámetros,
que es la especificación más habitual, Vnj = xnj β donde β es el vector traspuesto de
β = (β 1 , . . . , β k ) , entonces la probabilidad se puede expresar como:

exni β
Pni = P xnj β
(3.3.24)
je

o escrita de otra forma13 ,


13
(McFadden, 1974)
3.3 Principales Modelos de Respuesta Múltiple 74

′ 
exp xnj β
Pni = Pmn ′
 , n = 1, 2, . . . , t y j = 0, 1, . . . , mn , (3.3.25)
k=0 exp xnk β

donde se puede asumir xn0 = 0 sin pérdida de generalidad.

Si bien Train (2003: 41) afirma que bajo condiciones generales, cualquier función
se puede aproximar de forma arbitrariamente cercana mediante una función lineal
en los parámetros (teniendo en cuenta que las variables entren transformadas14 ),
existen circunstancias que pueden hacer más adecuadas funciones no lineales15 . Por
otro lado, la función de log-verosimilitud de la muestra, en el modelo lineal, es
globalmente cóncava en los parámetros β, lo que facilita su maximización numérica16 .

Por otra parte, el Modelo Logit Multinomial (MNL) descansa sobre


el supuesto de Independencia de Alternativas Irrelevantes (IAI). Éste se
expresa prácticamente en que el cociente entre las probabilidades de elección de
dos alternativas i y j es constante y sólo depende de las utilidades de ambas
alternativas; ası́, es independiente de las utilidades del resto de las alternativas.
La expresión de esta propiedad es fácil de obtener a partir de la ecuación anterior, ası́:

Pni
= eβ(Vi −Vj ) (3.3.26)
Pnj

En un principio, esta propiedad tuvo su importancia ya que permitı́a analizar


la demanda de nuevas alternativas sin necesidad de reestimar el modelo, bastaba
simplemente con conocer sus atributos. El problema se presenta cuando existen
alternativas correlacionadas (por ejemplo, automóvil como conductor y automóvil
como acompañante, o distintos modos de transporte público como metro y bus),
porque el modelo conduce a predicciones sesgadas. 17 .

Como el MNL supone errores Gumbel independientes e idénticamente distribui-


dos, entonces no acepta correlación ni heterocedasticidad. Luego la matriz de cova-
rianza asociada a este modelo es diagonal. Además como la varianza del término
Gumbel se asocia con el factor de escala, se tiene
14
véase McFadden, 1981: 220 y Ben-Akiva y Lerman, 1985: 62-64
15
Train (2003: 56-58) presenta ejemplos de parámetros que no entran linealmente en la función
de utilidad
16
McFadden, 1973
17
Una ilustración interesante de este problema puede verse en Mayberry (1973)
3.3 Principales Modelos de Respuesta Múltiple 75

 
1 ··· 0
  π2
Σ = σ 2  ... . . . ...  = σ 2 IJn ×Jn = 2 IJn ×Jn (3.3.27)

0 ··· 1

Para que el modelo sea identificable, se debe fijar el valor del factor de escala.
En la mayorı́a de los casos implı́citamente se hace el supuesto que el factor de escala
(λ) es igual a uno.

Otros modelos de elección discreta permiten considerar correlación entre las


variables e incluso la existencia de heterocedasticidad. Conforme más general es la
matriz de covarianza, más compleja es la implementación del modelo y su estimación.

La estimación del modelo Logit se realiza a partir de la maximización de la función


de log-verosimilitud de la muestra, ası́:

mi
n X
X
log L = yij log Pij (3.3.28)
i=1 j=0

Siguiendo a McFadden(1974) se mostrará la concavidad global de 3.3.28.

A partir de derivar la ecuación 3.3.28 con respecto a β, se tiene que:

∂ log L X X yij ∂Pij


= (3.3.29)
∂β i j
Pij ∂β
P P Pn Pmi
donde i y j denotan i=1 y j=0 , respectivamente.

Ahora, derivando la ecuación 3.3.29 una vez más, se obtiene:

 
∂ 2 log L X X yij ∂ 2 Pij 1 ∂Pij ∂Pij
= − (3.3.30)
∂β∂β ′ i j
Pij ∂β∂β ′ Pij ∂β ∂β ′

Por tanto, derivando la ecuación 3.3.25 y después de cierta manipulación se tiene


que:

∂Pij
= Pij (xij − x̄i ) (3.3.31)
∂β
3.3 Principales Modelos de Respuesta Múltiple 76

donde, P ′
k exp(xik β)xik
x̄i = P ′
k exp(xik β)
y

∂ 2 Pij ′
= Pij (xij − x̄i ) (xij − x̄i ) (3.3.32)
∂β∂β ′
P ′  ′
Pij k exp xik β xik xik ′
− P ′
 + Pij x̄i x̄i
k exp xik β

Por último, insertando las ecuaciones 3.3.31 y 3.3.32 en la ecuación 3.3.30 se


obtiene:

∂ 2 log L X X ′
′ = Pij (xij − x̄i ) (xij − x̄i ) (3.3.33)
∂β∂β i j

el cual, curiosamente, no depende de yij . Como Pij > 0 en este modelo, la matriz

3.3.33 es definida negativa a menos que (xij − x̄i ) α = 0 para cada i y j para algún
α 6= 0. Puesto que tal evento es extremadamente improbable, se puede concluir para
todos los propósitos prácticos que la Función Log Verosimilitud es Globalmente
Cóncava en el Modelo Logit multinomial.

Las principales limitaciones del modelo Logit se centran en los siguientes aspectos:
El modelo, al suponer los parámetros β constantes, no admite variaciones
aleatorias en los gustos de los individuos. Se supone que todos ellos tienen
la misma respuesta ante una variación en las variables explicativas. Las
variaciones sistemáticas sı́ se pueden reflejar introduciendo, en la función de
utilidad, interacciones de las variables de nivel de servicio con las caracterı́sticas
del individuo
El modelo exhibe la citada propiedad de independencia de alternativas
irrelevantes (IIA), dado que, por la formulación de la probabilidad, se obtiene
que el cociente de las probabilidades de elección de dos alternativas no depende
de las propiedades de las restantes alternativas:
Pin eVni
= Vni = eβ(Vni −Vnk ) (3.3.34)
Pnk e
Como se ha dicho, otros modelos permiten otros patrones de sustitución
admitiendo la existencia de correlación entre alternativas, el más sencillo es
el Logit jerárquico.
3.3 Principales Modelos de Respuesta Múltiple 77

El modelo no admite correlación entre las observaciones, lo que puede hacer


poco adecuada su utilización para datos de panel y encuestas en preferencias
declaradas con varias respuestas por individuo, en los que existen factores no
observados correlacionados a lo largo del tiempo, si bien si pueden acomodarse
dinámicas relacionadas con factores observados (puede verse una discusión en
Train, 2003: 54-56).
El modelo no admite diferencias en la variabilidad de la evaluación de la utilidad
para distintas alternativas (p.ej. el hecho de que el tiempo de viaje en vehı́culo
privado sea mucho más variable que el tiempo de viaje en metro) o distintos
individuos.

Para superar las limitaciones del MNL han ido surgiendo en la literatura un
amplio abanico de modelos, de diferentes complejidades. La mayorı́a de ellos parten
de la base del modelo Logit (residuos Gumbel), a excepción, principalmente, del
modelo probit (residuos normales).

Una limitación adicional del modelo Logit es que las colas de la función de
probabilidad son simétricas y delgadas, lo que puede no corresponderse con la
realidad en algunas situaciones18 .

3.3.6. Modelo Logit Jerárquico o Anidado (NL)


El Modelo Logit Jerárquico o Anidado (NL) permite agrupar las alternativas
que el analista considera similares en conjuntos, conocidos como nidos. Dentro de
cada nido se mantiene la Independencia de Alternativas Irrelevantes (IAI),
mientras que entre nidos diferentes la razón de probabilidades entre alternativas
puede depender de las propiedades de otras alternativas de los nidos, pero no de las
de otros nidos diferentes. En este sentido se podrı́a hablar de una independencia de
nidos irrelevantes19 .

Pueden existir nidos tanto en serie como en paralelo, dando lugar a la estructura
de árbol que caracteriza a estos modelos. Aparecen unos parámetros de escala
adicionales en cada nido que, en cierto modo, reflejan la estructura de correlación.
Uno de estos parámetros debe ser fijado para evitar problemas de identificación,
existiendo dos estrategias diferentes para realizarlo, inferior o superior, en función
de si la restricción se aplica en uno de los nidos inferiores o en el nido principal.

18
Para abordar esta limitación se ha desarrollado la familia de modelos Dogit (Gaudry y Dagenais,
1978, 1979) e IPT-L (Inverse Power Transformation Logit, Gaudry, 1981)
19
(Train, 2003: 84)
3.3 Principales Modelos de Respuesta Múltiple 78

La estructura de la matriz de covarianza obtenida es diagonal por bloques.


Cuando dos o más alternativas están agrupadas en un nido, los elementos no
diagonales correspondientes serán distintos de cero. Los elementos de la diagonal
siguen siendo idénticos, manteniéndose la homocedasticidad caracterı́stica del
MNL20 .

El modelo Logit Jerárquico o Anidado resuelve en parte el problema de la


Independencia de Alternativas Irrelevantes (IAI), de manera que es posible
considerar cierto patrón de correlación entre alternativas agrupándolas en jerarquı́as
o nidos21 . Cada nido o jerarquı́a es representado por una alternativa compuesta frente
al resto de las alternativas disponibles. Un ejemplo de una estructura jerárquica o
anidada puede ser la de la siguiente figura.

La obtención del modelo NL se basa en los siguientes supuestos:

Se agrupa en jerarquı́as o nidos a todos los subconjuntos de opciones


correlacionadas entre sı́, es decir, aquellas que presentan ciertas semejanzas.

Cada jerarquı́a o nido es representado por una alternativa compuesta frente a


las demás que están disponibles a la población.
20
(véase Munizaga y Álvarez-Daziano, 2001; Espino, 2003: 36)
21
Williams, 1977; Daly y Zachary, 1978
3.3 Principales Modelos de Respuesta Múltiple 79

La estimación sigue un proceso secuencial donde se estima primero un MNL


para aquellas opciones más similares que se han agrupado en un nido, por ejemplo
para las alternativas A3 y A4 del nido inferior de la figura, omitiendo todas aquellas
variables que tengan el mismo valor22 para este subconjunto de opciones, AI (q).
La necesidad de omitir estas variables se debe al hecho de que el MNL trabaja
en diferencias. Éstas son introducidas posteriormente en el nido superior, pues-
to que afectan a la elección entre la jerarquı́a inferior y el resto de opciones en AS (Q).

La forma en que se introduce el nido inferior en la jerarquı́a superior es a través


de la alternativa compuesta NI , a la cual se le asocia una utilidad representativa de
todo el nido, que va a tener dos componentes23 :

la primera considera como variable la Utilidad Máxima Esperada24 de las


alternativas del nido: X
EM U = ln exp(Vj ) (3.3.35)
Aj ∈AI (q)

siendo Vj la utilidad de la alternativa j del nido, en la cual no se tiene en cuenta


el vector de variables W, es decir, aquellas que toman el mismo valor para las
alternativas del subconjunto de alternativas AI (q).

Y la segunda que considera el vector de los atributos comunes a todos los


componentes del nido, W. De este modo, la utilidad compuesta del nido viene
dada por:
Ũj = φEM U + αW (3.3.36)
donde φ y α son parámetros a estimar.

Realizado todo el proceso de estimación para el nido inferior, se estima un MNL


para la jerarquı́a superior donde se incluye la alternativa compuesta y el resto de
alternativas contenidas en el nido superior.

De acuerdo con este modelo, la probabilidad de que un individuo n elija la


alternativa del nido Aj ∈ AI (q) es igual a la probabilidad de que elija la alternativa
compuesta (en el nido superior) por la probabilidad condicional de que opte por Aj ,
en la jerarquı́a inferior, dado que escogió la alternativa compuesta.

En el caso del ejemplo mostrado en la figura donde hay dos niveles jerárquicos,
esta probabilidad serı́a:
22
Denominadas como vector W
23
(ver Sobel, 1980; Ortúzar, 1983)
24
EMU, Expected Maximum Utility
3.3 Principales Modelos de Respuesta Múltiple 80

exp(φEM U + αW + θS Z S ) exp(θI ZJI )


Pnj = P S S
∗ P I I
(3.3.37)
Aj ∈AS (q) exp(φEM U + αW + θ Z ) Aj ∈AI (q) exp(θ Zi )

denotando los superı́ndices I y S (como en la Figura 1) los niveles jerárquicos


inferior y superior, respectivamente; Z I y Z S los vectores de los atributos de las
alternativas disponibles en ambos niveles y θ, α y φ, los parámetros a estimar.

La consistencia interna requerida por el modelo establece, para el caso de dos


niveles jerárquicos25 , que:
0<φ≤1 (3.3.38)

Si φ es igual a 1, el modelo NL es matemáticamente equivalente al MNL.

Si φ es menor que 0 significa que el aumento de la utilidad de una alternativa


del nido disminuirá la probabilidad de elegir dicha opción.

Si φ es igual a 0 significa que el aumento de la utilidad de una alternativa del


nido no alterarı́a la probabilidad de elección de la alternativa.

Si φ es mayor que 1, el aumento de la utilidad de una alternativa del


nido aumentarı́a tanto su probabilidad de elección cómo la del resto de las
alternativas del nido.

Si el número de jerarquı́as o nidos definidos es superior a 2, la consistencia


interna del modelo vendrı́a definida de la siguiente manera:

0 < φ1 ≤ φ2 ≤ φ3 · · · ≤ φS ≤ 1 (3.3.39)
siendo φ1 el parámetro correspondiente al nido del nivel inferior y φS al nido
de nivel superior de cada rama del árbol26 .

La matriz de covarianza para este modelo para el caso que hemos supuesto en
nuestro planteamiento será:

 
σ2 · · · 0
 
Σ =  ... . . . σ34
2  (3.3.40)
2
0 σ43 σ2
25
considerado en la figura y en la definición de la probabilidad de elección de la alternativa j
para el individuo n
26
(Ortúzar y Willumsen, 2001)
3.3 Principales Modelos de Respuesta Múltiple 81

Al igual que en el modelo MNL, se trata de un modelo homocedástico y presenta


correlación entre las alternativas 3 y 4 que están agrupadas en un mismo nido (la
covarianza entre la alternativa 3 y 4 es distinta de cero y σ34 = σ43 ). 27 .
A pesar de que el modelo NL permite resolver, parcialmente, el problema de la
correlación entre alternativas y se presenta como un modelo más completo que el
MNL, éste posee aún algunas limitaciones28 :

No permite considerar variaciones en los gustos, al igual que el MNL, ni


funciones de utilidad heterocedásticas.
No permite tratar los problemas de correlación entre alternativas pertenecientes
a distintos nidos; sólo considera las interdependencias entre opciones de los
nidos que se haya especificado en la estructura jerárquica a modelizar.
Las posibles estructuras jerárquicas aumentan conforme aumenta el número de
alternativas en proporción no lineal. 29 . No obstante, el problema combinatorio
se reduce al estudiar aquellas estructuras que teórica o intuitivamente son más
razonables.
Uno de los problemas potenciales de la estimación del modelo por el método
secuencial es la transmisión de errores y distinto valor de los parámetros en
los distintos nidos 30 . Sin embargo, éstos se han podido solucionar gracias a
la aparición de distintos programas que permiten la estimación simultánea del
modelo.

En el modelo Logit multinomial, definido anteriormente, se recalcó su debilidad


cuando algunas de las alternativas son similares. El modelo Logit anidado (o no
independiente) mitiga esa debilidad hasta cierto punto31 .

Se analizará un modelo tricótonomo en detalle y luego se generalizarán los


resultados obtenidos a un caso multinomial general.

Consideremos el modelo bus rojo-bus azul una vez más como ilustración. Sean

Uj = µj + ǫj , j = 0, 1y2

las utilidades asociadas con automóvil, bus rojo, y bus azul. (Para evitar
complicaciones innecesarias en la notación, se ha suprimido el subscrito i). Se recalca
27
Para una explicación más clara de este modelo ver Carrasco y Ortúzar (2002)
28
(Ortúzar y Willumsem, 2001)
29
Sobel (1980) encuentra 26 estructuras posibles para un conjunto de cuatro alternativas
30
(ver Ortúzar et al., 1987)
31
Este modelo se le atribuye a McFadden (1997) y se desarrolla con mayor detalle en un artı́culo
posterior de McFadden (1981)
3.3 Principales Modelos de Respuesta Múltiple 82

antes que no es razonable asumir la independencia entre ǫ1 y ǫ2 , aunque ǫ0 se puede


asumir independiente de las otras dos. McFadden sugirió la siguiente distribución
bivariada como una forma conveniente de tener en cuenta una correlación entre ǫ1 y
ǫ2 :

  ρ
F (ǫ1 , ǫ2 ) = exp − exp(−ρ−1 ǫ1 ) + exp(−ρ−1 ǫ2 ) , 0<ρ≤1 (3.3.41)

Johnson y Kotz (1972, p.256) llamó a esta distribución distribución de valor


extremo bivariada tipo B de Gumbel. Se puede mostrar que el coeficiente de
correlación es 1 − ρ2 . Si el ρ = 1 (el caso de independencia), F (ǫ1 , ǫ2 ) llega a ser
el producto de dos distribuciones de valor extremo Tipo I - en otras palabras, el
modelo Logit multinomial. Como para ǫ0 , se asume F (ǫ0 ) = exp[− exp(−ǫ0 )] como
en el modelo Logit multinomial.

Bajo estas presunciones se puede mostrar:

exp(µ0 )
P (y = 0) = (3.3.42)
exp(µ0 ) + [exp(ρ−1 µ1 ) + exp(ρ−1 µ2 )]ρ
y
exp(ρ−1 µ1 )
P (y = 1 y =
6 0) = (3.3.43)
exp(ρ−1 µ1 ) + exp(ρ−1 µ2 )
Las otras probabilidades se pueden deducir de 3.3.42 y 3.3.43. Por lo tanto estas
dos ecuaciones definen un modelo Logit anidado en el caso tricotónomo. Dividiendo
el numerador y el denominador de 3.3.42 por el exp(µ0 ) y los de 3.3.43 por

exp(−ρ−1 µ1 ),

notamos que las probabilidades dependen de µ2 − µ0 , µ1 − µ0 y ρ. Normalmente se


especificarı́a

µj = xj β, j = 0, 1, 2.
La forma de estas dos probabilidades es intuitivamente atractiva. La ecuación
3.3.43 muestra que la selección entre las dos alternativas similares se hace de acuerdo
a un modelo binario Logit, mientras 3.3.42 sugiere que la escogencia entre carro y
no carro es también igual a un modelo Logit excepto que se usa un cierto tipo de
promedio ponderado del exp(µ1 ) y exp(µ2 ).

Para obtener 3.3.42, nótese que


3.3 Principales Modelos de Respuesta Múltiple 83

P (y = 0) = P (U0 > U1 , U0 > U2 ) (3.3.44)


= P (µ0 + ǫ0 > µ1 + ǫ1 , µ0 + ǫ0 > µ2 + ǫ2 )
Z ∞ Z ǫ0 +µ0 −µ1 Z ǫ0 +µ0 −µ2
= exp(−ǫ0 )
−∞ −∞ −∞
× exp [− exp(−ǫ0 )] f (ǫ1 , ǫ2 ) dǫ2 ] dǫ1 } dǫ0
Z ∞
  
= exp(−ǫ0 ) exp [− exp(−ǫ0 )] × exp − exp −ρ−1 (ǫ0 + µ0 − µ1 )
−∞
  ρ 
+ exp −ρ−1 (ǫ0 + µ0 − µ2 ) dǫ0
Z ∞
= exp(−ǫ0 ) exp [−α exp(−ǫ0 )] dǫ0
−∞
−1
= α

donde,   ρ
α = 1 + exp (−µ0 ) exp ρ−1 µ1 + exp ρ−1 µ2
Para obtener 3.3.43, primero se puede observar que


P (y = 1 y 6= 0) = P U1 > U2 U1 > U0 o U2 > U0 (3.3.45)
= P (U1 > U2 )

donde la última igualdad se obtiene del particular supuesto distribucional. Por tanto,
se tiene que

P (U1 > U2 ) = P (µ1 + ǫ1 > µ2 + ǫ2 ) (3.3.46)


Z ∞ Z ǫ1 +µ1 −µ2 
= f (ǫ1 , ǫ2 ) dǫ2 dǫ1
−∞ −∞
Z ∞
   ρ−1
= exp(−ǫ1 ) 1 + exp −ρ−1 (µ1 − µ2 )
−∞
   ρ 
× exp − exp (−ǫ1 ) × 1 + exp −ρ−1 (µ1 − µ2 ) dǫ1
  −1  −1
= 1 + exp −ρ (µ1 − µ2 )

donde en la tercera igualdad se usa

∂F (ǫ1 , ǫ2 )   ρ−1
= exp −ρ−1 ǫ1 + exp −ρ−1 ǫ2 (3.3.47)
∂ǫ1

× exp −ρ−1 ǫ1 F (ǫ1 , ǫ2 )
3.3 Principales Modelos de Respuesta Múltiple 84

El modelo definido por 3.3.42 y 3.3.43 se reduce al modelo Logit multinomial si


ρ = 1. Por consiguiente la hipótesis IAI, que es equivalente a la hipótesis ρ = 1, puede
probarse contra la hipótesis alternativa del modelo Logit Anidado por cualquiera de
las tres pruebas asintóticas que son:

La prueba de proporción de probabilidad (The Likelihood ratio test (LRT))

La prueba de Wald’s (Wald, 1943)

La prueba Rao’s score (Rao, 1947)

Para generalizar el Modelo Logit Anidado tricotónomo definido por 3.3.42 y 3.3.43
al caso general de m + 1 respuestas. Supone que los m + 1 enteros 0, 1, · · · , m pueden
particionarse naturalmente en S grupos para que cada grupo consista en alternativas
similares. Escribiendo la partición como
[ [ [
(0, 1, 2, . . . , m) = B1 B2 , . . . , Bs (3.3.48)
S
Donde denotan la unión. Luego McFadden sugiere la distribución conjunta
S
" # ρs
X X
−1
F (ǫ0 , ǫ1 , · · · , ǫm ) = exp{− as exp(−ρs ǫj ) } (3.3.49)
s=1 j∈Bs

Entonces puede mostrarse que


P ρs
X as [ j∈Bs exp(ρ−1s µj )]
Pj = PS P , s = 1, 2... (3.3.50)
a [ exp(−ρ −1 ǫ )]ρτ
j∈Bs s=1 τ j∈Bτ τ j

exp(ρ−1
s µj )
P (y = j|j ∈ Bs ) = P s = 1, 2... (3.3.51)
k∈Bs exp(ρs µk )
−1

Note que 3.3.50 y 3.3.51 son generalizaciones de 3.3.42 y 3.3.43 respectivamente.


Por tanto, estas probabilidades definen completamente el modelo. Podemos
interpretar
X
ρτ
[ exp(ρ−1
τ µj )]
j∈Bτ

como una clase de media ponderada de exp(µ) para j ∈ B.

El modelo Logit anidado definido por 3.3.50 y 3.3.51 se puede estimar por MLE,
pero también puede estimarse consistentemente mediante un método natural de dos

pasos, el cual es computacionalmente más simple. Suponga que µj = xj β.
3.3 Principales Modelos de Respuesta Múltiple 85

Primero, la parte de la función de verosimilitud que es el producto de las


probabilidades condicionales de la forma 3.3.51 se maximiza para producir un
estimador de ρ−1
s β

Segundo, este estimador se inserta en el lado derecho 3.3.50, y el producto de


3.3.50 sobre s e i (el cual se suprime) se maximiza para obtener los estimadores
de ρ′ s y a′ s (uno de los a′ s se puede establecer arbitrariamente)32 .

En un modelo Logit anidado a gran escala, el método de los dos pasos es


especialmente útil debido a la infactibilidad próxima de MLE. Otro mérito del
método de dos pasos es que produce estimadores consistentes que se pueden usar
para iniciar una iteración Newton- Raphson para calcular MLE, como lo hacen
Haussman y McFadden.

3.3.7. Modelo Probit Multinomial (MNP)


El Modelo Probit Multinomial (MNP) se obtiene de suponer una distribución
de probabilidad conjunta para el término de perturbación aleatoria Normal Multi-
variada con media cero y matriz de covarianza arbitraria33 .

En este sentido, el Modelo Probit Multinomial MNP permite considerar hetero-


cedasticidad y correlación entre los distintos términos del error. La posibilidad de
poder definir cualquier matriz de covarianzas otorga gran flexibilidad y le confiere al
Modelo Probit Multinomial MNP la capacidad para estudiar una gama más amplia
de comportamientos.

Una cuestión importante de este modelo es la dificultad a la hora de establecer


la función de verosimilitud debido a que no existe una expresión cerrada para la
probabilidad de elección de las alternativas. Para más de tres opciones, no es posible,
analı́ticamente, estimar el modelo y hay que solventar este problema empleando
procedimientos de simulación.

Los problemas observados en la estimación de modelos MNP derivaron en su


no utilización por muchos años, y también en la búsqueda de modelos flexibles que
fueran más fácilmente tratables desde el punto de vista computacional. Ası́ surgió el
Modelo Logit Mixto (ML).

32
La matriz de covarianza asintótica de estos elementos es dada por McFadden (1981)
33
(Daganzo, 1979)
3.3 Principales Modelos de Respuesta Múltiple 86

El modelo probit supone que los errores siguen conjuntamente una distribución
normal. Esto es, (de acuerdo con el Teorema Central del Lı́mite), la distribución
resultante de la suma de una gran cantidad de componentes independientes no
observadas, por lo que parece un supuesto razonable para el término de error34 .

El modelo Probit permite un rango de comportamientos humanos mucho


más amplio del admitido por el MNL35 , al ser capaz de incluir correlaciones,
heterocedasticidades y variaciones en los gustos.

Su única limitación reside en la utilización de la distribución normal que, si bien


en la mayorı́a de las situaciones proporciona una representación adecuada de las
componentes aleatorias36 , puede ser inadecuada en ciertas situaciones, y conducir a
predicciones erróneas. Es el caso de coeficientes que únicamente tengan sentido que
posean un determinado signo.

Si se introduce la función de densidad de la distribución normal en la ecuación

Pni = P (ǫnj − ǫni ≤ Vni − Vnj ∀j 6= i)


Z
= I(ǫnj − ǫni ≤ Vni − Vnj ∀j 6= i)f (ǫn )dǫn
i

la integral resultante carece de expresión analı́tica, y debe ser resuelta por


simulación. Existen diversos procedimientos para resolver esta integral (integración
numérica, aproximación de Clark, etc.), el más empleado es el simulador GWK
(Geweke-Hajivassiliou-Keane), desarrollado a partir de los trabajos de estos autores:
Geweke (1989 y 1991), Hajivassiliou37 y Keane (1990, 1994). Este estimador permite
reducir la dimensión de la integral.

Varias experiencias han verificado su utilidad y relativa exactitud38 .

La dificultad relativa de esta integración ha provocado que el modelo probit


haya sido poco empleado en la práctica para la elección modal, a pesar de su
potencia39 . En los últimos años, los reseñados avances en la simulación, junto con el
34
(Ben-Akiva y Lerman, 1985: 129, Munizaga, 1997: 7)
35
Hausman y Wise, 1978
36
Train, 2003: 101
37
referenciado en Hajivassiliou y McFadden, 1998
38
Hajivassiliou, McFadden y Ruud, 1996; Börsh-Supan y Hajivassiliou, 1993. Puede encontrarse
una descripción de estos simuladores en Ortúzar (2000b: 150-157) o en Train (2003: 119-137)
39
Según Sørensen (2003: 30) se ha empleado en modelos de asignación cuando existen abundantes
superposiciones entre rutas
3.3 Principales Modelos de Respuesta Múltiple 87

desarrollo de la informática, han soslayado parcialmente estos inconvenientes. Sin


embargo, la aparición del modelo Logit mixto ha relegado de nuevo al modelo probit.

La identificación del modelo probit es mucho más compleja que la del modelo
Logit multinomial, en el que las limitaciones impuestas a la matriz de covarianza
por la estructura del modelo eliminan ya numerosos parámetros.

En el modelo probit la matriz de covarianza es completa, y no todos sus


elementos van a poder ser estimados de forma independiente. Es necesario fijar
elementos en la matriz de covarianza de las diferencias entre utilidades40 .

Sea Uj , j = 0, 1, 2, · · · , m la utilidad estocástica asociada con la j-ésima


alternativa para un individuo particular. El Modelo Probit Multinomial, es el
modelo en el cual Uj se distribuyen conjunta y normalmente41 .

Este modelo raramente se ha usado en la práctica hasta hace poco, debido a


su dificultad computacional (excepto, por supuesto, cuando m = 1 en cuyo caso el
modelo se reduce a un modelo del probit binario que se discutió antes). Para ilustrar
la complejidad del problema, considere el caso de m = 2. Por tanto, para evaluar
P (y = 2), por ejemplo, se debe calcular la integral múltiple

P (y = 2) = P (U2 > U1 , U2 > U0 ) (3.3.52)


Z ∞ Z U2 Z U2
= f (U0 , U1 , U2 )dU0 dU1 dU2
−∞ −∞ −∞

donde f es una densidad normal trivariada. El cálculo directo de tal integral es


complicado incluso para el caso de m = 3. Además, 3.3.52 debe evaluarse en cada
paso de un método iterativo para maximizar la función de verosimilitud.

Haussman y Wise (1978) estimaron un modelo probit tricotonomo para explicar


la elección modal entre manejar el automóvil propio, tomar colectivo, y tomar un
autobús, para 557 obreros en Washington D.C.
Ellos evaluaron integrales de la forma (3.3.52) usando la expansión de series y
notaron que el método es factible para un modelo con más de cinco alternativas.

40
Walker, 2001: 34-35
41
Dicho modelo se propuso primero por Aitchison y Bennett (1970)
Capı́tulo 4

Aplicación

4.1. Introducción
La simulación es el método numérico más frecuentemente usado para la esti-
mación de Modelos de Elección Discreta desde [20], ası́ como en recientes estudios
y textos de [28]. El objetivo ahora es presentar el desarrollo de la aplicación pero
usando otro método de estimación, basado en el enfoque de Cuadratura Gaussiana
(Ver [7], [12]).

La fórmula de Cuadratura Gaussiana ha sido popularizada por ([7]) para la


estimación del componente de error del modelo panel probit. En ([6]) se resaltan
algunas dificultades numéricas y estadı́sticas al aplicarlos a modelos con efectos de
grupo. Con un número mediano o grande de individuos en un grupo, la función
de verosimilitud del modelo calculado por la fórmula de Cuadratura Gaussiana
puede ser numéricamente inestable, y peor aún, imposible de calcular. La inferencia
estadı́stica puede ser también insegura. Pero estas dificultades se pueden resolver
con un algoritmo cuidadosamente diseñado y la selección adecuada del número de
puntos de cuadratura. Sin embargo, con un número muy grande de individuos en
un grupo, la fórmula Cuadratura Gaussiana de la integral puede presentar grandes
errores de aproximación numérica.

4.2. Fuente de datos


4.2.1. Caso Estados Unidos
Estos primeros datos se toman del Panel Study Income Dinamics (PSID) para
el mercado laboral de los Estados Unidos. Consta de 19 variables sobre mujeres
blancas casadas en edades entre 30 y 60 años.
4.2 Fuente de datos 89

Como se expresa en la descripción detallada que se encuentra en su sitio Web, el


Panel Study Income Dinamics (PSID) [29]

“es un examen longitudinal de una muestra representativa de los


individuos estadounidenses (hombres, mujeres, y niños) y sus familias. Se
desarrolla desde 1968. Los datos se recogen anualmente, y los archivos
de datos contienen la total extensión de la información recogida en el
curso del estudio. Los datos del PSID se utilizan para análisis de sección-
cruzada, longitudinales e intergeneracionales, y para estudiar tanto a
individuos como a familias. El estudio acentúa los aspectos dinámicos
del comportamiento económico y demográfico, pero contiene una amplia
gama de medidas, incluyendo las sociológicas y psicológicas. Entre 1968
y 1988, el PSID recogió la información referente a casi 37.500 individuos
y cubren tanto como 21 años de sus vidas”.

El PSID proporciona una amplia variedad de información de la familia y a


nivel individual, ası́ como una cierta información sobre las localizaciones en las
cuales residen los hogares. El foco central de los datos es económico y demográfico,
con detalles sustanciales en orı́genes y cantidades de renta, empleo, cambios de la
composición de la familia, y localización residencial. El contenido de naturaleza más
sociológica o psicológica también se incluye en algunas partes del estudio.

A continuación se procede a presentar un caso de aplicación utilizando in-


formación tomada de la Base de Datos PSID. El archivo contiene datos sobre
la participación laboral de mujeres casadas. Se trata de información referente a
753 mujeres, de las cuales 428 reportan estar trabajando durante un determina-
do año. Los datos se agrupan por rango de edades, resultando en 11 grupos diferentes.

Aquı́ se plantea un modelo discreto de elección binaria con el cual se busca


explicar la probabilidad de que una mujer casada decida participar en el mercado
laboral. En este caso la variable dependiente inlf tomará el valor de 1 si la mujer
encuestada está trabajando y 0 en cualquier otro caso. Las variables explicativas de
la participación de la mujer en la fuerza laboral son:

educ Número de años de estudios.


exper Número de años de experiencia laboral.
exper2 La variable exper elevada al cuadrado.
ingresop Ingreso propio (en miles).
hijos6 Número de hijos menores de 6 años.
4.2 Fuente de datos 90

4.2.2. Caso Colombia


Los datos usados en esta parte del trabajo se toman de la Encuesta Continua de
Hogares realizada por el DANE pertenecientes al segundo trimestre del año 2005
referente al mercado laboral en las principales ciudades colombianas. Consta de
2929 registros de mujeres en edades entre 15 y 90 años.

La encuesta de Hogares es el sistema de recolección de datos que en nuestro


paı́s ha venido utilizando el DANE (Departamento Administrativo Nacional de
Estadı́stica) desde 1970 para obtener información de familias y hogares colombianos.
Desde 1976 se conoció como Encuesta Nacional de Hogares cubriendo las principales
ciudades (Bogotá, Medellı́n, Cali, Barranqulla, Bucaramanga, Pasto y Manizales)
y sus correspondientes áreas metropolitanas. La Encuesta Nacional de Hogares
presentaba limitaciones principalmente en la frecuencia trimestral y la rotación
de personal operativo que realizaba la captura de la información dificultando el
seguimiento de los hogares no informantes.

En el segundo trimestre de 2001 se dió paso a un nuevo sistema conocido


como Encuesta Continua de Hogares que se caracteriza por una mayor cobertura,
frecuencia en la recolección y presentación de datos (mensual en lugar de trimestral)
ası́ como cambios importantes en los conceptos que permiten la estimación de
la fuerza de trabajo. Se presenta ası́ una nueva caracterización en la definición
de ciertas variables que modifican los análisis macro y microeconométricos de los
indicadores del mercado laboral.

La Encuesta Continua de Hogares tiene como objetivo principal proporcionar


información básica acerca del tamaño y estructura de la fuerza de trabajo de la
población colombiana (empleo, desempleo e inactividad). Además, permite obtener
datos de variables adicionales como: sexo, edad, estado civil, educación, entre otras.

De manera similar al caso anterior, se plantea un modelo discreto de elección


binaria con el cual se busca explicar la probabilidad de que una mujer casada decida
participar en el mercado laboral nacional. En este caso la variable partic tomará el
valor de 1 si la mujer encuestada está trabajando y 0 en cualquier otro caso. Las
variables usadas para explicar la participación de la mujer en la fuerza laboral son:

educat Número de años de estudios.


exper Número de años de experiencia laboral.
exper2 La variable exper elevada al cuadrado.
ingresop Ingreso propio (en miles).
hijos6 Número de hijos menores de 6 años.
4.3 Metodologı́a 91

Para este caso, los datos se agruparon por ciudad, correspondientes con las
capitales de departamento objeto de estudio de la Encuesta Continua de Hogares
resultando 13 grupos diferentes.

4.3. Metodologı́a
4.3.1. Cuadratura Gaussiana
Considerando el siguiente modelo de elección binaria de componente aleatorio:

yij∗ = xij β + εij (4.3.1)

para grupos j = 1, . . . , J e individuos i = 1, . . . , Nj en el j-ésimo grupo, donde


x es un vector de variables exógenas. La perturbación en 4.3.1 se genera por un
componente de error
εij = uj + vij (4.3.2)
donde uj y vij son mutuamente independientes, uj son i.i.d. para todo j y vij son i.i.d.
para todo i y j. El signo de la variable latente y ∗ determina la variable dicotómica
observada I como I = 1 si y ∗ > 0 y 0 de otro modo. Sea F la función de distribución
condicional de ε condicional en u, y sea f la función de densidad de u. La función
de Log-Verosimilitud para el modelo es:
J
X  
L= ln P rob I1j , · · · , INj ,j (4.3.3)
j=1

donde,
Z Nj
Y
 ∞
P rob I1j , · · · , INj ,j = f (uij ) [F (bij |uj ) − F (aij |uj )] duu
−∞ i=1

aij = −xij β y bij = ∞ si Ij = 1, y aij = −∞ y bij = −xij β si Iij = 0. Para un Modelo


Probit, tanto u como v se asumen normalmente distribuidas. Una normalización
tı́pica para el modelo Probit especifica una media cero y una varianza uno para la
disturbancia total ε. Sea ρ la correlación de individuos dentro de un grupo. Para
este modelo normalizado de componente aleatorio ρ es también la varianza de u. Por
tanto, uj es N (0, ρ) y v N (0, 1 − ρ). La función Log-Verosimilitud para este modelo
de componente de error Probit, puede ser escrito de manera más exacta, usando la
simetrı́a de una densidad normal como:
 " !# 
X J  Z ∞ Nj
Y 1 
1 −( 21 u2 ) xij β + ρ 2 u
L= ln e Φ Dij du (4.3.4)
 −∞ (2π) 21 (1 − ρ) 2
1

j=1 i=1
4.3 Metodologı́a 92

donde Φ es la función de distribución normal estándar, y D es un indicador de signo


tal que Dij = 1 si Iij = 1 y Dij = −1 en cualquier otro caso.

La probabilidad conjunta de respuesta individuales dentro de un grupo en (4.3.4)


involucra una integral simple, cuyo integrando es un producto de funciones de
probabilidad univariadas. En ([7]) demostraron que estas probabilidades conjuntas
podrı́an ser correctamente calculadas por la Cuadratura Gauss-Hermite. La
Cuadratura Gaussiana calcula la integral
Z ∞
2
e−z g(z)dz
−∞

usando la fórmula de integración:


Z ∞ M
X
−z 2
e g(z)dz = wm g(zm ) (4.3.5)
−∞ m=1

donde M es el número definido de puntos; las zs y las ws son las abscisas y los pesos
de los M puntos Gauss-Hermite. Si g en (4.3.5) es un polinomio de grado menor que
2M − 1, el cálculo de la integración de Gauss-Hermite es exacta.

La teorı́a se basa en Polinomios Ortogonales 1 . Las abscisas y los pesos están


disponibles de Stroud y Secrets (1966) y Abramowitz y Stegun (1964). Prest et al.
(1992) proporcionan programas de cómputo para generar las abscisas y los pesos con
un número especı́fico de puntos. Dados los puntos z y los pesos w Gauss-Hermite, la
verosimilitud en 4.3.4 puede ser evaluada por la fórmula Gauss-Hermite como:
 " !# 
XJ X M
1 YNj 1
xij β + (2ρ) 2 zm 
L= ln w Φ Dij du (4.3.6)
m=1 m (π) 21 1
(1 − ρ) 2 
j=1 i=1

En ([7]) muestran la utilidad de la Cuadratura Gaussiana con un ejemplo


de Datos Panel consistente de 1550 unidades muestrales con un máximo de 11
periodos para cada uno. Basados en la estabilidad de los estimados sugirieron que la
cuadratura de 2 o 4 puntos serı́an suficientes. El enfoque de Cuadratura Gaussiana
es computacionalmente eficiente comparado con otras técnicas de Cuadratura, tales
como la de integración trapezoidal 2 . Por tanto, el enfoque de Cuadratura Gaussiana
se usa muy frecuentemente en la literatura de la econometrı́a empı́rica.
1
ver por ejemplo Press et al., 1992, capı́tulo 4
2
Heckman y Willis, 1975
4.4 Resultados 93

4.3.2. Criterio
Como elemento central de la aplicación se calcula la función de verosimilitud del
modelo mediante el enfoque de Cuadratura Gaussiana y se investiga la validez de la
aplicabilidad de la técnica numérica. El principio es recalcular la estimación usando
dos números diferentes de puntos de cuadratura y comparar la log-verosimilitud y
los coeficientes entre el modelo original y los otros dos modelos estimados. Si el
cambio es menor que 0.01 % entonces la elección del punto de cuadratura no afecta
significativamente los resultados. Para un cambio mayor a 0.1 % se debe dudar del
enfoque de cuadratura para el modelo.

4.4. Resultados
4.4.1. Caso Estados Unidos
Los resultados de la ejecución de la estimación se presentan al final del trabajo,
más exactamente en el Apéndice B (Aplicación). En la Tabla 1 del mismo se
muestran los resultados producto de utilizar un procedimiento de cuadratura Gauss-
Hermite adaptativo, con 8 puntos, utilizando como grupos las edades. Observando
el test de Wald, las variables elegidas resultan ser conjuntamente significativas en
explicar la probabilidad de que una mujer casada participe en el mercado laboral.
Si observamos el estadı́stico de prueba z, todas resultan ser indidividualmente
significativas. Además de tener los signos adecuados.

Por ejemplo una mayor cantidad de niños menores de 6 años afecta negativamente
la probabilidad de que una mujer casada decida participar en el mercado laboral.
Es de resaltar el signo negativo del coeficiente asociado a exper2. Esto significa que
a medida que aumente la experiencia, la probabilidad de participar en el mercado
laboral aumenta (signo positivo de exper pero a una tasa decreciente). Igualmente
mayor número de años de estudios afecta positivamente la probabilidad de participar
en el mercado laboral, y una conclusión que parece también lógica y consistente con
la realidad, se observa que un factor que hace que las mujeres casadas tengan que
buscar trabajo es que el ingreso familiar no sea suficiente. Por tanto a mayor ingreso
familiar, menor probabilidad de que las mujeres casadas tengan que buscar trabajo.
Además:

lnsig2u Representa el logaritmo del efecto individual.


Sigma Muestra la desviación estándar del efecto individual.
rho Es el porcentaje de la varianza total explicado por el componente de varianza
al nivel del panel.
4.4 Resultados 94

Cuando rho es cero, el componente de varianza no es importante, y el estimador


panel no es diferente del estimador agrupado (estimador pooled). Para contrastar
esto se utiliza un test de razón de verosimilitudes, como se observa se puede rechazar
la hipótesis nula, y por consiguiente nuestra estimación es adecuada.

En la Tabla 2 se presentan los efectos marginales y la probabilidad que una mujer


con unas caracterı́sticas promedio participe en el mercado laboral de Estados Unidos.

Uno de los elementos claves que valida la utilización del procedimiento de


cuadratura es la estabilidad de los parámetros estimados mediante la utilización de
diferentes puntos de cuadratura. En esta parte del trabajo se estiman dos modelos
alternativos uno con 12 puntos y otro con 16 puntos, basados en la siguiente concepto:
si los coeficientes no cambian en mas que una diferencia relativa del 0,01 %, la
elección de los puntos de cuadratura no afecta significativamente el resultado, y
los resultados pueden ser interpretados con confianza; sin embargo si los resultados
cambian de manera apreciable con una diferencia relativa mayor o igual al 1 %,
el método de cuadratura será inestable y no conveniente. Los resultados de este
análisis de sensibilidad se presentan en la tabla 3 y 4 donde se puede observar que
las diferencias relativas son inferiores al 0,01 % por lo consiguiente el procedimiento
de cuadratura usado es estable y confiable.

4.4.2. Caso Colombia


En la Tabla 5 se presentan los resultados después de utilizar un procedimiento
de cuadratura Gauss-Hermite adaptativo, con 8 puntos, utilizando como grupos las
ciudades. Observando el test de Wald, las variables elegidas resultan ser conjunta-
mente significativas en explicar la probabilidad de que una mujer casada participe
en el mercado laboral. Si observamos el estadı́stico de prueba z, todas resultan ser
indidividualmente significativas. Además de tener los signos adecuados.

Por ejemplo, la variable hijos6, a mayor cantidad de niños menores de 6 años,la


probabilidad de que una mujer casada decida participar en el mercado laboral
se afecta negativamente. Es de resaltar el signo negativo del coeficiente asociado
a exper2. Esto quiere decir que en la medida que aumente la experiencia, la
probabilidad de participar en el mercado laboral aumenta (signo positivo de exper
pero a una tasa decreciente). Igualmente, la variable educ indica que a mayor
número de años de estudios la probabilidad de participar en el mercado laboral se
ve afectada positivamente y una conclusión que parece también lógica y consistente
con la realidad, se observa que una variable que hace que las mujeres casadas tengan
que buscar trabajo es que el ingreso familiar no sea suficiente. Por tanto a mayor
ingreso familiar, menor probabilidad de que las mujeres casadas tengan que buscar
4.4 Resultados 95

trabajo. También:

lnsig2u Representa el logaritmo del efecto individual.


Sigma Muestra la desviación estándar del efecto individual.
rho Es el porcentaje de la varianza total explicado por el componente de varianza
al nivel del panel.

Cuando rho = 0, el componente de varianza no es importante, y el estimador panel


no es diferente del estimador agrupado (estimador pooled). Para contrastar esto
se utiliza un test de razón de verosimilitudes, como se puede observar se puede
rechazar la hipótesis nula, y por consiguiente nuestra estimación es adecuada.

En la Tabla 6 del Apéndice B se presentan los efectos marginales y la probabi-


lidad de que una mujer con unas caracterı́sticas promedio participe en el mercado
laboral.

Uno de los elementos claves que valida la utilización del procedimiento de


cuadratura es la estabilidad de los parámetros estimados mediante la utilización de
diferentes puntos de cuadratura. En esta parte del presente trabajo se estiman dos
modelos alternativos uno con 8 puntos y otro con 12 puntos, la idea anterior aún se
mantiene. Los resultados de este análisis de sensibilidad se presentan en la tabla 7 y
8, obsérvese que las diferencias relativas son inferiores al 0,01 % por lo consiguiente
el procedimiento de cuadratura es también estable y confiable.

A manera de conclusión, se puede enunciar que los resultados de la aplicación


son consistentes con estudios teóricos similares, (Ver [14]) además se presenta en la
siguiente tabla la comparación de algunos parámetros estimados para la regresión
probit tanto para el caso de Estados Unidos como para Colombia:

Comparativo EE.UU. Colombia


ingresop -.0140223 -5.71e-08
exper .1216683 .0368012
hijos6 -.7917483 -.0262662
educat .056473 .0136696
Log verosimilit. -415.6071 -1807.4794
P(partic) (predict) 0.5778022 0.5445877

Como se puede apreciar, los signos de los coeficientes se mantienen en los dos
casos y la probabilidad que una mujer casada y con unas caracterı́sticas promedio,
participe en el mercado laboral son aproximadamente iguales para los dos paı́ses:
0.5778 y 0.5446 para Estados Unidos y Colombia respectivamente.
Apéndice A

Función de Verosimilitud

A.1. Condiciones de regularidad


1. xi , i = 1, . . . , n, i.i.d. ∼ f (xi ; θ0 ).

2. Si θ 6= θ0 ⇒ f (xi µ) 6= f (xi ; θ0 ).

3. θ ∈ Θ, Θ es compacto.

4. ln f (xi ; θ) continua para cada θ ∈ Θ con probabilidad uno.

5. E [supθ |ln f (x; θ)|] < ∞.

6. θ0 es un punto interior de Θ.

7. f (x; θ) es dos veces diferenciable y estrictamente positiva en un entorno de θ0 .


R R
8. supθ ∇θ f (x; θ)dx < ∞ y supθ ∇θθ f (x; θ)dx < ∞

9. I(θ0 , x) ≡ E(s(θ0 , x)s(θ0 , x) ) existe y es no-singular.

10. E [supθ kH(x; θ)k] < ∞.

Las condiciones 1. a 5. son necesarias para consistencia, el resto también hace falta
para normalidad asintótica. Ver [23] para mas detalles.
Apéndice B

Aplicación

B.1. Caso EE.UU.


TABLA 1

Regresion probit efectos aleat. Numero de obs = 753


Variable grupo (i): grupo Numero de grupos = 11

Efectos aleat u_i ~ Gaussiano Obs por grupo: min = 6


prom = 68.5
max = 105
Chi2 Wald(5) = 158.66
Log verosimilit. = -415.6071 Prob > chi2 = 0.0000
------------------------------------------------------------------------------
inlf | Coef. Err. Std. z P>|z| [95% Interval Conf.]
-------------+----------------------------------------------------------------
ingresop | -.0140223 .0048943 -2.87 0.004 -.0236149 -.0044298
exper | .1216683 .0188973 6.44 0.000 .0846302 .1587063
exper2 | -.0020395 .0006166 -3.31 0.001 -.003248 -.000831
hijos6 | -.7917483 .1206739 -6.56 0.000 -1.028265 -.5552319
educ | .1326852 .0252501 5.25 0.000 .083196 .1821744
_cons | -1.99356 .3317149 -6.01 0.000 -2.643709 -1.34341
-------------+----------------------------------------------------------------
/lnsig2u | -1.726882 .606595 -2.915786 -.5379772
-------------+----------------------------------------------------------------
Sigma | .4217086 .1279032 .2327261 .764152
rho | .1509869 .0777593 .0513787 .3686583
------------------------------------------------------------------------------
Test razon-verosiml. de rho=0: chibar2(01) = 23.30 Prob >= chibar2 = 0.000
B.1 Caso EE.UU. 98

TABLA 2

Probabilidad que una mujer casada con unas caracterı́sticas promedio, participe
en el mercado laboral es: 0.57780221
------------------------------------------------------------------------------
variable | dy/dx Err. Std. z P>|z| [ 95% I.C. ] X
---------+--------------------------------------------------------------------
ingresop | -.0067914 .00186 -3.66 0.000 -.010428 -.003155 20.129
exper | .0466689 .00712 6.55 0.000 .032708 .060629 10.6308
exper2 | -.0009576 .00023 -4.14 0.000 -.001411 -.000504 178.039
hijos6 | -.2094332 .04033 -5.19 0.000 -.288478 -.130388 .237716
educ | .056473 .00958 5.90 0.000 .037702 .075244 12.2869
------------------------------------------------------------------------------

TABLA 3

Reajuste del modelo intpoints() = 12

Iteracion 0: log likelihood = -415.60604


Iteracion 1: log likelihood = -415.60602

Regresion probit efectos aleat. Numero de obs = 753


Variable Grupo(i): grupo Numero de grupos = 11

Efectos Aleat. u_i ~ Gaussiano Obs por grupo: min = 6


prom = 68.5
max = 105
Chi2 Wald(5) = 158.11
Log verosimlit. = -415.60602 Prob > chi2 = 0.0000
------------------------------------------------------------------------------
inlf | Coef. Err. Std. z P>|z| [95% Interval Conf.]
-------------+----------------------------------------------------------------
ingresop | -.0140176 .0048962 -2.86 0.004 -.023614 -.0044212
exper | .1216736 .0188992 6.44 0.000 .0846319 .1587153
exper2 | -.0020391 .0006167 -3.31 0.001 -.0032479 -.0008303
hijos6 | -.7920814 .1210485 -6.54 0.000 -1.029332 -.5548307
educ | .1326736 .025253 5.25 0.000 .0831786 .1821686
_cons | -1.994287 .3324886 -6.00 0.000 -2.645953 -1.342621
-------------+----------------------------------------------------------------
/lnsig2u | -1.724547 .6102672 -2.920649 -.5284452
-------------+----------------------------------------------------------------
sigma_u | .4222011 .1288278 .232161 .7678026
rho | .1512864 .0783576 .0511422 .3708796
------------------------------------------------------------------------------
B.1 Caso EE.UU. 99

Reajuste del modelo intpoints() = 16

Iteracion 0: log verosimil. = -415.60604


Iteracion 1: log verosimil. = -415.60602

Regresion probit efectos aleat. Numero de obs = 753


Variable Grupo(i): grupo Numero de grupos = 11

Efectos Aleat. u_i ~ Gausiano Obs por grupo: min = 6


prom = 68.5
max = 105
Chi2 Wald(5) = 158.11
Log verosimilit. = -415.60602 Prob > chi2 = 0.0000
------------------------------------------------------------------------------
inlf | Coef. Err.Std. z P>|z| [95% Interval Conf.]
-------------+----------------------------------------------------------------
ingresop | -.0140176 .0048962 -2.86 0.004 -.023614 -.0044212
exper | .1216736 .0188992 6.44 0.000 .0846319 .1587153
exper2 | -.0020391 .0006167 -3.31 0.001 -.0032479 -.0008303
hijos6 | -.7920814 .1210485 -6.54 0.000 -1.029332 -.5548307
educ | .1326736 .025253 5.25 0.000 .0831786 .1821686
_cons | -1.994287 .3324886 -6.00 0.000 -2.645953 -1.342621
-------------+----------------------------------------------------------------
/lnsig2u | -1.724547 .6102672 -2.920649 -.5284452
-------------+----------------------------------------------------------------
sigma_u | .4222011 .1288278 .232161 .7678026
rho | .1512864 .0783576 .0511422 .3708796
------------------------------------------------------------------------------

TABLA 4

Chequeo de Cuadratura

Cuadratura Cuadratura Cuadratura


ajustada comparada comparada
8 puntos 12 puntos 16 puntos
-----------------------------------------------------
Log -415.6071 -415.60602 -415.60602
verosimilit .00108309 .00108309 Diferencia
-2.606e-06 -2.606e-06 Diferencia relativa
-----------------------------------------------------
inlf: -.01402233 -.0140176 -.0140176
ingresop 4.732e-06 4.732e-06 Diferencia
B.1 Caso EE.UU. 100

-.00033746 -.00033746 Diferencia relativa


-----------------------------------------------------
inlf: .12166826 .12167357 .12167357
exper 5.312e-06 5.312e-06 Diferencia
.00004366 .00004366 Diferencia relativa
-----------------------------------------------------
inlf: -.00203948 -.00203912 -.00203912
exper2 3.568e-07 3.568e-07 Diferencia
-.00017494 -.00017494 Diferencia relativa
-----------------------------------------------------
inlf: -.79174834 -.79208144 -.79208144
hijos6 -.0003331 -.0003331 Diferencia
.00042071 .00042071 Diferencia relativa
-----------------------------------------------------
inlf: .13268519 .1326736 .1326736
educ -.00001159 -.00001159 Diferencia
-.00008736 -.00008736 Diferencia relativa
-----------------------------------------------------
inlf: -1.9935596 -1.9942868 -1.9942868
_cons -.00072723 -.00072723 Diferencia
.00036479 .00036479 Diferencia relativa
-----------------------------------------------------
lnsig2u: -1.7268816 -1.7245469 -1.7245469
_cons .00233467 .00233467 Diferencia
-.00135196 -.00135196 Diferencia relativa
-----------------------------------------------------
B.2 Caso Colombia 101

B.2. Caso Colombia


TABLA 5

Regresion probit efectos aleat. Numero de obs = 2928


Variable Grupo(i): codig Numero de grupos = 13

Efectos aleat u_i ~ Gaussiano Obs por grupo: min = 178


prom = 225.2
max = 286

Chi2 Wald(5) = 277.24


Log verosimilit. = -1807.4794 Prob > chi2 = 0.0000
------------------------------------------------------------------------------
partic | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ingreso | -5.71e-08 1.97e-08 -2.90 0.004 -9.57e-08 -1.85e-08
exper | .0368012 .006254 5.88 0.000 .0245436 .0490588
exper2 | -.0008962 .0000984 -9.11 0.000 -.001089 -.0007033
hijos6 | -.0427552 .0318552 -1.34 0.180 -.1051903 .0196799
educat | .0375077 .006714 5.59 0.000 .0243484 .050667
_cons | -.2420671 .1455181 -1.66 0.096 -.5272773 .0431431
-------------+----------------------------------------------------------------
/lnsig2u | -2.855496 .4450994 -3.727875 -1.983117
-------------+----------------------------------------------------------------
sigma_u | .2398484 .0533782 .1550609 .370998
rho | .0543979 .0228954 .0234793 .1209869
------------------------------------------------------------------------------
Prueba razon-verosimiltud de rho=0: chibar2(01) = 72.59 Prob >= chibar2 = 0.000

TABLA 6

y = Pr(partic) (predict) = Probabilidad que una mujer casada con unas


caracterı́sticas promedio, participe en el mercado laboral es: 0.54458778
------------------------------------------------------------------------------
variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X
---------+--------------------------------------------------------------------
ingreso | -2.43e-08 .00000 -3.17 0.002 -3.9e-08 -9.3e-09 959835
exper | .0135194 .00245 5.51 0.000 .008711 .018328 26.8801
exper2 | -.0003399 .00004 -8.76 0.000 -.000416 -.000264 973.871
hijos6 | -.0262662 .01236 -2.13 0.034 -.050491 -.002041 .587773
educat | .0136696 .00261 5.24 0.000 .00856 .018779 8.98429
------------------------------------------------------------------------------
B.2 Caso Colombia 102

TABLA 7

Reajuste del modelo intpoints() = 8

Iteracion 0: log verosimilit. = -1807.4794


Iteracion 1: log verosimilit. = -1807.4794

Regresion probit efectos aleat. Numero de obs = 2928


Variable Grupo (i): codig Numero de grupos = 13

Efectos aleat. u_i ~ Gaussian Obs por grupo: min = 178


prom = 225.2
max = 286
Wald chi2(5) = 277.24
Log versoimilit = -1807.4794 Prob > chi2 = 0.0000

------------------------------------------------------------------------------
partic | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ingreso | -5.71e-08 1.97e-08 -2.90 0.004 -9.57e-08 -1.85e-08
exper | .0368011 .006254 5.88 0.000 .0245435 .0490588
exper2 | -.0008962 .0000984 -9.11 0.000 -.001089 -.0007033
hijos6 | -.0427553 .0318552 -1.34 0.180 -.1051904 .0196798
educat | .0375077 .006714 5.59 0.000 .0243484 .050667
_cons | -.2420475 .1455354 -1.66 0.096 -.5272916 .0431966
-------------+----------------------------------------------------------------
/lnsig2u | -2.855496 .4450975 -3.727871 -1.983121
-------------+----------------------------------------------------------------
sigma_u | .2398485 .053378 .1550612 .3709974
rho | .0543979 .0228953 .0234794 .1209866
------------------------------------------------------------------------------

Reajuste del modelo intpoints() = 12

Iteracion 0: log verosimilit = -1807.4794


Iteracion 1: log verosimilit = -1807.4794

Regresion probit efectos aleat. Numero de obs. = 2928


Variable grupo(i): codig Number of groups = 13

Efectos Aleator u_i ~ Gaussian Obs por grupo: min = 178


prom = 225.2
max = 286
B.2 Caso Colombia 103

Wald chi2(5) = 277.24


Log versosimilit = -1807.4794 Prob > chi2 = 0.0000

------------------------------------------------------------------------------
partic | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ingreso | -5.71e-08 1.97e-08 -2.90 0.004 -9.57e-08 -1.85e-08
exper | .0368011 .006254 5.88 0.000 .0245435 .0490588
exper2 | -.0008962 .0000984 -9.11 0.000 -.001089 -.0007033
hijos6 | -.0427553 .0318552 -1.34 0.180 -.1051904 .0196798
educat | .0375077 .006714 5.59 0.000 .0243484 .050667
_cons | -.2420475 .1455354 -1.66 0.096 -.5272916 .0431966
-------------+----------------------------------------------------------------
/lnsig2u | -2.855496 .4450975 -3.727871 -1.983121
-------------+----------------------------------------------------------------
sigma_u | .2398485 .053378 .1550612 .3709974
rho | .0543979 .0228953 .0234794 .1209866
------------------------------------------------------------------------------

TABLA 8

Chequeo de Cuadratura
Cuadratura Cuadratura Cuadratura
ajustada comparada comparada
4 puntos 8 puntos 12 puntos
-----------------------------------------------------
Log -1807.4794 -1807.4794 -1807.4794
verosimilit. .00001241 .00001241 Diferencia
-6.865e-09 -6.865e-09 Diferencia relativa
-----------------------------------------------------
partic: -5.712e-08 -5.712e-08 -5.712e-08
ingreso -1.822e-14 -1.822e-14 Diferencia
3.190e-07 3.190e-07 Diferencia relativa
-----------------------------------------------------
partic: .03680117 .03680115 .03680115
exper -2.516e-08 -2.516e-08 Diferencia
-6.838e-07 -6.838e-07 Diferencia relativa
-----------------------------------------------------
partic: -.00089616 -.00089616 -.00089616
exper2 1.630e-10 1.630e-10 Diferencia
-1.819e-07 -1.819e-07 Diferencia relativa
-----------------------------------------------------
partic: -.04275517 -.0427553 -.0427553
hijos6 -1.300e-07 -1.300e-07 Diferencia
B.2 Caso Colombia 104

3.041e-06 3.041e-06 Diferencia relativa


-----------------------------------------------------
partic: .03750771 .03750771 .03750771
educat -5.370e-09 -5.370e-09 Diferencia
-1.432e-07 -1.432e-07 Diferencia relativa
-----------------------------------------------------
partic: -.24206709 -.24204749 -.24204749
_cons .0000196 .0000196 Diferencia
-.00008095 -.00008095 Diferencia relativa
-----------------------------------------------------
lnsig2u: -2.8554961 -2.8554958 -2.8554958
_cons 2.661e-07 2.662e-07 Diferencia
-9.318e-08 -9.321e-08 Diferencia relativa
-----------------------------------------------------
Bibliografı́a

[1] Amemiya, T. (1981) “Qualitative Response Models: A Survey,” Journal of Econome-


trics Literature, 19, 4, pp. 481-536.

[2] Amemiya, T. (1985) Advanced Econometrics Harvard University Press : Cambridge,


Massachusetts..

[3] Batley, R.P.; Daly, A.J. (2004) “Departure time choice under uncertainty: a model of
random utility maximisation for wagers” European Transport Conference, Strasbourg.

[4] M. Ben Akiva, S. Lerman, (1985) “Discrete Choice Analysis: Theory and application
to Travel Demand”, MIT Press, Cambridge, Mass .

[5] Blayac, T. y Causse, A. (2001) “Value of travel time: a theoretical legitimization


of some nonlinear representative utility in discrete choice models,” Transportation
Research, Vol.35B.

[6] Borjas y Sueyoshi. (1994). Journal of Econometrics, vol. 64, pp. 164-182

[7] Butler, J.S., y Moffitt, R. (1982) “A computationally efficient quadrature procedure


for the one-factor multinomial factor,” Econometrica, 50, 761-764.

[8] Cabrer Borrás, C;. Sancho Pérez, A; Serrano Domingo, G. (2001) Microeconometria
y Decisión. Ed. Pirámide.

[9] Domenich, T., y McFadden, D.L. (1975) “Urban Travel Demand: A Behavioral
Analysis.” North Holland Publishing Co.

[10] Foerster, J. F. (1979). “Mode choice decision process models: a comparison of


compensatory and non-compensatory structures”. Transportation Research, 13A:17-
28.

[11] Geweke, J; Keune, and Runkle, D,. (1994) “Alternative computational aproaches to
inference in the multinomial probit model” Review of Econometrics and Statistics.
76, 609-632.

[12] Geweke, K,. (1996) “Monte Carlo simulation and numerical integration.” Handbook
of Computational Economics. 731-800, Elsevier Science, Amsterdam.
Bibliografı́a 106

[13] Green W. H., (2002) Econometric Analysis. Prentice Hall; 5th edition.

[14] Lee, L-f. (2000) “A numerically stable quadrature procedure for the one-factor
random-component discrete choice model,” Journal of Econometrics, Volume 95,
Number 1, March 2000 , pp. 117-129(13).

[15] Maddala. G. S,. (2001) Introduction to Econometrics. Wiley, 3rd edition.

[16] Maddala. G. S,. (1983) “Limited Dependant and Qualitative variables in Econome-
trics” Introduction to Econometrics. Cambridge University Press, New York.

[17] Manski, C. (1977) The structure of random utility models. Theory and Decision 8.
229-254.

[18] Manski. Ch;. McFadden D., (1981). “Alternative Estimators and Sample Design for
Discrete Choice Analysis” Structural Analyisis of Discrete data with Econometrics
Aplication. MIT Press, Cambridge, 2-30.

[19] McFadden, D.(1974). “Conditional Logit Analysis of Qualitative Choice Behavior.”


Frontiers in Econometrics. Academic Press. 105-142.

[20] McFadden, D.(1984). “Econometric Analysis of Qualitative Response Models.”


Handbook of Econometrics. Vol 2 Amsterdam.

[21] McFadden, D.(1987). “Regresion based Especification Test for the Multinomial Logit
Model.” Journal of Econometrics. 34. 63-82.

[22] McFadden, D.(2000). “Economic Choices.” Prize Lecture. December 8, 2000. 330-365.

[23] Newey, Whitney, and Daniel McFadden (1994) Handbook of Econometrics, Volume 4,
North Holland.

[24] Ortúzar, J. de D. y L. G. Willumsen (2001) Modelling Transport Third Edition, John


Wiley and Sons, Ltd., West Sussex, England.

[25] Rouwendal, J. and Blaeij, A.T. de (2004). “Inconsistent and lexicographic choices
in stated preference analysis.” Tinbergen Institute Discussion Paper, Tinbergen
Institute, Amsterdam TI 2004-038/3.

[26] Sælensminde, K. (2002). The impact of choice inconsistencies in stated choice studies
Environmental and Resource Economics, vol. 23, pp. 403-420

[27] Tversky, A. (1972). “Elimination by aspects: a theory of choice”, Psychological review,


79, pp.281-299.

[28] Train, K. (2003). Discrete Choice Methods with Simulation Cambridge University
Press, p. 19.
Bibliografı́a 107

[29] PSID Web-Site: http://psidonline.isr.umich.edu/

[30] Zuluaga Dı́az F. (2005) Econometrı́a de Datos de Panel: Revisión y una Aplicación.
Tesis de Maestrı́a, Departamento de Ciencias Básicas, Universidad EAFIT, Medellı́n,
Col. 111 pp.

También podría gustarte