Apunte Lacourly Ma34b PDF
Apunte Lacourly Ma34b PDF
Apunte Lacourly Ma34b PDF
Nancy Lacourly
1996
1
Este texto fue nanciado parcialmente por la Escuela de Ingeniera y Ciencias (Proyecto Docente 139301)
INDICE
1 INTRODUCCION A LA ESTADISTICA 6
1.1 HISTORICO : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 6
1.2 EJEMPLOS DE PROBLEMAS ESTADISTICOS : : : : : : : : : : : : : : : : : : : : : 7
1.3 EL RAZONAMIENTO ESTADISTICO : : : : : : : : : : : : : : : : : : : : : : : : : : 7
1.3.1 Recoleccion de los datos : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 8
1.3.2 Descripcion estad stica de los datos : : : : : : : : : : : : : : : : : : : : : : : : : 8
1.3.3 Analisis de los datos : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 8
1.3.4 Decision o prediccion : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 8
1.4 TEORIA DE MUESTREO : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 8
2 DISTRIBUCIONES EN EL MUESTREO 11
2.1 INTRODUCCION : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 11
2.2 TIPOS DE VARIABLES : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 11
2.3 FUNCION DE DISTRIBUCION EMPIRICA : : : : : : : : : : : : : : : : : : : : : : : 11
2.3.1 Caso de variables numericas (reales o enteras) : : : : : : : : : : : : : : : : : : : 11
2.3.2 Caso de variables no son numericas (nominal u ordinal) : : : : : : : : : : : : : 13
2.4 DISTRIBUCIONES EN EL MUESTREO Y EN LA POBLACION : : : : : : : : : : : 13
2.4.1 Media muestral : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 13
2.4.2 Varianza muestral : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 14
2.4.3 Caso de una distribucion normal : : : : : : : : : : : : : : : : : : : : : : : : : : 14
2.4.4 Valores extremos : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 17
2.4.5 Cuantilas : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 18
3 ESTIMACION PUNTUAL 19
3.1 INTRODUCCION : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 19
3.2 METODO DE LOS MOMENTOS : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 20
3.3 METODO DE MAXIMA VEROSIMILITUD : : : : : : : : : : : : : : : : : : : : : : : 20
3.4 EJEMPLOS : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 20
3.5 PROPIEDADES : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 22
3
3.5.1 Invarianza : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 22
3.5.2 Consistencia : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 22
3.5.3 Estimador insesgado : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 23
3.5.4 Suciencia : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 24
3.6 ESTIMADORES BAYESIANOS : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 25
3.6.1 Distribuciones a priori : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 25
3.6.2 Distribuciones a posteriori : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 25
3.6.3 Funciones de perdida : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 26
3.6.4 Estimadores de Bayes : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 27
3.6.5 Estimadores de Bayes para muestras grandes : : : : : : : : : : : : : : : : : : : 28
3.7 EJERCICIOS : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 29
5 TESTS DE HIPOTESIS 38
5.1 GENERALIDADES : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 38
5.2 HIPOTESIS ESTADISTICAS : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 39
5.3 TEST DE HIPOTESIS PARAMETRICAS : : : : : : : : : : : : : : : : : : : : : : : : 40
5.3.1 Funcion de potencia : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 40
5.3.2 Tests para hipotesis simples : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 42
5.3.3 Tests U.M.P. : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 44
5.3.4 Tests usuales : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 46
5.4 TESTS 2 : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 51
5.4.1 La distribucion normal multivariada : : : : : : : : : : : : : : : : : : : : : : : : 51
5.4.2 La distribucion multinomial : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 53
5.4.3 Test de ajuste para un modelo multinomial : : : : : : : : : : : : : : : : : : : : 54
4
5.4.4 Test de ajuste para una distribucion discreta : : : : : : : : : : : : : : : : : : : 55
5.4.5 Test de ajuste para una distribucion continua : : : : : : : : : : : : : : : : : : : 55
5.4.6 Test de independencia en una tabla de contingencia : : : : : : : : : : : : : : : 57
5.5 EJERCICOS : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 58
5
1 INTRODUCCION A LA ESTADISTICA 6
1 INTRODUCCION A LA ESTADISTICA
La estadstica es una rama del metodo cientco que trata datos empricos, es decir datos
obtenidos contando o midiendo propiedades sobre poblaciones de fenomenos naturales, cuyo
resultado es "incierto".
En teoria de las probabilidades, estudiaron el experimento relativo a tirar un dado y hicieron
el supuesto que el dado no esta cargado (sucesos elementales equiprobables), lo que permite
deducir que la probabilidad de sacar "un numero par" es igual a 1=3. A partir de un modelo
probabilitico adecuado, se deduce nuevos modelos o propiedades. En Estadistica tratamos
responder a la pregunta ">el dado no esta cargado?", comprobando si el modelo probabilistico
de equiprobable subyacente esta en acuerdo con datos experimentales obtenidos tirando el
dado un cierto numero de veces. Se propone entonces un modelo probabilitico que debe seguir
los datos y no lo contrario.
La teora de las probabilidades permite deducir propiedades a partir de una serie de axiomas,
mientras que la Estadtica propone metodos para vericar hipotesis.
Esta introduccion se inicia con una breve presentacion historica de la estadstica, para seguir
con algunos ejemplos de problemas estadsticos. Siguen las etapas del razonamiento que se
usa para resolver tales problemas. Terminamos esta introduccion con la presentacion de la
teora de muestreo, que es la base de la solucion de todo problema estadstisco.
1.1 HISTORICO
Antes de la aparicion del calculo de las probabilidades en el siglo 17, la estadstica se ha
desarrollado poco y se limita a estudio descriptivo, que es la parte de la estadstica que no se
apoya sobre la nocion de probabilidad. En efecto es una actividad bien antigua, aquella de
recolectar datos para conocer la situacion de los estados: el emperador chino Yao organizo
un censo de producciones agricolas en 2238 A.C. en Egipto ya se hacan catastros y censos
en 1700 A.C. mas cerca, los Incas con sus quipus mantenan al da las estadsticas de las
cosechas. Durante este perodo, los censos de poblaciones y recursos naturales son solo cifras
informativas y descriptivas. Es solo en el siglo 18 que se expande la idea introducida por el
ingles John Grant, que las estadsticas demogracas podran servir de base a predicciones.
Con Adophe Quetelet se empieza a concebir que la estadstica puede ser fundada en el calculo
de las probabilidades. Pero hay que esperar los primeros estadsticos matematicos ingleses
(despues de 1900) para ver realmente una metodologa estadstica como una teora inductiva
bien formalizada, que permite inducir a partir de datos observados particulares, conclusiones
generales sobre el comportamiento probabilstico de fenomenos observados. Despues de la
Estadstica Matematica, que se desarrolla entre 1900 y 1950, los estadsticos neo-bayesianos
proponen hacer inferencia, no solo a partir de los datos observados, sino tomando tambien en
cuenta el conocimiento a priori respecto de los modelos probabilsticos. En la misma epoca
(1950), la aparicion de los computadores potentes permite el auge del analisis de grandes
1 INTRODUCCION A LA ESTADISTICA 7
volumenes de datos, con mas observaciones y mas variables. Un conjunto de tecnicas para
estudiar datos multidimensionales, que se basan en modelos no probabilsticos, permiten
describir, clasicar y simplicar los datos con el objeto de facilitar su interpretacion ademas
de sugerir leyes, modelos o explicar fenomenos.
Todos estos problemas son distintos algunos se podran basar en datos censales y otros en
datos muestrales. Pero hay una lnea general del razonamiento que es la misma para todos.
Los datos experimentales son obtenidos sobre conjunto de individuos u objetos, llamado
poblacion, sobre el cual se quiere conocer algunas caractersticas. La poblacion puede ser
nita -por ejemplo, en una encuesta de opinion, es la poblacion de un pas o una region, los
productos fabricados por una maquina- o innita, cuando la poblacion se dene a partir del
experimento de tirar un dado, o sacar valores de la distribucion de probabilidad de la v.a.
N (0 1) (es el espacio muestral). Como generalmente la poblaci on a estudiar es demasiado
vasta o incluso innita, se extrae solamente un subconjunto de la poblacion, llamada muestra
sobre la cual se observan caractersticas llamadas variables. >Como entonces sacar una
muestra de una poblacion o de una distribucion de probabilidad desconocida para obtener
informaciones dedignas sobre la poblacion de la cual proviene? Es lo que pretende contestar
la teora de muestreo, planteando la pregunta de otra manera: >Si la distribucion probabilidad
de obtener la muestra que se obtuvo? La teora de muestreo permite de demir el tama~no
de la muestra a tomar pero la forma de seleccionar los elementos de la muestra tambien.
Se tiene varios metodos de muestreo para obtener muestras que, dependiendo del problema,
pueden ser muy complejos.
Los valores de las variables obtenidos sobre los elementos de la muestra se llaman valores
muestrales. Ahora bien, cuando se emiten conclusiones sobre una poblacion a partir solo de
valores muestrales, entonces estos resultados estan afectados de errores debidos al muestreo.
Pero se tiene generalmente errores de medicion tambien que pueden inuir sobre la precision
de las conclusiones.
Ahora bien hay que observar que los errores de muestreo decrecen con el tama~no de la muestra,
pero los errores de observacion crecen con este tama~no. Lo ideal es entonces tener un buen
equilibrio entre estos tipos de errores.
Se vio en el curso de probabilidad que el muestreo aleatorio simple (m.a.s.) permite sacar
muestras de tama~no dado equiprobables, distinguiendo el m.a.s. con reemplazo del m.a.s. sin
reemplazo.
Dado un experimento aleatorio E y una poblacion (o espacio muestral) de sucesos ele-
mentales, el conjunto de n realizaciones del experimento E es una muestra de tama~no
n.
Una muestra aleatoria simple con reemplazo (o con repeticion) se obtiene realizando n
repeticiones independientes del experimento E , tomando sobre los sucesos elementales
equiprobables. Se obtiene entonces una n-tupla de .
Una muestra aleatoria simple sin reemplazo (o sin repeticion) se obtiene de la poblacion
realizando el experimento E :
{ sobre . Se obtiene un suceso !1 con equiprobabilidad
{ sobre n f!1g. Se obtiene un suceso !2 con equiprobabilidad
{ sobre n f!1 !2g. Se obtiene un suceso !3 con equiprobabilidad, etc.
As se obtienen elementos de , todos distintos.
1 INTRODUCCION A LA ESTADISTICA 10
El muestreo aleatorio simple es un metodo para obtener muestras de tama~no jo de tal
forma que todas las muestras de mismo tama~no tengan la misma probabilidad de ser
seleccionadas. Pero no es la unica forma de proceder.
2 DISTRIBUCIONES EN EL MUESTREO 11
2 DISTRIBUCIONES EN EL MUESTREO
2.1 INTRODUCCION
Los metodos estadsticos permiten confrontar modelos matematicos o probabilsticos con los
datos empricos obtenidos sobre una muestra:
F 6
- x
Figura 2.1: Una distribucion emprica.
Ademas para x jo Fn (x) es una variable aleatoria y nFn (x) es una v.a. igual a la suma de
variables de Bernoulli independientes de mismo parametro F (x), o sea nFn (x) B(n F (x)).
Teorema 2.1 Para todo x, Fn (x) converge casi-seguramente hacia la distribucion teorica
F(x) de X.
Demostracion: Como nFn (x) B(n F (x)), de la ley de los grandes numeros se concluye que:
P (lim
n Fn (x) = F (x)) = 1
c:s: F (x)
O sea que Fn (x) ;!
!1 P ( nDn < y ) =
nlim (;1)K exp(;2K 2 y 2)
;1
m:c: 2
Sn2 ;! (E ((Sn2 ; 2 )2) ;! 0).
Calculo de E (P Sn2 )
E (Sn2) = E ( n (Xi2 ; Xn )2 ) = E ( n1 P(Xi2 ; )2 ; (X n ; )2)
1
E (Sn2) = n;n 1 2 ;! 2 :
Calculo de V ar(Sn2 )
V ar(Sn2) = nn;31 ((n ; 1)4 ; (n ; 3) 4)
en que 4 = E ((X ; )4 ) es el momento teorico de orden 4 de la v.a. X.
Se deja este calculo como ejercicio.
V ar(Sn2 ) 4 ;n 4 ;! 0.
Calculo de Cov (X n Sn2)
Cov(X n Sn2) = E ((X n ; )(Sn2 ; n;n 1 2))
Cov(X n Sn2 ) = E (( n1 P Xi ; )( n1 P(Xj ; )2 ; (X n ; )2 ; n;n 1 2))
Cov(X n Sn2 ) = E (( n1 P(Xi ; ))( n1 P(Xj ; )2 ; (X n ; )2 ; n;n 1 2))
E (Xi ; ) = 0 8i y E (Xi ; )(Xj ; ) = 0 8(i j )
Cov(X n Sn2 ) = n12 E (P(Xi ; )3 ) ; E ((X n ; )3)
Cov(X n Sn2) = n12 E (P(Xi ; )3 ) ; n13 E (P Xi3)
Cov(X n Sn2) = n3 ; n23 = nn;21 3
si n ! +1, Cov (X n Sn2) ! 0 (lo que no signica que hay independencia).
En particular si la distribucion es simetrica (3 = 0), entonces Cov (X n Sn2) = 0:
nSn2
2 = P( Xi; )2 ; ( X=
n ; 2
pn )
Como las v.a. ( Xi; ) son i.i.d. de una N (0 1), entonces U = P( Xi; )2 es una suma de
los cuadrados de n v.a. independientes de N (0 1) cuya distribucion es facil de calcular y se
n ; 2
llama Ji-cuadrado con n grados de libertad y se denota 2n . Por otro lado, ( X= pn )
sigue una distribucion con 1 grado de libertad.
2
Teorema 2.5 Sean X1 X2 ::: Xn v.a. i.i.d., entonces Xn y Sn2 son independientes si y solo
si las Xi provienen de una distribucion normal.
h(t) = 2 pn ;(nn )
2
t 2 IR
2
n
Se observa que la funcion de densidad de T es simetrica y E (T ) = 0 y var(T ) = n ; 1
para n 2. Ademas para n=1 se tiene la distribucion de Cauchy y para n grande se puede
aproximar la distribucion de T a una N (0 1).
Aplicando estos resultados, deducimos que la distribucion de la v.a.
V = p X2 n ;
Sn =(n ; 1)
es una t de Student con n-1 grados de libertad.
2.4.5 Cuantilas
Denicion 2.3 Dada una funcion de distribucion F(x) de X, se llama cuantila de orden p
al valor xp tal que F (xp ) = p.
Si tomamos p = 1/2, entonces x1=2 es tal que hay tantos valores por debajo que por arriba de
x1=2, que se llama mediana de la distribucion. Se llaman cuartilas a x1=4 y x3=4 y intervalo
intercuartila a x3=4 ; x1=4.
Se observara que para una distribucion discreta o emprica Fn una cuantila para un p dado
no es unica. Se dene entonces como xp al valor tal que IP (X < xp ) p IP (X xp ).
3 ESTIMACION PUNTUAL 19
3 ESTIMACION PUNTUAL
3.1 INTRODUCCION
En un problema estadstico, si los datos fueron generados a partir de una distribucion de
probabilidad F(x) desconocida, los metodos de la Inferencia Estadstica permite decir
algo respecto de esta distribucion. Cuando se supone que tal distribucion no es totalmente
desconocida - por ejemplo pertenece a una determinada familia de distribuciones - entonces
son desconocidos solo uno o varios parametros que denen cada distribucion de esta familia.
En este caso la teora de estimacion tiene por objetivo dar valores a estos parametros a partir
de los valores muestrales.
Por ejemplo, F (x) pertenece a la familia de las distribuciones normales N ( 1) de varianza
igual a 1 y de esperanza desconocida. Aqu es el unico parametro desconocido de la
distribucion. Pero si se supone la varianza tambien desconocida, se tendran dos parametros
desconocidos, la media y la varianza 2 .
Los parametros son constantes que toman valores en un espacio llamado espacio de parametros
$:
N ( 1) $ = IR
N ( ) $ = IR]0 +1
Exp() $ =]0 +1
Binomial(10,p) $ = 0 1]
Sean X1 ::: Xn los valores muestrales obtenidos sobre una muestra aleatoria simple de una
v.a. X de funcion de densidad f (x=), en que es desconocido. Hay varias maneras de
decir algo sobre . Lo mas simple consiste en dar un valor unico para . Es la estimacion
puntual: se busca elegir un valor para a partir de los valores muestrales. Es decir se tiene
que denir una funcion
: IRn ;! $, que es un estadstico llamado estimador de . El valor
tomado por esta funcion sobre una muestra particular de tama~no n es una estimacion. Otra
forma de estimar un parametro consiste en buscar no un solo valor para , sino un conjunto
de valores, un intervalo en general, en el cual se tiene alta probabilidad de encontrar . Es la
estimacion por intervalo.
Procediendo as, tratamos de estimar el valor de los parametros, que son considerados
como constantes, a partir de estadsticos que son aleatorios. Ahora bien, frecuentemente se
sabe algo mas sobre los parametros este conocimiento obviamente no es preciso, sino no
se tendra el problema de estimar estos parametros pero se tienen ideas sobre sus posibles
valores, que pueden ser traducidas a una funcion de distribucion a priori sobre el espacio
de parametro $. Los estimadores bayesianos toman en cuenta la distribucion a priori y los
valores muestrales.
El problema es encontrar metodos que permitan construir estos estimadores.
A continuacion daremos los metodos usuales de estimacion puntual.
3 ESTIMACION PUNTUAL 20
Un estimador del parametro basado en una muestra de tama~no n es una funcion
de los
valores muestrales (x1 x2 ::: xn) a valores en el espacio de parametro $.
El valor que toma el estimador
sobre una muestra (x1 ::: xn) se llama estimacion o valor
estimado.
El estimador de Maxima Verosimilitud es el estimador que hace fn (x=) maxima.
Tal estimador puede entonces no ser unico, o bien no existir.
3.4 EJEMPLOS
Ejemplo 1: Una maquina produce diariamente un lote de piezas. Un criterio basado sobre
normas de calidad vigente permite clasicar cada pieza fabricada como defectuosa o no defec-
tuosa. El cliente aceptara el lote si la proporcion de piezas defectuosas contenidas en el lote
no sobrepasa el valor o . El fabricante tiene que controlar entonces la proporcion de piezas
3 ESTIMACION PUNTUAL 21
defectuosas contenidas en cada lote que fabrica. Pero si la cantidad de piezas N de cada lote
es muy grande, no podra examinar cada una para determinar el valor de . El fabricante
efectua entonces el control de calidad de una muestra aleatoria peque~na con n piezas. Se
dene la v.a. X que toma el valor 1 si la pieza es defectuosa y 0 en el caso contrario. Sean
x1 x2 ::: xn los valores obtenidos sobre la muestra.
xi Bernoulli() (0 1)
Y
n
fn (x=) = xi (1 ; )1;xi
i=1
max
n
f (x=) () max
Logfn (x=)
X
n
Logfn (x=) = xi Log + (1 ; xi )Log (1 ; )]
i=1
dLogfn(x=) = P xi ; n ; P xi = 0
d 1;
Luego el estimador dePmaxima verosimilitud (E.M.V.) ^ de es la proporcion de piezas
defectuosas observada xi =n.
Ejemplo 2: El ministerio de la salud quiere conocer la talla promedia de las mujeres
P chilenas
adultas. Si X1 X2 ::: XN son las tallas de todas las chilenas adultas, = Xi =N . Dado
el tama~no grande de esta poblacion, se obtiene la talla de una muestra aleatoria de tama~no
peque~no n. Sean x1 x2 ::: xn.
Se supone que xi N ( 2) con y 2 desconocidos.
X
fn (x=) = (1=2 2)n=2 expf; (xi ; )2=22g
Logfn (x=) es maximo cuando = X n la media muestral y 2 = Sn2 la varianza muestral.
Notas:
- Si se supone la varianza poblacional 2 conocida, el E.M.V. de queda igual a la media
muestral X n .
- Se puede buscar el estimador de la varianza o bien de su raz . El resultado no cambia.
Ejemplo 3: xi Uniforme0 ] > 0
fn (x=) = 1=n si 0 xi 8i
Cuando xi para todo i, fn (x=) es no nulo y es decreciente en luego fn (x=) es
maxima para el valor mas peque~no de que hace fn (x=) no nulo: el E.M.V. de es entonces
^ = maxfx1 x2::: xng
El metodo de los momentos produce un estimador bien diferente. En efecto, como
E(X) = =2, el estimador de los momentos es ~ = 2X n.
3 ESTIMACION PUNTUAL 22
En este ejemplo, una dicultad se presenta cuando se toma el intervalo ]0 abierto, dado
que no se puede tomar como estimador el maximo ^ en este caso no existe E.M.V. Puede
ocurrir que no es unico tambien: si se dene el intervalo + 1], la funcion de verosimilitud
es:
fn (x=) = 1 si xi + 1 8i
es decir:
fn (x=) = 1 si maxfx1 ::: xng ; 1 minfx1 ::: xng
Por lo cual todo elemento del intervalo maxfx1 ::: xng ; 1 minfx1 ::: xng] es E.M.V.
Aqu el estimador de los momentos, que es igual a X n ; 1=2, es bien diferente tambien.
3.5 PROPIEDADES
>Como elegir un estimador? >Como decidir si un estimador es aceptable? Para ayudarnos
en esta eleccion se puede estudiar si el estimador cumple ciertas propiedades razonables.
3.5.1 Invarianza
Observamos en las notas del ejemplo 2, que el E.M.V. de se puede obtener directamente o
como la raiz del E.M.V. de 2. Eso se debe de la propiedad de invarianza del E.M.V. por
transformacion funcional:
3.5.2 Consistencia
Un estimador depende del tama~no de la muestra a traves de los valores muestrales los
estimadores ^n asociados a muestras de tama~no n (n 2 IN ) constituyen sucesiones de v.a..
Un buen estimador deberia converger en algun sentido hacia .
Denicion 3.2 Se dice que un estimador ^n de un parametro es consistente cuando
converge en probabilidad hacia :
!1 1
IP (j^n ; j < ) n;!
3 ESTIMACION PUNTUAL 23
Los momentos empricos de una v.a. real son estimadores consistentes de los momentos
teoricos correspondientes. Mas aun la convergencia es casi-segura y la distribucion asintotica
de estos estimadores es normal.
3.5.4 Suciencia
En el ejemplo 1, se busca deducir de las observaciones de una muestra aleatoria de n piezas
una informacion sobre la proporcion de piezas defectuosas en el lote total. Es mas simple
considerar el numero de piezas defectuosas encontradas en la muestra en vez de la sucesion
de resultados x1 x2 ::: xn. El conocimiento de nlos valores individuales no procura ninguna
X
informacion aditiva para la proporcion que xi . Se redujo los n datos a un solo valor,
i=1
que es funcion de estos datos, sin perder informacion para determinar .
En el ejemplo 2, la media muestral X n permite simplicar la informacion dada por los n
valores muestrales. Pero nos preguntamos si se pierde informacion usando la media muestral
para estimar la media de la poblacion.
Observamos que si suponemos la varianza conocida, la funcion de verosimilitud puede es-
cribirse como funcion unicamente de la media muestral y del tama~no n de la muestra:
p
fn (x=) = (1= 2 )nexpf;n(X n ; )2 =2g
Es decir que la unica informacion relevante para estimar es dada por la media muestral. En
este caso se dice que la media muestral es un estadstico suciente. Un estadstico suciente
que se toma como estimador del parametro , debera contener toda la informacion que llevan
los valores muestrales sobre .
Denicion 3.5 Un estad stico T (x1 ::: xn), funcion de los valores muestrales y con valor en
$ se dice suciente para si la distribucion conjunta de los valores muestrales condicional-
mente a T (x1 ::: xn) no depende de .
Denicion 3.6 Se dice que un estad stico T es suciente minimal si no se puede encontrar
otro estad stico suciente que hace una mejor reduccion de los datos que T.
X
n
Tn(X ) = a(Xi) es un estad stico suciente minimal.
i=1
Denicion 3.8 La distribucion condicional de dada la muestra (x1 ::: xn) se llama dis-
tribucion a posteriori y su densidad es igual a (=x) = fn (x=
g n )
(
) () , en que
x
R
g (x) = h(x )d es la densidad marginal de x.
n
No es siempre facil denir esta funcion de perdida, que es especca de cada problema y
puede tener algun aspecto subjectivo (nocion de utilidad). Sin embargo, se puede elegir entre
diversas funciones de perdida clasicas, cuando no se puede construir una propia:
Funcion de perdida cuadratica
Es la funcion de perdida mas utilizada y mas criticada:
L(
) = ( ;
)2
que penaliza demasiado los errores grandes.
Funcion de perdida absoluta
Una solucion alternativa a la funcion cuadradica es usar el valor absoluto:
L(
) = j ;
j
o bien una funcion afn por parte:
(
L(
) = k1( ;
) si >
k2(
; ) si no
Funcion de perdida "0-1"
Sea I" (
) el intervalo de centro
y largo 2".
(
L(
) = 0 si 2 I" (
)
1 si no
3.7 EJERCICIOS
1. Sea Xi , i = 1 ::: n una muestra aleatoria simple de una v.a. X de funcion de distribucion
Gamma( ).
Estime E(X) por Maxima Verosimilitud. Muestre que el estimador resultante es insesgado,
convergente en media cuadratica y es consistente.
2. Sea una m.a.s. x1 :::xn de una v.a. X de funcion de densidad f (x=) = x;1 I1
0
1].
Encuentre el estimador de Maxima Verosimilitud ^ de y pruebe que ^ es consistente y
asintoticamente insesgado.
3. Sea Y una v.a. de Bernoulli de parametro . Considere una m.a.s. y1 :::yn y una
distribucion a priori Beta(a,b) para . Obtenga el estimador de Bayes, ^ para , usando
una funcion de perdida cuadratica. Muestre que ^ es sesgado, asintoticamente insesgado,
convergente en media cuadratica y consistente.
3 ESTIMACION PUNTUAL 30
4.. Sean dos preguntas complementarias: Q="vota por Pedro" y Q'="no vota por Pedro".
Se obtiene una m.a.s. de n personas que contestan a la pregunta Q o Q' lo unico que se sabe
es que cada persona ha contestado a Q con probabilidad conocida y Q' con probabilidad
(1 ; ). Se denen:
p: la probabilidad que una persona contesta "SI" a la pregunta (Q o Q')
: la proporcion desconocida de votos para Pedro en la poblacion.
a) De la proporcion en funcion de p y .
b) De el estimador de Maxima Verosimilitud de p y deduzca un estimador ^ para . Calcule
la esperanza y la varianza de ^ .
c) Estudie las propiedades de ^ estudie en particular la varianza ^ cuando = 0:5.
5. Suponga que X tiene una funcion de densidad f (x=) y que T (X ) es un estimador de
Bayes insesgado para con la funcion de perdida cuadratica y una distribucion a priori ().
a) Demuestre que E ( ; T (X ))2 = 0
b) Asuma que f (x=) es una N ( 1). Pruebe que E ( ; X n )2 = n1 . Concluya si X n puede
ser un estimador de Bayes para perdida cuadratica.
6. Sea x1 x2 ::: xn una m.a.s. de una distribucion tal que IP (xi 2 a b]) = .
(
Se dene yi = 10 sienxcaso i 2 a b]
contrario
a) De la distribucion de yi .
b) De el estimador de maxima verosimilitud ^ de .
c) De la esperanza y la varianza de ^.
d) Sean las distribuciones a priori de :
;( + ) ; 1 (1 ; ) ; 1 (Distribucion Beta( )) y 2 () = 2(1 ; )
1 () = ;( );( )
De los estimadores de Bayes y sus varianzas cuando se usa una funcion de perdida cuadratica.
e) Aplicacion numerica: de las soluciones a las preguntas anteriores con los valores: n=10,
= 2, = 2 xi : 1.2, 3.5, 2.4, 1.5, 6.3, 2.8, 4.2, 4.5, 3.8, 5.1 y a,b]=2,4].
7. Sea fX1 X2 ::: Xng una m.a.s. de una v.a. X con funcion de densidad f (x=). Sea
Y =
(X1 ::: Xn) un estimador de . Se dene Yi el estimador
calculadoP sobre la muestra
salvo la observacion i (i = 1 2 ::: n), Yi = nY ; (n ; 1)Yi y Y = (1=n) ni Yi.
a) Calcule la varianza S 2 de Y cuando Y = X n la media muestral y E (X ) = .
b) Deducir la distribucion de (Y ; )=S cuando Y = X n y X N ( 2).
8. Sea X una v.a. real con densidad f (x=), 2 $ = f1 2 ::: N g (nito).
Sean una distribucion de probabilidad a priori sobre $ y la funcion de perdida:
(
L(
) = 0 si =
c si 6=
(c > 0)
3 ESTIMACION PUNTUAL 31
a) Pruebe que la perdida esperada se escribe como E (L(
)) = c(1 ; (
=x)), en donde es
la distribucion a posteriori sobre $.
b) Deduzca la condicion que debe satisfacer
para ser el estimador de Bayes de asociado
a . Pruebe que el estimador no depende de c.
c) Si es la distribucion uniforme sobre $, pruebe que el estimador de Bayes de y el
estimador de maxima verosimilitud coinciden.
9. Se considera la distribucion discreta: IP (X = x) = ax x =h(), con x = 0 1 2 :::, en donde
h es diferenciable y ax puede ser nulo para algunos x.
Sea fx1 x2 ::: xng una m.a.s. de esta distribucion.
a) De las expresiones de h() y h0 ().
b) De el estimador de maxima verosimilitud de en funcion de h y h0 .
c) Muestre que el estimador de maxima verosimilitud es el mismo que el del metodo de los
momentos.
d) Aplique lo anterior para los casos siguientes:
i) X Binomial(N p) (N conocido)
ii) X Poisson().
10. Sean Ti , i = 1 ::: I estimadores del parametro tales que : E (Ti) = + bi , bi 2 R
Se dene un nuevo estimador T de como T = PIi=1 iTi
a) De una condicion sobre los i para que T sea insesgado.
b) Suponga que bi = 0 8i (estimadores insesgados). Plantee el problema de encontrar los
coecientes i para que la varianza de T sea mnima.
c) Suponiendo que los Ti son no correlacionados , resuelva el problema planteado antes.
d) Sean Xij , i = 1 : : :M j = 1 : : :ni M m.a.s. independientes entre si, de variables aleatorias
X i con distribuciones
P normales de varianza comun 2 .
Sea si = ni ;1 j =1 (Xij ; Xi )2, el estimador insesgado de la varianza calculado en la muestra
2 1 n i
"i".
Demuestre que S 2 = PM 1ni ;M PM i=1 (ni ; 1)si es el estimador lineal insesgado de varianza
2
i=1
mnima para 2.
4 ESTIMACION POR INTERVALO 32
1 2
4 ESTIMACION POR INTERVALO 34
r
(X 1 ; X 2 ; 1 + 2 )= 12 + n22
2
r n1
tn1 +n2 ;2 ,
( n1 1^2 1 + n2 2^2 2 )=(n1 + n2 ; 2)
2 2
El estadstico n1 ^12=12 2n1 ;1 y el estadstico n2 ^22 =22 2n2 ;1 , siendo estos independientes.
Mostramos que si U 2r y V 2s , y son independientes, entonces Y = sU=rV sigue una
distribucion de Fisher a r y s grados de libertad con una funcion de densidad igual a:
Observamos que si Y Fr
s entonces 1=Y Fs
r .
4 ESTIMACION POR INTERVALO 35
2 ; 1)2
2 1 2
2 2
conanza para el cuociente 12=22.
Ejemplo 5: Intervalo para una proporcion
Sea la proporcion de piezas defectuosas en un lote de piezas fabricadas por una industria.
El numero de piezas defectuosas encontradas en una muestra aleatoria simple de tama~no n
sigue una distribucion binomial B (n ). Para construir un intervalo de conanza para una
proporcion es mas complicado que para una media o varianza. Cuando n es peque~no hay
que recorrer a la distribucion binomial (tablas y abacos fueron calculados para determinar
valores de 1 y 2 para los diferentes valores de k y n y del nivel de conanza 1 ; ).
Cuando n es grande, se puede usar la aproximacion a la distribucion normal
N (n n(1 ; )), pero la varianza depende tambien de .
Si p^ = Yn , se tiene: p
IP (j pn(^p ; ) j u) = 1 ;
(1 ; )
Lo que equivale a:
IP (n(^p ; )2 ; u2 (1 ; ) 0) = 1 ;
Las soluciones de la ecuacion:
(n + u2)2 ; (2np^ + u2 ) + np^2 = 0
p
siendo 2np^ + u 2(un + 4np^u2 ; 4nu2 p^2 , se obtiene:
2 4
+ u2)
s s
IP ( n +n u2 (^p + 2un ) ; u p^(1 n; p^) + 4un2 n +n u2 (^p + 2un ) + u p^(1 n; p^) + 4un2 = 1 ;
2 2 2 2
4.4 EJERCICIOS
1. Sea una m.a.s. fx1 :::xng de una distribucion normal de media desconocida y varianza
2 conocida.
a) De el numero mnimo n del tama~no de la muestra para que un intervalo de conanza I a
95% tenga un largo L a lo mas igual a 0.016 .
4 ESTIMACION POR INTERVALO 36
probabilidad condicional
8
>
< (;x) ; (;a) si x < ;a
IP ( 2 Ca(x))=x) = > (a) ; (;a) si ;a < x < a
: (a) ; (;x) si x > a
e) Deducir que, para a=1.65, la probabilidad condicional IP ( 2 Ca(x)=x) 0:90 y que
lima!1 IP ( 2 Ca (x)=x) = 1.
5 TESTS DE HIPOTESIS 38
5 TESTS DE HIPOTESIS
5.1 GENERALIDADES
En el captulo 3, se presentaron metodos que permiten encontrar los valores de los parametros
desconocidos de la distribucion de poblacion y en el captulo anterior, la estimacion por
intervalo permite dar una cierta indicacion sobre la precision de la estimacion puntual. Tales
estimaciones, puntuales y por intervalo, que fueron obtenidas a partir de valores muestrales,
permiten formarse una opinion sobre la poblacion y entonces darse una hipotesis de trabajo.
Ejemplos:
Antes de apostar "cara" o "sello" en el lanzamiento de una moneda, se tiene que postular
que la moneda esta equilibrada. La hipotesis de trabajo es entonces que el parametro
p=probabilidad de sacar "cara" de la Bernoulli es
p = 0:5
Un agricultor se compromete a entregar a una fabrica de azucar remolacha con un cierto
porcentaje po de glucosa la hipotesis de trabajo es entonces
p = po o p po
Los hombres chilenos pretenden ser mas altos que los argentinos en promedio si 1 y
2 son las tallas promedias respectivas de los hombres chilenos y argentinos, la hipotesis
de trabajo es
1 2
Cuando se hizo la estimacion puntual de la talla promedia 1 de los hombres chilenos,
se hizo la hipotesis de trabajo que la v.a. X talla de los hombres chilenos sigue una
distribucion
F Normal
En los cuatro casos se procedera de la misma manera: se tiene una hipotesis de trabajo y
una muestra de observaciones se trata de decidir si la hipotesis planteada es compatible con
lo que se puede aprender del estudio de los valores muestrales. Se tiene que encontrar un
procedimiento para decidir si la muestra que se obtuvo esta de acuerdo con la hipotesis de
trabajo. Naturalmente no se espera que, para cualquier muestra, el valor emprico obtenido
en la muestra coincide con el valor esperado de la hipotesis el problema es entonces decidir
si la desviacion encontrada entre el valor esperado y el valor observado en la muestra es
demiasiado grande para poner en duda la hipotesis de trabajo. Ahora bien si se pone en
duda la hipotesis original, entonces se la rechaza en favor de una hipotesis alternativa.
5 TESTS DE HIPOTESIS 39
() = IP (maxfx1 + x2 ::: xng < 2:9=) + IP (maxfx1 x2 ::: xng > 4:1=)
( )
Si 2:9 ) IP (maxfx1 x2 ::: xng < 2:9=) = 1 ) ( ) = 1
IP (maxfx1 x2 ::: xng > 4:1=) = 0
( )
Si 2:9 < 4:1 ) IP (maxfx1 x2 ::: xng < 2:9=) = ( 2:9 )n ) () = ( 2:9 )n
IP (maxfx1 x2 ::: xng > 4:1=) = 0
( )
Si > 4:1 ) IP (maxfx1 x2 ::: xng < 2:9=) = ( 2:9 )n ) () = 1 + ( 2:9 )n ; ( 4:1 )n
IP (maxfx1 x2 ::: xng > 4:1=) = 1 ; ( 4:1 )n
El tama~no del test es igual a = Supf ()=3 4g = (3) = ( 23:9 )n
En los gracos 5.1, se muestra la funcion de potencia para los casos n=10 y 50. Se observa que
el tama~no del test = 0:10, es decir que en el intervalo 3, 4] la probabilidad de equivocarse
no sobrepasa 10%. Pero el error de tipo II, que es igual a 1 ; () cuando 2 o , puede ser
muy elevado entre 3 y 2.9, el error disminuye de 0.10 a 0 pero entre 4 y 4.1 es casi igual a 1.
En este ejemplo si queremos disminuir el tama~no del test , hay que elegir un intervalo W
mas
grande o una muestra de tama~no mayor. Pero en ambos casos se aumentara el error de tipo
II. Para tratar de acercarnos a la situacion ideal, se puede, por ejemplo, buscar minimizar una
funcion de los dos errores, o bien jarse una cota maxima para el error de tipo I y minimizar
el error de tipo II.
5 TESTS DE HIPOTESIS 42
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8
Graco 5.1: Funcion de potencia para Graco 5.2: Funcion de potencia para
la region crtica 2.9,4.1] con n=10 la region crtica 2.9,4.1] con n=50
entonces
es optimo para estos valores a y b dados. Se observara que fo (x) ; bf1 (x) = 0 es
irrelevante, dado que no cambia el mnimo.
Denicion 5.3 Se llama RAZON
DE VEROSIMILITUD de la muestra al cuociente
f1(x)
fo (x)
Sea o la cota maxima de error de tipo I que se quiere aceptar.
Denicion 5.4 Se llama NIVEL DE SIGNIFICACIO N del test a la cota maxima de error
de tipo I aceptada.
Se tiene entonces que buscar una regla de decision
que produce un error de tipo I (
) o
y tal que (
) sea mnimo. El siguiente lema, que deriva del teorema anterior, nos da la
forma de proceder.
Lema 5.1 (NEYMAN-PEARSON)
Si
es una regla de decision tal que para algun k > 0 jo,
se rechaza Ho , si ff1 ((xx)) > k
0
no se rechaza Ho , si ff1 ((xx)) < k,
0
entonces para toda regla
tal que (
) (
) se tiene (
) (
).
Ejemplo: sea x1 ::: xn de una muestra aleatoria simple de la v.a. X N ( 2), descono-
cido y 2 conocido. Se estudia Ho : = 1 contre H1 : = 2. La razon de verosimilitud se
escribe:
f1 (x) = expf; 1 X(x ; 2)2 ; X(x ; 1)2]g
fo (x) 2 2 i i
5 TESTS DE HIPOTESIS 44
Ahora bien no es siempre posible encontrar un test
que satisfaga esta condicion. En efecto
si = f1 2g, un test
podra tener una potencia maxima para 1 pero no necesariamente
para 2 .
Retomando el ejemplo anterior, si tomamos como una hipotesis alternativa con dos valores
H1 = f0 2g, entonces para = 0 la region crtica mas potente sera de la forma R = fX < cg,
que, como lo vimos, no es la region crtica mas potente para = 2.
Denicion 5.5 Si un test
maximiza la funcion de potencia para todo valor de la hipotesis
alternativa H1 : 2 1 , se dice que el test
es uniformemente mas potente (U.M.P.)
es
decir que
es un test U.M.P. al nivel de signicacion o si (
) o y si para todo otro
test
tal que (
) o , se tiene (=
) (=
) 8 2 1
Observamos en el ejemplo que la razon de las verosimilitud dado = 2 y = 1 se escribe:
fn (x=2) n(2 ; 1) 1
fn (x=1) = expf 2 (X ; 2 (2 ; 1 ))g
Se observa que ffn ((x= 2)
depende de x a traves solo de la media muestral X ademas crece
n x=1 )
en funcion de X si 1 < 2 . Es decir que este cuociente es monotono con respecto a X .
Denicion 5.6 Se dice que fn (x=) tiene una razon de verosimilitud monotona para un
estad stico g(x) si y solo si 81 2 tal que 1 < 2 , el cuociente ffn ((x=
x=
2 ) depende del vector
n 1)
x a traves de la funcion g(x) y el cuociente es una funcion creciente de g (x) 8x.
En el ejemplo anterior fn (x=) tiene una razon de verosimilitud monotona en x. Veamos
otro ejemplo: una muestra aleatoria de una Bernoulli de parametro p.
Tomando y = P xi fn (x=p) = py (1 ; p)n;y .
Si 0 < p1 < p2 < 1: ffnn ((x=p 2) p2 (1 ; p1) y (1;p2) n
x=p1) = ( p1(1 ; p2) ) ( (1 ; p1) )
cuociente que depende de x a P traves de y , y es una funcion creciente de y tiene una razon
de verosimilitud monotona en xi .
Denicion 5.7 Un test sobre las hipotesis Ho : o contra H1 : > o , se dice test
unilateral y un test sobre las hipotesis Ho : = o contra H1 : 6= o , se dice test bilateral.
Vamos a mostrar que si fn (x=) tiene una razon de verosimilitud monotona en algun es-
tadstico T, entonces existe un test U.M.P. para las hipotesis Ho : o contra H1 : > o
Teorema 5.2 Si fn (x=) tiene una razon de verosimilitud monotona en el estad stico T y
si c es la constante tal que IP (T c= = o ) = o , entonces la regla de decision que permite
rechazar la hipotesis nula si T c es un test U.M.P. para Ho : o contra H1 : > o al
nivel de signicacion o .
5 TESTS DE HIPOTESIS 46
Si Ho : 2 $o contra H1 : 2 $1 , se dene
(x) = Supf n (x= 2 $1 )
Supfn (x= 2 $o )
El test de razon de verosimilitud consiste en rechazar Ho si (x) > k y no rechazar Ho si
(x) < k.
El problema es encontrar la distribucion de (x). El siguiente teorema da una solucion.
0.9 0.9
0.8 0.8
0.7 0.7
0.6 0.6
0.5 0.5
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
180 190 200 210 220 230 240 120 130 140 150 160 170 180
140 150 160 170 175 180 185 190 200 210 220
() 0.91 0.69 0.37 0.12 0.07 0.05 0.07 0.12 0.37 0.69 0.91
1 ; () 0.09 0.31 0.43 0.88 0.93 0.95 0.93 0.88 0.43 0.31 0.09
Tabla 5.3: Funcion de Potencia para H1 : 6= 180
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
120 140 160 180 200 220 240 260
Se observara que este test se basa en el supuesto de distribucion normal de los valores mues-
trales. Cuando el tama~no de la muestra es grande, este supuesto es aceptable, pero para
muestras peque~nas, es importante comprobar si lo es.
Test sobre una media con la varianza desconocida
Si retomamos el problema anterior pero suponemos que la varianza es desconocida. En este
caso se procede de manera parecida al caso anterior con la distribucion de Student de la
p; )
variable S(X
= n ; 1 que es una Student a n-1 g.l.
n
El problema en este caso es la dicultad que se encuentra para calcular la potencia del test
para una hipotesis alternativa.
Test sobre una varianza
Si ahora planteamos las hipotesis:
Ho : 2 o2 contra H1 : 2 < o2
en donde o2 es un escalar positivo dado.
A partir del estadstico nS
2
n , que sigue una distribucion de 2 a n-1 grados de libertad bajo
o2
Ho , se construye la region critica de nivel de signicacion ::
IP ( nS
2
n > c) =
o2
Test de comparacion de dos medias
Frecuentemente uno esta interesado no en uma sola media, pero en la diferencia entre dos
medias. Por ejemplo, la diferencia de sueldos medios 1 y 2 entre dos poblaciones 1 y 2.
Las hipotesis se escriben entonces:
Ho : 1 ; 2 = do
H1 : 1 ; 2 6= do
Es mas usual tomar do = 0 y la hipotesis alternativa H1 puede ser
H1 : 1 ; 2 6= 0 o H1 : 1 ; 2 > 0
Sea la v.a. sueldo X N (1 12) en 1 y X N (2 22) en 2. Si se tiene una media
muestral X 1 de X obtenida sobre una muestra de tama~no n1 en 1 y una media muestral X 2
de X obtenida sobre una muestra de tama~no n2 en 2 , entonces
X1 ; X2 N (1 ; 2 12=n1 + 22=n2)
Si las varianzas 12 y 22 son conocidas, entonces se obtiene una region crtica de nivel de
signicacion = 0:05 para Ho : 1 ; 2 = 0 contra H1 : 1 ; 2 > 0:
q
IP (X1 ; X 2 > 1:96 12=n1 + 22=n2 )
5 TESTS DE HIPOTESIS 50
Si las varianzas son desconocidas, pero si se supone que son iguales ( 12 = 22 = 2), entonces
se estima esta varianza y se usa un estadstico que sigue una distribucion t de Student. Un
estimador insesgado de 2 es:
S 2 = (n1S12 + n2S22)=(n1 + n2 ; 2)
en que S12 y S22 son las varianzas empricas sesgadas de 12 y 22 . Entonces
t = r 2X1 ; 2X2
( nn1 S1 +1 +n2n;2 S22 )( nn11+nn22 )
es una Student a n1 + n2 ; 2 grados de libertad.
La region crtica se dene entonces como:
s
IP (X 1 ; X2 > t ( nn1 S+1 +n n;2 S22 )( n1n+nn2 )
2 2
1 2 1 2
El estimador de la varianza de la media diferencia es entonces ^Xn;Y y Xn^X;;yYn=;(n;1 ;1)2
2
5.4 TESTS 2
Diversas situaciones pueden describirse a partir de una distribucion multinomial. Veremos
previamente dos distribuciones de vectores aleatorios, la distribucion normal multivariada, y
la distribucion multinomial con su comportamiento asintotico. Despues de presentar un test
para un modelo multinomial, veremos aplicaciones para hipotesis no parametricas.
Es decir que si X es un vector normal, toda combinacion lineal de X es una v.a. normal.
Propiedades:
Tomando como vector u los vectores canonicos, se obtiene las leyes marginales de X,
que son normales pero la recproca es falsa: un vector formado de variables normales
no es necesariamente un vector normal.
Sea Y una matriz (pxq).
X Np( ;) =) Y = AX Nq (A A;At)
Las v.a. Xi son independientes () ; es diagonal
; es semidenida positiva
En efecto ;(u u) = ut ;u es la varianza de la v.a. u(X ) = ut X .
Si ; es de rango r, existe * una matriz (pxr) tal que ; = **t. Entonces:
X Np( ;) () X = + *Y Y Nr (0 Ir)
es decir que las componentes del vector Y son centradas, normalizadas y independientes
entre si.
Si ; es invertible, * es invertible tambien e Y = *;1 (X ; ).
Este ultimo resultado permite calcular la densidad del vector X. En efecto se puede calcular
la densidad del vector Y Np (0 Ip):
Y X
f (Y ) = f (Yi ) = ( 21 )p=2exp(; 12 Yi2 )) = (1=2 )p=2exp(; 12 Y Y t )
5 TESTS DE HIPOTESIS 53
Proposicion 5.2 2Si M es un vector de distribucion multinomial (n p1 ::: pk), entonces
Q = P (Mi ; npi ) tiene una distribucion asintotica de 2 .
npi k ;1
Mi 1 2 3 4 5 6 Total
fi 12 11 22 20 16 21 102
Tabla 5.4
Se obtiene Q=6.589, y IP (25 > 6:589) > 5%, por lo cual no se rechaza Ho . Las diferencias
no son sucientemente signicativas para concluir que el dado esta cargado.
5 TESTS DE HIPOTESIS 55
N o accidentes 0 1 2 3 4 5 6 Total
N o semanas 17 16 10 5 2 1 1 52
Tabla 5.6
Bajo Ho , los numeros de semanas Mo con 0 accidente, M1 con 1 accidente, ..., M6 con 6 o
mas accidentes sigue una distribucion multinomial de parametros n=52, y po = IP (X = 0),
p1 = IP (X = 1), ..., p6 = IP (X 6),
Calculamos los pi = IP (X = i), con X P (1:5).
Se obtiene Q=7.0563 (tabla 5.7), y IP (26 > 7:0563) > 5%, por lo cual no se rechaza Ho .
Ahora
P iM =si52 se= supone que no se conoce el parametro , se puede estimar por ^ = X n =
i 72=52 = 1:385 y proceder como antes. Pero ahora el estadstico Q pierde un
grado de libertad debido a la estimacion.
Con el parametro ^, Q=5.62 y IP (25 > 5:62) > 5%.
la muestra Mi que caen en el intervalo Ii . El vector M de los efectivos de los intervalos sigue
una distribucion multinomial de parametros de probabilidad determinados por la hipotesis
nula.
Sea por ejemplo, las temperaturas medias X del mes de septiembre en Urbe durante 60 a~nos
(tabla 5.8). Se quiere probar la hipotesis nula Ho : X normal.
Hay diferentes maneras de denir la particion de intervalos de IR. Una vez jado el numero
de intervalos, se pueden elegir del mismo largo o de la misma probabilidad. Tomaremos aqu
10 intervalos equiprobables.
Para calcular las probabilidades, hay que estimar previamente los parametros y 2 de la
normal:
^ = Xn = 15:76 ^ 2 = Sn2 = 13:82
Luego los intervalos Ij se obtienen de tal forma que (tabla 5.9):
IP (X 2 Ij ) = 0:10 8j
5.2 6.5 7.5 8.2 10.1 10.5 11.6 12.0 12.0 12.8 13.5 13.8
13.9 14.0 14.0 14.2 14.3 14.5 14.7 14.8 15.0 15.0 15.2 15.2
15.3 15.4 15.6 15.8 15.8 15.9 16.0 16.1 16.2 16.4 16.4 16.5
16.5 16.8 16.9 17.0 17.0 17.1 17.1 17.1 17.4 17.6 17.9 18.2
18.5 18.8 18.9 19.4 19.8 20.3 20.9 21.4 21.9 22.5 22.8 23.9
Tabla 5.8: Temperaturas medias
ij i j
que sigue una distribucion asintotica 2 a (p-1)(q-1) g.l.
Sea un conjunto de consumidores que dan su apreciacion sobre una margarina. Se quiere
estudiar si existe una relacion entre la opinion de los consumidores y su nivel socio-economico
(NSE).
Se considera la tabla de contingencia obtenida a partir de une encuesta de estudio de mercado
sobre 1600 consumidores (tabla 5.10), que presenta las frecuencias Mij para cada NSE i y
apreciacion j.
NSE APRECIACION TOTAL
MALA REGULAR BUENA
A 140 100 45 285
B 50 225 350 625
C 15 175 500 690
TOTAL 205 500 895 1600
Tabla 5.10: Tabla de contingencia
Las probabilidades pij se estiman usando las frecuencias marginales de la tabla por ejemplo,
para el NSE A con la apreciacion MALA se obtiene p^11 = 285 205=1600 = 0:0228 y
np^11 = 36:51.
Se obtiene el valor Q=521.46. Como IP (4 > 521:46) < 5%, se rechaza la hipotesis de
independencia entre el NSE y la apreciacion.
5 TESTS DE HIPOTESIS 58
Nota: Se puede usar el mismo test para probar la independencia de dos variables continuas
transformandolas en variables discretas.
5.5 EJERCICOS
1. El cocinero del casino preparo la masa para hacer 500 empanadas. Ese mismo da, en un
grupo de 20 alumnos que almorzaron juntos, alguien propuso contar la cantidad de pasas que
cada uno encontrase en su empanada, encontrandose la siguiente distribucion:
N o de pasas N o de empanadas
0 1
1 3
2 4
3 5
4 4
5 2
8 1
a) Suponiendo que la distribucion de la cantidad de pasa X en una empanada sigue una ley
de Poisson, estime el parametro de esta ley.
b) Justique la hipotesis: "H0: La distribucion de la cantidad de pasas en una empanada
sigue una ley de Poisson" de las dos formas siguientes:
(i) A priori: Buscando la probabilidad de que una empanada tenga exactamente x pasas.
(ii) A posteriori: comparando los resultados esperados bajo la hipotesis con aquellos obser-
vados en la muestra.
c) Se decide que las empanadas son aceptables si en promedio cada empanada tiene 3.5 pasas
el cocinero arma que esta se la cantidad de pasas por empanadas. Los alumnos, en cambio,
objetan que las empanadas tienen en promedio solo 2.5 pasas.
>Que signica la eleccion de los test de hipotesis siguientes:
antes 72 69 81 71 88 78 68 76 86 95
Hombres despues 77 68.5 85 74.5 90.5 76 71 75 87.5 101
antes 52 56 61 49 57 63 66 59 67 51
Mujeres despues 54 55 58 50 55 61 64 56 70 50
>Cual es la inuencia del matrimonio sobre el peso de los hombres y de las mujeres?
3. Se quiere probar si hay una diferencia de ingreso entre hombres y mujeres medicos. Se
hizo una encuesta a n = 200 medicos seleccionados al azar e independientemente. Se obtuvo
la siguiente informacion:
a) Sean p1 y p2 las proporciones poblacionales de medicos hombres y mujeres y sean p01 y p02
las proporciones poblacionales de medicos con ingresos bajos y altos. Realice los tests
H0 : p01 = p2 vs. H1 : p01 6= p2 H00 : p1 = p02 vs. H10 : p1 6= p02.
b) Estudie la independencia entre sexo e ingreso.
4. Supongase que X1 , ..., Xn constituyen una m.a.s. de una v.a. X con distribucion uniforme
sobre 0 ] y que se han de contrastar las siguientes hipotesis:
H0 : 2 vs. H1 : < 2.
Sea Yn = maxfX1 ::: Xng y considerese un procedimiento de contraste tal que la region
crtica contenga todos los resultados tq. Yn 1:5.
a) Determnese la funcion de potencia del contraste.
b) Determnese el tama~no del test.
5. Supongase que se desconoce la proporcion p de artculos defectuosos en una poblacion de
artculos y se desea probar las hipotesis
H0 : p = 0:2 vs H1 : p 6= 0:2.
Supongase ademas que se selecciona una m.a.s. de tama~no 20. Sea Y el numero de artculos
defectuosos en la muestra y considerese un procedimiento para resolver el test tal que la
region crtica esta dada por Y 7 o Y 1.
5 TESTS DE HIPOTESIS 60
a) Determnese el funcion de la potencia (p) en los puntos p = 0 0:1 0:2 0:3 0:4 0:5 0:6 0:7 0:8 0:9
y 1.
b) Determine el tama~no del test.
6. Sea X1 :::: Xn una m.a.s. de una distribucion normal de media desconocida y varianza
1. Sea 0 un real dado. Se tienen las hipotesis
H0 : = 0 vs. H1 : 6= 0 .
Supongamos que el tama~no de la muestra es 25, y considerese que el procedimiento para no
rechazar H0 esta dado por jXn ; 0 j < c. Determnese el valor de c para que el tama~no del
test sea 0.05.
7. Sea X1 ::: Xn una m.a.s. de una distribucion de media desconocida y varianza 1, y sean
las hipotesis
H0 : = 3:5 vs. H1 : = 5:0.
a) Entre los procedimientos para resolver el test anterior tal que (
) 0:05, descrbase un
procedimiento para el que (
) sea un mnimo.
b) Para n = 4, encuentrese el valor mnimo descrito en a).
8. Supongase que se selecciona una observacion X de una U (0 ), donde es desconocido y
se plantean las siguientes hipotesis:
H0 : = 1 vs H1 : = 2.
a) Demostrar que existe un procedimiento para resolver el test para el cual (
) = 0 y
(
) < 1.
b) Entre todas las soluciones del test para las cuales (
) = 0, hallese una para el cual (
)
sea mnimo.
9. Sea X1 ::: Xn una m.a.s. de una Poisson(), con desconocido. Sean 0 y 1 dados, con
1 > 0 > 0. Se tienen las siguientes hipotesis:
H0 : = 0 vs. H1 : = 1.
Demuestrese que el valor de (
) + (
) se minimiza por un procedimiento que rechaza H0
cuando Xn > c y encuentrese el valor de c.
10. Sea X1 ::: Xn una m.a.s. de una distribucion con parametro cuyo valor es desconocido.
Supongase ademas que se desea constrastar las siguientes hipotesis:
H0 : 0 vs H1 : > 0 .
5 TESTS DE HIPOTESIS 61
Supongase ademas, que el procedimiento que se va a utilizar ignora los valores observados
en la muestra y, en vez de ello, depende unicamente de una aleatorizacion auxiliar en la que
se lanza una moneda desequilibrada de forma que se obtendra cara con probabilidad 0.05 y
sello con probabilidad 0.95. Si se obtiene una cara, entonces se rechaza H0 , y si se obtiene
sello, no se rechaza H0 . Descrbase la funcion de potencia de este procedimiento.
11. Sea X1 ::: Xn una m.a.s. de una distribucion con parametro desconocido y una funcion
de densidad conjunta fn (x=) que tiene cociente de verosimilitud monotona en el estadstico
T = r(X ). Sea 0 un valor especco de y supongase que se quieren constrastar las hipotesis
H0 : 0 vs H1 : < 0 .
Sea c una constante tal que P (T c= = 0 ) = 0 . Demostrar que el procedimiento que
rechaza H0 si T c es UMP al nivel 0 .
12. Sea X1 ::: Xn una m.a.s. de una Poisson() con desconocido. Supongase que se quiere
constrastar las hipotesis
H0 : 1 vs H1 : < 1 .
Supongase ademas que el tama~no de la muestra es n = 20. >Para que niveles de signicacion
0 , con 0 < 0 < 0:03 existen tests UMP?
13. Consideremos una observacion X de una distribucion de Cauchy con un parametro de
localizacion desconocido , esto es, una distribucion cuya funcion de densidad esta dada por:
f (x=) = 1 + (1x ; )2 ] (8x)
Se desean constrastar las hipotesis
H0 : = 0 vs H1 : > 0.
Demuestre que no existe un test UMP de estas hipotesis a ningun nivel de signicacion 0 .
14. Sea X1 ::: Xn una m.a.s. de una distribucion N ( 1). Supongase que se desean con-
trastar las hipotesis
H0 : 0 vs H1 : > 0.
Se denota
el test UMP con nivel de signicacion 0 = 0:025 y (=
) la funcion de
potencia de
.
15. Sea X1 ::: Xn una m.a. de una distribucion U (0 ) con desconocido. Supongamos que
queremos contrastar las hipotesis
5 TESTS DE HIPOTESIS 62
H0 : = 3 vs H1 : 6= 3.
Considere que H0 se rechaza si c2 maxfX1 ::: Xng c1 y sea (=
) la funcion de potencia
de
. Determine los valores de c1, c2 para que (3=
) = 0:05 y
sea insesgado.
1 ASOCIACION ENTRE DOS VARIABLES
1.1 Introduccion
Una asociacion entre variables expresa el grado de inuencia que puede tener
una variable sobre otra. Los ndices que se pueden denir dependen del tipo
de relacion que se estudia y de la naturaleza de las variables consideradas.
Se presenta en primer lugar ndices descriptivos de asociacion y en seguida
se hace inferencia sobre estos coecientes.
2 1 P 2 2 1 P
s = (x ; x
) y s = (y ; y
)2 a las varianzas empiricas respectivas
n n
x i y i
de X e Y.
n n
P p (x ; x
)(y ; y
)
x y
r = P q q
p (x ; x
)2 P p (y ; y
)2
i i i
x y
i i i i
1
Este coeciente toma como valores extremos +1 y -1 da el grado de relacion
de tipo lineal que existe entre X e Y.
r = ;1 relacion estrictamente lineal de pendiente negativa
;1 < r < 0
x y
x y
2
PAIS % POB. /ASA /ASA MOR ESPERAN FECUN MORTALIDAD
URBANA NATALIDAD /ALIDAD ZA VIDA DIDAD INFANTIL
ARGENTINA 86.2 20.3 8.6 71.0 2.8 28.8
BOLIVIA 51.4 34.4 9.3 54.5 4.6 84.8
BRASIL 76.9 26.1 7.5 65.6 3.2 56.4
COLOMBIA 70.3 25.8 5.9 68.8 2.9 37.0
COSTA RICA 53.6 26.3 3.7 74.9 3.1 13.7
CUBA 74.9 17.4 6.7 75.4 1.9 14.2
CHILE 85.6 22.5 6.4 71.8 2.7 16.9
ECUADOR 56.9 30.9 6.9 66.0 3.9 57.4
EL cALVADOR 44.4 33.5 7.1 64.4 4.0 45.6
GUATEMALA 42.0 38.7 7.6 63.4 5.4 48.5
HAITI 30.3 35.3 11.9 55.7 4.8 86.2
HONDURAS 43.6 37.1 7.2 64.9 4.9 59.7
ME
XICO 72.6 27.9 5.4 69.7 3.2 35.2
NICARAGUA 59.8 40.5 6.9 64.8 5.0 53.1
PANAMA
54.8 24.9 5.2 72.4 2.9 20.8
PARAGUAY 47.5 33.0 6.4 67.1 4.3 47.0
PERU
70.2 29.0 7.6 63.0 3.6 75.8
R. DOMINICANA 60.4 28.3 6.2 66.7 3.3 56.5
URUGUAY 85.5 17.1 10.3 72.2 2.3 20.0
VENEZUELA 90.5 28.3 5.4 70.0 3.5 33.2
TABLA 6.1: INDICADORES DEMOGRAFICOS PARA 20 PAISES
LATINOAMERICANOS
Fuente: PNUD 1992
3
GRAFICOS 6.1 PARA INTERPRETAR UN COEFICIENTE DE
CORRELACION LINEAL
4
GRAFICOS 6.2 PARA INTERPRETAR UN COEFICIENTE DE CORRELACIO N LINEAL
5
VARIABLES 12 13 14 15 16 17
12 % POB. URBANA 1.0 -.739 -.179 .588 -.735 -.532
13 TASA .NATALIDAD -.739 1.0 .101 -.723 .972 .682
14 TASA MORTALIDAD -.179 .101 1.0 -.609 .262 .533
15 ESPERANZA VIDA .588 -.723 -.609 1.0 -.769 -.951
16 FECUNDIDAD -.735 .972 .262 -.769 1.0 .709
17 MORTAL. INFANTIL -.532 .682 .533 -.951 .709 1.0
TABLA 6.2: Matriz de correlaciones asociada a la tabla 6.1
Si se quiere estudiar otro tipo de relacion, se tiene dos alternativas:
Dada una funcion f sobre X, calcular el coeciente de correlacion entre
f(X) e y. Este metodo es factible cuando se sospecha de la funcion f.
Usar otros ndices, como se vera mas adelante.
1.3 Una variable cuantitativa y una variable nominal
Cuando una de las dos variables es nominal u ordinal, no se puede calcular el
coeciente de correlacion lineal, salvo si se codica tal variable, atribuyendo
un valor numerico a cada una de las modalidades de la variable nominal. El
problema esta entonces en la eleccion de una codicacion.
1.3.1 Codi cacion de la variable nominal
Una forma natural de codicar una variable nominal X para medir su ligazon
con una variable cuantitativa Y consiste en buscar la codicacion de las
modalidades de X que produce la mayor correlacion lineal con la variable Y.
Si X tiene p modalidades, se le puede asociar p variables indicadores fX 1 X 2 ::: X g
p
tales que
(
X (k) = 10 sisinoel individuo k toma la modalidad j de X
j
X p
j=1
la modalidad j (j=1,...,p), entonces la variable cuantitativa asociada a esta
codicacion se puede escribir:
6
X
(k) = a X (k )
j
j
X
cor(y a x ) j
j
y
(y ; y
)2 kj
j k =1
Como se puede distinguir las observaciones segun la modalidad que toman
sobre la variable X, se puede calcular medias y varianzas en los p grupos
inducidos por las modalidades de X.
Si y
es la media de la variable Y sobre las observaciones que toman la misma
j
j j j
j k =1
Podemos comparar la varianza total s2 y
con el promedio de las varianzas de
los p grupos.
7
Xn 2 + X n w2
s2 =n
y
y
(
; y
) j
n j
j
j
j j
j j
j j
j j
j j j j
2 = 0
y=x
y=x
ausencia de tendencia funcional
La tendencia funcional aumenta con 2 .
Se tiene nalmente el resultado propuesto en el parrafo anterior, que permite
y=x
8
1.3.3 Relacion funcional entre dos variables cuantitativas
Cuando un coeciente de correlacion lineal entre X e Y es bajo, no signica
que las variables X e Y no estan ligadas puede existir otro tipo de relacion
entre X e Y. Ahora bien, por codicacion se puede transformar una vari-
able nominal u ordinal en una variable cuantitativa, inversamente, se puede
transformar una variable cuantitativa en una variable ordinal particionando
el rango de los valores de la variable en p intervalos.
Si se transforma X en variable nominal, se puede calcular la razon de cor-
relacion 2 , que permitira detectar la existencia de una relacion funcional de
X sobre Y. El valor del coeciente dependera de la transformacion (numero
y=x
i j
sea maximo.
9
Esta correlacion se usa en analisis factorial de correspondancias y esta rela-
cionada al 2 de contingencia.
1.4.2 2 de contingencia
Los datos obtenidos sobre las dos variables nominales pueden resumirse en
una tabla de contingencia sin perder informacion, salvo la identicacion de
las observaciones.
En la eleccion de consejales de 1991, se puede asociar a cada votante la
lista votada y la region. Se puede resumir los resultados en una tabla de
frecuencias (Tabla 6.3), que es la unica informacion que se conoce realmente
en este caso (por el anonimato de la eleccion).
10
PARTIDO VII VIII IX X XI XII TOTAL
D.C. 114070 223287 118841 121815 11555 13827 1848188
RADICAL 23416 61962 14420 26815 1602 2209 313562
A.H. VERDE 0 2931 1069 585 0 0 52519
SOCIALDEMO 7076 1110 6761 1291 0 0 26789
INDEP 1211 2631 1942 3572 45 27 30472
PPD 27759 64167 25498 29682 1250 8739 585472
SOCIALISTA 38338 94626 18987 51485 3715 20786 539694
INDEP 0 0 0 0 0 0 507
COMUNISTA 18379 50121 9824 13202 2342 2546 421377
LIBERAL 0 0 13842 0 241 0 15549
R.N. 60524 87849 56951 77702 8760 5807 856160
NACIONAL 0 1467 0 0 0 0 4214
INDEP 13644 29665 45384 23587 277 723 279124
U.D.I. 45905 75230 18194 32183 2065 8273 651340
INDEP 4794 16420 2358 3385 1598 731 76153
U.C.C. 47112 72049 21566 50650 1478 4237 516745
INDEP 13977 26376 9356 9066 119 1443 136326
IND IQUIQUE 0 0 0 0 0 0 24757
TOTAL 416205 809891 364993 445020 35047 69348 6378948
TABLA 6.3: Resultados de la eleccion de consejales de 1991
Sean diversos ejemplos de tablas de contingencia (Tablas 6.4 a 6.7) sobre dos
variables X (en la) e Y (en columna). Se observa en la tabla 6.4, que las
columnas 1 y 2 son proporcionales, lo que signica que reparten sus totales
en las mismas proporciones entre las modalidades A1 y A2. Las modalidades
B1 y B2 tienen los mismos perles. Al observar esta tabla no se ve muchas
relaciones entre las dos variables conociendo una modalidad de una variable,
no se puede decir nada sobre la otra variable. No es el caso de la tabla 6.5.
En efecto, si una observacion toma la modalidad B1, tomara la modalidad
A2 de X dada A1, entonces se tendra la modalidad B3 de Y, pero dada A2,
se tendra B1 o B2. Se tiene entonces una relacion funcional de Y hacia X, y
existe una relacion de X hacia Y, pero no de tipo funcional.
En el caso de la tabla 6.7 existe una relacion funcional, pero no hay ninguna
en la tabla 6.6.
11
B1 B2 B3 B1 B2 B3
A1 50 100 10 160 A1 0 0 50 50
A2 100 200 50 350 A2 10 12 0 22
150 200 60 10 12 50
TABLA 6.4 TABLA 6.5
B1 B2 B3 B1 B2 B3
A1 20 10 7 37 A1 0 20 0 20
A2 40 20 14 74 A2 30 0 0 30
A3 80 40 28 148 A3 0 0 25 25
140 70 49 30 20 25
TABLA 6.6 TABLA 6.7
Si denotamos n , (i=1,..,p, j=1,...,q) los elementos
ij
P de una tabla de contin-
gencia, se tiene los margenes-las: n = n , i=1,...,p, y los margenes-
columnas n = P n , j=1,...q. Se dene los perles condicionales:
i j ij
j i ij
n1 n2 n n q
n1 n2 n n p
12
Considerando las diferencias n ; n n n , se puede evaluar cuan lejos esta
ij
i j
contingencia:
X
2 = (n ; n n n )2
i j
n n
ij
n
i j
ij
Aqu las codicaciones deben respetar el orden denido sobre las modali-
dades. Entonces se busca las codicaciones que respetan los ordenes y tales
que el coeciente de correlacion lineal emprico
13
X X
cor( a x b y ) i
i
j
j
i j
sea maximo.
Este problema no es facil de resolver en general.
1.5.2 Coe cientes de correlacion de rangos
A partir de una variable ordinal, se pueden ordenar las observaciones de
manera creciente y deducir una nueva variable que es el rango.
Sea x1 ::: x las realizaciones de la variable ordinal X y R 1 ::: R los rangos
n x xn
asociados:
R < R () x < x
xi xj i j
P D2
i xi yi
6
R = 1 ; n(n2 ; 1) i
S
Si en vez de denir los rangos, se dene dos nuevas variables sobre los pares
de observaciones:
S (x x ) = 1 si x < x
S (x x ) = -1 si x x
i j i j
i j i j
S (y y ) = 1 si y < y
S (y y ) = -1 si y y
i j i j
i j i j
P S (x x )S (y y )
Se dene el coeciente de correlacion de rangos de KENDALL: = n(n ; 1)
i j i j i j
1.6 Inferencia
Suponiendo que un coeciente de asociacion fue correctamente calculado,
es decir que fue calculado sobre una muestra aleatoria simple de una sola
poblacion, uno se pregunta a partir de que valor se puede decidir la existencia
o ausencia de una relacion. Se procede mediante un test de hipotesis sobre el
valor del coeciente de asociacion v desconocido de la poblacion: H0 : v = v0,
o bien se puede calcular un intervalo de conanza para v. Para eso se requiere
la distribucion del coeciente de asociacion en la muestra.
1.6.1 Coe ciente de correlacion lineal
>Cuando se obtiene un coeciente de correlacion lineal r peque~no podemos
admitir que la correlacion en la poblacion es nula o si su valor no lo es,
podemos concluir a una relacion lineal?
Para responder se procede mediante un test de hipotesis sobre el valor del
coeciente de correlacion desconocido de la poblacion: H0 : = 0, o bien
se puede calcular un intervalo de conanza para . Para eso se requiere la
distribucion del coeciente de correlacion r.
Cuando = 0 y las dos variables X e Y provienen de una distribucion normal
bivariada, entonces la distribucion del coeciente r de la muestra es facil de
obtener este depende del tama~no n de la muestra: existen tablas de la
distribucion de r en funcion de n y para n>100 se puede aproximar a la
normal N (0 p 1;1 ).
Por ejemplo, si un coeciente de correlacion lineal r es igual a 0.38 sobre
n
15
Cuando no es nulo, la distribucion exacta de r es mucho mas complicada a
determinar, sin embargo se puede usar una aproximacion a partir de n=25:
1; ), la distribucion de z se aproxima a una normal N (1=2 ln( 1; )
si z = 1=2 ln( 1+
r 1+
p1 ).
n;3
anteriores cuando n es mayor que 30, pero si es nulo, no se puede decir que
hay independencia, solo que no hay ligazon lineal.
1.6.2 Razon de correlacion
Para estudiar la signicatividad de una razon de correlacion emprica obtenida
sobre n observaciones entre la variable cuantitativa Y con la variable nominal
X a p modalidades, se plantea la hipotesis nula H0 : = 0.
Se supone entonces distribuciones condicionales de Y dada cada modalidad
de X normales de misma media y misma varianza. Se considera entonces el
estadstico:
2=(p ; 1)
1 ; 2=(n ; p)
que sigue una distribucion de Fisher a p-1 y n-p grados de libertad bajo la
hipotesis de independencia.
1.6.3 2 de contingencia
>Si dos variables nominales X e Y son independientes, cuales son los valores
mas probables del 2 de contingencia?
X (n ; n n n )2 i j
=
2
n n
ij
n
i j
ij
independencia:
Si n es muy peque~no, se puede obtener empricamente la distribucion de
R , calculando los n! valores asociados a los distintas permutaciones.
S
17
1.7 EJERCICIO
(Se deja propuesto)
Sea un conjunto I de n=300 individuos, y cuatro variables cuantitativas X,
Y, Z y T observadas sobre los 300 individuos. X varia entre -100 y 100, Y
varia entre 0 y 10000, Z y T varian entre -1100 y 1100.
1. Los coecientes de correlacion lineal calculados sobre los 300 individuos
son:
R = ;0:057, R = 0:991. Interprete estos coecientes.
X Y Z T
Concluir.
5. Interprete el coeciente de correlacion parcial de Z y T dado X R =
Z T =X
18
2 MODELO LINEAL
2.1 INTRODUCCIO N
Estudiamos en el captulo anterior como detectar una asociacion entre dos
variables generalmente los roles de las variables no son simetricos - una
variable puede inuir sobre la otra y la recproca no ser cierta - y mas de
una variable pueden intervenir en esta relacion. Aqu nos interesamos no es
solamente en evaluar la intensidad de la asociacion, pero tambien, describir
esta relacion.
Algunas relaciones son faciles a plantear y vericar - como las relaciones
planteadas a partir de leyes fsicas o mecanicas - pero cuando la aleatoriedad
juega un papel importante, el estudio de las relaciones es mas dicil. Se busca
aqu descubrir como un conjunto de variables X 1 X 2 ::: X - llamadas vari-
p
Por razon historica, este analisis se llama regresion. Preferemos aqu hablar
de modelo.
Ejemplo 1: La distancia d que una partcula recorre en el tiempo t esta dada
por la formula:
d =
+ t
en que es la velocidad promedio y
la posicion de la partcula en t=0. Si
en donde X es la potencia j de X .
j
y = + 1x1 + ::: + x
i o i p
p
i
X
j j i
X
Maxf g i
21
Escribiremos matricialmente el modelo aplicado a la muestra de observa-
ciones. 0 1
BB yy12 CC 0 1 x1 x21 ::: x1 1 p 0 1 0 1
BB CC BB 1 x112 x22 ::: x2 CCC, = BBB 1
p
o
CC BB 12 CC
Sea y = B : C, X = B @ ::: ::: ::: A @ ::: CA, = B@ ::: CA
B@ : CA
y 1 x1 n
x2 n
::: x p
n
p n
n
X X = X y
t t
Este sistema de ecuaciones lineales tiene una solucion unica cuando las colum-
nas de X son linealmente independientes, es decir que forman una base del
subespacio vectorial de W, o sea que X es de rango igual a p+1. En este caso
la solucion de los mnimos cuadrados es igual a:
^ = (X X );1X yt t
22
Este operador lineal es idempotente (P 2 = P ) y simetrico (P = P ). t
con
Y = E (Y=X 1 X 2 ::: X ) + p
Ademas
P el estimador
P de maxima verosimilitud de
2 es:
n1 e2 = n1 =1(y ; ;^0 ; ^1x1 ; ::: ; ^ x )2.
n p
i i i i p i
El estimador es insesgado: E () = 0 =) E (^) =
23
El estimador es consistente.
El estimador tiene mnima varianza:
Teorema 2.1 Teorema de GAUSS MARKOV:
Si E () = 0 y E ( ) =
2I , entonces toda combinacion lineal a ^ de
t
n
t
2Traza(Q)
Traza(Q) = Traza(I ; X (X X )1 X ) = n ; Traza(I +1) = n ; p ; 1
t t
p
Es decir que E (e e) = (n ; p ; 1)
2
t
24
2.5 CALIDAD DEL MODELO
Los residuos e dan la calidad del ajuste para cada observacion. Pero es una
i
que representa el cuadrado del coseno del angulo del vector y con el vector
y^ = Py en IR . Se puede comparar las varianzas:
n
que compara el varianza explicada con la varianza total. La raz cuadrada del
coeciente de correlacion multiple (R) es el coeciente de correlacion lineal
entre y e y^ El valor de R esta comprendido entre 0 y 1. Cuando R=0, el
modelo es E(y)= y
, la media muestral de los valores y , y cuando R es iguali
P (^y ; y
)2=(p + 1)
F = P e2=(n ; p ; 1)i i
i i
R ; ;1)
= n p
25
2.6 PREDICCIO N
Si se tiene una nueva observacion para la cual se conoce los valores de las
variables explicativas, sean x1 x2 ::: x , pero se desconoce el valor y de la
o o
p
o o
variable repuesta, se puede entonces usar el modelo para inferir un valor para
y a traves de su valor esperado:
o
E (y ) = x
o o
t
o
en que x = (1 x1 ::: x ).
o
p
o =
t
o
t
o o o =
t
o
t
o
La varianza de ^ es igual a: o
2x (X X );1 x +
2 t
o
t
o
entonces a partir de
y ; y^
^sqrt(1 + x (X X );1 x )
t ; ;1
o o
n p
t t
o o
. El intervalo es entonces:
y^ ; t 2
^ sqrt(1 + x (X X );1 x ) y^ + t 2
^ sqrt(1 + x (X X );1 x )
o =
t
o
t
o o =
t
o
t
o
26
2.7 ANA LISIS DE LOS RESIDUOS
Dado que las propiedades del estimador dependen de ciertos supuestos, es
importante comprobar si estas ultimas se cumplen. Las propiedades funda-
mentales se plantean sobre los errores y la mejor forma de chequear si los
errores son aleatorias de medias nulas, independientes y de misma varianza,
es estudiando los residuos:
X
^ = y ; ^ x 8i = 1 ::: n
i i j
j
i
j
2.8 EJERCICIOS
1. Cuatro medicos estudian los factores que hacen esperar a sus pacientes
en la consulta. Toman una muestra de 200 pacientes y consideran el tiempo
de espera de cada uno el dia de la consulta, la suma de los atrasos de los
medicos a la consulta este mismo da, el atraso del paciente a la consulta este
da (todos estos tiempos en minutos) y el numero de medicos que estan al
mismo tiempo en la consulta este da. Se encuentra un tiempo promedio de
espera de 32 minutos con una desviacion tpica de 15 minutos. Se estudia el
tiempo de espera en funcion de las otras variables mediente un modelo lineal
cuyos resultados estan dados a continuacion:
27
2. Muestre que se puede calcular la F de Fisher a partir del R2. Si se
introduce una variable explicativa suplementaria en el modelo, > el R2
sera mas elevado?.
2
propiedad pierde bajo el supuesto usual E () = 0.
3. Consideramos tres variables Y X Z observadas sobre una muestra de
tama~no n=40, f(y x z )g. Se busca explicar Y a partir de X y Z .
i i i
28
1. Se presentan los resultados de modelo lineal: y =
+ x + :
i i i
Y. De V ar(^y ).
o
29
Residuos 6
0-
-y
4 8 12 16 i
Se tiene P x z = 0 y P z = 0.
i i i i i
L ala descom-
posicion en suma directa ortogonal de W: W = H " . a a
30
Muestre que el estimador de mnimos cuadrados Y de en H se es- a
cribe como ^
Y = Y^ ; ( )a.
t
a Y
at a
P 2
2 ,
3. Suponiendo que los errores son normales, de la distribucion de =1
n
i i
en que = Y ; Y .
i i
i
P 2 Y
n;p i
^
Muestre que si las variables son centradas, Y = Y .
31
1 ANALISIS DE DATOS MULTIDIMENSION-
ALES
1.1 INTRODUCCION
Vimos que es practico asociar gracos a la interpretacion de los coecientes
de asociacion empiricos permiten visualizar la existencia de ligazon entre
dos variables y de posibles tipologias de las observaciones, mientras que los
coecientes permiten medir el grado de relacion. Pero la mayoria de los prob-
lemas envolucran mas de dos variables. En el capitulo anterior, el mo-
delo lineal permitio estudiar la relacion de una variable a partir de un con-
junto de variables explicativas. Veremos en este capitulo una forma de visu-
alizar observaciones y variables para interpretar la estructura que contienen.
60 - HONDURAS ECUADOR -
BRASIL R. DOMINICANA
NICARAGUA
50 - nUATEMALA -
PARAGUAY
EL cALVADOR
40 - COLOMBIA -
MEXICO
30 - VENEZUELA -
ARGENTINA
20 - URUGUAY PANAMA -
CHILE CUBA
COSTA RICA
.0 - , , , , , -
55 60 65 70 75
ESPERANZA DE VIDA
GRAFICO 8.1
v
u
u
u X
j
d(i i ) =
0
t (xij ; xi j )2 0
j =1
6 xi
A
A
A
A
A
i
cu
0
*
u -
;
;
;
;
;
;
P ortogonales
respectivas de xi sobre y , entonces kxi ; hik < kxi ; hik2.
0 0
2
De aqu se toma el origen del sistema de referencia en el punto medio, es
decir Se supone entonces que en la matriz X , las columnas suman 0:
P x g ==00.(las medias son todas nulas).
i ij
H
H
H
6 HH
HH
H
HH
H
HH H
H
HH
HH
HH
HH
H
0
H
0
-
HH
;
;
;
;
;
;
5
Sea V = (1=20)X t X = (vjk ), Q = Pjk uj uk vjk ; l(P u2j ; 1)
@Q = 2 X v u ; 2lu = 0
jk k j
@uj k
Se deduce que V u = lu, es decir que el vector u es vector propio de la
matriz V = (1=20)X t X . Se observara que la matriz V es igual a la matriz de
correlaciones asociada a la matriz X (Tabla 8.1) o a la matriz de covarianza
cuando las variables no son normalizadas. Esta matriz es simetrica semi-
denida positiva: tiene sus valores propios reales no negativos (mas aun la
suma de los valores propios es igual al numero de variables, 6 aqu). Pero
no se sabe cual de losP vectores propios tomar. Observando que se busca
maximizar y que l = i c2i , se concluye que hay que tomar un vector propio
normalizado asociado al mayor valor propio de V . Llamamos l1 el mayor
valor propio de V , u1 el vector propio asociado y c1 = Xu1. Si X es de rango
igual a 1, l1 es el unico valor propio no nulo de V y los puntos xi son alineados
en IR6. Si X es de rango mayor que 1, podemos repetir la descomposicion a
la matriz Y = X ; c1ut1. La matriz Y tY tiene los mismos valores propios no
nulos que X tX salvo l1. Luego la descomposicion solucion esta dada por el
vector propio normalizado u2 asociado a l2 el segundo mayor valor propio de
V , y c2 = Xu2:
X = c1u1 + c2ut2 + E
Generalizando, si l1 l2 ::: lr > 0, u1 u2 ::: ur los vectores propios
normalizados asociados y ck = Xuk k = 1 ::: r, se puede descomponer:
X = c1ut1 + c2ut2 + ::: + cr utr
en donde las matrices ck utk son de rango 1 y de importancia decreciente en
la reconstitucion de la matriz X (Tabla 8.2).
La matriz de correlacion V siendo simetrica semidenida positiva, existe
una base ortonormal de IR6 formada de vectores propios de V . Luego,
fu1 u2 ::: ur g es una base ortonormal del espacio que contiene al conjunto
M.
Ademas se observa que los vectores ck son vectores propios de la matriz
(1=20)XX t , que tiene los mismos valores propios no nulos que X tX . En
efecto, ck = Xuk , luego
(1=20)X t Xuk = lk uk
6
(1=20)X t ck = lk uk
(1=20)XX t ck = lk ck
Ademas kck k2 = lk (Se deja mostrarlo como ejercicio).
1.3.2 Representacion en IR20
En IR20, se quiere comparar las columnas de X , que representan las variables,
lo que equivale a tomar la matriz X t en vez de X . El criterio de minimos
cuadrados consiste ahora en buscar un vector d 2 IR20 normalizado tal que:
X6
(1=20) kxj ; vj dk2
j
sea mnimo.
Se tiene vj = dtxj con kdk = 1.
Se obtiene que d es el vector propio normalizado de XX t asociado al mayor
valorppropio l1. Luego d es colineal al vector c1 obtenido en elpestudio en IR6:
c1 = l1d. Los vectores u1 y v son colineales tambien: v = l1u1.
Interpretaremos el criterio en el caso de la representacion e IR20P. El criterio
de mnimos
P cuadrados es equivalente a maximizarP = (1=20) j kvj dk2 =
(1=20) j vj . Como vj = dtxj se obtiene que = j (dtxj )2. Como las vari-
2
ables son centradas y normalizadas dtxj = Cor(d xj ), luego el criterio usado
aqu consiste en buscar una variable d de varianza igual a 1, combinacion
lineal de las variables xj de tal forma que
X 2 j
cor (d x )
j
sea maxima. De hecho vimos en el captulo 6 que el coeciente de correlacion
permite comparar dos variables. Muestre como ejercicio que si dos variables
son centradas y normalizadas entonces el coeciente de correlacion es igual
al coseno del angulo que forman en IR20 (Graco 8.4).
Ademas como los vectores dk forman una base ortonormal, se deduce que las
nuevas variables, que son las componentes principales no son correlacionadas
entre si.
7
GRAFICO 8.4: Representacion de las variables en IR20
1.3.3 Interpretacion
Veamos como usar estos resultados para interpretar el contenido de la tabla
6.1 (Se centra y normaliza los datos).
fu1 u2 ::: ur g forma una base ortonormal de espacio que contiene al con-
junto M de los pases. Los ejes denidos por estos vectores se llaman ejes
principales. Las coordenadas de los pases sobre estos ejes son dadas por
los vectores ck , llamados componentes principales, se habla tambien de
factores. Si nos limitamos a tomar el primer eje principal denido por u1
(tabla 8.2), se obtiene una representacion unidimensional de los pases es la
mejor representacion unidimensional, en el sentido que deforma menos las
distancias mutuales entre los pases. Aun si es una representacion aprox-
imada, tiene la ventaja de permitir una interpretacion mucho mas simple
que la representacion original. Las coordenadas de los pases sobre este eje
constituyen la primera componente principal c1 (Tabla 8.3). El valor mas
elevado lo tiene CUBA y el mas bajo HAITI. Observando que
c1 = 0:3810x1+;0:4364x2+;0:2361x3+0:4590x4+;0:4531x5+;0:4389x6
se ve que la primera componente principal es una combinacion lineal de
las variables iniciales con algunos coecientes mayores que otros y algunos
positivos y otros negativos. EL PORCENTAJE DE POBLACION URBANA
8
y LA ESPERANZA DE VIDA tienen un coeciente positivo, mientras que
los otros son negativos. Lo que permite de interpretar la primera componente
principal como un ndice demograco, que crece con la calidad. Este ndice es
mas manipulable que las seis variables originales. Ahora bien que cantidad de
la informacion contenida en la tabla X perdimos o conservamos en el ndice.
En la decomposicion: xi = ciu1 + ei , ei representa el error de representacion
de xi sobre el primer eje principal. El valor propio l1 =P Pi c2i mide la
varianza de la componente principal c1 y TrazaV ; l1 = rk=2 lk = 6 ; 1
mide el error globalPde la representacion sobre el primer eje principal. Como
TrazaV = (1=20) i kxik2 representa la varianza total en IR6, se usa un
ndice de calidad de la representacion de c1 con el porcentaje de varianza
reproducida por c1:
l1
100 TrazaV
que aqu vale 69:24%. Se puede considerar 2, 3 o mas ejes principales para
tener una mejor representacion. Por ejemplo, con los dos primeros ejes prin-
cipales se puede vizualisar los pases (Graco 8.5) en un sistema cartesiano.
En este graco cada pas i tiene por coordenadas (c1i c2i) y como los ejes son
ortogonales, la varianza reproducida por el plano es igual a
l1 + l2
100 TrazaV
que aqu vale 88:53%.
Se nota en la tabla 8.4 que la representacion con 4 ejes principales contiene
casi integralmente los pases (99:23%). En el graco de los dos primeros
ejes principales (Graco 8.5) se proyectaron ademas los ejes iniciales, lo que
permite explicar las diferencias y semejanzas entre los pases. Es as que
ARGENTINA y GUATEMALA dieren mas por las variables % POBLA-
CION URBANA, TASA NATALIDAD y FECUNDIDAD, que las variables
de MORTALIDAD y ESPERANZA DE VIDA. Mientras que PANAMA y
HAITI dieren mas por la MORTALIDAD.
De la misma manera que se hizo una representacion plana aproximada de la
representacion en IR6, se hace una representacion aproximada de las variables
en IR20, considerando las proyecciones de las variables xj sobre los vectores d1
y d2 (Graco 8.6). Dado que las variables xj y d1 y d2 son de varianza igual a
1, la proyeccion de xj sobre d1 (d2) es igual al coeciente de correlacion entre
9
xj y c1 (c2) (Tabla 8.4). Este graco permite entonces interpretar las com-
ponentes principales. Se observa que la primera componente principal tiene
una correlacion igual a 0.935 con la ESPERANZA DE VIDA, pero solamente
-0.481 con la TASA DE MORTALIDAD, mientras que la segunda compo-
nente principal tiene una correlacion igual a -0.267 con la ESPERANZA DE
VIDA y 0.815 con la TASA DE MORTALIDAD.
Como las variables xj tienen una varianza igual a 1, sus proyecciones en el
plano caen al interior de un circulo de centro 0 y de radio 1. Si la proyeccion de
la variable xj es sobre la circunferencia del circulo, signica que xj pertenece
a este plano, es decir que xj puede ser reproducida a partir de c1 y c2.
La distancia de la proyeccion de una variable al origen mide la calidad de
representacion de la variable en el plano principal. Mas aun es igual al
coeciente de correlacion multiple entre la variable con respecto a c1 c2 (Se
deja como ejercicio la demostracion). Aqu, las seis variables son bastante
bien representada en el plano principal.
Como los cosenos de los angulos son iguales al los coecientes de correlacion,
se tiene tambien una vizualisacion, aproximada, de la matriz de correlaciones
(Tabla 8.1). FECUNDIDAD y TASA DE NATALIDAD hacen un angulo
peque~no, son altamente correlacionados (0.972), ESPERANZA DE VIDA y
MORTALIDAD INFANTIL, que forman un angulo vecino de , son alta-
mente correlacionados negativamente (-0.951) y TASA DE MORTALIDAD
y TASA DE NATALIDAD, que son casi ortogonal, son muy poco correla-
cionados (0.101).
Se puede completar el estudio haciendo representaciones planas con otros
pares de ejes principales y las componentes principales correspondientes.
VARIABLES 1 2 3 4 5 6
1 % POB. URBANA 1.0 -.739 -.179 .588 -.735 -.532
2 TASA .NATALIDAD -.739 1.0 .101 -.723 .972 .682
3 TASA MORTALIDAD -.179 .101 1.0 -.609 .262 .533
4 ESPERANZA VIDA .588 -.723 -.609 1.0 -.769 -.951
5 FECUNDIDAD -.735 .972 .262 -.769 1.0 .709
6 MORTAL. INFANTIL -.532 .682 .533 -.951 .709 1.0
TABLA 8.1: Matriz de correlaciones
10
MEDIA D. TIPICA u1 u2 u3 u4
VALORES PROPIOS 4.15 1.16 0.41 0.24
% POB. URBANA 62.87 17.26 0.3810 0.3203 0.7699 0.3797
TASA NATALIDA 28.86 6.64 -0.4364 -0.3742 0.1920 0.3201
TASA MORTALIDAD 7.11 1.85 -0.2361 0.7567 -0.3904 0.4068
ESPERANZA VIDA 67.11 5.52 0.4590 -0.2479 -0.2093 0.2282
FECUNDIDAD 3.61 0.96 -0.4531 -0.2488 0.0859 0.5245
MORTAL.INFANTIL 44.54 22.28 -0.4389 0.2405 0.3779 0.5102
TABLA 8.2: Tres primeros vectores propios normalizados de la matriz de
correlacion
u1 u2 u3 u4
VALORES PROPIOS 4.15 1.16 0.41 0.24
ARGENTINA 1.9029 1.3903 -.0092 0.5067
BOLIVIA -3.1987 1.1181 .4426 -.4150
BRASIL .2766 .8794 .6930 -.2980
COLOMBIA 1.1429 -.1561 .2443 -.3948
COSTA RICA 1.8937 -1.9713 -.6418 -.3264
CHILE 2.3727 .2178 .2529 .3686
ECUADOR -.7182 -.1958 .1244 -.2654
EL SALVADOR -1.1377 -.5743 -.5380 -.1134
GUATEMALA -2.3926 -.9928 -.3855 .8457
HAITI -4.0755 1.6465 -1.0408 -.1406
HONDURAS -2.0627 -.8537 -.1854 .2504
MEXICO 1.0889 -.5733 .4780 -.1113
NICARAGUA -1.8157 -.9593 .6089 .9066
PANAMA 1.5675 -1.0166 -.7486 -.4131
PARAGUAY -.8912 -.9583 -.3161 .0197
PERU -.8602 .8557 .9236 -.6187
REP.DOMINICANA -.0239 -.1564 .2586 -.7430
URUGUAY 2.3890 2.2318 -.7393 .6895
VENEZUELA 1.3812 -.3757 1.2787 .5232
CUBA 3.1611 .4441 -.7003 -.2704
TABLA 8.3: Tres primeras componentes principales
11
MEDIA D. TIPICA FACTOR . FACTOR 2 FACTOR 3 FACTOR 4
VALORES PROPIOS 4.15 ..16 '41 0.24
% ACUMULADO DE
LA VARIABILIDAD 69.24 88.53 95.22 99.23
% POB. URBANA 62.87 .7.26 0.776 0.345 0.493 0.186
TASA NATALIDA 28.86 6.64 -0.889 -0.403 0.123 0.156
TASA MORTALIDAD 7.11 ..85 -0.481 0.815 -0.250 0.199
ESPERANZA VIDA 67.11 5.52 0.935 -0.267 -0.134 0.111
FECUNDIDAD 3.61 0.96 -0.923 -0.268 0.055 0.256
MORTAL.INFANTIL 44.54 22.28 -0.894 0.259 0.242 -0.249
TABLA 8.4: Coordenadas de las variables sobre los 4 primeros factores (rjk )
12
SEGUNDO
FACTOR, (19%) , , , , , , ,
? URUGUAY
2.0 - MORTALIDAD -
0.5 - CUBA ? -
? CHILE
0.0 - +
R. DOMINICANA -
ECUADOR ? ? ? COLOMBIA
? VENEZUELA
-0.5 - ? EL SALVADOR ? MEXICO
-
ESPERANZA VIDA
HONDURAS ?
?
-1.0 - GUATEMALA ? NICARAGUA? PARAGUAY -
? PANAMA
FECUNDIDAD
-1.5 - -
NATALIDAD
-2.0 - ? COSTA RICA- PRIMER
? ? ? ? ? ? ? ? FACTOR
-4 -3 -2 -1 0 1 2 3 69%
GRAFICO 8.5: Primer plano principal
13
GRAFICO 8.6: Crculo de correlaciones
1.3.4 Puntos suplementarios
Es interesante de representar a posteriori algunas observaciones o variables que no
fueron includas en la matriz X originalmente. Sea un pas xo , su proyeccion sobre
el eje principal k es igual a xto uk . Para una nueva variable z , su proyecion sobre la
componente principal k es igual a Cor(z ck ) .
Consideramos, por ejemplo, dos pases africanos -TUNEZ y EGIPTO- (Tabla 8.5),
la coordenada de TUNEZ en el plano son (F1 F2) con
F1 = 0:3810 (;0:514) ; 0:4364 0:021 ; 0:2361 (;0:059)+0:4590 (;0:074)+
;0:4531 0:094 + ;0:4389 0:155 = ;0:335
F2 = 0:3203 (;0:514) ; 0:3742 0:021+0:7567 (;0:059) ; 0:2479 (;0:074)+
;0:2488 0:094 + 0:2405 0:155 = ;0:18
Para EGIPTO, se obtiene de la tabla 8.5: F1 = ;0:18 y F2 = 0:96. Si se ubican es-
tos dos pases en el graco 8.5, encontramos TUNEZ cercano de R. DOMINICANA
y EGIPTO cercano de BOLIVIA.
14
Consideramos ahora cuatro nuevas variables cuyos coecientes de correlacion con
las dos primeras componentes principales son dados en la tabla 8.6. Las variables
GASTO MILITAR y GASTO EN EDUCACION son muy poco correlacionados
con estas componentes principales, se podria prever que un modelo lineal de estas
variables sobre las seis variables originales no seria bueno. No es el caso de las dos
otras variables suplementarias.
TUNEZ EGIPTO
(x ; x)= x
x (x ; x)= x
% POB. URBANA 54 -0.514 47 -0.92 62.87 17.26
TASA NATALIDA 29 0.021 33 0.62 28.86 6.64
TASA MORTALIDAD 7 -0.059 10 1.56 7.11 1.85
ESPERANZA VIDA 66.7 -0.074 60.3 -1.23 67.11 5.52
FECUNDIDAD 3.7 0.094 4.3 0.72 3.61 0.96
MORTAL.INFANTIL 48.0 0.155 61.0 0.74 44.54 22.28
TABLA 8.5: Valores de las variables para TUNEZ y EGIPTO
FACTOR 1 FACTOR 2
PNB 0.814 0.130
GASTO EN EDUCACION -0.140 0.163
GASTO MILITAR -0.378 -0.061
ALFABETISMO 0.839 0.021
TABLA 8.6: Coecientes de correlacion
1.4 EJERCICOS 2 1 0 ;1 3
66 0 1 ;1 77
66 ;1 1 0 77
1. Sea X la tabla siguiente: 66 0 ;1 1 77
66 7
4 ;1 0 1 75
1 ;1 0
Consideremos los seis vectores M = fx1 ::: x6g de IR3 dotado de la metrica
euclidiana usual cuyas componentes estan dadas por las las de la matriz X .
a) Muestre que la nube
P de los 6 puntos en IR3 esta centrada en el origen.
Calcule V = (1=6) x xt.i i i
15
b) Calcule I0, el momento de inercia de N con respecto al origen. Compare
con TrazaV .
c) Determine los diferentes valores propios de V .
d) De el vector propio asociado al valor propio nulo de V .
e) Determine dos vectores propios ortonormales de V asociado con los valores
propios no nulos de V .
2. Se consideran V1, V2 , V3 y V4, cuatro variables obtenidas sobre 20 obser-
vaciones repartidas en 3 clases (A, B y C) (Tabla 8.7).
a) Los resultados del analisis en componentes principales efectuado sobre las
variables V1, V2 y V3 con la matriz de correlaciones (tabla 8.9) estan dados
en el graco 1 y la tabla 8.8. Justique la calidad de la representacion en el
plano y comente el graco 8.7.
b) A partir de la tabla 8.8, dibuje y comente el crculo de correlaciones.
c) En la tabla 8.10, se dan las correlaciones entre las dos componentes prin-
cipales y la variable V4. Represente gracamente V4 en el crculo de correla-
ciones.
d) Se quiere efectuar la regresion multiple de V4 sobre V1, V2 y V3. >Que
problema numerico se va a presentar?
e) Deduzca de la tabla 4 el coeciente de correlacion multiple de la regresion
de V4 sobre V1, V2 y V3 .
f) Deduzca de la tabla 8.10 los coecientes de la regresion de V4 sobre las
dos componentes principales (la media de V4 es 242.5 y la desviacion tipica
es 57.73).
CLASE V1 V2 V3 V4 CLASE V1 V2 V3 V4
C 45 25 30 160 C 60 27 13 350
C 40 30 30 200 B 38 37 25 240
C 32 32 36 210 B 35 38 27 220
C 35 28 37 250 B 22 38 40 180
C 50 33 17 260 A 18 33 49 190
B 55 45 0 300 B 15 39 46 185
B 58 35 7 320 A 20 40 40 300
C 62 28 10 310 A 25 35 40 220
B 48 32 20 280 A 22 33 45 225
B 52 34 14 300 C 32 26 42 150
TABLA 8.7: Tabla de datos
16
MEDIA DESVIACION FACTOR 1 FACTOR 2
TIPICA
VALORES PROPIOS 1.956 1.044
% ACUMULADOS DE
LOS VALORES PROPIOS 65.20 100.00
V1 38.20 14.98 0.997 0.076
V2 33.40 5.18 -0.189 -0.982
V3 28.40 14.50 -0.962 0.273
TABLA 8.8: Correlaciones de las variables con las Componentes Principales
cEGUNDO
FACTOR, , , , , , , , ,
35 % C C
..5 - -
..0 - C C -
C C
0.5 - +A x V 3
C -
+A ?B x V1
0.0 - +A + C -
?B
-0.5 - ?B -
?B B
-1.0 - ? B +A
?
?B -
-1.5 - -
-2.0 - x V2 -
-2.5 - ?B -
? ? ? ? ? ? ? ? ?
PRIMER
FACTOR
-2.0 -1.5 -1.0 -0.5 0.0 0.5 ..0 ..5 2.0 65 %
GRAFICO 8.7
V1 V2 V3 C.P. 1 C.P. 2 V4
V1 1.00 -.26 -.94 C.P. 1 1.00 -.00 .69
V2 -.26 1.00 -.09 C.P. 2 -.00 1.00 -.29
V3 -.94 -.09 1.00 V4 .69 -.29 1.00
TABLA 8.9: Matriz de correlaciones TABLA 8.10: Matriz de cor-
relaciones
3. Sea M = fx1 ::: xn gPun conjunto de n puntos de IRp. Cada punto xi tiene
un peso pi , con pi > 0 pi = 1. Se supone que el centro de gravedad de M
17
es g = 0 y que la matriz de varianzas-covarianzasLasociadas es V = X tDp X
de rango p con Dp = diag(pi). Sea IRp = W1 W2 y sean P1 y P2 los
proyectores ortogonales sobre W1 y W2 respectivamente.
a) De las matrices de varianzas-covarianzas V1 y V2 de los conjuntos M1 =
fP1 x1 ::: P1xn g y M2 = fP2 x1 ::: P2xn g.
b) Muestre que V = V1 + V2 () W1?V W2
c) Pruebe que: W2?V W1] () V u = lu ) u 2 W1 S W2]
;
IRp = u H .
a) Exprese el momento de inercia I0 del conjunto M con respecto al origen
en funcion de M .
b) Deduzca que I0 = tr(V M ).
c) Muestre que IH = utMV Mu donde IH es el momento de inercia de M
con respecto a H .
18
6. EXAMEN DE PRIMAVERA 1994.
PARTE 1
Se considera 6 mediciones hechas sobre 23 peces. Se presenta los resultados
de un analisis en componentes principales sobre estos datos.
a) Interprete los porcentajes de los valores propios (Tabla 8.11).
b) Interprete el graco 8.8: ?' Que tama~no y forma tienen los peces 1, 5, 8
y 11?
c) Graque el circulo de correlacion a partir de la tabla 8.11 y comente.
d) Usando la tabla 8.11 de las expresiones de las primeras componentes prin-
cipales C1 y C2 en funcion de las 6 mediciones. Interpretelas.
e) Usando la matriz de correlaciones (tabla 8.12), ubique las variables suple-
mentarias PESO y RADIOACTIVIDAD en el crculo de de correlaciones.
f) Se quiere hacer el modelo lineal: PESO = o + 1c1 + 2c2, en donde
c1 y c2 son las dos primeras componentes principales. De el coeciente de
correlacion multiple R2.
PARTE 2
a) Se quiere hacer el modelo lineal: RADIOACTIV IDAD Y = o + 1c1 +
2c2. Sea X la matriz (23x3) asociado a este modelo lineal. Calcule la matriz
(X t X ) 1 .
;
RADIOACTIVIDAD PESO
VARIABLES 10 2 C C2 ACUARIO 1 2 3 TOTAL PESO
PESO 1.00 -.44 .98 .00 EFECTIVO 8 8 7 23 23
RADIOACTIVIDAD -.44 1.00 -.41 .23 MEDIA 15.25 33.50 33.71 27.22 82.09
C .98 -.41 1.00 .00 DESVIACION
C2 .00 .23 .00 1.00 TIPICA 7.13 12.13 21.69 16.47 26.5
20
FACTOR 2
8%
8
..0 - .0 2 -
.9
0.5 - .7 21 -
.6
6 .8 4.
0.0 - 7 + .5.3 -
22 3
-0.5 - .4 20 -
5 9
.2
-1.0 - -
23
.1 FACTOR .
-1.5 - , , , , , , , , - 82 %
-3 -2 -1 0 . 2 3 4
GRAFICO 8.8
21