Anadatos PDF
Anadatos PDF
Anadatos PDF
STATGRAPHICS
GRANADA, 2008
ANLISIS DE DATOS CON STATGRAPHICS
Las autoras
Departamento de Didctica de la Matemtica
Facultad de Ciencias de la Educacin
Universidad de Granada
18071 Granada
ISBN: 978-84-691-4796-2
Depsito Legal: GR-1733-2008
Impresin:
La Gioconda, S. L.
Melchor Almagro, 16 18002
1
TEMA 4. INTRODUCCIN A LA PROBABILIDAD 83
4.1. Experimento y suceso aleatorio 83 83
4.2. Espacio muestral y operaciones con suceso 84
4.3. Asignacin de probabilidades subjetivas 87
4.4. Estimacin de probabilidades a partir de las frecuencia relativas 89
4.5. Asignacin de probabilidades en el caso de sucesos elementales
equiprobables. Regla de Laplace 95
4.6. Axiomas de la probabilidad 95
4.7. Combinatoria 97
4.8. Probabilidad condicional 102
4.9. Teoremas de la probabilidad total y de Bayes 107
4.10. Variable aleatoria discreta 113
4.11. Distribucin de probabilidad de una variable aleatoria discreta 115
4.12. La distribucin binomial 119
4.13. La distribucin de Poisson 123
4.14. Representacin y generacin de valores aleatorios de 126
distribuciones tericas
2
6.3. Propiedades de los estimadores 169
6.4. Distribuciones de los estadsticos en el muestreo 170
6.5. Distribucin de la media en el muestreo 174
6.6. Distribucin de la cuasivarianza muestral 179
6.7. Distribucin del estimador de la proporcin en una poblacin binomial 180
6.8. Distribucin del estimador del parmetro en la distribucin de Poisson 181
3
TEMA 9. ANLISIS DE LA VARIANZA 235
9.1. Introduccin 235
9.2. Anlisis de la varianza con un factor. Modelo de efectos fijos 236
9.3. Modelo de efectos aleatorios 248
9.4. Anlisis de varianza con dos factores. Modelo de efectos fijos 250
9.5. Comprobacin de las hiptesis del modelo y transformaciones a los
datos 255
9.6. Anlisis de varianza con Statgraphics 257
REFERENCIAS 309
4
TEMA 1
1.1. QU ES LA ESTADISTICA?
En lenguaje coloquial acostumbramos a llamar "estadsticas" a ciertas
colecciones de datos, presentados usualmente en forma de tablas y grficos.
As, es frecuente hablar de estadsticas de empleo, de emigracin, de
produccin, de morbilidad, etc. Una definicin de la estadstica es la
siguiente:
5
dos categoras. Llamaremos experimento o fenmeno determinista a aqul
que siempre se produce en igual forma cuando se dan las mismas
condiciones. Esto ocurre, por ejemplo, con el tiempo que tarda un mvil en
recorrer un espacio dado con movimiento uniforme, a velocidad constante.
Por el contrario, con el trmino "aleatorio" se indica la posibilidad de
que en idnticas condiciones puedan producirse resultados diferentes, que
no son, por tanto, previstos de antemano. Tal ocurre, por ejemplo, al contar
el nmero de semillas de una fruta, o al observar la duracin de un
televisor, o el tiempo transcurrido entre dos llamadas a una central
telefnica. Igualmente, el resultado de cualquiera de los denominados
juegos de azar, como lotera, dados, monedas es imprevisible de antemano.
Sin embargo, si se hace una larga serie de una de tales experiencias, se
observa una regularidad que es fundamental para el estudio de los
fenmenos de azar y que se conoce como ley del azar o de estabilidad de
las frecuencias: al repetir un mismo experimento aleatorio A una serie n de
veces, el cociente nA/n (llamado frecuencia relativa) entre las veces que
aparece A (nA) y el nmero total de realizaciones tiende a estabilizarse
alrededor de un nmero que se conoce como probabilidad de dicho
resultado.
Actividades
1.1. Recopila una lista de definiciones de la estadstica a partir de textos de
autores de prestigio y a partir de ella prepara una lista de las caractersticas que te
parezcan ms esenciales de la estadstica.
1.2. Escribe algunos ejemplos de fenmenos aleatorios y no aleatorios.
6
forma que en distintos individuos pueden tomar valores o modalidades
diferentes.
El principal objetivo del anlisis estadstico es conocer algunas de las
propiedades de la poblacin que interesa. Si la poblacin es finita, el mejor
procedimiento ser la inspeccin de cada individuo (siempre que esto sea
posible). Un estudio estadstico realizado sobre la totalidad de una
poblacin se denomina censo. Estudios de este tipo son realizados
peridicamente por el Gobierno y otras instituciones.
Sin embargo, la mayora de los problemas de inters, implican, bien
poblaciones infinitas, o poblaciones finitas que son difciles, costosas o
imposibles de inspeccionar. Esto obliga a tener que seleccionar, por
procedimientos adecuados, un subconjunto de n elementos de la poblacin,
que constituyen una muestra de tamao n, examinar la caracterstica que
interesa y despus generalizar estos resultados a la poblacin. Esta
generalizacin a la poblacin se realiza por medio de la parte de la
estadstica que se conoce con el nombre de inferencia estadstica. Para que
estas conclusiones ofrezcan las debidas garantas es preciso comprobar que
se cumple el requisito bsico de que la muestra sea representativa.
Actividades
1.3. Cules son los principales motivos de emplear el muestreo en un
estudio estadstico, en lugar de usar una poblacin completa?
1.4. Poner ejemplos de una poblacin de personas y otra poblacin de
objetos y definir algunas posibles variables sobre las cules podramos
efectuar un estudio estadstico.
1.5. Al realizar una encuesta sobre preferencias de horarios, el 30 por ciento
de los alumnos encuestados no devolvieron los cuestionarios. Crees que
este porcentaje de no respuestas puede afectar las conclusiones?
1.6. Supn que tienes que realizar una encuesta entre los alumnos de la
Facultad de Educacin para saber si eligieron sus estudios como primera
opcin o no. Piensa en algunas formas posibles de elegir una muestra
representativa de 300 alumnos entre todos los de la Facultad.
1.7. Sera adecuado hacer una encuesta sobre el nmero de hijos por
familia en la ciudad de Granada a partir de una lista de telfonos?
1.8. Pon ejemplos de algunos sesgos que pueden aparecer en una
investigacin por muestreo Cmo se podran controlar?
7
1.9. Buscar en la prensa alguna encuesta reciente. Identificar la poblacin y
la muestra, el tema de la encuesta, y analizar las variables estudiadas.
Orgenes de la estadstica
Los orgenes de la estadstica son muy antiguos, ya que se han
encontrado pruebas de recogida de datos sobre poblacin, bienes y
produccin en civilizaciones como la china (aproximadamente 1000 aos a.
c.), sumeria y egipcia. Incluso en la Biblia, en el libro de Nmeros aparecen
referencias al recuento de los israelitas en edad de servicio militar. No
olvidemos que precisamente fue un censo lo que motiv del viaje de Jos y
Mara a Beln, segn el Evangelio. Los censos propiamente dichos eran ya
una institucin el siglo IV a.C. en el imperio romano.
Sin embargo slo muy recientemente la estadstica ha adquirido la
categora de ciencia. En el siglo XVII surge la aritmtica poltica, desde la
escuela alemana de Conring, quien imparte un curso son este ttulo en la
universidad de Helmsted. Posteriormente su discpulo Achenwall orienta su
trabajo a la recogida y anlisis de datos numricos, con fines especficos y
en base a los cuales se hacen estimaciones y conjeturas, es decir se observa
ya los elementos bsicos del mtodo estadstico. Para los aritmticos
polticos de los siglos XVII y XVIII la estadstica era el arte de gobernar;
su funcin era la de servir de ojos y odos al gobierno.
La proliferacin de tablas numricas permiti observar la frecuencia
de distintos sucesos y el descubrimiento de leyes estadsticas. Son ejemplos
notables los estudios de Graunt sobre tablas de mortalidad y esperanza de
vida a partir de los registros estadsticos de Londres desde 1592 a 1603 o
los de Halley entre 1687 y 1691, para resolver el problema de las rentas
vitalicias en las compaas de seguros. En el siglo XIX aparecen las leyes
de los grandes nmeros con Bernouilli y Poisson.
Otro problema que recibe gran inters por parte de los matemticos de
su tiempo, como Euler, Simpson, Lagrange, Laplace, Legendre y Gauss es
el del ajuste de curvas a los datos. La estadstica logra con estos
descubrimientos una relevancia cientfica creciente, siendo reconocida por
la British Association for the Advancement of Science, como una seccin
en 1834, naciendo as la Royal Statistical Society. En el momento de su
fundacin se defini la estadstica como "conjunto de hechos, en relacin
con el hombre, susceptibles de ser expresados en nmeros, y lo suficiente
numerosos para ser representados por leyes".
8
Se crearon poco a poco sociedades estadsticas y oficinas estadsticas
para organizar la recogida de datos estadsticos; la primera de ellas en
Francia en 1800. Como consecuencia, fue posible comparar las estadsticas
de cada pas en relacin con los dems, para determinar los factores
determinantes del crecimiento econmico y comenzaron los congresos
internacionales, con el fin de homogeneizar los mtodos usados. El primero
de ellos fue organizado por Quetelet en Bruselas en 1853. Posteriormente,
se decidi crear una sociedad estadstica internacional, naciendo en 1885 el
Instituto Internacional de Estadstica (ISI) que, desde entonces celebra
reuniones bianuales. Su finalidad especifica es conseguir uniformidad en
los mtodos de recopilacin y abstraccin de resultados e invitar a los
gobiernos al uso correcto de la estadstica en la solucin de los problemas
polticos y sociales. En la actualidad el ISI cuenta con 5 secciones, una de
las cuales, la IASE, fundada en 1991, se dedica a la promocin de la
educacin estadstica.
9
Con el desarrollo de la informtica en la segunda mitad del siglo XX y
la posibilidad de manejar rpidamente grandes masas de datos, se produjo,
por un lado, una reaccin ante tanta matematizacin, y por otro, disminuy
la importancia de los estudios muestrales. Puesto que era fcil analizar
grandes muestras ya no haba por qu limitarse a los mtodos estadsticos
basados en distribuciones conocidas, cuya principal aplicacin eran las
pequeas muestras. Tampoco haba por qu limitarse a analizar una o unas
pocas variables, porque el tiempo de clculo se haba eliminado y era
preferible aprovechar toda la informacin disponible.
Con todo ello suge una nueva filosofa en los estudios estadsticos: el
anlisis exploratorio de datos, introducido por Tukey, quien compara la
labor del estadstico con la de un detective.
Anteriormente a este enfoque, el anlisis de datos se basaba
fundamentalmente en la estimacin de parmetros (medias, o coeficientes
de correlacin en la poblacin) y se disminua la importancia de la
representacin de los datos. Adems, se pensaba que para obtener
conclusiones de los datos era preciso recurrir a la inferencia (modelo
confirmatorio), donde el conjunto de valores observados se supone que se
ajusta a un modelo preestablecido; por ejemplo, se supone que los datos se
han obtenido de una poblacin normal con media y desviacin tpica
desconocidas.
Partiendo de esta hiptesis, que es previa a la recogida de datos, se
calculan los estadsticos (media, coeficiente de correlacin en la muestra)
que servirn para aceptar o rechazar ciertas hiptesis establecidas de
antemano. Al contemplar solamente dos alternativas, (confirmacin o no de
la hiptesis), los datos no se exploraban para extraer cualquier otra
informacin que pueda deducirse de los mismos.
En el anlisis exploratorio de datos, en lugar de imponer un modelo
dado a las observaciones, se
genera dicho modelo desde las
mismas. Por ejemplo, cuando
se estudian las relaciones entre
dos variables, el investigador
no solamente necesita ajustar
los puntos a una lnea recta,
sino que estudia otros modelos
distintos del lineal. En el
grfico adjunto relacionamos la
renta per cpita con la
esperanza de vida en 97 pases.
10
Aunque los estadsticos calculados en este conjunto de datos presenten
un valor estadsticamente significativo (el coeficiente de correlacin sea
significativamente distinto de cero), la relacin entre las variables no se
ajusta bien a una lnea recta. En este ejemplo, al representar grficamente
los datos el investigador descubre algo importante: el modelo que mejor se
ajusta a los datos no es una lnea recta.
Actividades
1.10. El anlisis de datos se basa en el mtodo de elaboracin de proyectos por
parte de los estudiantes. Piensa algunos proyectos sencillos en los que se pueda
recoger datos significativos y apropiados para el aprendizaje de conceptos
elementales de anlisis de datos.
11
el hombre en su mundo poltico
el hombre en su mundo fsico
El mundo fsico
Adems del contexto biolgico del propio individuo, nos hallamos
inmersos en un medio fsico variable. Qu mejor fuente de ejemplos sobre
fenmenos aleatorios que los meteorolgicos? La duracin, intensidad,
12
extensin de las lluvias, tormentas o granizos; las temperaturas mximas y
mnimas, la intensidad y direccin del viento son variables aleatorias.
Tambin lo son las posibles consecuencias de estos fenmenos: el volumen
de agua en un pantano, la magnitud de daos de una riada o granizo son
ejemplos en los que se presenta la ocasin del estudio de la estadstica y
probabilidad.
Tambin en nuestro mundo fsico dependemos de ciertas materias
primas como el petrleo, carbn y otros minerales; la estimacin de estas
necesidades, localizacin de fuentes de energa, el precio, etc., estn sujetos a
variaciones de un claro carcter aleatorio.
Otra fuente de variabilidad aleatoria es la medida de magnitudes.
Cuando pesamos, medimos tiempo, longitudes, etc., cometemos errores
aleatorios. Uno de los problemas que se puede plantear es la estimacin del
error del instrumento y asignar una estimacin lo ms precisa posible de la
medida. Por ltimo, citamos los problemas de fiabilidad y control de la
calidad de los aparatos y dispositivos que usamos: coche, televisor, etc.
El mundo social
El hombre no vive aislado: vivimos en sociedad; la familia, la escuela,
el trabajo, el ocio estn llenos de situaciones en las que predomina la
incertidumbre: El nmero de hijos de la familia, la edad de los padres al
contraer matrimonio, el tipo de trabajo, las creencias o aficiones de los
miembros varan de una familia a otra.
En la escuela, podemos prever las preguntas del prximo examen?;
quin ganar el prximo partido? Para desplazarnos de casa a la escuela, o
para ir de vacaciones, dependemos del transporte pblico que puede sufrir
retrasos. Cuantos viajeros usarn el autobs? Cuantos clientes habr en la
caja del supermercado el viernes a las 7 de la tarde?
En nuestros ratos de ocio practicamos juegos de azar tales como
quinielas o loteras. Acudimos a encuentros deportivos cuyos resultados son
inciertos y en los que tendremos que hacer cola para conseguir las entradas.
Cuando hacemos una pliza de seguros no sabemos si la cobraremos o por el
contrario perderemos el dinero pagado; cuando compramos acciones en bolsa
estamos expuestos a la variacin en las cotizaciones,...
El mundo poltico
El Gobierno, a cualquier nivel, local, nacional o de organismos
internacionales, necesita tomar mltiples decisiones que dependen de
13
fenmenos inciertos y sobre los cuales necesita informacin. Por este motivo
la administracin precisa de la elaboracin de censos y encuestas diversas.
Desde los resultados electorales hasta los censos de poblacin hay muchas
estadsticas cuyos resultados afectan las decisiones de gobierno y todas estas
estadsticas se refieren a distintas variables aleatorias relativas a un cierto
colectivo. Entre las ms importantes citaremos: el ndice de precios al
consumo, las tasas de poblacin activa, emigracin inmigracin,
estadsticas demogrficas, produccin de los distintos bienes, comercio, etc.,
de las que diariamente escuchamos sus valores en las noticias.
14
ayuda valiosa: teoremas de lmite, distribuciones en el muestreo, caminatas
al azar, etc. En sntesis podemos decir que el uso de los ordenadores en la
enseanza de la estadstica permite al estudiante:
15
habitantes;
Mortalidad infantil: Nmero de muertes en el por cada 1000 nios de
menos de 1 ao;
Esperanza de vida al nacer para hombres y mujeres;
Producto Nacional Bruto per cpita en dlares (USA);
Grupo: Clasificacin de pases en funcin de la zona geogrfica y
situacin econmica, en las siguientes categoras: 1 = Europa Oriental: 2
= Ibero Amrica; 3 = Europa Occidental, Norte Amrica, Japn,
Australia, Nueva Zelanda; 4 = Oriente Medio; 5 = Asia; 6 = frica.
16
Proyecto 2. Actitudes hacia la estadstica
Se trata de recoger datos en clase sobre la actitud de los estudiantes
hacia la estadstica, utilizando como instrumento de recogida de datos, la
escala de actitudes presentada a continuacin.
Se recogern tambin datos sobre el sexo del alumno, especialidad
que cursa y si tiene o no estudios previos de estadstica. El objetivo del
proyecto es analizar los componentes de las actitudes, as como la actitud
global hacia la estadstica y comparar segn sexos, especialidades y estudios
previos del tema.
17
ciertas reglas; as, podemos asignar el nmero 1 a los varones y el 2 a las
hembras, o bien los smbolos "V" y "H".
Pueden observarse muchas caractersticas diferentes para un mismo
individuo. Estas caractersticas, dependiendo del tipo de valores que
originan, pueden medirse con cuatro tipos distintos de escalas de medida:
escala nominal, ordinal, de intervalo y de razn. Vamos a analizar las
caractersticas de cada una.
Escala nominal
La forma ms simple de observacin es la clasificacin de individuos
en clases que simplemente pueden distinguirse entre si pero no compararse
ni realizar entre ellas operaciones aritmticas. En este tipo se incluyen
caractersticas tales como la profesin, nacionalidad o grupo sanguneo.
Escala ordinal
A veces, las categoras obtenidas pueden ser ordenadas, aunque
diferencias numricas iguales a lo largo de la escala numrica utilizada para
medir dichas clases no correspondan a incrementos iguales en la propiedad
que se mide. Por ejemplo, puede asignarse un nmero de orden de
nacimiento a un grupo de hermanos, sin que la diferencia de edad entre el
1 y el 2 de ellos sea la misma que la del 2 al 3.
Escala de intervalo
Esta escala, adems de clasificar y ordenar a los individuos, cuantifica
la diferencia entre dos clases, es decir, puede indicar cuanto ms significa
una categora que otra. Para ello es necesario que se defina una unidad de
medida y un origen, que es por su naturaleza arbitrario. Tal ocurre con la
temperatura y tambin con la escala cronolgica.
Escala de razn
Es idntica a la anterior, pero adems existe un cero absoluto. En el
apartado anterior hemos incluido el caso del tiempo, ya que no puede
medirse con una escala de razn. En efecto, si consideramos las fechas
2000 DC y 1000 DC, aunque 2000 es el doble que 1000 no quiere decirse
que el tiempo desde el origen del hombre sea el doble en un caso que en
otro, pues hasta el ao 0 DC han transcurrido un nmero de aos
18
desconocido. Ejemplos de caractersticas que pueden ser medidas a nivel de
razn son el cociente intelectual, grado de depresin o puntuacin en un
cuestionario.
El nivel elegido para medir una caracterstica condiciona el resto del
anlisis estadstico, pues las tcnicas utilizadas deben tener en cuenta la
escala que se ha empleado. En general cuanto mayor sea el nivel utilizado,
mayor nmero de tcnicas podrn aplicarse y mayor precisin se lograr,
por lo que se recomienda usar la escala de intervalo o la de razn siempre
que sea posible.
Actividades
1.11. Poner un ejemplo de caractersticas estadsticas en las siguientes
escalas de medida: Nominal, ordinal, de intervalo, de razn.
1.12. Hemos realizado una encuesta a un grupo de alumnos. Clasifica las
siguientes caractersticas, segn su escala de medida y tipo de variable:
Peso, religin, nmero de hermanos, orden de nacimiento respecto a sus
hermanos, tiempo que tarda en completar la encuesta, deporte preferido.
1.13. Por qu no podemos decir que una temperatura de 100 grados
Fahrenheit indica doble calor que una temperatura de 50 grados
Fahrenheit?
1.14. Agrupamos a los nios de la clase en altos, medianos y bajos. Qu
tipo de escala de medida usamos? Y si los ordenamos por estatura?
1.15. Cul es la escala de medida de cada una de las variables de los
proyectos 1 y 2?
Variables estadsticas
Para representar los distintos tipos de datos empleamos variables. Una
variable es un smbolo que puede tomar valores diferentes. Cuando estos
valores son los resultados de un experimento estadstico, la llamamos
variable estadstica, y representa generalmente un cierto carcter de los
individuos de una poblacin.
Usualmente, las variables estadsticas se clasifican en cualitativas y
cuantitativas, segn que las modalidades del carcter que representan sean
o no numricas. (Algunos autores no consideran las variables cualitativas,
puesto que puede asignarse un nmero diferente a cada una de las
modalidades de una variable cualitativa).
19
Dentro de las variables cuantitativas se distingue entre variables
discretas y continuas, siendo discretas aquellas que por su naturaleza slo
pueden tomar valores aislados generalmente nmeros enteros y
continuas las que pueden tomar todos los valores de un cierto intervalo.
As, los experimentos que consisten en el recuento de objetos, como
pueden ser: nmero de miembros de una familia, nmero de empleados de
una empresa, etc., dan lugar a variables discretas, mientras que al medir
magnitudes tales como el peso, el tiempo, capacidad, longitud, etc. se
obtienen variables continuas.
Hay que tener en cuenta que, a veces, la naturaleza de la variable
utilizada depende del tipo y necesidades de la investigacin. As, los datos
nominales y ordinales son necesariamente cualitativos y discretos mientras
que los de intervalo y razn pueden ser discretos o continuos. Por ejemplo,
las magnitudes monetarias, temperatura, etc.
Actividades
1.16. Para cada una de las siguientes variables, indica si es mejor
considerarla discreta o continua: a) Tiempo para completar una tarea; b)
Nmero de aos de escolaridad; c) Nmero de sillas en una habitacin
1.17. Clasifica las variables de los proyectos 1 y 2 en cualitativas y
cuantitativas, discretas y continuas.
1.18. En una encuesta codifico la provincia de nacimiento con un nmero de 1 a
50. Qu topo de variable estadstica es la provincia de nacimiento, cualitativa o
cuantitativa?
1.19. Para codificar la edad de una persona un alumno sugiere usar el
siguiente criterio: De 0 a 10 aos: codificar como 1; de 10 a 20 aos
codificar como 2, de 20 a 30 aos codificar como 3, etc. El alumno
propone este sistema de codificacin para tener un menor nmero de
cdigos. Crees que es acertada la propuesta del alumno? En qu casos
estara justificada?
20
cambiar parmetros del sistema y ayudas. Statgraphics usa varios tipos de
ficheros, entre ellos, los siguientes:
21
Figura 1.1. Men principal
1. Archivo es la opcin que maneja los ficheros de datos, abre y cierra los
ficheros, puede juntar varios o separar un fichero en partes.
2. Edicin es el editor de ficheros que sirve para grabar datos nuevos,
modificar los existentes o transformar las variables.
3. Grficos proporciona diversos grficos.
4. Descripcin, Comparacin, Dependencia, Avanzado y SnapStats
remiten a una serie de procedimientos estadsticos.
5. Ver controla lo que vemos en la pantalla.
6. Ventana permite pasar de una a otra ventana o modificar las ventanas.
7. Ayuda proporciona ayuda de diverso tipo.
22
La barra de herramientas est compuesta por diferentes iconos que
permiten acceder rpidamente a las opciones ms comunes en el trabajo sin
necesidad de acudir al men general. El significado de cada icono puede
verse si se apoya el indicador del ratn sobre el propio icono. Si se observa
en la barra en la figura 1.1, de izquierda a derecha, encontraremos una serie
de iconos que permiten:
23
pueden copiarse los anlisis realizados y editarlos para luego copiarlo a
un procesador de textos.
5. Por ltimo, el quinto icono proporciona acceso al editor de datos,
informando sobre el conjunto de datos que se est utilizando.
24
1.9. VENTANA DE RESULTADOS DEL ANLISIS
Despus de ejecutar un procedimiento estadstico cualquiera,
Statgraphics presenta una ventana de resultados del procedimiento que
permite interactuar pidiendo nuevos resultados y ofrece un marco de
trabajo similar para todos los procedimientos. Por ejemplo, si realizamos
un histograma de frecuencias para la variable puntverbal del fichero
TESTP (puntuacin de aptitud verbal en el cuestionario de probabilidad),
se obtiene la ventana de anlisis que aparece en la figura 1.3. En esta
ventana de anlisis se observan tres zonas esenciales:
25
grficos que permite el procedimiento que se est utilizando. El cuarto
icono, etiquetado como Guardar resultados, se utiliza para guardar los
resultados numricos del anlisis estadstico en variables que
indicaremos en la pantalla correspondiente.
La salida de resultados se sita debajo de la barra de herramientas de
anlisis y se divide en dos zonas (ver figura 1.3).
La zona de la izquierda (zona de texto) presenta los resultados
numricos del anlisis estadstico y la zona de la derecha (zona de
grficos) ofrece los resultados grficos. Una vez obtenidas las salidas
grficas, si se pulsa dos veces con el ratn sobre cualquiera de las
ventanas en que est dividida la pantalla, sta se maximizar y ocupar
toda la pantalla. Se regresa a la situacin anterior volviendo a pulsar dos
veces con el ratn en cualquier parte de la pantalla maximizada.
26
Figura 1.4. Pantalla de seleccin del fichero de datos
Grabar un fichero
Para grabar un nuevo fichero de datos hay que usar el editor de datos,
donde cmo hemos dicho aparece una cuadrcula parecida a la que se usa
en una hoja electrnica. Cada fila representa una unidad estadstica y cada
columna una variable. Podemos grabar un nuevo fichero simplemente
introduciendo datos en la cuadrcula y grabando al finalizar el fichero
producido mediante la opcin Guardar Datos como, dando un nombre al
fichero de datos, con un proceso similar al anterior. Es necesario tambin
dar un nombre significativo a las variables, ya que si no damos nombres el
programa por defecto les asigna el nombre Col_1, Col_2, etc. Para ello se
selecciona la columna y luego se pincha sobre ella con el botn derecho del
ratn, apareciendo el men de la figura 1.5; en l seleccionar la opcin
Modificar columna que nos permite dar un nombre a la variable y definir su
tipo: numrica, carcter, entera o bien con un nmero fijo de decimales.
27
Clculo de nuevas variables
A veces queremos generar una variable nueva a partir de las
grabadas, por ejemplo, supongamos que en el fichero ACTITUD queremos
sumar las tres primeras puntuaciones. Para ello se debe definir el nombre
de la variable y en consecuencia, de la columna en la que se ubicar dicha
variable, para ello se selecciona la columna y luego se hace clic sobre ella
con el botn derecho del ratn, volver a aparecer el men de la figura 1.6,
en l seleccionar la opcin Modificar Columna entonces aparecer un
cuadro de dilogo como el de la figura 1.5.
28
los clculos.
29
30
TEMA 2
31
Frecuencias absolutas
Para poder operar con los datos de la tabla 2.1 o referirnos a ellos,
podemos representar la caracterstica a observar (la relacin laboral)
mediante la variable X y a la modalidad nmero i de dicha variable con la
notacin xi; fi representar el nmero de individuos que presentan esa
modalidad, que se llama frecuencia absoluta.
Frecuencias relativas
Los datos de la tabla 2.1 proporcionan exactamente el nmero de
personas que pertenecen a un determinado sector profesional. Pero decir
que en la provincia de Jan existen 4.548 patronos, nos proporciona poca
informacin sobre si el nmero de patronos es muy significativo, respecto
al total de la poblacin ocupada. Para valorar la representatividad de cada
categora respecto al total de datos se calcula la frecuencia relativa hi,
dividiendo la frecuencia absoluta fi por el nmero total de observaciones
(N), es decir:
(2.1) hi = fi/N
32
Porcentajes
En lugar de utilizar frecuencias relativas, usualmente se utilizan los
porcentajes, que se calculan multiplicando la frecuencia relativa por 100.
Actividades
2.1. Cules son los motivos para construir una tabla de frecuencias en lugar de
usar el listado de los datos tal y como se recogen?
2.2. Supongamos que en una muestra de n elementos la frecuencia absoluta de la
categora A es nA. Cul ser el valor de la nueva frecuencia absoluta y relativa si
aadimos a la muestra un nuevo sujeto que pertenezca a la categora A?
2.3. En una muestra de 6000 estudiantes el 35% practica regularmente algn
deporte. Cul es la frecuencia absoluta y relativa de estudiantes que practica
algn deporte?
60 Patronos
activa (miles)
50
Trabajadores
Poblacin
40
30 Cooperativistas
20 Empleados
10 Eventuales
0 Empresa familiar
relacin laboral
Diagrama de barras
Es una representacin grfica en la que cada una de las modalidades
del carcter se representa mediante una barra. En este grfico se suelen
disponer los datos en el primer cuadrante de unos ejes de coordenadas,
levantando sobre el eje de abscisas un bloque o barra para cada modalidad
33
de la variable observada. La altura de la barra ha de ser proporcional a la
frecuencia absoluta o relativa, que se representar en el eje de ordenadas.
En la figura 2.1 podemos observar los diagramas de barras
correspondientes a la tabla 2.1.
Grfico de sectores
Si lo que nos interesa es informacin sobre el "peso" que una de las
modalidades observadas tiene en relacin con el total y al mismo tiempo
con las dems, podemos representar los datos en un diagrama de sectores,
que consiste en representar cada modalidad por un sector circular, cuyo
ngulo central y, por lo tanto tambin su rea, es proporcional a la
frecuencia. Una forma sencilla de construirlo es multiplicando la frecuencia
relativa por 360; as obtendremos la amplitud del ngulo central que tendr
cada una de las modalidades observadas. El grfico de sectores
correspondiente a la tabla se muestra en la figura 2.2.
Patronos
Trabajadores autnomos
Cooperativistas
Empleados fijos.
Eventuales
Empresa familiar
Figura 2.2. Grfico de sectores
35
Tabla 2.3. Tabla de frecuencias para A2
------------------------------------------------------------------------
Frecuencia Frecuencia Frecuencia
Clase Valor Frecuencia Relativa Acumulativa Acum.Rel.
------------------------------------------------------------------------
1 1 2 0,0769 2 0,0769
2 2 3 0,1154 5 0,1923
3 3 13 0,5000 18 0,6923
4 4 7 0,2692 25 0,9615
5 5 1 0,0385 26 1,0000
------------------------------------------------------------------------
36
Cambio de las caractersticas grficas
Los grficos estn definidos con un fondo blanco, el grfico propiamente
dicho en rosa y el texto en negro. Es interesante cambiar estas caractersticas
para poder realizar una buena impresin en blanco y negro. Para ello
deberemos realizar los pasos que detallamos a continuacin, teniendo el
grfico en pantalla.
El color del marco y del fondo se cambia pulsando el borde del
grfico con el botn derecho del ratn. Aparecer un men, y pulsando en
Opciones Grficas aparecer un cuadro de dilogo, como en la figura 2.7.
37
El men mostrado en la figura 2.9 tambin nos permite cambiar las
escalas del grfico. Pulsando las pestaas Eje X y Eje Y aparece un men
donde podemos variar el origen y extremo de cada uno de los ejes y el
nmero de divisiones mostradas. Tambin podemos ponerle ttulo a los
ejes, cambiar el color de las fuentes e incluso la orientacin del texto. La
pestaa Relleno nos permite cambiar el tipo de relleno del grfico y el
contorno. Cuando pulsamos en esta pestaa aparecer el men de la figura
2.9.
38
Ejemplo 2.2. En la tabla 2.4 presentamos la distribucin de frecuencias del
nmero de cilindros de un conjunto de 398 tipos de automviles de
diferentes marcas y modelos, fabricados en Europa, Japn y Estados
Unidos y en la figura 2.11 representamos el diagrama de barras
correspondiente.
Figura
Figura 2.11. 2.11. Distribucin
Distribucin del nmero
del nmero de cilindros
de cilindros enautomviles
en automviles
60
50
Porcentaje
40
30
20
10
0
4 6 8
Nmero de cilindros
Frecuencias acumuladas
Algunas veces, es interesante conocer el nmero de valores de una
variable estadstica que son menores que un valor dado. Para conseguir
esto, se calculan las frecuencias absolutas acumuladas, que se obtienen
sumando a la frecuencia absoluta de un valor todas las anteriores. De igual
forma se calculan las frecuencias relativas acumuladas.
En la tabla 2.4 podemos interesarnos por conocer cuntos coches en
la muestra tienen x o menos cilindros. Esto se puede observar en la cuarta
columna de la tabla 2.4, donde observamos que 291 (73%) de los coches
tienen 6 o menos cilindros. Todas estas observaciones sern ms rpidas si
39
tenemos una representacin grfica de las frecuencias absolutas
acumuladas y de las frecuencias relativas acumuladas. Para ello basta
dibujar un diagrama de frecuencias acumuladas.
Para construirlo, representamos en el eje de abscisas los valores de la
variable. Para cada uno de estos valores, levantamos sobre el eje de
abscisas una lnea de altura proporcional a la frecuencia acumulada.
Trazando desde el extremo de cada lnea una paralela al eje X, que corte a
la lnea siguiente, se completa el diagrama, como se muestra en la figura
2.12. En esta grfica podemos ver cmo las frecuencias acumuladas
experimentan un aumento en cada valor de la variable.
FiguraFigura
2.12. Distribucin del nmero
2.12. Distribucin de cilindros
del nmero en automviles
de cilindros en automviles
400
Porcentaje
300
200
100
0
3 4 5 6 7 8 9
Nmero de cilindros
Actividades
2.4. Sabiendo que la frecuencia absoluta de alumnos que tiene 3 hermanos es 30 y
que la frecuencia acumulada de alumnos que tiene hasta 3 hermanos es 80.
Cuntos alumnos tienen 2 hermanos o menos?
2.5. Por qu la representacin grfica de la frecuencia acumulada nunca puede
ser decreciente?
2.6. Pensar en algunas situaciones en que interese la frecuencia acumulada para
una variable.
41
Figura 2.13. Seleccin de opciones tabulares Figura 2.14. Opciones en intervalos
La primera decisin que hay que tomar para agrupar una variable es
el nmero de intervalos en que se debe dividir. No existe una regla fija, y
42
en ltima instancia ser un compromiso entre la prdida de la informacin
que supone el agrupamiento y la visin global y sinttica que se persigue.
Una regla que se utiliza a menudo es tomar un entero prximo a la raz
cuadrada del nmero de datos como nmero de intervalos. Para proceder a
la construccin de una distribucin de frecuencias con datos agrupados es
preciso tener en cuenta las siguientes nociones:
Actividades
2.7. Indica algunos aspectos positivos y negativos de la agrupacin de datos en
intervalos de clase.
2.8. Cundo se pierde ms informacin sobre los datos originales, al tomar
intervalos de clase grandes o pequeos?
2.9. Indica algunos criterios para elegir el nmero de intervalos en una tabla de
frecuencia.
44
Figura 2.15. Histograma para la variable altura
Polgono de frecuencias
Otra forma de representar los datos es el polgono de frecuencias, que
es la lnea que resulta de unir los puntos medios de las bases superiores de
los rectngulos de un histograma de frecuencias. En la figura 2.16 se
representa un polgono de frecuencias de la variable altura del conjunto de
los datos de la tabla 2.6.
45
Figura 2.17. Polgono acumulativo de frecuencias
46
Polgono de frecuencias
Sobre la ventana en la que aparece el histograma, hacer clic con el
botn derecho del ratn, aparecer un men desplegable, all hacer clic
sobre la opcin Opciones de Ventana, aparecer un cuadro de dilogo en el
que aparece seleccionado por defecto el histograma, seleccionar el polgono
y si lo que se desea es trabajar con las frecuencias relativas, seleccionar la
opcin Relativa del mismo cuadro (ver figura 2.19). All tambin puede
cambiarse la cantidad de intervalos. Haciendo clic en el botn Aceptar, se
obtiene el polgono de frecuencias relativas.
Actividades
2.10. En las figuras 2.20 y 2.21 representamos los datos sobre esperanza de vida
en hombres y mujeres tomados del proyecto 1. Escribir un informe de media
47
pgina razonando en base a esos grficos si es verdad que las mujeres tienen una
esperanza de vida mayor que los hombres.
Figura 2.20. Distribucin de la esperanza de vida en hombres y mujeres
porcentaje esperanza de vida (hombre)
.56
.36
.16
.00000
.2
.44
0 20 40 60 80 100
1 Variables
evidahombr
0.8 evidamujer
0.6
0.4
0.2
0
38 48 58 68 78 88
48
3. Para cada dato original se busca la lnea en la que aparece su "tallo".
Los dgitos que nos quedaban los vamos escribiendo en la fila
correspondiente de forma ordenada.
49
mismo tiempo nos proporciona un diagrama que expresa la forma de la
distribucin.
En algunas tablas de datos, con valores de muchos dgitos, se
redondean a dos o tres cifras para construir el tallo y las hojas. Esta
representacin puede ser ampliada o condensada, aumentando o
disminuyendo el nmero de filas, subdividiendo o fundiendo dos o ms
filas adyacentes.
a) Su fcil construccin.
b) Se puede observar con ms detalle que el histograma, porque los
rectngulos del histograma pueden ocultar distancias entre valores de
los datos. Sin embargo, estas lagunas se pueden detectar en la
representacin del tronco, porque retienen los valores numricos de los
datos.
Actividades
2.11. En la figura 2.24 representamos las edades de un grupo de personas que se
encontraban en un supermercado y en una discoteca. a) Asigna cada diagrama al
lugar que le corresponde, razonando la respuesta b) Cul es en cada caso el
promedio (media, mediana o moda) que mejor representa los datos? c) Es en
algn caso la edad promedio de los hombres y mujeres diferente?
Figura 2.24 Edades en hombres y mujeres en un supermercado y una discoteca
mujeres hombres
mujeres hombres 2 0 11
9998887 1 78888999 999 1
9987654200 2 0033468 998766 2 79
431 3 23 9877662 3 568
0 4 5 86553 4 157
5 1 7443 5 2
32 6 5
51
2.13. En la figura 2.26 usamos una nueva representacin (diagrama de puntos) de
la tasa de natalidad, en este caso diferenciando los grupos de pases. Comenta las
principales diferencias observadas en los distintos grupos.
Figura 2.26. Diagrama de puntos
Figura 2.26: Diagrama de puntos
60
50
tasa
natalidad
40
30
20
10
0
1 2 3 4 5 6
grupo
2.14. El grfico anexo fue publicado hace unos meses en la prensa espaola. A)
Crees que la escala en que se representa los datos es adecuada? Por qu? B) Haz
un nuevo grfico para estos datos con una escala ms adecuada.
52
TEMA 3
RESMENES ESTADSTICOS DE
UNA DISTRIBUCIN DE FRECUENCIAS
3.1. INTRODUCCIN
Una vez realizadas algunas representaciones grficas de las expuestas
en el tema anterior, el siguiente paso del anlisis de datos es el clculo de
una serie de valores, llamados estadsticos, que nos proporcionan un
resumen acerca de cmo se distribuyen los datos. Estos estadsticos o
caractersticas las podemos clasificar de la siguiente forma:
a) Caractersticas de posicin o tendencia central: Son los valores
alrededor de los cuales se agrupan los datos. Dentro de esta clase se
incluye a la media, mediana y la moda.
b) Caractersticas de dispersin: Nos proporcionan una medida de la
desviacin de los datos con respecto a los valores de tendencia central
(recorrido, varianza, ...).
c) Caractersticas de forma: Nos proporcionan una medida de la forma
grfica de la distribucin (simetra, asimetra, etc...).
Estos resmenes nos sern tiles para resolver problemas como los
que te planteamos a continuacin.
Actividades
3.1. Como parte de un proyecto los estudiantes de una clase miden cada uno su
nmero de calzado, obtenindose los siguientes datos:
26 26 26 27 27 27 27 28 28 28 28 28 28 29
29 29 29 29 30 30 30 30 30 30 30 31 32 32 33
53
Si te preguntan cul sera el mejor nmero para representar este conjunto de datos,
Qu nmero o nmeros elegiras? Explcanos por qu has elegido ese (esos)
nmero(s).
3.2. Al medir la altura en cm. que pueden saltar un grupo de escolares, antes y
despus de haber efectuado un cierto entrenamiento deportivo, se obtuvieron los
valores siguientes. Piensas que el entrenamiento es efectivo?
Altura saltada en cm.
Alumno Ana Bea Carol Diana Elena Fanny Gilda Hilda Ins Juana
Antes del entrenamiento 115 112 107 119 115 138 126 105 104 115
Despus del entrenamiento128 115 106 128 122 145 132 109 102 117
3.3. Un objeto pequeo se pesa con un mismo instrumento por ocho estudiantes
de una clase, obtenindose los siguientes valores en gramos: 6,2, 6,0, 6,0, 6,3, 6,1,
6,23, 6,15, 6,2 Cul sera la mejor estimacin del peso real del objeto?
n
i 1
xi f i
(3.1) x
N
54
solo de una tabla de frecuencias. En este caso conviene recordar que los
valores obtenidos son slo aproximados.
Actividades
3.4. Unos nios llevan a clase caramelos. Andrs lleva 5, Mara 8, Jos 6, Carmen
1 y Daniel no lleva ninguno. Cmo repartir los caramelos de forma equitativa?
3.5. Un anuncio de cajas de cerillas indica que el nmero medio de cerillas por
caja es 35. Representa una grfica de una posible distribucin del nmero de
cerillas en 100 cajas, de modo que la media sea igual a 35.
3.6. La edad media de un grupo de nios es 5,6 aos. Cul ser el tiempo medio
si expresamos los datos en meses? Cul ser la edad media de los nios dentro de
3 aos?
3.7. La altura media de los alumnos de un colegio es 1,40. Si extraemos una muestra
aleatoria de 5 estudiantes y resulta que la altura de los 4 primeros es de 1,38, 1,42,
1,60, 1,40. Cul sera la altura ms probable del quinto estudiante?
Propiedades de la media
Cada una de las actividades 3.4 a 3.7 remite a una propiedad de la
media. A continuacin describimos estas y otras propiedades, para que
identifiques cul de ellas corresponde a cada actividad.
axi fi a xi fi _
i 1
i 1
ax
N N
Esta propiedad implica que, al efectuar un cambio de unidad de medida a
los datos (por ejemplo al pasar de metros a centmetros), la media queda
afectada por dicho cambio de escala.
55
3. La media aritmtica de la suma de dos variables, X e Y, es igual a la
suma de las medias aritmticas de cada una de las variables:
x y x y
y tambin, en general se cumple para cualquier nmero de variables.
x y ...z x y ...z
4. La media aritmtica de la suma de una constante entera, a, con una
variable, X, es igual a la suma de la constante, a, con la media aritmtica
de la variable dada, es decir:
n n
( a xi ) f i
i 1
na xi f i
i 1
_
ax
N N
Esta propiedad implica que, al efectuar un cambio en el origen desde el
que se han medido los datos, la media queda afectada por dicho cambio
de origen.
Actividades
3.8. Hay 10 personas en un ascensor, 4 mujeres y 6 hombres. El peso medio de las
mujeres es de 60 kilos y el de los hombres de 80. Cul es el peso medio de las 10
personas del ascensor?
3.9. Qu representa el valor obtenido al calcular la media aritmtica simple de la
esperanza media de vida al nacer en los 97 pases del Proyecto 2? Cmo habra
que hacer para calcular la esperanza media de vida al nacer en hombres y mujeres,
si no tenemos en cuenta el pas de nacimiento?
3.10. En la figura 3.1 hemos representado la esperanza media de vida en hombres
y mujeres con dos escalas diferentes. Comparar estos dos grficos e indicar si te
parecen o no adecuados para representar la diferencia entre la esperanza media de
vida de mujeres y hombres. Uno de los dos grficos ha sido obtenido directamente
del ordenador, mientras que el otro ha sido manipulado. Averiguar cul ha sido
manipulado.
Figura 3.1. Esperanza de vida media en hombres y mujeres
56
Media aritmtica ponderada
Un error muy frecuente en la actividad 3.8 es contestar que el peso
medio es 70 kilos. Tenemos una tendencia a considerar que la media tiene
la propiedad asociativa, es decir, que para calcular la media de un grupo de
datos se puede calcular las medias parciales y luego promediar todas ellas
para obtener el resultado final. Esto no es cierto, como podemos razonar
con el siguiente ejemplo:
3.3. LA MODA
Cuando la variable es cualitativa no podemos calcular la media. Para
describir un grupo podemos, entonces usar la moda Mo, que es el valor de
la variable que tiene mayor frecuencia. En una distribucin puede haber
ms de una moda. Si existe una sola moda se llama unimodal, si existen
dos bimodal, si hay ms de dos se llamar multimodal. Podemos tambin
calcular la moda en variables numricas y distinguiremos para su clculo
dos casos:
8aos
11aos
9 aos
57
2. Cuando la variable est agrupada en intervalos de clases (intervalos), la
moda se encontrar en la clase de mayor frecuencia, pudiendo calcular
su valor por medio de la expresin (3.2).
di
(3.2) Mo Ei ai
di di 1
58
3.4. MEDIANA Y ESTADISTICOS DE ORDEN
Son aquellos valores numricos tales que nos indican su posicin en
el conjunto de datos ordenados, pues una fraccin dada de los datos
presenta un valor de la variable menor o igual que el estadstico. El ms
importante es la mediana, que tambin es una medida de posicin central.
La mediana
Si suponemos ordenados de menor a mayor todos los valores de una
variable estadstica, se llama mediana al nmero tal que existen tantos
valores de la variable superiores o iguales como inferiores o iguales a l. La
representaremos por Me. Para el clculo de la mediana, distinguiremos
entre datos no agrupados y agrupados en clases.
59
Si el nmero de valores es par, la mediana es la media aritmtica de
los dos valores que se encuentren en el centro de la tabla.
Ejemplo 3.6. En la actividad 3.11 el nmero de datos es par (54), Hay dos
valores centrales, que corresponden a la oveja (75 pulsaciones) y el ganso
(80), Por tanto la mediana es 77, 5 pulsaciones por minuto.
60
Figura 3.4. Clculo de la mediana con nmero par de datos
En la tabla estadstica, la
F(x) mediana se determina a
1 partir de la columna que
da las frecuencias (o las
1/2 frecuencias absolutas)
intervalo
mediano
acumuladas, repitiendo el
proceso que hemos
x
descrito y finalizando, por
xi x
i+1
n i+1 C
N/2 B D
ni x E
A F
xi Me xi+1
Me=xi +x, AE
x
= CE
BF
61
Puesto que xi +1 -xi es la amplitud del intervalo, CE la frecuencia en el
intervalo mediano y BF la diferencia entre N/2 y la frecuencia relativa
acumulada en el intervalo mediano, obtenemos la cantidad que hay que
sumar al extremo inferior del intervalo mediano para calcular la mediana.
Actividades
3.11. A continuacin reproducimos datos sobre nmero de pulsaciones por minuto
1
en diversas especies animales
a) Te parece que la media sera un estadstico que representara bien este
conjunto de datos? Y la moda?
1
Ejemplo tomado de Friel. Mokros y Russell (1992). Statistics: Middles, means and in-betweens. Palo
Alto, CA: Dayle Seymour.
62
b) Encuentras que alguna de las especies es atpica, debido a que su nmero de
pulsaciones est claramente alejada de la mayora?
1 6 Ballena
2 59 Camello, Tiburn
3 055788 Elefante, Caballo, Trucha, Merluza, Salmn, Dorada
4 00247888 Mula, Burro, Len, Foca, Caimn, Cocodrilo, Bacalao, Rana
5 5599 Vaca, Oso, Carpa, Perca
6 6 Jirafa
7 00005 Hombre, Ciervo, Avestruz, Cerdo, Oveja
8 0 Ganso
9 025 Perdiguero, Mastn. Fox Terrier
10 0 Collie
11 0 Delfn
12 05 Canguro, Pekins
13 0 Gato
14
15 0 Conejo
16
17 0 Paloma
18
19
20
21 1 Pavo
22
23
24 0 Zorro
25
26 8 Pavo
27
28
29
30 01 Puercoespn, Aguila
31 2 Codorniz
32 0 Pollo
33
34 27 Halcn, Buitre
35
36
37 8 Cuervo
38 08 Grajo Comadreja
39 0 Ardilla
40 1 Gaviota
.
.
58 8 Murcilago
59
60 0 Ratn
63
b) Elige el grfico que mejor representa los datos argumentando la eleccin.
c) Por qu los grficos son tan diferentes? Cul de los dos promedios acenta
ms las diferencias entre grupos de pases?
Figura 3.6. Mediana y media del nmero de habitantes en los diferentes grupos de
pases
200000 40000
M e d ia p o b la c io n ( m ile s h a b it a n t e s )
36816
23148
100000 20000
10000
52483 10333 9694
37365
31257
19163 4041
0 13992 0
E . O rie n ta l E . O c c id e n ta l, J a p n , U S A , A s ia E uropa Oriental E . Occidental, Japn, US A , A sia
A u s tra li A ustralia
64
Actividades
3.14. La mediana de las puntuaciones de un grupo de 8 alumnos es 6. Pon un
ejemplo de posibles puntuaciones que podran tener estos alumnos de forma que
ningn alumno tenga una puntuacin igual a 6 (las puntuaciones varan de 0 a 10).
Coincide la mediana con el centro del recorrido de los datos?
3.15. En la figura 3.7 presentamos las frecuencias acumuladas de altura de 1000
chicas.
a) Calcula aproximadamente la mediana. mximo y mnimo.
b) Entre qu lmites vara el 50 por ciento de los valores centrales?
c) Cul es el valor de la altura tal que el 70 % de las chicas tiene una altura igual
o inferior (percentil del 70%)?
d) Si una chica mide 1.65, En qu percentil est?
e) Compara tu altura con la de estas chicas. Qu porcentaje de chicas son ms
altas/ bajas que t?
f) Qu valores de la estatura consideraras atpicos en esta distribucin?
65
c) La mediana es un estadstico resistente: con pequeas fluctuaciones de
la muestra no cambia su valor. Se pueden cambiar uno o varios datos sin
que por ello cambie el valor de la mediana, basta con no modificar las
dos partes del mismo tamao en que sta divide a la distribucin.
d) Si los datos son ordinales la mediana existe, mientras que la media no
tiene sentido, puesto que su clculo se basa en los valores (numricos,
necesariamente) de los datos.
e) Para datos agrupados en intervalos con alguno de ellos abierto tambin
es preferible la mediana a la media. En estos casos, o bien se prescinde
del intervalo abierto, o no es posible calcular la media ya que faltara
una de las marcas de clase, la correspondiente a este intervalo.
Actividades
3.16. Cul de las medidas de posicin central permanece constante si cambio un
valor extremo de los datos?
3.17. La estatura mediana de un grupo de alumnos es de 156 cm. Cul ser la
nueva estatura si expresamos la estatura en metros?
Cuantiles
Adems de la mediana, pueden definirse otros estadsticos de orden si,
en lugar de considerar la mitad de los datos, tomamos otra fraccin
cualquiera de los mismos. Una vez ordenado el conjunto de datos, se llama
cuantil de orden r (0<r<1) y se representa por xr, al valor de la variable que
por debajo de l la proporcin r de los valores observados. Su clculo es
similar al de la mediana.
66
Los cuantiles de uso ms frecuente son los cuartiles Q1 y Q3: Q1 es el
cuantil de orden 1/4 y Q3 el cuantil de orden 3/4. La mediana es el percentil
del 50%, el segundo cuartil y el decil 50. La mediana y cuartiles dividen a
la poblacin en cuatro efectivos iguales. En la figura 3.8 mostramos
grficamente diferentes cuantiles de una distribucin.
Actividades
3.17. Con una puntuacin de 100 Mara se situ en el percentil del 80 % respecto
al total de alumnos de su clase. Supongamos que el profesor decide subir 5 puntos
a todos los alumnos. En qu percentil estara Mara?
3.18. Supongamos que Pedro se sita en el percentil del 40% respecto a su clase y
Carmen en el del 80% Podemos decir que la puntuacin obtenida por Carmen es
doble que la de Juan?
67
3.5. CARACTERISTICAS DE DISPERSION
Las medidas de tendencia central nos indican los valores alrededor
de los cuales se distribuyen los datos. Las caractersticas de dispersin son
estadsticos que nos proporcionan una medida del mayor o menor
agrupamiento de los datos respecto a los valores de tendencia central.
Todas ellas son valores mayores o iguales a cero, indicando un valor 0 la
ausencia de dispersin.
Ejemplo 3.9. Supongamos que hemos realizado una prueba con 5 tems a 3
grupos de 40 alumnos obteniendo los resultados que se reflejan en la tabla
3.1, donde Xi es el nmero de tems que un alumno ha resuelto correctos, fi
la frecuencia correspondiente.
Tabla 3.1
Grupo 1 Grupo 2 Grupo 3
Xi Fi Xi fi Xi fi
1 1 1 16 1 6
2 2 2 3 2 7
3 17 3 1 3 7
4 17 4 1 4 7
5 2 5 3 5 7
6 1 6 16 6 6
20 7,5
frecuencia
frecuencia
15 15
7
10 Serie1 10 Serie1
6,5 Serie1
5 5
6
0 0
5,5
1 2 3 4 5 6 1 2 3 4 5 6
1 2 3 4 5 6
Puntuacin Puntuacin
Puntuacin
68
Desviacin media
Una primera medida de dispersin es la desviacin media, que puede
calcularse con respecto a cada uno de los valores centrales, media, mediana
o moda. Se define como la media de las desviaciones respecto del valor
central que se considere, tomadas en valor absoluto. Se calcula con la
frmula (3.4).
n
fi x i - c
(3.4) Dc i 1
N
Actividades
3.19. Una alumna tiene unas calificaciones de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10. Otra
alumna tiene unas calificaciones de 1, 1, 1, 1, 1, 10, 10, 10, 10, 10. Cul de las
dos tiene mayor dispersin en sus calificaciones?
Varianza
Es la media aritmtica de los cuadrados de las desviaciones respecto
a la media. Se representa por S2 y se calcula mediante la frmula (3.5).
_ 2
i 1 fi (x i - x)
n
(3.5) S2
N
69
2 _ 2 2
_ _
i 1 fi (zi (z
n
i1 fi (x i - x) i1 fi (zi - z)
n n
a - a))
S2
N N N
Desviacin tpica
Es la raz cuadrada de la varianza. Se representa por y se calcula por
una de las frmulas (3.7) o (3.8).
2
(3.7) _
x)
n
f i (x i -
S i 1
n
f x 2i _ 2
(3.8) S i 1 i
N
- x
La desviacin tpica es invariante por traslaciones y viene expresada
en la misma unidad de medida que la media y los datos.
Actividades
3.20. Supongamos que la desviacin tpica de la estatura de un grupo de
estudiantes, medida en meros es igual a 2.3. Qu valor tendr la desviacin tpica
de la estatura de los estudiantes si pasamos los datos a cm?
3.21. Qu ocurre en un conjunto de datos si la varianza toma un valor cero?
3.22. Representa dos diagramas de barras sobre calificaciones de 10 alumnos de
modo que la media sea igual en los dos conjuntos de datos pero la varianza sea
diferente.
Coeficiente de variacin
Los estadsticos anteriores han medido la dispersin en cifras
absolutas. El coeficiente de variacin CV es una medida de dispersin
relativa y viene dado por (3.9).
(3.9) S
CV _
x
Su utilidad radica en que es independiente de la unidad utilizada en los
valores de la variable, por lo que se pueden comparar distribuciones cuyos
datos estn medidos en distintas unidades, por ejemplo pesetas y dlares.
Sin embargo es poco prctico cuando la media es prxima a cero, por el
valor tan desmesurado que toma.
Actividades
3.23. Cul es la diferencia entre dispersin absoluta y dispersin relativa? Pon un
ejemplo donde, en dos distribuciones una tenga mayor dispersin absoluta y otra
tenga mayor dispersin relativa.
3.24. Cul de las medidas de posicin central permanece constante si cambio un
valor extremo de los datos? Cul de las medidas de dispersin permanece
constante si cambio un valor central de los datos?
71
Simetra y asimetra
Decimos que una distribucin es simtrica cuando lo es su
representacin grfica, es decir, los valores de la variable equidistantes a un
valor central de la misma tienen frecuencias iguales. Este valor central
coincide con la media y mediana. Si la distribucin tiene una sola moda,
sta coincide tambin con las anteriores.
x = Me = Mo
Una distribucin que no es simtrica se llama asimtrica. La
asimetra se puede presentar a la derecha (positiva) o a la izquierda
(negativa), segn el lado a que se presente el descenso en la representacin
grfica.
En las distribuciones asimtricas a la derecha con una sola moda se
cumple la relacin (3.10).
(3.10) x > Me > Mo
En las distribuciones asimtricas a la izquierda con una sola moda se
cumple (3.11).
(3.11) x < Me < Mo
Coeficientes de asimetra
Para saber si una distribucin con una sola moda es simtrica a la
derecha o a la izquierda sin necesidad de representarla grficamente,
podemos utilizar el coeficiente de asimetra de Pearson, que se representa
por Ap y se calcula por la frmula (3.12).
_
(3.12) Ap
xM o
S
En una distribucin simtrica la mediana coincide con la media y la
moda (en distribuciones unimodales). En este tipo de distribuciones los
datos se encuentran repartidos a lo largo del recorrido de forma que
todas las medidas de tendencia central estn justo en el centro del
conjunto de datos. Si la distribucin es simtrica Ap = 0, ya que x = Mo
Si la distribucin es asimtrica a la derecha el orden en que aparecen es
moda-mediana-media, puesto que es en el lado derecho dnde se
concentran la mayor frecuencia de los datos y, por tanto la moda; y si es
asimtrica a la izquierda el orden es media-mediana-moda (para
72
distribuciones unimodales). Si hay asimetra a la derecha Ap >0, ya que
x > Mo .
Si la distribucin es asimtrica es preferible la mediana a la media como
medida de tendencia central. En estos casos, tanto la media como la
moda estn desplazadas hacia uno de los extremos del conjunto de datos
y son demasiado representativas de la distribucin, a menos que se
disponga de la informacin adicional aportada por las medidas de
dispersin. Si hay asimetra a la izquierda Ap <0, ya que x < Mo.
Actividades
3.25. Buscar ejemplos de variables estadsticas en la vida real que tengan
distribuciones asimtricas. Qu signo tomara el coeficiente de asimetra en cada
caso?
3.26. El coeficiente de asimetra de la estatura de un grupo de alumnos medida en
metros es 0.4. Cunto vale el coeficiente di pasamos la estatura a cm?
3.27. Dibujar el grfico de la caja de una distribucin que sea asimtrica a la
derecha y el de otra distribucin que sea asimtrica a la izquierda.
3.28. Qu tipo de forma piensas tiene n las distribuciones de las siguientes
variables?:
Renta per cpita de las familias espaolas
Edad de los espaoles
Horas de duracin de una bombilla que se funde
Mes de nacimiento de un grupo de 100.000 personas
Nmero de accidentes de trfico diarios en una ciudad
Peso en kg. de un recin nacido
Calificaciones en las pruebas de selectividad
Calificaciones de acceso a la Facultad de Psicologa
Coeficiente de curtosis
Cuando una distribucin es simtrica, a veces, es interesante saber si
es ms o menos apuntada que la curva normal. Esta es una distribucin
terica que estudiaremos ms adelante y tiene una forma caracterstica,
similar a una campana invertida. Si una distribucin es ms apuntada que la
normal se llama leptocrtica. Si es aproximadamente igual de apuntada que
73
la normal se llama mesocrtica. Si es menos apuntada o ms aplastada que
la distribucin normal se llama platicrtica. Existe un coeficiente, ideado
por Fisher, que mide el apuntamiento de una distribucin y se llama
coeficiente de curtosis. Se suele representar por K y se verifica:
Peso en Kg.
Varones Mujeres
55 64 70 74 75 70 60 45 46 50 47 55
64 93 60 62 70 80 49 52 50 46 50 52
61 60 62 68 65 65 52 48 52 63 53 54
66 68 70 72 72 71 54 54 53 55 57 44
56 56 56 53 60 65
67 61 68 55 64 60
1. Se traza una lnea vertical u horizontal de longitud proporcional al
recorrido de la variable, que llamaremos eje (vase la figura 3.10). Los
extremos del eje sern el mnimo y el mximo de la distribucin, que en
nuestro caso son 44 y 93 kilos. En el interior del eje se sealarn las
subdivisiones que creamos necesarias, para formar una escala.
2. Paralelamente al eje se construye una caja rectangular con altura
arbitraria y cuya base abarca desde el primer cuartil al tercero. Como
vemos esta caja indica grficamente el intervalo de variacin del
cincuenta por ciento de valores centrales en una distribucin que, para el
peso de los estudiantes, abarca desde 53 a 66,5.
3. La caja se divide en dos partes, trazando una lnea a la altura de la
mediana (60 kg. en nuestro caso). Cada una de estas partes indica pues
74
el intervalo de variabilidad de una cuarta parte de los datos. De este
modo, en el ejemplo dado, una cuarta parte de los alumnos tiene un peso
comprendido entre 44 y 53, estando incluidas las otras cuartas partes en
los siguientes intervalos de peso: 53 a 60. 60 a 66,5 y 66,5 a 93.
4. A la caja as dibujada se aaden dos guas paralelas al eje, una a cada
lado, de la forma siguiente: el primero de estos segmentos se prolonga
desde el primer cuartil hasta el valor mximo entre el mnimo de la
distribucin y la diferencia entre el primer cuartil y una vez y media el
recorrido intercuartlico. Como en nuestro caso el peso mnimo es 44
kilos, y el recorrido intercuartlico es 66,5 - 53 = 13,5, al restar al primer
cuartil, Q1= 53 una vez y media el recorrido intercuartlico obtenemos:
Q1- 1.5 RI = 53 20,25 = 32,75
El mximo entre 44 y 32,75 es 44, por lo que el segmento inferior que
debe dibujarse en el grfico de la caja debe llegar hasta 44, como se
muestra en la figura 3.10.
Figura 3.10. Grfico de la caja para el peso de los alumnos
44 54 64 74 84 94
75
Estos datos son los llamados valores atpicos (outliers), que son
valores muy alejados de los valores centrales de la distribucin. En la
distribucin normal, fuera del intervalo que resulta de extender los cuartiles
en una vez y media el recorrido intercuartlico, slo aparece un uno por
ciento de los casos, por lo que estos valores, si no son debidos a errores,
suelen ser casos excepcionales.
chica
sexo
chico
44 54 64 74 84 94
Actividades
3.29. La figura adjunta representa los tiempos en segundos que tardan en recorrer
30 metros un grupo de deportistas en Septiembre y Diciembre. Piensas que el
entrenamiento durante los tres meses ha sido efectivo? Qu puedes decir de la
simetra de la distribucin? Hay valores atpicos?
Figura 3.12. Tiempos en recorrer 30 metros
76
3.8. CURVA EMPRICA DE DISTRIBUCIN
77
Comparacin de los estadsticos de orden en dos grupos
78
3.9. CLCULO DE ESTADSTICOS CON STATGRAPHICS:
Los estadsticos se pueden obtener de la opcin de Resumen numrico
Resumen estadstico, dentro de Descripcin Numeric Data One
Variable Analysis. En la figura 3.14 se muestran las medidas o parmetros
que aparecen por defecto.
79
Anlisis simultneo de varias variables
Para realizar el clculo de estadsticos de varias variables
simultneamente, ingresar al men Descripcin Datos Numricos
Anlisis Multidimensional, se debern seleccionar las variables que se
desean usar como se muestra en la figura 3.17. En la ventana de anlisis
seleccionar Opciones Tabulares, se selecciona Resumen estadstico y luego
se pueden seleccionar los estadsticos que se desean calcular de la misma
forma que en el prrafo anterior.
Clculo de percentiles
Cuando se desea realizar el clculo de percentiles se deben realizar los
siguientes pasos:
1. Entrar al men Descripcin Datos Numricos Anlisis
Unidimensional, all aparecer una ventana de anlisis.
2. En la ventana, seleccionar el botn Opciones Tabulares, y all
seleccionar la opcin Percentiles.
3. Una vez seleccionada la opcin anterior se ver una ventana en la que
aparecen algunos percentiles predefinidos. Si se desea modificar el valor
de tales percentiles, seleccionar Opciones de Ventana del men que
aparece cuando se aprieta el botn derecho del ratn. En este caso
aparecer una ventana introduciendo en cada cuadro los valores que se
necesiten pulsando Aceptar se obtienen los valores requeridos
80
Actividad 3.30. Supn que ests jugando a lanzar una moneda 40 veces y escribe los
resultados que esperas obtener. Pon una C para indicar cara y + para indicar cruz:
81
82
TEMA 4
INTRODUCCIN A LA PROBABILIDAD
Actividades
4.1. Daniel y Ana son estudiantes cordobeses. Acuden a la misma escuela y su
profesor les ha pedido que preparen una previsin del tiempo para el da 24 de
Junio, fecha en que comenzarn sus vacaciones. Puesto que estn an en el mes de
Mayo, Daniel y Ana no pueden predecir exactamente lo que ocurrir. Por ello, han
buscado una lista de expresiones para utilizar en la descripcin del pronstico. He
aqu algunas de ellas:
cierto; posible; bastante probable; hay alguna posibilidad; seguro; es imposible;
casi imposible; se espera que; incierto; hay igual probabilidad; puede ser; sin
duda.
Podras acabar de clasificar estas palabras segn la mayor o menor confianza que
expresan en que ocurra un suceso? Busca en el diccionario nuevas palabras o
frases para referirte a hechos que pueden ocurrir y compralas con las dadas
anteriormente.
Busca en la prensa frases o previsiones sobre hechos futuros en que se usen las
palabras anteriores. Clasifcalas segn la confianza que tienes en que ocurran.
Compara tu clasificacin con la de otros compaeros.
83
El objetivo de la actividad 4.1 es reflexionar sobre el uso de palabras
y expresiones del lenguaje ordinario en circunstancias en que se tienen
distintos grados de confianza en que ocurrir un suceso. Comparamos
diferentes sucesos en funcin de la .confianza que se tenga en su
ocurrencia. Se ordenarn los sucesos en base a las preferencias
individuales; posteriormente se pueden emplear diversas expresiones
lingsticas para referirse a estas comparaciones: "ms probable", "muy
probable", etc.
La situacin se refiere a fenmenos del mundo fsico (previsin del
tiempo) para los que habitualmente se aplican las tcnicas de recogida de
datos estadsticos y la modelizacin aleatoria. Utilizamos la expresin
"experimento aleatorio" para describir este tipo de situaciones.
Llamaremos "experimento" tanto a los verdaderos experimentos que
podamos provocar como a fenmenos observables en el mundo real; en
ste ltimo caso, la propia accin de observar el fenmeno se considera
como un experimento. Por ejemplo, la comprobacin del sexo de un recin
nacido se puede considerar como la realizacin de un experimento.
Diferenciamos entre experimentos deterministas y aleatorios. Los
primeros son aquellos que, realizados en las mismas circunstancias slo
tienen un resultado posible. Por el contrario, un experimento aleatorio se
caracteriza por la posibilidad de dar lugar, en idnticas condiciones, a
diferentes efectos.
Suceso es cada uno de los posibles resultados de un experimento
aleatorio. Distinguimos entre sucesos elementales, cuando no pueden
descomponerse en otros ms simples y suceso compuestos cuando se
componen de dos o ms sucesos elementales por medio de operaciones
lgicas como la conjuncin, disyuncin o negacin.
Actividades
4.2. Poner tres ejemplos de experimentos aleatorios y deterministas. Para cada uno
de ellos describir un suceso simple y otro compuesto.
84
obtenido al lanzar un dado sera E={1,2,3,4,5,6}. Este espacio muestral es
finito, pero podemos considerar un espacio muestral con infinitos
resultados posibles. Por ejemplo, la duracin de una lmpara podra variar
en un intervalo continuo [0, 1000], donde hay infinitos puntos. Otros casos
seran el peso o la talla de una persona tomada al azar de una poblacin.
Puesto que el suceso seguro consta de todos los resultados posibles,
siempre se verifica. Tericamente podramos tambin pensar en un suceso
que nunca pueda ocurrir, como obtener un 7 al lanzar un dado ordinario.
Lo llamaremos suceso imposible y lo representamos por .
Dentro de los posibles sucesos aleatorios asociados a este
experimento podemos distinguir dos tipos: sucesos elementales, si no
pueden ser descompuestos en otros ms simples, y sucesos compuestos, si
se componen de dos o ms sucesos elementales.
As, cuando realizamos el experimento consistente en lanzar un dado,
un suceso simple sera: "obtener el nmero dos", y un suceso compuesto
"obtener un nmero par".
Inclusin de sucesos
Diremos que un suceso A est incluido en otro B, A B, si siempre
que ocurre A ocurre B. Por ejemplo, obtener figura doble al lanzar dos
dados est incluido en obtener suma par.
Sean A y B dos sucesos asociados a un mismo experimento. A partir
de ellos podemos formar nuevos sucesos mediante las operaciones de
unin e interseccin.
Unin de sucesos
Llamaremos unin de los sucesos A y B, y representaremos por
AB, al suceso que se verifica cuando se produce al menos uno de los dos
sucesos A B.
85
Interseccin de sucesos
Llamaremos interseccin de los sucesos A y B y representaremos
por AB al suceso que ocurre cuando se verifican simultneamente A y B.
Consideremos, por ejemplo, el experimento consistente en preguntar a
un matrimonio de dos hijos el sexo de los mismos. Sea A el suceso "el
mayor es hembra" y B el suceso "el menor es hembra". En dicho caso AB
es el suceso "el matrimonio tiene al menos una hija", y AB "los dos son
chicas".
Puede darse el caso de que al expresar la interseccin de dos sucesos
lleguemos a otro que no pueda realizarse, como es el caso de expresar
AC en el ejemplo anterior, donde C fuese el suceso "el mayor de los hijos
es varn". En este caso representaremos AC = y llamaremos a dicho
suceso suceso imposible. Los sucesos A y C se dicen que son
incompatibles.
Puede observarse en las definiciones anteriores el paralelismo con las
operaciones entre subconjuntos de un conjunto dado. As, si adoptamos la
convencin de representar el espacio muestral asociado al experimento del
ejemplo anterior como:
E = {vv,vh,hv,hh} , obtenemos
A = {hv,hh}, B={vh,hh}, C={vv,vh}
AB = {hv,hh,vh} AB ={hh} AC =
Suceso contrario
Por ltimo, a cada suceso A posible en un experimento asociaremos
otro suceso que llamaremos contrario del dado, tal que se verifica
cuando no se verifica A. As, en el ejemplo considerado,
="el primer hijo es varn" = C
B = {hv,vv}
86
demostrar que las operaciones definidas anteriormente cumplen las
propiedades habituales del lgebra de Conjuntos.
Actividades
4.3. Describir el espacio muestral asociado a cada uno de los siguientes
experimentos: a) lanzamiento simultneo de tres monedas; b) suma de los puntos
obtenidos al lanzar simultneamente dos dados.
4.4. Describir un suceso imposible asociado a cada uno de los experimentos
anteriores.
4.5. En una caja hay 4 bolas rojas, 3 verdes y 2 blancas. Cuntas bolas se deben
sacar sucesivamente para estar seguro de obtener una bola de cada color?
4.6. La escala de la probabilidad. Ana y Daniel han terminado su trabajo, pero no
estn satisfechos. Para completarlo van a asignar un nmero a cada una de las
palabras utilizadas en la actividad 1. Esta es la escala que utilizan:
Figura 4.1
87
criterios seguidos en su asignacin.
Finalmente, para obtener unas probabilidades en las que toda la clase
se muestre de acuerdo, podra utilizarse el valor medio o la mediana de las
probabilidades asignadas individualmente a los diversos sucesos por los
diferentes alumnos. Precisamente este podra ser un contexto adecuado
para dar sentido a las medidas de tendencia central, ya que se dispone de
una serie de "medidas" del grado de ocurrencia de un suceso y deseamos
obtener la mejor estimacin.
88
Actividades
4.7. Esperanza de vida: A partir de una tabla de vida, hacer predicciones sobre la
probabilidad de vivir x aos, o de vivir en el ao 2000, segn sea un chico o una
chica, el profesor, etc.
4.8. Investigacin. Discutir y ordenar la probabilidad de que se produzcan diversos
inventos antes de 5, o 10 aos (vacunas, viajes interplanetarios, energa,...)
4.9. Accidentes. Escribir una serie de frases sobre la reduccin o aumento del
nmero de accidentes, probabilidad de que se produzcan en una fecha dada y
ordenarlas de mayor a menor probabilidad.
4.10. Resultados de elecciones. Con motivo de algunas elecciones escolares,
locales, etc, plantear la mayor o menor probabilidad de que resulte elegido un
candidato, o de que logre todos los votos, los 2/3, etc. Para ello utiliza los grficos
de alguna encuesta publicada en la prensa local (por ejemplo, un grfico de barras
o sectores).
4.11. Recoger de la prensa los datos de las temperaturas mxima y mnima durante
una semana en las capitales de provincia. Confeccionar una tabla estadstica con
estos datos. Cul crees que ser la temperatura mxima y mnima ms probable
la prxima semana?
4.12. Busca dos grficos estadsticos diferentes que hayan aparecido en la prensa
local recientemente. Para cada uno de ellos describe el experimento aleatorio al
que se refieren; los sucesos asociados y cul de ellos es ms probable. .Podras
hacer un grfico alternativo para representar la informacin en cada uno de los
casos?
89
Actividades
4.13. Juegos de dados. Imagina que ests jugando a los dados con un amigo. Tu
compaero indica que hay tres posibilidades diferentes al lanzar dos dados: a) que
los dos nmeros sean pares, b) que los dos sean impares y que c) haya un par y un
impar. Afirma que los tres casos son igual de probables. Tu qu opinas? Otro
compaero sugiere que hagis un experimento para resolver la discusin. Fjate en
la tabla que te presentamos.
Resultado Recuento Frecuencia Frecuencia Nesperado
absoluta relativa de veces
Dos nmeros pares
Dos impares
Un par y un impar
Total 20 1 20
a) Trata de adivinar cuantas veces, aproximadamente, saldr el 3 y cuantas el 5 si
lanzas un dado 20 veces. Escribe este nmero en la columna "nmero esperado de
veces".
b) Lanza el dado 20 veces y anota los resultados en la tabla.
c) El profesor mostrar en la pizarra los resultados de toda la clase. Compara estos
resultados con los vuestros y con la estimacin que habis hecho. Cul de los
sucesos es ms probable?
4.14. Con el fin de apreciar la ley de estabilidad de las frecuencias relativas y
comparar los valores de la probabilidad asignados segn la regla de Laplace con el
correspondiente concepto frecuencial, se recomienda que los alumnos, por parejas,
realicen algunos de los experimentos aleatorios, anotando los resultados de sus
experimentos. A continuacin, se recogern todos los resultados de los distintos
grupos en una hoja de registro como la siguiente:
Suceso observado:
Pareja N de Frecuencia N de Frecuencia Frecuencia
N experimentos absoluta experimentos acumulada relativa (A/N)
acumulados (N) (A)
1
2
......
90
priori", aunque el nmero de experiencias de clase sea limitado.
El valor de la frecuencia relativa de un suceso no es fijo para n,
puesto que se trata de un fenmeno aleatorio. Dos alumnos de la clase que
realicen el mismo experimento 50 veces pueden obtener diferentes valores
de las frecuencias absoluta y relativa del mismo suceso. Sin embargo, para
una serie larga de ensayos, las fluctuaciones de la frecuencia relativa son
cada vez ms raras y de menor magnitud y oscila alrededor de un valor
bien determinado. Este hecho .tiene una demostracin matemtica, en los
teoremas conocidos como "leyes de los grandes nmeros". Tambin puede
observarse experimentalmente; por ejemplo, en las estadsticas recogidas
en grandes series de datos sobre natalidad, accidentes, fenmenos
atmosfricos, etc
La convergencia de las frecuencias relativas fue ya observada en el
siglo XVIII; Buffon, en 4040 tiradas de una moneda obtuvo cara 2048
veces, siendo la frecuencia relativa de caras, por tanto, 0,5069. Pearson
repiti este mismo experimento, obteniendo una frecuencia relativa de
0,5005 para 24000 tiradas. La estabilidad de frecuencias se presenta en
fenmenos de tipo muy diverso: sexo, color de pelo o de ojos, accidentes o
averas en maquinaria. Llamaremos probabilidad de un suceso aleatorio al
valor alrededor del cual oscila la frecuencia relativa del mismo, al repetir la
experiencia un nmero grande de veces.
91
ms difcil que ms del 70% de entre 100000 recin nacidos lo fuesen.
Con este ejemplo, vemos tambin que es muy importante el tamao de
la muestra en la estimacin de las probabilidades frecuenciales. A mayor
tamao de muestra mayor fiabilidad, porque hay ms variabilidad en las
muestras pequeas que en las grandes.
Actividades
4.15. Construccin de dados. Un dado ordinario se puede construir recortando en
cartulina el siguiente perfil
Figura 4.2
1. Construye un dado recortando en cartulina este perfil, pero numera dos caras
con el nmero 5 y ninguna con el 1.
2. Comparar entre si las probabilidades de obtener un 5, un 3 y un 1.
Compralas tambin con 0, 1/2 y 1.
3. Construye un dado, recortando en cartulina el perfil dibujado. Pega un
pequeo peso en la cara del 1, por ejemplo, un botn. De este modo hemos
construido un dado SESGADO. Qu consecuencias tiene el hecho de que
una cara del dado pese ms que las restantes? En este caso, obtener un 1 es
ms, menos o igual de probable que antes? Puedes construir un dado
sesgado de tal manera que casi siempre salga el 5?
4.16. Experimentos con chinchetas. Por parejas, los alumnos lanzan una caja de
chinchetas sobre una mesa, contando cuntas de ellas caen de punta o de cabeza.
Con los resultados de toda la clase puede estimarse, aproximadamente, la
probabilidad de estos dos sucesos y el profesor puede aprovechar para hacer
observar a los chicos que existen ejemplos de experimentos en los que la
aplicacin de la regla de Laplace no es pertinente.
4.17. Ruletas y tiro al blanco. Construye una ruleta como la que representamos a
continuacin. Slo necesitas un trozo de cartulina, un comps para trazar el
contorno circular, un bolgrafo como eje de giro y un clip sujetapapeles
parcialmente desenrollado.
a) Da un empujn al clip y observa en qu zona se para. Si se detiene en la zona
rayada decimos que ha ocurrido el suceso simple R; si se para en la blanca ocurre
el suceso simple B. Describe el espacio muestral
92
Figura 4.3
93
operacin salida de vacaciones.
2. Experimentos peligrosos, como estimar la temperatura de control o la
velocidad de reaccin permitida en una central nuclear.
3. Situaciones futuras: estudios ecolgicos o sobre contaminacin
ambiental.
Actividades
4.19. Explicar cmo usar la tabla de nmeros aleatorios de la figura 4.4, o los
nmeros aleatorios generados por tu calculadora, para simular los siguientes
experimentos:
Figura 4.4. Tabla de nmeros aleatorios
2034 5600 2400 7583 1104 8422 9868 7768 2512 9575
8849 5451 8504 3811 0132 8635 1732 4345 9047 0199
8915 2894 5638 4436 9692 8061 4665 9252 6729 9605
6989 0682 0085 5906 8542 6884 5719 5081 8779 9071
5093 8880 3466 0212 9475 4957 8474 8550 9572 6770
7940 3305 1183 8918 4397 3167 7342 7780 6745 4688
9808 7499 9925 0695 4721 7597 0922 4715 6821 2259
5667 7590 8599 5032 3042 3666 1160 3413 2050 1796
0644 2848 7347 7161 6813 8276 8175 6534 6107 8350
4153 0293 0882 9755 5109 1484 4798 8039 3593 6369
4621 0121 0251 9783 7697 4079 8952 4884 8838 1587
8490 4941 5203 2932 1008 6544 1137 1018 5123 0347
3160 4107 2194 1314 1310 7060 3075 5273 6592 8875
0140 1600 8468 6585 5257 4874 9097 8684 7877 8881
0483 7097 5973 4235 7466 0821 3261 1359 3706 4676
2657 13867 6896 3132 2648 8947 9518 7472 9285 3067
4286 4327 3848 9128 5350 0407 6215 4059 4546 5170
8445 5087 0964 2800 9369 1980 8490 7760 7548 1060
4946 4327 0966 7861 8381 5865 4447 9063 2085 3635
9786 8853 0667 9100 2303 4455 0389 6145 2618 5401
a) Lanzar tres monedas. Calcular la probabilidad de obtener al menos dos caras.
b) Supongamos que el 10% de bombillas de una fbrica es defectuosa. Las
bombillas se venden en cajas de 4 unidades. Simular el experimento consistente
en abrir una caja y contar el nmero de defectos.
4.20. Si en una asignatura de 10 temas has estudiado 8 y el examen consta de dos
preguntas, estimar la probabilidad de que no te toquen ninguna de las dos que no
te sabes, usando la simulacin.
4.21. Se toman 3 fichas de la misma forma y tamao, de las cuales una es roja por
ambas caras; otra es azul por una cara y roja por la otra, y la tercera es azul por las
dos caras. El profesor coloca las tres fichas en una caja, que agita
94
convenientemente, antes de seleccionar una de las tres fichas, al azar. Muestra, a
continuacin, una de las caras de la ficha elegida, manteniendo la otra tapada,
pidiendo a sus alumnos que adivinen el color de la cara oculta. Una vez hechas las
apuestas, el profesor muestra la cara oculta. Cada alumno que haya acertado en la
prediccin efectuada, consigue un punto. Se trata de simular el juego y buscar la
mejor estrategia en este juego.
Actividades
4.22. El experimento consiste en lanzar un dado con forma de dodecaedro, con los
nmeros del 1al 12 en sus caras. Encontrar la probabilidad de cada uno de los
siguientes sucesos: a) Obtener un nmero par; b) Obtener un nmero primo; c)
Obtener un divisor de 12.
4.23. Se lanza una moneda tres veces seguidas. a) Cul es la probabilidad de de
obtener 2 caras? b) Cul es la probabilidad de obtener ms caras que cruces?
4.24. Dos sucesos que no pueden ocurrir a la vez se llaman incompatibles. Por
ejemplo, no pueden ocurrir a la vez los sucesos "obtener par" y "obtener impar"
cuando lanzamos un dado. Tampoco podran ocurrir a la vez "ser menor que 3" y
"ser mayor .que 5". Describe otros ejemplos de otros sucesos incompatibles.
95
1. En el caso de espacios muestrales con un nmero finito de sucesos
elementales en los que pueda aplicarse el principio de indiferencia,
calculamos las probabilidades usando la regla de Laplace.
2. Si no podemos usar la regla de Laplace, pero tenemos informacin
estadstica sobre las frecuencias relativas de aparicin de distintos
sucesos, podemos obtener una estimacin frecuencial de las
probabilidades.
3. En los dems casos, el nico modo de asignar las probabilidades a los
sucesos es de modo subjetivo.
Actividades
4.25. Carmen y Daniel han inventado un juego de dados con las siguientes reglas:
Lanzan dos dados sucesivamente y calculan la diferencia de puntos entre el mayor
y el menor.
Si resulta una diferencia de 0, 1 o 2 entonces Carmen gana 1 ficha. - Si resulta 3,
4, o 5 es Daniel quien gana una ficha.
Comienzan con un total de 20 fichas y el juego termina cuando no quedan ms.
Te parece que este juego es equitativo? Si tuvieras que jugar, cul jugador
preferiras ser?
96
4.26. Se toma un nmero comprendido entre 0 y 999 Cul es la probabilidad de
que la cifra central sea mayor que las otras dos? Cul es la probabilidad de que el
nmero sea mltiplo de 5?
4.27. Se dispone de dos bolsas, cada una de las cuales contiene diez bolas
numeradas del 0 al 9. Realizamos un experimento aleatorio consistente en extraer
una bola de cada una de las bolsas. 1) Describir el espacio muestral asociado al
experimento. 2) Hallar la probabilidad del suceso A "obtener dos bolas iguales".
4.28. A un congreso de cientficos asisten 100 congresistas. De ellos, 80 hablan
francs y 40 ingls. Cual es la probabilidad de que dos congresistas elegidos al
azar no puedan entenderse sin intrprete?
4.7. COMBINATORIA
Al aplicar la regla de Laplace, se presenta a menudo el problema de
calcular el nmero de elementos de un cierto subconjunto del espacio
muestral. Podemos utilizar, en este caso el clculo combinatorio.
Muestreo
En el anlisis combinatorio, el problema es deducir el nmero de
muestras diferentes que pueden formarse a partir de un conjunto dado.
Podemos distinguir entre muestreo con y sin reemplazamiento, segn que
cada elemento de la poblacin pueda formar o no ms de una vez parte en
la muestra.
97
Por otro lado, es preciso distinguir entre muestras ordenadas y no
ordenadas. Una muestra se llama ordenada, cuando el orden en que han
sido extrados sus elementos es fundamental, y es por tanto, tenido en
cuenta. En este caso, dos muestras formadas por los mismos elementos,
pero difiriendo en el orden, son consideradas distintas. Cuando el orden no
influye, de modo que dos muestras son diferentes slo si varan en algn
elemento, las muestras se llaman no ordenadas. De acuerdo con la
clasificacin anterior, a partir de un conjunto o poblacin de m elementos,
podemos formar cuatro tipos de muestras o grupos de tamao n. En el
estudio combinatorio clsico estos grupos reciben el nombre de
variaciones con o sin repeticin y combinaciones con o sin repeticin.
98
Ejemplo 4.2. De cuantas formas posibles pueden colocarse en fila 5
personas? Hay 4*4*3*2*1=120 formas diferentes.
99
Si llamamos VRm,n al nmero de variaciones con repeticin de m
elementos tomados n a n, aplicando la regla del producto se deduce que:
VRm, n= mn
Los nmeros m
reciben el nombre de nmeros combinatorios y
n
tienen, entre otras las siguientes propiedades:
n n
(4.7) 1
0 n
100
m m
(4.8)
n m n
m m m 1
(4.9)
n n 1 n 1
101
Actividades
4.29. La seora Rodrguez tiene 6 sombreros, 4 camisas y 7 faldas diferentes. De
cuantas formas puede elegir un vestuario formado por falda, camisa y sombrero?
4.30. De cuantas maneras pueden colocarse 8 torres en un tablero de ajedrez sin
que ninguna pueda comer a las otras?
4.31. Cuantos resultados distintos puede obtenerse al lanzar 6 veces una moneda?
4.32. Cuantas palabras diferentes de 4 letras pueden formarse en cdigo morse?
4.33. De cuantas formas pueden colocarse 7 libros en un estante?
4.34. Diez jugadores de tenis compiten en un torneo. De cuantas maneras pueden
ordenarse para jugar el primer encuentro, si se dispone de una sola pista?
4.35. Una clase consta de 10 chicos y 10 chicas. De cuantas formas se pueden
dividir en 2 grupos de 10 estudiantes? Cual es la probabilidad de que cada grupo
est formado por 5 chicos y 5 chicas?
4.36. Un frutero vende pltanos, peras y manzanas a duro la pieza. Con 10 duros
Cuantas compras diferentes pueden hacerse?
4.37. En un polgono regular convexo de n lados se unen al azar dos vrtices
distintos. Hallar la probabilidad de obtener una diagonal.
4.38. Una persona ha colocado revueltos 10 pares diferentes de guantes en un
cajn. Cual es la probabilidad de que, al tomar dos guantes al azar, uno sea de la
mano derecha y otro de la izquierda? Cual ser la probabilidad de que sean de un
mismo par?
4.39. En una jaula hay 9 cobayas de los cuales 6 son machos y 3 hembras. Cul
es la probabilidad de que al tomar 5 de ellos slo se elija una hembra?
4.40. En un sorteo que consta de 500 nmeros hay 10 premios. Una persona
compra 5 papeletas. Cul es la probabilidad de recibir algn premio?.
102
estos casos, resulta conveniente introducir el concepto de probabilidad
condicionada.
Sea E el espacio muestral asociado a un experimento aleatorio y A y B
dos resultados posibles de dicho experimento. Si en N pruebas ha resultado
NA veces el suceso A, y entre estas ha resultado NAB veces el B, tendremos:
NA N AB N AB
h( A) ; h( B / A) ; h( A B )
N NA N
como
N AB N A N AB
N N NA
103
probabilidad de que el cuarto sea mujer.
En este ejemplo haremos la simplificacin de suponer igualmente
probables el hecho de nacer varn o mujer. Si no se tuviese informacin
sobre el gnero de los tres primeros hijos, las posibles combinaciones de
sexos en un matrimonio de cuatro hijos sern:
E = {vvvv, mvvv, vmvv, vvmv, vvvm, vvmm, vmvm, vmmv,
mvvm, mvmv, mmvv, mmmv, mmvm, mvmm, vmmm, mmmm}
Sea A= "los tres primeros son varones" y B= "el cuarto es mujer", entonces
tendremos,
A={vvvv,vvvm};
B={vvvm,vvmm,vmvm,mvvm,mmvm,mvmm,vmmm,mmmm}
AB = {vvvm}; P(B) = 8/16= 1/2; P(A) = 2/16 = 1/8. Por tanto,
P( A B)
P( B / A) 1/ 2
P( A)
La probabilidad de que los tres primeros sean varones si el cuatro es mujer
P(A/B) es 1/8, como puede comprobarse fcilmente.
104
Ejemplo 4.5. Supongamos que una urna contiene 3 bolas rojas y 2 blancas
y nos preguntamos cual ser la probabilidad de que, tomando 3 bolas de la
urna, sin reemplazamiento, las 3 sean rojas.
Sea A1 = "la 1 bola es roja"
A2 = " la 2 bola es roja"
A3 = " la 3 bola es roja"
P(A1 A2 A3) = P(A1).P(A2/A1).P(A3/A1A2)= (3/5)(2/4)(1/3)
105
Ejemplo 4.7. La probabilidad de que un matrimonio de 4 hijos tenga al
menos una nia:
P(al menos una nia) = 1- Pr(vvvv) = 1- = 15/16
Actividades
4.41. La probabilidad de que un hombre viva 65 aos es 2/5 y la probabilidad de
viva una mujer es 2/3. Se pide: a) Probabilidad de que ambos vivan 65 aos; b)
Probabilidad de que viva slo el hombre; c) Probabilidad de que viva slo la
mujer; d) Probabilidad de viva uno de los dos al menos.
4.42. La tabla de longevidad en un cierto pas indica que la probabilidad de llegar
a los 25 aos es 0,95, mientras que la de llegar a los 65 aos es 0,64. Si una
persona tiene 25 aos, cual es la probabilidad de que llegue a los 65 aos?
4.43. Una caja contiene las 11 letras MIIIIPPSSSS. Las letras son extradas una a
una sin reemplazamiento y los resultados se registran en orden. Encontrar la
probabilidad de que resulte MISSISSIPPI.
4.44. Se tienen dos cajas con las siguientes letras: SOS, SOS, SOS. Se debe elegir
una de las dos cajas y a continuacin extraer, al azar, tres letras, una a una sin
reemplazamiento. Si el resultado es SOS entonces se gana un premio. Qu caja
elegiras?
4.45. Un temario de examen se compone de 40 temas de los que un estudiante
conoce 30. El examen consta de 2 temas a los cuales se ha de contestar. Cual es
la probabilidad de aprobar el examen? Y si el alumno puede elegir 2 temas entre
3?
4.46. En una facultad el 45% de los estudiantes dominan el ingls, el 25% tiene
conocimientos de informtica y un 10% las dos cosas. Si tomamos al azar un
alumno de los que hablan ingls, Cual ser la probabilidad de que tambin tenga
conocimientos de informtica? Si tomamos un alumno al azar Cual es la
probabilidad de que no sepa ingls ni informtica?
4.47. Un cierto anlisis clnico da resultados positivos en 2 de cada 3 enfermos de
hgado. Si a tres enfermos de hgado de les efecta esta prueba Cual es la
probabilidad de obtener al menos un resultado positivo?
4.48. Cada vez que el seor Garca asiste a una reunin de 7 personas, apuesta 100
pesetas contra 1 a que dos de ellas al menos han nacido el mismo da de la
semana. Cul es la probabilidad de que pierda su apuesta?
4.49. Dos chicos juegan al baloncesto. Pedro encesta 3 de cada 5 pelotas lanzadas,
mientras que Juan logra 2 de cada 3 intentos. Si cada uno hace un lanzamiento.
Cual es la probabilidad de que ambos logren encestar?
4.50. Cul es la probabilidad de obtener 6 nmeros diferentes al lanzar 6 veces
un dado?
4.51. El 1 % de la poblacin de un pas es daltnica. Tomamos una muestra de n
106
personas. Cual es el mnimo n, para que la probabilidad de obtener al menos un
daltnico sea mayor de 0,95?
4.52. Cada uno de los motores de un avin puede averiarse durante un vuelo, con
probabilidad 0,01. El avin puede continuar su vuelo si funcionan al menos la
mitad de los motores. Que es ms seguro, un avin de 2 o de 4 motores?
4.53. Ruletas no transitivas: Supongamos que tenemos tres ruletas. Con la primera
siempre obtenemos el nmero 3. Con la segunda obtenemos el nmero 1 con
probabilidad 0,52 y el nmero 5 con probabilidad 0,48. Con la tercera obtenemos
el nmero 0 con probabilidad 0,25 y el nmero 4 con probabilidad 0,74.
Jugamos a un juego en el que dos jugadores eligen una ruleta cada uno y gana
aqul que consiga el nmero mayor al girar la ruleta. Cul jugador tiene ventaja,
el que elige la ruleta en primer o segundo lugar?
Teorema de Bayes
Consideremos un experimento aleatorio y supongamos que su espacio
muestral asociado es E. Sean los sucesos A1, A2, An una particin de E,
cuyas probabilidades se conocen. Sea B un suceso cualquiera del espacio
muestral, del que conocemos las probabilidades P(B/Ai). El siguiente
esquema representa esta situacin.
107
El teorema de Bayes permite calcular las probabilidades P(Ai/B),
mediante la siguiente frmula:
P( Ai ) P( B / Ai )
(4.14) P( Ai / B)
P( A1 ) P( B / A1 ) P( A2 ) P( B / A2 ) ... P( An ) P( B / An )
108
P ( B D) P( B) P( D / B)
P ( B / D)
P ( D) P( A) P( D / A) P( B) P( D / B) P(C ) P( D / C )
0, 26 0, 02 0, 0052
P ( B / D) 0,116697
(0, 43 0, 08) (0, 26 0, 02) (0,31 0, 016) 0, 04456
109
Seleccionamos al azar una persona en una gran ciudad Cul es la
probabilidad de que tenga narcolepsia?
Probabilidad inicial: probabilidad inicial de sufrir narcolepsia en una
persona tomada al azar de la poblacin P(N)= 1/1000
110
Pero un suceso con probabilidad pequea no es un suceso imposible y
puede ocurrir. Ms an, si el nmero de personas que pasan la prueba es
muy grande, pueden aparecer ms falsos positivos que positivos reales
(como en el ejemplo).
111
P (mayor de 30 aos)=0,78; es una probabilidad inicial.
P(accidente /menor 30 aos)=0,11; es una verosimilitud.
P(accidente /mayor o igual de 30 aos)=0,05; es una verosimilitud.
112
P(depresin /si no hubo ansiedad inicial)=0,02; es una verosimilitud.
0
1 2 3 4 5
113
de variable aleatoria asociada al experimento. En el ejemplo, si
suponemos que se lanza el dado un nmero grande de veces, los resultados
posibles sern 1,2,3,4,5,6 y, adems, las frecuencias relativas de cada
resultado tienden a la probabilidad, que es 1/6.La variable, que
representamos por , y que toma los valores 1,2,3,4,5,6, con probabilidad
1/6 para cada valor, recibe el nombre de variable aleatoria (figura 4.7).
1 2 3 4 5 6
Actividades
4.54. Consideramos el experimento de lanzar dos dados y anotar los resultados
obtenidos. El espacio muestral ser: E{(1,1), (1,2),...,(1,6), ..., (6,6)}. Podemos
definir distintas variables aleatorias asociadas a este experimento. Una podra ser
la correspondencia que asocia a cada elemento de E, la suma de puntos. Escribe en
una tabla los valores posibles de esta variable y sus respectivas probabilidades.
4.55. Monedas dependientes. Una bolsa contiene 7 monedas de 100p, 50p, 50p,
50p, 10p, 10p, 10p. Sacamos dos monedas al azar. Cul es el valor esperado de
su suma? Depende este valor esperado de si la primera moneda es o no
reemplazada? Por qu?
4.56. Paradoja de Blythe. Tenemos tres ruletas: La primera siempre da como
resultado el nmero 3. La segunda da como resultado 2 con probabilidad 0.51, 4
con probabilidad 0.29 y 6 con probabilidad 0.20. La tercera da como resultados 1
con probabilidad 0.52 y 5 con probabilidad 0.48. Si cada uno de dos jugadores
tiene que elegir una ruleta, y gana el que obtenga el nmero mayor, cual es la
mejor eleccin para el primer jugador? Cambie esta eleccin si son tres los
jugadores?
114
De los ejemplos anteriores, podemos afirmar que una variable
aleatoria es una variable cuyos valores dependen del resultado de un
experimento aleatorio; Frecuentemente el resultado de un experimento se
expresa en forma numrica y, en consecuencia, tal resultado es una
variable aleatoria. Por ejemplo: "observar la temperatura diaria a las 8 h. en
Jan", "Observar la altura (o bien, el peso, pulsaciones por segundo, el C.I.
etc), de un colectivo de individuos.
De modo similar a las variables estadsticas, clasificamos las variables
aleatorias en discretas o continuas segn que el conjunto de valores que
puedan tomar sea o no numerable.
115
35,53 8 1/10
45,54 9 1/10
12
8
4
0
3 4 5 6 7 8 9
Actividades
4.57. Se lanza una moneda 3 veces Representa grficamente la distribucin de
probabilidad y la funcin de distribucin de la variable aleatoria "nmero de caras
obtenidas" Cmo sera esta distribucin si se considera que la moneda est
sesgada y la probabilidad de obtener cara es p?
4.58. De un lote de 10 aparatos, en los que hay 3 defectuosos, se toman 2 al azar,
si reemplazamiento Hallar la distribucin de probabilidad de la variable aleatoria "
nmero de defectos en la muestra" Cual es la probabilidad de obtener a lo ms un
defecto?
4.59. Hallar la distribucin de probabilidad de la variable aleatoria "nmero de
veces que hay que lanzar un dado hasta obtener por primera vez un 6" Cual es la
probabilidad de que el nmero de lanzamientos sea par?
4.60. De una baraja espaola se extraen 6 cartas sin reemplazamiento Representar
grficamente la distribucin de probabilidad y la funcin de distribucin del
nmero de ases obtenidos.
Esperanza matemtica
Al estudiar las variables estadsticas, consideramos una serie de
valores o caractersticas que sirven de resumen de la distribucin de
frecuencias. Igualmente es de inters definir las caractersticas de una
variable aleatoria, como una serie de valores que resumen toda la
distribucin. Uno o varios de estos valores sirven, adems, para especificar
completamente la distribucin de probabilidad y se suelen llamar
116
parmetros de la distribucin. Uno de ellos es la media de la variable o
esperanza matemtica.
Sea una variable aleatoria discreta, que toma los valores x1, x2, ,
xk, con probabilidades p1, p2, ..., pk. Se llama media, esperanza
matemtica o valor esperado de la variable a la suma:
k
(4.17) x p
i 1
i i E ()
117
cruces. De esta forma:
E()=30x2/8-10x1/8=0
118
Actividades
4.61. Para realizar un anlisis de sangre a un grupo de r personas, con objeto de
detectar una posible enfermedad, tenemos dos alternativas. La primera consiste en
efectuar a cada uno una prueba. En la segunda, se mezcla la sangre de las r
personas y se efecta una prueba nica. Si todos los individuos estn sanos, el
resultado del test es negativo, y se finaliza el anlisis. Si uno al menos del grupo
est enfermo, el test ser positivo. En dicho caso, se hace un anlisis individual a
cada uno de los componentes del grupo para averiguar cual o cuales son los
enfermos. Supuesto que la proporcin de enfermos en la poblacin es 0,1,
describir la distribucin del nmero de anlisis necesarios para examinar a las r
personas. Hallar la media de dicha variable. Usar distintos valores de r, y deducir
cual es el agrupamiento que proporciona mayor economa.
4.62. Una moneda sesgada, tal que Pr(cara)=2/3, se lanza 4 veces. Hallar la media,
mediana y moda del mayor nmero de caras consecutivas.
119
Calcularemos la distribucin y caractersticas de dicha variable aleatoria.
120
son los trminos del desarrollo del binomio (p+q)n. De esta expresin se
deduce tambin que la distribucin queda perfectamente determinada
cuando se conocen los valores de p y n, que sern llamados parmetros de
la distribucin. En adelante representaremos la distribucin binomial de
parmetros n y p por B(n,p).
Puede demostrarse que la media y varianza de dicha variable
aleatoria se calculan mediante (4.20) y (4.21).
(4.20) =np
(4.21) Var ()=npq
121
Figura 4.9. Distribucin binomial
Actividades
4.63. El 10 por ciento de una poblacin tiene grupo sanguneo 0 Que
probabilidad existe de que, al tomar 5 personas al azar, exactamente 3 sean de
grupo 0?
4.64. Un autobs llega con retraso a su parada uno de cada diez das Si una
persona toma una vez al da este autobs Cual es la probabilidad de que en una
semana no sufra retraso?
4.65. Un radar es capaz de detectar un blanco una de cada diez veces que efecta
un barrido de la zona Hallar la probabilidad de que el blanco no sea detectado en 4
barridas, en 10 barridas, en n barridas
4.66. Supngase que el 85% de votantes de un distrito piensa acudir a realizar la
122
votacin, en unas elecciones municipales Hallar la probabilidad de que en una
familia compuesta por tres votantes, dos o ms cumplan con esta obligacin
4.67. Si el 6% de los nios en edad preescolar son dislxicos Cual es la
probabilidad de que entre 8 nios haya algn dislxico?
4.68. Dos jugadores A y B compiten en un torneo de ajedrez Se acuerda que el
torneo conste de 6 partidas y que gane aquel que consiga mayor nmero de
victorias Si A gana el 60% de las partidas que juega contra B Cual es la
probabilidad de que B sea el ganador?
4.69. Una cierta enfermedad tiene tasa de mortalidad del 10% .Al ensayar un
nuevo tratamiento en un grupo de 10 pacientes, 4 de ellos fallecieron. Hay
evidencia suficiente para indicar que el tratamiento es inadecuado?
Actividades
4.70. Supngase que el 85% de votantes de un distrito piensa acudir a realizar la
votacin, en unas elecciones municipales. Hallar la probabilidad de que en una
familia compuesta por tres votantes, dos o ms cumplan con esta obligacin.
4.71. Si el 6% de los nios en edad preescolar son dislxicos Cul es la
probabilidad de que entre 8 nios haya algn dislxico?
4.72. Dos jugadores A y B compiten en un torneo de ajedrez Se acuerda que el
torneo conste de 6 partidas y que gane aquel que consiga mayor nmero de
victorias Si A gana el 60% de las partidas que juega contra B Cual es la
probabilidad de que B sea el ganador?
4.73. Una cierta enfermedad tiene tasa de mortalidad del 10% Al ensayar un nuevo
tratamiento en un grupo de 10 pacientes, 4 de ellos fallecieron Hay evidencia
suficiente para indicar que el tratamiento es inadecuado?
123
4.13. DISTRIBUCION DE POISSON
Si en la distribucin binomial aumentamos indefinidamente el nmero
de pruebas, manteniendo constante el producto np= , obtenemos una
nueva distribucin que recibe el nombre de distribucin de Poisson.
Diremos que una variable aleatoria discreta sigue la distribucin de
Poisson si toma los valores enteros 0, 1, 2 y su distribucin de
probabilidades es la dada por:
p(=r)=e- r / r!
0,24 Media
3
0,2
0,16
0,12
0,08
0,04
0
0 2 4 6 8 10 12
124
Al igual que en la distribucin binomial, pueden utilizarse tablas o
bien programas para simplificar los clculos.
125
que este nmero sea exactamente k. Haremos las hiptesis siguientes:
126
distribuciones espaciales. Cuando un cierto nmero de "partculas"
(plantas, bacterias, glbulos rojos, estrellas) se hallan repartidas al azar en
un cierto medio (superficie de terreno, lquido, sangre, galaxia) y es el
nmero medio de tales cuerpos por unidad de medio, la variable "nmero
de partculas en u unidades de medio sigue una distribucin de Poisson de
parmetro u.
Actividades
4.74. Estudiando la desintegracin radioactiva, se ha comprobado que el nmero
de partculas alfa que llegan a un cierto contador, por trmino medio, es de 10
partculas cada 30 segundos. Calcular la probabilidad de que en 30 segundos se
obtengan menos de 4 partculas. dem de que en 15 segundos se obtenga alguna
partcula.
4.75. Se supone que la demanda de una marca de relojes en un comercio sigue una
distribucin de Poisson, con media 10 unidades semanales Cual es el stock que
ha de tener el comerciante, a principios de semana, para tener una probabilidad de
095 de satisfacer la demanda?
4.76. Si la probabilidad de que un individuo sufra un accidente de trfico un fin de
semana es 00001, determinar la probabilidad de que se produzcan 2 o ms
accidentes entre un total de 5000 individuos.
4.77. Calcular la probabilidad de que entre 300 individuos tomados al azar, 4 al
menos hayan nacido el da de Navidad.
4.78. En un libro de 400 pginas hay 40 erratas distribuidas al azar Cual es el
nmero de pginas libre de defectos? Cual es la probabilidad de que en una
pgina tenga ms de 5 defectos?
4.79. Supongamos que un cable de acero tiene un promedio de un defecto cada 20.
Si este cable se vende en rollos de 5 metros Que porcentaje de rollos ser
defectuoso?
4.80 Cuantas pasas hay que poner en un pastel de un kilo para que, al dividirlo en
porciones de 50 gramos, la probabilidad de obtener una porcin sin pasas sea
como mucho 005?
127
Clculo de probabilidades tericas
Se trata de calcular la probabilidad de que una cierta distribucin
terica (por ejemplo, la normal) tome ciertos valores. Este programa hace
el mismo papel que las tablas de distribuciones que aparecen en los libros
de texto, con la ventaja que el programa nos da directamente los valores
para una gran variedad de casos.
Al entrar al men Grficos Distribuciones de probabilidad aparece
una ventana con diversos modelos de distribuciones. Si, por ejemplo,
seleccionamos la distribucin NORMAL, aparecer una ventana de
anlisis. En ella pulsamos el botn derecho del ratn y seleccionamos
Opciones de anlisis Aparecer un cuadro de dilogo como el de la figura
4.11, donde daremos los valores de la media y desviacin tpica
correspondiente a la distribucin que se est utilizando.
128
Figura 4.12. Ventana de resultados Figura 4.13. Distribucin Acumulada
129
Figura 4.14. Ventana de anlisis Figura 4.15. Grabacin de la variable generada
Una vez que se generan los nmeros aleatorios, se deben grabar, para
ello entrar en el botn Guardar resultados (cuarto icono de la ventana de
anlisis), aparecer una ventana como la de la figura 4.15, en la que se
debe ingresar el nombre de la variable (en la figura aparece como
ALEAT1) y seleccionar el campo Nmeros aleatorios para Dist 1, luego
hacer clic en el botn Aceptar. De esta manera se generar una nueva
variable en la hoja de clculo. Este procedimiento puede repetirse todas las
veces que se desee para todas las variables que se quieran generar y
tambin, pueden colocarse otros nombres distintos a los que aparecen por
defecto en el cuadro Variables Destino.
130
TEMA 5
VARIABLE ALEATORIA CONTINUA
Actividad
5.1. La Tabla de frecuencias 5.1 ha sido obtenida con STATGRAPHICS a partir
de los datos sobre altura de una muestra de 1000 chicas de edades comprendidas
entre 15 y 20 aos Qu puedes deducir, sobre la forma del histograma y
polgono de frecuencias de esta distribucin? En qu intervalo se encontraran la
moda y mediana? Cul sera su valor aproximado? Podras estimar la
probabilidad de que una chica elegida al azar de la poblacin de chicas de donde
se ha tomado esta muestra tenga una altura entre 160 y 170? Y que mida ms de
174 cm?
131
Tabla 5.1. Tabla de frecuencias para altura
132
Figura 5.1. rea bajo la funcin de densidad
a b
133
El histograma es unimodal (una sola moda), y la moda se sita,
aproximadamente, en el centro de la distribucin. El mayor nmero de
casos se concentra en el intervalo 90-100 y a ambos lados la distribucin
decrece rpidamente, aunque es todava algo asimtrica. Al aumentar a la
vez la muestra y el nmero de intervalos (Figuras 5.3 y 5.4) el histograma
se aproximan a una curva continua que llamaremos curva de densidad. La
funcin matemtica correspondiente a dicha curva se llama funcin de
densidad.
60
frequency
40
20
0
60 80 100 120 140 160
C. I.
134
claramente si continuamos el proceso de aumentar el tamao de muestra y,
a la vez el nmero de intervalos, como se puede apreciar en al figura 5.4
que corresponde a 10.000 puntuaciones del C. I.
Una funcin de densidad debe ser siempre positiva, lo cual implica
que la grfica de la funcin de densidad est por encima del eje horizontal.
Esto es debido a que la probabilidad es siembre igual o mayor que cero
Mediante la funcin de densidad podemos calcular probabilidades de
diverso tipo, como se muestra en los siguientes ejemplos.
El rea total bajo la curva y por encima del eje horizontal es igual a 1, al
ser la suma de todas las reas corresponde a la suma de todas las
probabilidades, en consecuencia, dicha suma (integral) es 1 y lo
expresamos en la forma siguiente:
f ( x ) dx 1
Actividad
5.2. En un hospital se comprob que el peso de nacimiento de las nias era una
variable aleatoria que tomaba valores entre 2 y 4 kilos, siendo la funcin de
densidad:
135
x / 6 para 2<x<4
f ( x)
0 fuera del intervalo
Cual ser la proporcin de nias con peso superior a 3 kilos?
136
Puede observarse que F es derivable excepto en los puntos x=0, 1/2,
3/4 y 1. En los casos en que es derivable su derivada es igual a f(x).
Actividades
5.3. Suponiendo que el tiempo de espera del metro es una variable aleatoria
continua que tiene por funcin de distribucin:
137
k
variable x = xi hi , siendo xi, las marcas de clase en el histograma de
i 1
Actividades
5.6. Hallar el tiempo medio de espera en la actividad 5.3. Hallar la media y la
varianza de la distribucin de la actividad 5.5.
138
Datos econmicos: distribucin de las fluctuaciones de los ndices de
precio o de las cotizaciones en bolsa de un cierto valor alrededor de la
lnea de tendencia;
Actividades
5.7. Representa, aproximadamente, la funcin de densidad que correspondera a
las alturas de las 1000 chicas, dadas en la Tabla 1, y comprala con la grfica
usual en las distribuciones normales. Piensas que se obtendra una buena
aproximacin al representar los datos mediante una distribucin normal? Cules
seran la media y desviacin tpica de dicha distribucin normal terica?
139
5.3. PROPIEDADES DE LA DISTRIBUCIN NORMAL
Simetra
La funcin de densidad normal es simtrica, respecto a su media,
debido a que en su frmula aparece una exponencial al cuadrado. Algunas
propiedades derivadas de la simetra son las siguientes:
Las dos reas que se forman al dividir la grfica por el eje de simetra
(rea superior e inferior), son iguales y cada una de ellas representa el 50
% de casos en el conjunto de datos.
Puesto que la media, mediana y moda, en las distribuciones simtricas
coinciden en un mismo punto, por lo tanto son iguales en las
distribuciones normales.
La moda, que es el punto sobre el eje horizontal donde la curva tiene su
mximo, en la distribucin normal coincide con la media. Por tanto los
valores cercanos a la media son los que alcanzan la mxima
probabilidad.
Actividades
5.8. Supongamos que hacemos un estudio estadstico sobre los alumnos de la
clase. Describir ejemplos de variables cuya distribucin pudiera aproximarse bien
mediante la distribucin normal y otras para las que no sea adecuada dicha
distribucin.
es la media y
es la desviacin
tpica.
140
1 2
1 2 x
1
0,2
0,1
0
-10 -6 -2 2 6 10
x
141
no de la distribucin (figura 5.9):
Actividades
5.9. Las puntuaciones en un test de inteligencia de un grupo de alumnos siguen
una distribucin normal con media 110 y desviacin tpica 25. Qu proporcin
de alumnos punta por encima de 110? Obtener los valores de las puntuaciones
tales que el 95% central de los casos est comprendido entre dichos valores.
5.10. La temperatura media en Noviembre en Segovia sigue una distribucin
normal con 8 grados de media y 3 grados de desviacin tpica. Cul es la
probabilidad de que la temperatura est un da comprendida entre 5 y 11 grados?
Y entre 2 y 5 grados? Cul es la probabilidad de que la temperatura sea menor
que 2 grados?
5.11. Dada una distribucin de puntuaciones de un test que sigue la distribucin
normal de probabilidades, con media =12 y =4, Qu porcentaje de casos cae
entre 8 y 16?
142
En conclusin, el 95 % central de los chicos est comprendido
aproximadamente entre 59,5 y 69,5 kilos de peso. El otro 5 % de chicos
tienen pesos que estn fuera del intervalo (59,5 69,5). Pero como la
distribucin normal es simtrica, la mitad de este 5% de chicos se
encontrar en cada una de las colas inferior y superior de la distribucin.
Por lo tanto el 2,5 % de los chicos tienen pesos menores que 59,5 kilos y el
2,5 % tiene pesos mayores que 69,5 kilos.
Ejemplo 5.4.
1) Cul es aproximadamente la proporcin de personas que poseen una
medida de CI menor que 100? Puesto que la media es 100 y la
distribucin es simtrica, aproximadamente la mitad de las medidas de
CI estn a cada lado de la media 100, por lo tanto, la proporcin de
personas con un CI menor que 100 es igual al 50%.
2) Cul es el intervalo que contiene a ese 95 % central de valores para la
distribucin del CI? Hemos visto que el 95% de casos centrales est a
una distancia 2 de la media . El intervalos es, por tanto (70, 130).
3) Una persona con una medida de CI que excede los 130 puntos es
considerada superdotada. Cul es la probabilidad de que una persona
elegida en forma aleatoria est dentro de esta categora? Puesto que
fuera del intervalo anterior queda un 5% de casos repartido a ambos
lados, la probabilidad pedida es 2,5 % .
143
valores atpicos.
Se puede usar estos grficos para evaluar si una distribucin es o no
normal, marcando los puntos x, x s, y x 2s, sobre el eje x. Luego
se compara la frecuencia de observaciones en cada intervalo con la regla
68 95 99,7 que hemos estudiado para las distribuciones normales.
Actividades
5.12. Dada una distribucin de puntuaciones N(16,4) qu lmites incluyen el 68
por ciento central de los casos? Si queremos aprobar el 95 por ciento de los
alumnos, a partir de qu nota debe considerarse aprobado?
5.13. Las puntuaciones obtenidas por 300 nios de un colegio de EGB al
aplicarles un test de aritmtica siguen una distribucin normal de media 24 y
desviacin tpica 4.Cul es la probabilidad de obtener puntuacin igual o inferior
a 16? b) Cuntos nios de dicho colegio tienen igual o mayor puntuacin que 28?
5.14. Los errores aleatorios de una cierta medicin obedecen a una ley normal con
una desviacin tpica de un 1 mm y esperanza matemtica 0. Hallar la
probabilidad de que de dos observaciones independientes el error por lo menos en
una de ellas no supere el valor absoluto de 1 mm.
144
Porcentajes de casos alrededor de la media. Se puede estudiar el
porcentaje de casos que se distribuye en los (xs;x+s); (xs;x+2 s);
(x3s;x+3s), siendox la media de la muestra y s la desviacin tpica de
la muestra y compararlos con los que esperamos en una distribucin normal
(68, 95 y 99,7). En el ejemplo 5.3, la proporcin correspondiente al
intervalo (84; 114) es 67,78%; al intervalo (x2s; x+2s) corresponde
96,6% y al (x3s; x+3s) = (55,17; 144,65) (55; 145) le corresponde el
99,3 %.; por tanto los datos son aproximadamente normales.
145
obtenemos los siguientes datos:
Resumen del anlisis
Datos: COEF_INT
1000 valores comprendidos desde 41,0 hasta 146, 0
Distribucin normal ajustada
Media = 99,0551
Desviacin Tpica = 15,3527
Actividades
5.15 La figura 5.14 muestra la curva de densidad de una distribucin uniforme. La
curva toma el valor constante 1 sobre el intervalo (0,1) y toma el valor 0 fuera de
dicho intervalo. Esto significa que los datos descriptos por la distribucin toman
valores que se extienden uniformemente entre 0 y 1.
146
Figura 5.14
Utilice las reas bajo esta curva de densidad para
responder a las siguientes cuestiones:
a) Qu porcentaje de las observaciones cae por
encima de 0,8?
b) Qu porcentaje de las observaciones cae por
0 1
debajo de 0,6?
c) Qu porcentaje de las observaciones cae entre 0,25 y 0,75?
5.16 La distribucin de las alturas de hombres adultos es aproximadamente
normal con una media de 69 pulgadas y una desviacin tpica de 2,5 pulgadas.
a. Traza una curva normal y sobre ella localiza la media y la desviacin tpica.
b. Usa la regla 68 95 99,7 para responder a las siguientes cuestiones: Qu
porcentaje de hombres tienen una altura mayor que 74 pulgadas?
c. Entre qu alturas est comprendido el 95 % central de los hombres?
d. Qu porcentaje de hombres tienen una altura menor a 66,5 pulgadas?
5.17 Las puntuaciones de un test es aproximadamente normal con = 110 y =
25. Utilizando la regla 68 95 99,7 responde a las siguientes cuestiones:
a. Qu porcentaje de personas tiene puntuaciones por encima de 110?
b. Qu porcentaje de personas tiene puntuaciones por encima de 160?
c. Cul es el intervalo que abarca el 95 % central de los puntuaciones de CI?
5.18 Las medidas repetidas de la misma cantidad fsica generalmente tienen una
distribucin aproximadamente normal. A continuacin se reproducen 29 medidas
hechas por Cavendish de la densidad de la Tierra, realizadas en 1798 (Los datos
dan la densidad de la Tierra como un mltiplo de la densidad del agua).
5,50 5,61 4,88 5,07 5,26 5,55 5,36 5,29 5,58 5,65
5,57 5,53 5,62 5,29 5,44 5,34 5,79 5,10 5,27 5,39
5,42 5,47 5,63 5,34 5,46 5,30 5,75 5,68 5,85
147
medida la desviacin tpica , y como origen de coordenadas la media .
Esto puede ser til en situaciones de comparacin de variables diferentes,
como en el ejemplo siguiente:
Comparando las columnas (2) y (4) de la Tabla 5.5, podemos ver que
ngel est por encima de la media en Ingls, Matemticas y Fsica, y est
por debajo en Economa e Informtica. Carlos, cuyas puntuaciones pueden
verse en la columna 4, tiene puntuaciones mayores que el primero en dos
asignaturas y puntuaciones menores para las otras tres. Sera injusto
considerar slo las puntuaciones absolutas para adjudicar la beca, debido a
que cada asignatura punta en forma diferente. Necesitamos una escala
comn antes de realizar las comparaciones mencionadas anteriormente. Las
puntuaciones tpicas pueden proporcionarnos la escala comn que estamos
buscando.
Como hemos comentado, la grfica de todas las distribuciones
normales podran superponerse, si, en lugar de usar las puntuaciones
148
originales, las transformamos, usando como unidades de medida la
desviacin tpica , y como origen de coordenadas la media . Este cambio
de unidad de medida se llama tipificacin. Si x es una observacin de una
distribucin que tiene media y desviacin tpica , el valor tipificado de x
es:
x
z
Cuando hacemos una transformacin en la variable, el rea entre dos
valores x1 y x2 en la distribucin original (rea I) es igual al rea entre los
puntos transformados z = z1 y z = z2 (rea II) en la figura 18, puesto que la
probabilidad de que la variable original toma valores comprendidos entre x1
y x2 es igual a la probabilidad que los valores transformados estn
comprendidos entre z = z1 y z = z2.
149
total de las puntuaciones originales da una ventaja a ngel de 37 puntos, y
en promedio una superioridad de cerca de 7 puntos, las puntuaciones
tipificadas cambian el orden, dando a Carlos una ventaja de casi dos puntos
y 0,39 en promedio. Por lo tanto, Carlos debera ganar la beca.
Actividades
5.19. Para comparar entre s diferentes distribuciones normales, conviene tipificar
la variable, restndole la media y dividiendo por su desviacin tpica, obteniendo
de este modo las puntuaciones Z o puntuaciones tipificadas. Para la distribucin
de la actividad 1 (altura de chicas), tomando la = 165 y = 5. a) Cules seran
las puntuaciones tipificadas para las alturas 164, 178, 150? b) Qu alturas
corresponden a las puntuaciones tipificadas Z=0, Z=1, Z=-2? Compara los
resultados de ambos tems.
5.20. Cul ser la media y desviacin tpica de las puntuaciones tipificadas?
5.21. Dada una distribucin de puntuaciones de un test que sigue la distribucin
normal de probabilidades, con media N(12,4), Qu porcentaje de casos cae entre
8 y 16? Qu proporcin de casos se hayan por encima de la puntuacin 18?
5.22. Dada una distribucin N(29, 5), qu tanto por ciento de la distribucin
caer entre los valores 22 y 26?
5.23. Dada una distribucin de puntuaciones N(16,4) qu lmites incluyen el 75
por ciento central de los casos? Si queremos aprobar el 75 por ciento de los
alumnos, a partir de aqu nota debe considerarse aprobado?
5.24. Dada una distribucin N(150, 25), qu lmites incluirn el 20 por ciento
ms alto de la distribucin? qu lmites incluirn el 10 por ciento ms bajo?
5.25. Las puntuaciones obtenidas por 300 nios de un colegio de EGB al
aplicarles un test de aritmtica siguen una distribucin normal de media 24 y
desviacin tpica 4. Calcula el cuartil inferior y el cuartil superior.
5.26. En una cierta poblacin estudiantil el C.I. es una variable aleatoria
N(100,18). De la experiencia se deduce que un estudiante de dicha poblacin
finalizar su carrera sin repetir ningn curso si su C.I. es al menos igual a 110.
Calcular la proporcin de estudiantes con coeficiente superior a 120 entre aquellos
que finalizaron sus estudios sin repetir ningn curso.
5.27. Un camisero observa que el cuello de los jvenes que concurren a su
camisera es una variable aleatoria normal N(3.6, 7.5). De 3000 camisas que debe
fabricar el prximo ao, Cuntas han de estar comprendidas entre las siguientes
medidas; 32-34; 34-35; 35-37?
5.31. El peso de los quesos fabricados en una cierta industria se distribuye
normalmente. Se han fabricado 4000 piezas en un mes, de las cuales 800 pesaron
menos de 1 kg y 1000 pesaron ms de 2 kg. Determinar la media y desviacin
tpica de dicha poblacin normal.
5.28. Los errores aleatorios de una cierta medicin obedecen a una ley normal con
150
una desviacin tpica de un 1 mm y esperanza matemtica 0. Hallar la
probabilidad de que de dos observaciones independientes el error por lo menos en
una de ellas no supere el valor absoluto de 1.28 mm.
5.29. En una cierta poblacin humana el ndice ceflico se distribuye normalmente
con media 74 y desviacin tpica 3. Hallar: a) La proporcin de individuos que
tiene un ndice ceflico inferior a 75. b) Hallar los extremos entre los que vara el
ndice ceflico en 50 por ciento central de la poblacin.
151
Supongamos que queremos calcular P( <b) siendo a y b enteros, y
una variable aleatoria con distribucin binomial B(n,p). En dicho caso
podemos aproximar esta probabilidad de la siguiente manera:
P( <b)=P( <b+1/2)
siendo una variable aleatoria con distribucin normal N(np,npq). La
cantidad 1/2 que se suma y resta a los extremos se conoce como correccin
por continuidad.
152
de este valor tabulado, aproximaremos por la distribucin normal de igual
media y =14,14
P(200-a errores 200+a)=P(-a/14,14 Z a/14,14)=0,95, de donde:
a/14,14=1.96; a=1.96*14,14=27,71.Por tanto, y tomando valores de a por
exceso, el nmero de erratas del libro oscilar entre 172 y 228, con la
probabilidad indicada.
Actividades
5.30. Se sabe que la probabilidad de que un matrimonio en el que ambos cnyuges
son de genotipo A0 tenga un hijo de grupo 0 es 1/4. Consideremos una muestra de
400 hijos cuyos padres son A0. a) Calcula la probabilidad de que al menos 105
sean de grupo 0; b) Entre qu lmites oscilar el nmero con probabilidad 0.95?
5.31. En una fbrica hay 500 mquinas cada una de las cuales funciona sin
problemas el 95 % de los das. Calcular la proporcin de das en que ms de 50
mquinas se habrn averiado.
5.32. Se ha comprobado que el 3 por ciento de las resistencias producidas en una
fbrica son defectuosas. Si cada mes se fabrican 5000 resistencias, hallar: a) el
nmero medio de resistencias defectuosas que resultan cada mes; b) la
probabilidad de que un mes haya mas de 160 piezas defectuosas.
5.33. La probabilidad de sufrir reaccin por una vacuna es 0.0001. En una ciudad,
en la que se ha vacunado a 250.000 personas, cul es la probabilidad de obtener
30 0 ms reacciones?
153
Para n grande. la variable 2 2 2n 1 es aproximadamente una
distribucin normal N(0,1).
Actividades
5.34. Representar grficamente, con la ayuda de un programa de ordenador, la
distribucin Chi-cuadrado, para diversos valores de n y comentar las diferencias.
5.35. Hallar las siguientes probabilidades en una distribucin 2 : P( 2 <28) para
15 grados de libertad; P(10< 2 <15) para 20 grados de libertad.
5.36. Hallar a tal que P( 2 <a)=0.1, siendo 2 una Chi-cuadrado con 10 g.l.
5.37. En una distribucin Chi-cuadrado de 25 g.l. hallar la mediana y los cuartiles.
La distribucin T
Otra distribucin que tendr gran utilizacin en inferencia es la T
debida a "Student". Puede ser definida mediante la relacin:
Z
T=
2
n
Donde Z es una variable aleatoria normal N(0,1) y 2 una
154
distribucin Chi-cuadrado con n grados de libertad. Esta distribucin
depende solamente del parmetro n o grados de libertad, y tiene media cero
y varianza igual a n/n-2.
Actividades
5.38. En una distribucin T con 25 g.l. hallar a tal que P( T >a)=0.9. Hallar b tal
que P(T<b)=0.8.
5.39. Con ayuda de una programa de ordenador, representar las grficas de la
distribucin T, para diversos valores de n y comentar las diferencias.
La distribucin F
Dadas dos variables aleatorias X e Y que se distribuyen segn una
Chi-cuadrado de m y n grados de libertad respectivamente, el cociente:
X m
F
Y n
155
Es una variable aleatoria cuya distribucin es conocida como
distribucin F con (m,n) grados de libertad. Depende de dos parmetros, y
por su definicin toma slo valores positivos, como tambin puede
apreciarse en las graficas de la figura (7.6). En dichas grficas se puede
observar la evolucin de la distribucin con la variacin de los parmetros.
Figura 5.14.
Actividades
5.40. Con ayuda de un programa de ordenador, representar grficamente la
distribucin F para diferentes valores de los parmetros.
5.41. En una distribucin F(7,10), hallar el percentil del 95 por ciento.
5.42. Cual es la probabilidad de obtener un valor menor que 3.5 en una
distribucin F(8,12)?
156
Entrando en el men Descripcin, seleccionamos la opcin
Distribuciones y luego Ajuste de distribuciones. Aparece un cuadro de
dilogo, en el que se selecciona la variable que se quiere analizar, para ver
si se ajusta bien a un modelo terico. Por defecto obtenemos la pantalla de
la figura 5.16, que se refiere al ajuste de la distribucin normal. En ella se
ve, por defecto, la media y la desviacin tpica de la variable que ha sido
seleccionada y un comentario del Stat Advisor. Podramos cambiar estos
parmetros por defecto, mediante Opciones de anlisis (pinchando con el
botn derecho del ratn) y usar una distribucin diferente de probabilidad.
En general probamos diferentes modelos para ver cul de ellos se ajuste
mejor a los datos. El cuadro de seleccin de distribuciones es similar al de
la figura 34.
157
Una vez que hemos comprobado que el ajuste es bueno, estamos a
veces interesados en calcular probabilidades de obtener ciertos valores,
usando el modelo terico. Estando en la ventana de la figura 35, se
selecciona el icono Opciones Tabulares, y en el cuadro de dilogo que
aparece en la figura 5.17 se selecciona reas de Cola.
Aparecer una pantalla en la que estn calculadas algunas
probabilidades correspondientes a valores que aparecen por defecto. Estos
valores pueden cambiarse, apretando el botn derecho sobre la pantalla y
seleccionando Opciones de Ventana. Se podrn introducir hasta 5 valores
de la variable. Los resultados obtenidos nos darn el valor del rea bajo la
curva o la probabilidad de que la variable tome un valor menor o igual que
el valor dado por nosotros.
158
ventana con los resultados solicitado, que se presentan en las figuras 5.19 y
5.20.
159
Figura 5.21. Tres anlisis simultneos Figura 5.22. Opciones
160
Clculo de probabilidades tericas
Se trata de calcular la probabilidad de que una cierta distribucin
terica (por ejemplo, la normal) tome ciertos valores. Al entrar al men
Grficos Distribuciones de probabilidad aparece una ventana con
diversos modelos de distribuciones. Si, por ejemplo, seleccionamos la
distribucin NORMAL, aparecer una ventana de anlisis. En ella
pulsamos el botn derecho del ratn y seleccionamos Opciones de anlisis.
Aparecer un cuadro de dilogo como el de la figura 5.24, donde daremos
los valores de la media y desviacin tpica correspondiente a la distribucin
que se est utilizando.
161
Sobre la ventana de la figura 5.25, haciendo clic con el botn derecho
y seleccionando Opciones de ventana, aparecer un cuadro de dilogo
como el de la figura 5.26, en el que se pueden variar los valores de la
variable para los cuales se desea calcular la probabilidad.
Una vez que se generan los nmeros aleatorios, se deben grabar, para
ello entrar en el botn Guardar resultados, ingresar el nombre de la variable
(en la figura aparece como ALEAT1) y seleccionar el campo Nmeros
aleatorios para Dist. 1, luego Aceptar. De esta manera se generar una
nueva variable en la hoja de clculo. Este procedimiento puede repetirse
todas las veces que se desee.
162
TEMA 6
MUESTREO Y ESTIMACIN
6. 1. MUESTRAS Y POBLACIONES
En los temas anteriores hemos estudiado, por un lado, la Estadstica
Descriptiva, cuyo objeto es describir los datos obtenidos en observaciones u
experimentos. Estos datos son usualmente representados por una o varias
variables estadsticas, cuya distribucin de frecuencias y dems caractersticas
son obtenidas a partir de los datos, que en la mayor parte de los casos
constituyen una muestra particular de la poblacin. Por otro lado, mediante el
Clculo de Probabilidades, introducimos el concepto de variable aleatoria, al
considerar que aumentamos indefinidamente las observaciones y representar
todos los posibles valores que puede tomar un carcter en una poblacin, o todos
los posibles valores que pueden surgir como consecuencia de la realizacin de
un cierto experimento.
Actividades
6. 1. Supongamos que se obtuvieron los siguientes resultados en las pasadas elecciones:
El 40% del total de los votantes, votaron al PP, el 38% vot al PSOE y 9% vot a IU. Si
en esta ciudad tomamos una muestra aleatoria de 100 votantes y les preguntamos a
quien votaron (imaginamos que las personas a las que preguntamos son sinceras),
a) Podemos decir que necesariamente de estos 100 votantes, 40 votaron al PP, 38 al
PSOE y 9 a IU?
b) Supongamos que tomamos varias muestras aleatorias de 100 votantes.
Encontraremos siempre la misma proporcin de votantes a cada partido en cada
muestra? Podras adivinara, aproximadamente el porcentaje aproximado de
personas que en cada muestra habran votado al PP?
c) Supongamos ahora que tomamos una muestra de 100 votantes en el Pas Vasco.
Crees que variaran los resultados?
6.2. Supn que quieres comprar un coche nuevo y quieres decidir entre la marca A y B.
En una revista de automviles encuentras un estudio estadstico sobre reparaciones
efectuadas el ltimo ao que muestra que la marca A tiene menos averas que la B. Sin
embargo, te encuentras un amigo tuyo que te dice que compr el ao pasado un coche B y
no ha tenido ms que problemas: primero se le estrope la inyeccin de gasolina y gast
163
120 , luego tuvo que cambiar el eje trasero y al final, ha vendido el coche porque se le fue la
transmisin. Que decisin tomaras, comprar un coche A o B?
Los motivos que hacen necesario el uso de estas tcnicas pueden ser
econmicos, ya que es ms costoso y lleva ms tiempo obtener informacin de
toda la poblacin. Tambin puede darse el caso de que el experimento que debe
realizarse tenga carcter destructivo, como ocurre en algunos ensayos de
fiabilidad.
Otras veces la poblacin est constituida por entes potenciales, como es el
caso de los ensayos mdicos en que se consideran los posibles enfermos con una
dolencia; o bien se trata de una poblacin infinita. Por ltimo, la gran
homogeneidad de algunas poblaciones hace innecesario el estudio de la totalidad
de la misma, como ocurre al efectuar, por ejemplo, un anlisis de sangre, con
objeto de efectuar el recuento de hemates.
Actividad
6.3. Discute en cul de los siguientes estudios por muestreo habr ms variabilidad y en
cul habr ms representatividad
a) Tomar al azar muestras de 10 votantes para estimar la proporcin de personas que
votaron al PSOE ;
b) Tomar al azar muestras de 1000 votantes para estimar la proporcin de personas que
votaron al PSOE;
c) Tomar al azar muestras de 1000 votantes para estimar la proporcin de personas que
164
votaron a IU;
d) Tomar al azar muestras de 10 votantes para estimar la proporcin de personas que
votaron a IU;
e) Tomar muestras de 1000 jubilados para estimar la proporcin de personas que
votaron al PSOE;
f) Tomar muestras de 10 personas al azar para estimar la proporcin de mujeres .
165
Puede realizarse un muestreo en dos o ms etapas, cuando cada una de las
unidades tomadas para el muestreo puede a su vez ser muestreada. En el
ejemplo anterior, una vez elegida una manzana de viviendas para formar
parte en la muestra, se sortea entre todas las viviendas que la componen para
decidir cuales sern encuestadas.
Tambin puede realizarse un muestreo opintico o intencional. En este caso,
la persona que selecciona la muestra es la que decide los elementos que la
constituirn, procurando que sta sea representativa de la poblacin. Sin
embargo, la representatividad real depender de las preferencias u opinin de
esta persona y, por tanto, este tipo de muestreo carece de base te rica
suficiente.
Por ltimo, en el muestreo sin norma, se toma la muestra de cualquier
manera y se obtiene as una parte de la poblacin. Si esta es homognea, la
representatividad de la muestra puede ser satisfactoria. Este tipo de muestreo
se emplea a menudo en la vida diaria (as, se prueba un trozo de queso o un
sorbo de vino, etc, y se juzga el resto por el resultado).
Actividades
6.4. En una caja hay 3 bolas que pesan 1, 3 y 4 kg. respectivamente. Cules son el
peso medio y la varianza del peso en esa poblacin? Si tomas muestras de 2 bolas con
reemplazamiento: construye la distribucin del peso medio muestral, su esperanza y su
varianza. Repite el ejercicio pero sin reemplazamiento. Compara los resultados.
6.5. Se desea hacer una encuesta en la Facultad para averiguar el tiempo de
desplazamiento de la Facultad a su domicilio de los estudiantes. Discute las diferentes
formas de tomar una muestra de 1000 estudiantes y sus ventajas relativas.
166
Ejemplo 6.1. En el tema anterior vimos que la distribucin de los coeficientes
de inteligencia era aproximadamente normal, con media 100 y desviacin tpica
15. Es decir, =100, =15, cuando consideramos la variable aleatoria :
"Puntuacin en la prueba del coeficiente de inteligencia de una persona extrada
al azar". La poblacin de referencia es la de todas las personas de una misma
edad y la media ha sido calculada tericamente, ajustando una distribucin
normal a los datos recogidos de cientos de miles de personas que han respondido
al test.
Sin embargo y aunque la puntuacin media terica sea igual a 100, esto
no quiere decir que cuando pasamos el test a una muestra de personas (por
ejemplo en una clase) el valor mediox en la muestra sea igual exactamente a
100. Estudiaremos en este ejemplo el comportamiento de la media x en las
muestras de valores del coeficiente de inteligencia, para distintos tamaos de
muestras.
Para realizar este estudio, usaremos el programa Statgraphics,
seleccionando la opcin Grficos, y dentro de ella Distribuciones de
Probabilidad. Dentro de esta opcin, tomaremos la Distribucin Normal. En la
pantalla Opciones Tabulares, seleccionamos la opcin Nmeros Aleatorios, que
sirve para generar valores aleatorios de la distribucin seleccionada.
Para ello basta seleccionar con el ratn el icono del disco y marcar la
opcin Guardar. Se generan 100 nmeros aleatorios de la distribucin normal
N(0,1). Si queremos otro tamao de muestra podemos cambiarlo mediante
Opciones de Ventana. Si queremos cambiar los parmetros de la distribucin
normal, podemos hacerlo mediante Opciones de Anlisis.
Nosotros hemos cambiado estos parmetros y hemos generado una muestra
aleatoria de cuatro elementos de la distribucin N(100, 15). Los valores
obtenidos han sido: 118, 116, 78, 120.
De estos valores tres superan el valor medio y uno est por debajo. La
media de los mismos es 108 que no coincide con el valor exacto 100, pero se
aproxima. Tomemos una nueva muestra de cuatro valores al azar. Obtenemos:
88, 115, 89, 86. Ahora hay tres valores por debajo de 100 y uno por encima y el
valor medio de los mismos es 94.5.
Estadsticos y parmetros
En el tema anterior hemos estudiado la distribucin normal. Una
distribucin normal queda determinada por su media , y su desviacin tpica
y la representamos por N(,). La media y desviacin tpica de la distribucin
normal determinan completamente la funcin de densidad. Por ello decimos que
la media y la desviacin tpica son los parmetros de la distribucin normal.
Si al realizar un estudio estadstico sospechamos que la variable de inters
167
podra ser aproximada adecuadamente mediante una distribucin normal,
nuestro inters se centrar en hallar el valor aproximado de estos parmetros
(media y desviacin tpica), porque conocidos estos valores, habremos
determinado la funcin de densidad de la variable y podremos calcular cualquier
probabilidad relacionada con ella.
Recuerda:
Variable aleatoria es la variable que surge de un experimento aleatorio,
consistente en considerar todos los posibles valores de una variable en una
poblacin. La variable aleatoria se describe mediante su distribucin de
probabilidad. Si la variable aleatoria es cuantitativa y continua, viene descrita
por su funcin de densidad.
La variable estadstica surge de un experimento estadstico, consistente en
tomar datos de una variable aleatoria slo en una muestra de la poblacin.
Describimos la variable estadstica mediante la distribucin de frecuencias y
si es cuantitativa y continua la representamos grficamente por medio del
histograma.
Llamamos parmetros a las medidas de posicin central, dispersin y, en
general cualquier resumen calculado en la variable aleatoria, es decir, en toda
la poblacin.
Llamamos estadsticos a las mismas medidas cuando se refieren a la variable
estadstica, es decir, cuando se calculan slo a partir de una muestra tomada
de la poblacin.
Actividad
6.6. En los siguientes enunciados identifica si los valores mencionados se refieren a un
parmetro o a un estadstico y la poblacin de inters a la que se refieren:
a) La proporcin de todos los estudiantes de la facultad que han viajado al extranjero;
b) La proporcin de estudiantes que han viajado al extranjero entre 100 estudiantes de
la facultad elegidos al azar;
c) La proporcin de los espaoles que votaron al PSOE en las ltimas elecciones;
d) La proporcin de "caras" en 100 lanzamientos de una moneda;
e) El peso medio de 20 bolsas de patatas fritas de una cierta marca;
f) La proporcin de personas que declararon votar al PSOE en una encuesta realizada
despus de las elecciones;
g) El peso medio de los chicos espaoles de 18 aos;
h) El peso medio de 10 chicos espaoles.
6.7. Por qu la proporcin muestral es una variable aleatoria? Cita otras posibles
variables aleatorias muestrales.
168
6.3. PROPIEDADES DE LOS ESTIMADORES
Al tratar extender los resultados de la muestra a la poblacin podemos
cometer dos tipos de errores:
S02
( x x)
i
2
(6.1) n 1
169
De la propiedad opuesta a la precisin, que es la variabilidad, pueden
darse diversas medidas. La mas utilizada es la varianza de la distribucin del
estadstico y su raz cuadrada, conocida como error de muestreo o error
estndar.
Al utilizar el muestreo con reemplazamiento, el error de muestreo de la
media es, por consiguiente igual a /n, y se suele estimar por S/n, cuando no
se conoce . En las mismas condiciones, el error de muestreo de S2 viene
estimado por S2/ 2/(n-1). Usualmente, los paquetes estadsticos incluyen el
clculo de los estimadores de diversos parmetros y de sus errores de muestreo.
Actividad
6.8. En una poblacin, la varianza es igual a 200. Calcular el error de muestreo de la
media muestral, si tomamos una muestra de n=10, 100, 1000 elementos, con
reemplazamiento.
6.9. El sueldo medio de los trabajadores de un sector es de 1200 euros y la desviacin
tpica 80 euros. Si se toman muestras de 100 trabajadores: En qu porcentaje de
muestras saldr un sueldo medio menor que 1000 euros? En qu porcentaje saldr un
sueldo medio mayor a 1300 euros?
Ejemplo 6.2. Una cadena de televisin quiere estudiar los ndices de audiencia
de uno de sus programas, medido por la proporcin de personas que ven el
programa una determinada semana. Para ello disean un proceso de muestreo y
eligen 1000 familias en forma que la muestra sea representativa de la poblacin.
En cada familia recogern datos del nmero de personas de la familia que vio el
programa esa semana y el total de personas que componen la familia:
170
La proporcin de personas que vio el programa esa semana en todo el pas
es un parmetro. Es un valor constante, pero no lo conocemos.
La proporcin de personas que vio el programa en la muestra es un
estadstico. Supongamos que se obtuvo una proporcin del 15% de audiencia
en la muestra. En otra muestra de personas esta proporcin podra variar,
aunque si las muestras estn bien elegidas esperamos que los valores se
acerquen a la proporcin (parmetro) en la poblacin.
Actividades
6.10. Al experimento aleatorio consistente en lanzar un dado podemos asociarle la
variable aleatoria "Nmero de puntos obtenidos". Representa, mediante un diagrama de
barras la distribucin de esta variable aleatoria. Cul es su valor medio ? La
poblacin a que se refiere esta variable es la de todos los valores que podramos obtener
si imaginamos que lanzamos indefinidamente un dado y anotamos los valores
obtenidos.
6.11. Supongamos que tomamos una muestra de dos valores al lanzar un dado. Cules
son las posibles muestras que podas obtener? Cul sera la mediax de cada una de las
muestras? Representa grficamente la distribucin de probabilidad de la variable
aleatoria x: "valor medio del nmero de puntos en una muestra de 2 lanzamientos de
un dado" Cul es la media de esta variable aleatoria? Calcula la desviacin tpica.
6.12. Obtn 10 muestras de dos valores del lanzamiento de un dado y calcula la media
de cada muestra. Representa los valores obtenidos, poniendo una cruz encima del valor
obtenido en la siguiente grfica (en rojo o con lpiz). Completa el grfico representando
los datos obtenidos por el resto de la clase (en un color diferente).
________________________________________________
1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6
171
Distribucin de frecuencias de los valores obtenidos de dicha variable al
estudiar una muestra de n elementos.
Distribucin del estadstico utilizado en el muestreo.
Distribucin de probabilidades en la poblacin.
172
la variable en la poblacin. De igual modo, las caractersticas de la distribucin
de frecuencias de la muestra, como por ejemplo, la media muestral x, sern
valores aproximados a los correspondientes valores poblacionales o parmetros.
Ejemplo 6.5. Supongamos que tenemos una caja con tres fichas numeradas del
1 al 3. Tomamos al azar dos fichas, con reemplazamiento, y queremos deducir el
valor de la media de las tres fichas, mediante la media obtenida en la muestra.
En este caso, vemos que la media de la poblacin toma un valor y que la
desviacin tpica es 1/3
Tomemos todas las muestras posibles, y calculemos la media de cada una de
ellas:
173
Datos Media Datos Media Datos Media
1,1 1 1,2 1.5 1,3 2
2,1 1.5 2,2 2 2,3 2.5
3,1 2 3,2 2.5 3,3 3
Actividades
6.13. Una poblacin consta de los siguientes valores: 7, 14, 13, 10, 8, 4, 2, 10. Construir
todas las muestras sin reemplazamiento de dos elementos que pueden hacerse en esta
poblacin, calcular la media de cada muestra y representar grficamente la distribucin
obtenida.
6.14. En una bolsa hay una bola blanca y dos negras. Se hacen extracciones con
reemplazamiento de muestras de tamao 2. Escribir todas las muestras posibles y la
probabilidad de obtener cada una. Hallar la distribucin de la proporcin muestral.
174
inteligencia en el ejemplo 6.1 repetiremos el proceso 30 veces. Pinchando en el
icono del Diskette y marcando la opcin Guardar en la ventana de entrada de
datos, hemos pedido que los resultados de la simulacin se graben en las
variables que hemos llamado Muestra1, Muestra2..., Muestra30. En la siguiente
tabla presentamos los resultados.
Muestra 1 Muestra 2 Muestra 3 Muestra 4 Muestra 5 Muestra 6 Muestra 7 Muestra 8 Muestra 9 Muestra10
118 88 128 105 109 90 97 113 114 91
116 115 81 102 89 103 64 86 83 84
78 89 82 113 106 94 109 70 115 119
120 86 99 120 76 102 120 101 106 101
Muestra11 Muestra12 Muestra13 Muestra14 Muestra15 Muestra16 Muestra17 Muestra18 Muestra19 Muestra20
91 97 103 113 104 105 79 102 93 83
102 94 107 95 118 79 112 93 112 81
104 100 115 85 92 109 120 106 92 116
88 116 116 112 102 120 93 108 108 103
Muestra21 Muestra22 Muestra23 Muestra24 Muestra25 Muestra26 Muestra27 Muestra28 Muestra29 Muestra30
112 101 105 66 70 116 90 101 109 66
106 101 106 96 74 74 78 94 77 81
100 95 77 99 115 82 115 100 110 92
109 98 112 122 87 88 104 98 122 114
Actividad
6.15. Cuntos valores del estadstico (media de la muestra) del ejemplo anterior estn
por encima y por debajo del valor del parmetro (media de la poblacin)? Cul es el
valor mximo y mnimo de todas las medias de las muestras obtenidas? Cules son
los valores ms frecuentes?
12
10
8
6
4
2
0
80 90 100 110 120
6.16. Hemos grabado los valores de todas estas medias en una nueva columna y hemos
representado grficamente su distribucin. Observa los grficos que hemos obtenido.
Piensas que podramos usar la distribucin normal para aproximar los valores de las
medias de las muestras? Cul sera el valor medio de dicha distribucin normal?
175
Hemos visto que dos caractersticas importantes de las muestras son su
representatividad y variabilidad. Controlamos la representatividad procurando
que no haya sesgos en la seleccin y eligiendo la muestra aleatoriamente,
adems de tomar un nmero suficiente de elementos en la muestra. Podemos
controlar la variabilidad aumentando el tamao de la muestra.
Veremos esto si tomamos ahora muestras aleatorias de 100 valores del
coeficiente de inteligencia. Nosotros hemos usado el programa Statgraphics para
simular 30 muestras, cada una con 100 valores del coeficiente de inteligencia y
hemos calculado las medias de cada una de las 30 muestras. Estos son los
valores obtenidos:
98.5, 98, 101.72, 98.29, 100.51, 99.75, 102.01, 100.05, 102.28, 98.53, 102.75,
99.52, 99.06, 100.75, 101.85, 101.28, 102, 98.57, 100.25, 103.12, 96.77, 98.78,
102.75, 101.01, 101.75, 101.23, 100.25, 101.84, 97.80, 100.65
0
80 90 100 110 120
Actividad
6.17. Compara los grficos de las medias de las muestras de cocientes intelectuales
cuando el tamao de la muestra es 4 y cuando es 100. Podemos tomar la distribucin
normal como una buena aproximacin para la distribucin de las medias muestrales?
Cul ser en cada caso, aproximadamente la media de la distribucin normal
correspondiente? En cul de las dos distribuciones sera menor la desviacin tpica?
Es ms fiable la muestra de cuatro elementos o la de 100 elementos? Cmo
podramos disminuir el error al tratar de estimar la media de la poblacin a partir de la
media de una muestra?
6.18. Genera 50 muestras de tamao 10 de las distribuciones a) uniforme [0,1]; b)
Exponencial con =3. Calcula las medias de las muestras y prepara un histograma de
las medias muestrales obtenidas. Compara los resultados.
176
apropiadamente por una distribucin normal. Hemos visto tambin que, para
estimar el valor de la media de una poblacin, utilizamos la media muestral. Se
verifica que E[x]= y que Var[x]=2/n. Para obtener la distribucin de x
hemos de considerar varios casos.
Actividades
6.19. Si una variable aleatoria tiene distribucin normal N(100,5), Cul ser la
distribucin de la media de la muestra de 25 elementos? Cul ser la proporcin de
muestras cuya media estar comprendida entre 99 y 101? Y entre 98,5 y 100,5?
6.20. En una poblacin adulta, el nivel medio de inmunoglobulina medida en mg/100ml
es una v. a. normal N(1100,350). Si tomamos 9 personas de esta poblacin y calculamos
el nivel medio de inmunoglobulina en esta muestra. Entre que valores cabe esperar que
se halle este nivel medio, con probabilidad 0.95? Y si tomamos 100 personas?
6.21. La superficie de las hojas de la planta de berenjenas es de 800 cm2 con desviacin
tpica de 90 cm2. Si tomamos una muestra de 100 hojas, cul es la probabilidad de que
la media se site entre 750 y 850 cm2?
177
Poblacin de partida no normal, cuando la muestra es grande. Teorema
central del lmite
Si la poblacin de partida no es normal, en algunos supuestos, se ha
deducido la distribucin exacta de la media muestral. Sin embargo, en muchas
ocasiones es preferible utilizar el siguiente teorema, que fija las condiciones bajo
las cuales la media de una muestra tiene una distribucin aproximadamente
normal.
Supongamos que tenemos una variable aleatoria cuantitativa, con
cualquier distribucin siendo su media y su desviacin tpica valores finitos.
Entonces, si tomamos una muestra aleatoria de n elementos de esta poblacin la
media de la muestrax sigue, cuando n es suficientemente grande, una
distribucin normal N ,
n
Actividades
6.22. La altura en una poblacin tiene una media de 170 cm y desviacin tpica de 7
cm. Cul ser la distribucin de la media muestral de muestras de tamao 200?
6.23. En terreno arenoso se plantaron 50 arbolitos de cierto tipo y otros 50 en otra rea
con terreno arcilloso. Sea X = nmero de rboles plantados en terreno arenoso que
sobreviven 1 ao e Y = nmero de rboles plantados en terreno arcilloso que
sobreviven 1 ao. Si la probabilidad de que un rbol plantado en terreno arenoso
sobreviva 1 ao es 0,7 y la probabilidad de que sobreviva 1 ao en terreno arcillos es
0,6, calcule una aproximacin a P(-5X-Y5).
6.24. Un sistema est formado por 100 componentes cada una de las cuales tiene una
confiabilidad igual a 0,95. (Es decir, la probabilidad de que la componente funcione
correctamente durante un tiempo especfico es igual a 0,95). Si esas componentes
178
funcionan independientemente una de otra, y si el sistema completo funciona correctamente
cuando al menos funcionan 80 componentes, Cul es la confiabilidad del sistema?
Actividades
6.25. De una poblacin que consta de 200 elementos se toma una muestra de 50. Si la
varianza de la poblacin es 25, calcular el error de muestreo de la media muestral.
6.26. En la inspeccin por muestreo de cajas de tornillos, la longitud de los mismos es
una variable aleatoria N(5,0.2) cm. Los tornillos se venden en cajas de 25 unidades. Si
la longitud media de una caja es mayor de 5.1 cm se rechaza el lote. Cual es la
proporcin de lotes rechazados?
6.27. Un investigador quiere estimar la media de una poblacin normal, utilizando para
ello la media de la muestra. Cual ser el tamao de muestra que debe tomar para que
con probabilidad 0.95 la diferencia entre las dos medias sea menor que la dcima parte
de la desviacin tpica de la poblacin?
179
2
1
(6.4) S2
n 1
Xi X
(6.5)
S 2
X i X
2
2
Actividad
6.28. La estatura de un grupo de soldados es una variable aleatoria N(,3). De 100
muestras de 25 soldados cada una En cuantas cabe esperar que la cuasivarianza sea
mayor que 15? En cuantas menor que 7?
Actividad
180
6.29. Supongamos que tomamos muestras aleatorias de recin nacidos. Calcula la desviacin
tpica de las distribuciones en el muestreo de la proporcin de nias, para cada uno de
los siguientes valores del tamao muestral:
n = 50, 100, 200, 400, 500, 800, 1000, 1600, 2000.
a) Construye un diagrama de dispersin de las desviaciones tpicas calculadas frente
a los tamaos muestrales n.
b) En cunto tiene que incrementarse el tamao de muestra para reducir a la mitad
las desviaciones tpicas?
6.30. Sea p la proporcin de votos recibidos por un candidato en unas elecciones.
Supongamos que extraemos muestras de 100 votantes y calculamos las proporciones
de votos del candidato.
a) Calcula las desviaciones tpicas de las distribuciones muestrales de las
proporciones calculadas para los siguientes valores de p: 0, 0.1, 0.2, 0.3, 0.4, 0.5,
0.6, 0.7, 0.8, 0.9, 1
b) Representa mediante un diagrama de dispersin el par de variables: p, desviacin
tpica calculada.
c) Qu valores de p producen mxima variabilidad en las proporciones muestrales?
Y la mnima?
6.31. Un cierto tipo de artculo presenta un 25 por ciento de defectos. Si los artculos se
venden en cajas de 4 unidades. Cul ser la proporcin de cajas con 1, 1, 2, 3, 4
defectos?
6.32. Si lanzamos 500 veces una moneda. Cul ser la probabilidad de obtener una
proporcin de caras mayor de 0.52?
6.33. El 20 por ciento de una poblacin est expuesta a los efectos de una cierta droga.
Si se toman 200 personas de la poblacin, cul es la probabilidad de encontrar entre el
18 y 22 % de personas sujetas a este efecto?
6.34. Durante cierta epidemia de gripe, enferma el 20 por ciento de la poblacin. En un
aula con 100 estudiantes Cul es la probabilidad de que al menos 30 padezcan la
enfermedad?
181
x1 x2 ...xn
(6.6)
n
Actividad
6.35. El nmero de gotas de grasa en las clulas hepticas de ratas hembra sometidas a
un cierto tipo de dieta sigue una distribucin de Poisson, con media 1,39 gotas. Si
tomamos una muestra de 400 clulas de este tipo, Cuales sern los lmite entre los
que oscilar el nmero medio de gotas de grasa en la muestra, con probabilidad 0,99?
6.36. El nmero de erratas en las pginas de un texto sigue la distribucin de Poisson.
Se examinan 40 pginas y se encuentra un total de 60 erratas. Cul sera el mejor
estimador del nmero medio y varianza de erratas por pginas en el libro? Si el libro
tiene 200 pginas, cuntas erratas habra que esperar?
182
TEMA 7.
INTERVALOS DE CONFIANZA
7.1. INTRODUCCIN
En las lecciones anteriores hemos aprendido a predecir qu valor
obtenemos para un estadstico (por ejemplo, para la media de una muestra)
si conocemos el valor del parmetro (por ejemplo, si conocemos el valor de
la media en la poblacin). Sin embargo, lo que de verdad interesa en la
prctica es lo contrario: Estimar el valor del parmetro en la poblacin si
conocemos el valor del estadstico en la muestra. Por ejemplo nos
preguntamos:
Actividad
7.1. Supongamos que en una encuesta a 2500 personas el 36 % declara estar a
favor de las medidas econmicas del gobierno. Cul ser el valor aproximado del
% de personas a favor del gobierno en la poblacin? Cul ser aproximadamente
la desviacin tpica de la distribucin en el muestreo de la proporcin de votantes
en todas las muestras de 2500 personas?
183
Como vimos en el capitulo anterior, en la estimacin por punto,
cualquier parmetro desconocido se estima mediante un valor nico. Una
estimacin de este tipo no es, en general, satisfactoria en los problemas
prcticos. Es necesario obtener una medida de la precisin del estimador
utilizado. Para ello, puede emplearse, en primer lugar, el error de muestreo
que, al ser la desviacin tpica de la distribucin muestral del estadstico, da
una medida de su variabilidad. Otro enfoque posible es la construccin de
un intervalo de confianza. Para ello, si es un estimador de un parmetro
desconocido intentamos hallar dos nmeros positivos y tales que
podamos asegurar se verifica la relacin (7.1).
(7.1) P( ) 1
(7.2) P(1 2 ) 1
Actividades
7.2. Indica cul de las siguientes afirmaciones se cumple en un intervalo de
confianza:
a. De una muestra a otra, el intervalo es constante
b. Se especifica un rango de valores dentro de los cuales supuestamente cae el
parmetro con seguridad
c. Indica un intervalo de posibles valores para el parmetro, y un porcentaje de
intervalos que cubrirn, aproximadamente dicho valor, para el mismo tamao
de muestra
d. Siempre contienen el parmetro poblacional
Actividad
7.3 Entre qu valores podemos afirmar que se encontrar la proporcin de
personas favorables a la poltica econmica del gobierno en el ejemplo anterior
con una confianza del 99 %?
El nivel de confianza
El tamao de la muestra
La variabilidad en la poblacin
Actividad
7.4. Discutir si el intervalo de confianza crece o decrece al aumentar cada uno de
los factores anteriores.
185
la media muestralx estar a una distancia 2/n de la verdadera media
en la poblacin. Recprocamente, podemos deducir que el 95% de las
muestras la media en la poblacin estar dentro del intervalo x 2/n.
Este es el intervalo de confianza del 95%.
Por tanto, si x es el valor obtenido para la media en una muestra de
tamao n, y es el valor desconocido de la media en la poblacin, y
usando los intervalos en que se encuentran el 95% y 99% de casos en la
distribucin normal, podemos afirmar:
Figura 7.1.
186
Es importante resaltar que estos programas calculan los intervalos de
confianza para la media, incluso cuando no conocemos el verdadero valor
de la desviacin tpica en la poblacin. La desviacin tpica en la poblacin
es estimada a partir de los datos, mediante la frmula: s n/ (n-1), siendo
s la desviacin tpica de la muestra.
Observacin. Puesto que la media de la muestra vara de una muestra
a otra, los intervalos de confianza variarn de una muestra a otra ( lo mismo
ocurre con la proporcin). Lo que nos dice el coeficiente de confianza es
que en un porcentaje dado de muestras, el verdadero valor del parmetro
estar incluido en el intervalo.
187
MUESTRA13 110.352 100.431 120.272
MUESTRA14 101.743 79.6673 123.819
MUESTRA15 104.55 87.3908 121.71
MUESTRA16 103.807 76.3217 131.291
MUESTRA17 101.361 71.8713 130.85
MUESTRA18 102.516 91.7094 113.322
MUESTRA19 101.979 85.5198 118.438
MUESTRA20 96.3584 69.8985 122.818
MUESTRA21 107.135 98.8507 115.418
MUESTRA22 99.4508 95.117 103.785
MUESTRA23 100.608 75.2051 126.01
MUESTRA24 96.0852 59.4635 132.707
MUESTRA25 87.0429 55.0062 119.08
MUESTRA26 90.5363 61.2778 119.795
MUESTRA27 97.3316 71.6729 122.99
MUESTRA28 98.8195 94.2523 103.387
MUESTRA29 104.731 73.8401 135.622
MUESTRA30 88.6325 56.5146 120.75
155
135
Intervalos
115
95
75
55
RAND1
RAND2
RAND3
RAND4
RAND5
RAND6
RAND7
RAND8
RAND9
RAND10
RAND11
RAND12
RAND13
RAND14
RAND15
RAND16
RAND17
RAND18
RAND19
RAND20
RAND21
RAND22
RAND23
RAND24
RAND25
RAND26
RAND27
RAND28
RAND29
RAND30
sample
Actividades
7.5. Si un fabricante vende paquetes de azcar de a kilo y, al realizar un control de
calidad y observar el peso medio de 100 paquetes observa que el peso medio es de
1050 grs. Calcula el intervalo de confianza del peso medio real de los paquetes
Ser que el proceso de llenado se ha descontrolado y est vendiendo ms peso
del exigido? (El fabricante sabe que la desviacin tpica debera ser de 80 grs).
188
7.6. Comparado a los intervalos de confianza calculados en muestras de tamao n=4,
el ancho de los intervalos de confianza de la media de la poblacin calculado en
muestras de tamao n = 50:
a. Variar ms que los anchos de los intervalos para muestras de tamao n =4.
b. Variar un poco, pero no tanto como lo hicieron los anchos de los intervalos
para muestras de tamao n =4.
c. Tomarn valores parecidos.
7.7. Cmo cambia el ancho del intervalo para la media si, manteniendo todos los
datos fijos se reduce la varianza?
189
ciento de las veces. En global, tenemos una probabilidad del 99 por ciento
de acertar y del 1por ciento de errar. Cuando hacemos esa clase de juicios,
decimos que procedemos al nivel de confianza del 99 por ciento o con el
coeficiente de riesgo del 1 por ciento. Si hubiera 95 bolas blancas y 5
negras, al afirmar que saldr al azar una blanca emitiremos un juicio al
nivel de confianza del 95 por ciento, o con el coeficiente de riesgo del 5 por
ciento.
De igual manera, sabemos que en una distribucin muestral normal, el
95 de cada 100 medias de las muestras elegidas al azar se encontrarn entre
1.96 x por debajo y 1.96 x por encima de la media
Ocurre, sin embargo, que no conocemos . Ahora bien, si decimos que
la media x del 95 por ciento de las muestras no se apartar de la media
verdadera de la poblacin en ms de 1.96 x , con 95% de probabilidades de
confianza, recprocamente tambin podemos decir, que la verdadera media
de la poblacin no se apartar de la media x de la muestra en ms del
1.96 x en el 95 por ciento de las muestras. Es decir:
P( x 1,96 x x 1,96 x ) 0,95
190
mas homogneas se obtiene un intervalo de confianza ms preciso.
(7.3) ( x Z x x Z x )
EJEMPLO 7.4. Si, en el ejemplo 7.3 queremos que el error =0,1 para el
intervalo de confianza del 95%, basta tomar:
191
n>(1,96*1,9/0.1)2=1386,81
192
Actividades
7.8. Hemos calculado un intervalo de confianza al 95% basado en el valor medio
x obtenido de una muestra de 10 casos. Si incrementamos el tamao de la
muestra a 1000, y calculamos un segundo intervalo al 95 % de confianza,
debemos tener ms o menos confianza en el resultado? tendremos ms o menos
precisin?
7.9. Construya un intervalo de confianza al 95% para la media de una poblacin
normal de desviacin tpica desconocida si en una muestra de tamao 10, la
media de la muestra es x =25 y la estimacin de la desviacin tpica en la muestra
es s = 6.
7.10. Se sabe que el contenido de grasa de una magdalena sigue una distribucin
normal, cuya varianza es conocida, teniendo un valor de 0,25 gr. Se desea estimar
el valor de la media poblacional con un error mximo de 0,2gr. y una confianza
del 95%. Cul ha de ser el tamao de la muestra?
7.11. La media de 100 estudiantes en una prueba fue de 6,5. Encuentre el intervalo
de confianza al 95% para la media de la poblacin asumiendo que =0,7.
7.12. El propietario de una tienda desea estimar el nmero promedio de envases
vendidos por da. Una muestra aleatoria de 25 das dio un valor medio de 100
envases. La desviacin estndar de la poblacin es =15. Calcule el lmite
superior para un intervalo de confianza al 95%
193
x
T
S/ n
t S t S
(7.4) x
n n
194
Los intervalos correspondientes de confianza, muestran la poca precisin
de la estimacin, debida a la variabilidad de los datos.
Ntese que, de haber utilizado la aproximacin normal, se hubiera
sustituido el valor T=2,00279 por el Z=1,96 y el 2,66555 por el 2,57
respectivamente.
a x T0,95 S / n
195
Actividades
7.15. Un fabricante vende botellas que supuestamente tienen un litro de aceite. Al
tomar una muestra de 16 botellas se determin que en promedio contenan 0,94
litros, con desviacin estndar 0,097. Construir un intervalo de confianza al 95 %,
para el verdadero contenido promedio del envase. No se conoce la desviacin
tpica de la poblacin.
7.16. Supongamos que el cociente intelectual de un gran nmero de nios puede
considerarse normalmente distribuido. Una muestra de 25 nios, di un valor
medio 114,5 y un valor S=12,1. Hallar un intervalo de confianza del 99% para el
cociente intelectual medio de dicha poblacin.
7.17. La superficie media en clulas hepticas en la zona portal de 200 ratas fue
467,06 micras cuadradas, y el error de muestreo obtenido 25.,7. Hallar un
intervalo de confianza del 99% para la superficie media de dichas clulas en la
poblacin.
7.18. Dos muestras diferentes se toman de una poblacin donde la media
poblacional y la desviacin estndar poblacional son desconocidas. La primera
muestra tiene 36 datos, y la segunda muestra 100 datos. Se construye un intervalo
de confianza de 95% para cada muestra para estimar la media poblacional. Que
intervalo de confianza esperara que tenga mayor precisin?
7.19. Se han obtenido los siguientes datos de emisin diaria de xidos de azufre,
para una muestra de tamao n=100, media: x =18 y cuasivarianza s2=36. Elabore
un intervalo de confianza de 95% para la verdadera emisin diaria promedio de
xidos de azufre.
7.20. Un estudiante de economa toma una muestra de 36 compaas a travs de
los Estados Unidos. Imagine que el salario medio ofrecido por esas 36 compaas
es de 30000 dlares con una desviacin estndar de 20000 dlares. Obtener un
intervalo de confianza al 95% para el verdadero salario medio.
7.21. La media de edad de los alumnos de una clase es 18,1 aos, y la desviacin
tpica 0,6 aos. Qu tamao debe tener una muestra de dicha poblacin para que
su media est comprendida entre 17,9 y 18,3 aos, con una confianza del 99,5%?
(n 1) S 2
Pero se distribuye como una Chi-cuadrado con n-1 grados de
b
libertad. Para determinar los valores a y b de los extremos del intervalo,
basta despejar a y b en las igualdades (7.5) y (7.6).
(n 1) S 2
(7.5) 2/ 2
b
(n 1) S 2
(7.6) 12 / 2
a
que constituyen los extremos del intervalo de confianza del 95% para
la desviacin tpica de la poblacin.
Actividades
7.22. Al examinar 1.200 clulas hepticas, se obtuvo un error de muestreo igual a
3.9 al estimar la media de la poblacin. Calcular un intervalo de confianza del
99% para la varianza y desviacin tpica de dicha variable.
7.23. En una muestra de 26 elementos se obtuvo un valor S=5. Hallar un intervalo
de confianza del 95% para la varianza de dicha poblacin.
7.24. Sea 2 la varianza de la distribucin de la tensin en un dispositivo. El valor
calculado de la varianza muestral es s 2 =13700, n=16. Calcular el intervalo de
confianza de 95% para .
7.25. La cantidad de dixido de carbono (CO 2 ) liquido presente en un proceso
inclusin geolgico en cinco das distintos en una roca cristalizada tuvo una
varianza muestral igual a 80Haga una estimacin de la precisin de la tcnica
LRM estableciendo un intervalo de confianza de 99% para la variacin en las
mediciones de concentracin de CO 2
(7.7) p Z pq n p p Z pq n
(7.8) p Z pq n p p Z pq n
199
EJEMPLO 7.8. A continuacin se muestra la salida de un programa que
realiza el clculo de intervalos de confianza. En este caso, se desea estimar
la proporcin de alumnos que fuman, considerando los datos disponibles
como una muestra de los alumnos de su misma especialidad.
Tamao de muestra:
Si, al efectuar una estimacin del parmetro p, queremos conseguir
una precisin dada (7.8), nos encontraremos con que no podemos despejar
de dicha expresin n, por intervenir en ella el valor p que tratamos de
estimar.
Z pq n
Actividades
7.26. Supongamos que queremos estimar la proporcin del grupo RH negativo en
una poblacin. Si de una muestra de 400 personas, 35 tuvieron dicho grupo, hallar
un intervalo de confianza del 95% de la proporcin en la poblacin.
7.27.Una muestra de 100 votantes, elegida al azar de entre los de un distrito,
indic que el 35 por ciento estaban a favor de un cierto candidato. Calcular los
lmites del intervalo de confianza para proporcin real de votantes favorables a
dicho candidato, con un coeficiente de confianza del 95%. Calcular el tamao de
muestra que permite estimar con una confianza del 95% la proporcin de
votantes, con un error menor de 0.03 en la estimacin.
7.27. Se dispone de 140 animales de la misma especie, a los que se inocula una
suspensin virulenta. El nmero observado de muertes fue 78. Calcular un
intervalo de confianza del 99% para la proporcin de muertes en la poblacin.
7.28. En un hospital nacen cada da aproximadamente 16 nios. En otro hospital
nacen aproximadamente 100 nios. Calcula los lmites en el que variar la
proporcin de nias en cada hospital el 95% de los das. En cul de los dos
200
hospitales es ms variable la proporcin de nias?
7.29. En una muestra aleatoria de 100 rodamientos, 10 tienen un acabado de
especificaciones defectuoso. Calcular el intervalo de confianza de 95% para la
proporcin verdadera de rodamientos defectuosos.
7.30. En un estudio con 240 jvenes estadounidenses cuyas edades van de 16 a 19
aos, seleccionados al azar, 36 presentaron problemas graves de sobrepeso.
Obtenga un intervalo de confianza de 99% para la verdadera proporcin p de
jvenes de esta poblacin con problemas graves de sobrepeso.
7.31. Un estudio de mercado con 100 personas encontr 37 que haban consumido
alguna vez un determinado producto. Calcule el intervalo de confianza del 95%
para la proporcin de personas que ha consumido dicho producto.
(7.10) Z Z
Actividad
7.32. En un estudio realizado en 1979 para la provincia de Jan se alcanz un total
de 85 casos de lepra, entre 100.000 habitantes. Hallar un intervalo de confianza
del 99% para la proporcin real de leprosos en dicha provincia.
7.33. El nmero de casos ocurridos durante un mes de una enfermedad rara fue de
15. Calcule un intervalo de confianza del 95% para el nmero esperado de casos
mensuales.
201
TEMA 8
CONTRASTE DE HIPOTESIS
8.1. INTRODUCCIN
Cuando en una rama de las Matemticas como es el Anlisis o la
Geometra quiere probarse una cierta conjetura, se realiza un procedimiento
de demostracin de la misma, que, una vez comprobado que es correcta,
establece la certeza de la hiptesis.
En las ciencias experimentales, se plantean en ocasiones ciertas
hiptesis que no pueden ser comprobadas de la forma anterior. As
podemos tener motivo para suponer que las personas de una cierta comarca
tendrn, en promedio mayor estatura que las de otra, o que una vacuna es
efectiva en ms del 90% de las personas para la prevencin de la gripe. La
nica forma de comprobar una hiptesis de este tipo, sera efectuar un
censo o estudio de toda la poblacin para, en vista de los resultados,
aceptarla o no.
Este procedimiento es inviable en la mayora de los casos. Basndose
en la Inferencia estadstica podemos, sin embargo, a partir de la
informacin suministrada por una muestra, comprobar con ciertos
mrgenes de error si dichas hiptesis deben ser admitidas o rechazadas.
Llamaremos procedimiento estadstico de contraste de hiptesis al conjunto
de operaciones necesarias para llegar a la aceptacin o rechazo de una
hiptesis estadstica. Consta de los pasos siguientes:
203
Estudiaremos en esta leccin el contraste de hiptesis relativas a
valores de parmetros en las poblaciones o contrastes paramtricos, desde
un punto de vista prctico. Otros tipos de contrastes relativos a la forma de
la distribucin, dependencia entre variables etc. sern estudiados en los
temas posteriores.
204
El error tipo 1 es el que se comete cuando se rechaza la hiptesis nula,
siendo cierta. La probabilidad de cometer este error, que
representaremos por se fija al inicio del contraste, y se conoce como
nivel de significacin.
El error de tipo 2 es el que se comete cuando se acepta la hiptesis
siendo falsa. En dicho caso, aceptamos como valor del parmetro
desconocido uno que no es el verdadero. La probabilidad de cometer
este error es funcin de este valor verdadero desconocido, y por tanto
la representaremos por (), de forma que, para cada posible valor de
se obtiene un valor (), que es funcin del parmetro.
Uno de ellos contiene todos los valores del estadstico para los cuales
se acepta la hiptesis nula y se llama regin de aceptacin.
El otro, los valores para los cuales se rechaza la hiptesis nula y se
acepta la alternativa, y se conoce como regin crtica.
205
crtica, esta se determina de forma que la probabilidad de obtener un valor
del estadstico en la regin crtica, cuando H0 es cierta sea igual a .
Actividades
8.1. Analiza las definiciones del trmino hiptesis que puedes obtener en un
texto de estadstica y en un libro de metodologa de investigacin. Compara con
el significado de las hiptesis en otras ramas de las matemticas (por ejemplo la
geometra). Indica la semejanzas y diferencias.
8.2. Equivale la obtencin de un resultado estadsticamente significativo a la
refutacin lgica de la hiptesis nula? Por qu?
8.3. Por qu no son lgicamente equivalentes el rechazo y la aceptacin de una
hiptesis en un contraste estadstico? Cules son las conclusiones cuando se
obtiene un resultado que no es estadsticamente significativo?
206
8.4. Un nivel de significacin del 5% significa que, en promedio 5 de cada 100
veces que rechacemos la hiptesis nula estaremos equivocados (verdadero
/falso). Justifica tu respuesta.
8.5. Un nivel de significacin del 5% significa que, en promedio, 5 de cada 100
veces que la hiptesis nula es cierta la rechazaremos (verdadero / falso). Justifica
tu respuesta.
8.6. Un contraste estadstico de hiptesis correctamente realizado establece la
verdad de una de las dos hiptesis nula o alternativa. Analiza este enunciado y
razona si es verdadero o falso.
8.6. Qu ocurre cuando pasamos de un nivel de significacin de 0.01 a otro de
0.05?
a. Hay menos riesgo de error Tipo I
b. Hay ms riesgo de error Tipo I
c: Hay menos riesgo de error Tipo II
8.7. Cul de las siguientes no es una hiptesis nula legtima?
a. x= 10; b. x= 3; c. 1= 2; d. x 1= 35
207
x
(8.1) Z
/ n
208
Siendo Z1 el percentil del (1- )100% en la distribucin normal. La
regin crtica recibe el nombre de unilateral. Si al calcular la media de la
muestra, esta cae en la regin crtica, tendremos motivos suficientemente
fundados para rechazar el nuevo procedimiento de fabricacin. La regin
crtica correspondiente sera:
50 Z1
(8.3) x 500
n
Ntese que en estos casos nos hallamos ante una hiptesis nula
compuesta, por lo cual esta no especifica completamente la distribucin del
estadstico de contraste. Efectivamente, puesto que la distribucin dex, es
N(0,/n), para los distintos valores posibles de menores que 0 se
obtienen distintas distribuciones dex.
Sin embargo, como lo que se desea es construir una regin crtica, de
modo que la probabilidad de error tipo 1 no sobrepase la cantidad , basta
calcular esta regin crtica para el caso en que esta probabilidad sea la
mayor entre todos los valores del parmetro que componen la hiptesis
nula. Para ello, hay que tomar como regiones crticas y de aceptacin las
obtenidas en el caso anterior. Para dichas regiones puede asegurarse que
max P(error tipo 1)=
209
H0 =0
H1 0
210
Figura 8.1. Contraste de hiptesis sobre tiempo de latencia
Actividades
8.8. Un test de una cola es apropiado si:
a. Se desea estar seguro que los resultados sern significativos.
b. Si hay una buena razn para especificar una hiptesis alternativa direccional.
c. Si se quiere ser conservador respecto al nivel de significacin.
d. Si se conoce el resultado del experimento antes de hacer el test.
8.9. Es posible que una hiptesis nula pueda ser rechazada en un test de dos colas
y la misma hiptesis con el mismo valor del estadstico muestral pueda ser
aceptado en un test de una cola?
8.10. Se sabe que la desviacin tpica de las notas de cierto examen es 2,4. Para
una muestra de 36 estudiantes se obtuvo una nota media de 5,6. Sirven estos
datos para confirmar la hiptesis de que la nota media del examen fue de 6, a un
nivel de significacin de 0,05?
8.11. Se cree que la altura media de los habitantes de cierta poblacin es como
mucho 170 cm, con una desviacin tpica de 8 cm. En una muestra de 100
personas se observa una altura media de 172 cm. Podemos aceptar la hiptesis
con un nivel de significacin del 5%?
211
8.12. Si tomamos como hiptesis nula Ho = 100 y en una muestra de 30
elementos se obtuvo una media x 1= 100, qu decisin debemos tomar?
a. Aceptar la hiptesis nula, sabiendo que hemos tomado la decisin correcta.
b. Aceptar la hiptesis nula, aunque no sabemos si hemos tomado la decisin
correcta.
c. Rechazar la hiptesis nula, ya que hemos obtenido un suceso improbable.
d. Necesitamos ms informacin, ya que no conocemos la desviacin tpica de la
poblacin.
212
H0 =63
H1 <63
Puesto que es poco probable que los alumnos tengan un peso superior
a la media, no me preocupo de esa posibilidad.
Actividades
8.13. Un estudiante de zootecnia analiz el fsforo en el suero sanguneo de 9
animales de una cierta especie, obteniendo x= 2,944 mg/l y S= 0,6527. La teora y
la prctica indican que el promedio de fsforo en el suero sanguneo de una
poblacin no deficiente ha de ser 5 mg/l. Son deficientes en fsforo los animales
de la muestra? Hallar el nivel de significacin mnimo para el contraste unilateral.
8.14. En el total de las clulas hepticas, la superficie media es de 291 micras
cuadradas. Puede admitirse que la zona portal tiene una superficie mayor, a la
vista de los datos del ejercicio 9,4? Hallar el nivel de significacin mnimo para el
contraste.
8.15. Al examinar una muestra de 60 nios de un colegio espaol, se obtuvo una
puntuacin media de 24,3 en un test de intuicin probabilstica y un valor S=6,12.
Este mismo test fue efectuado en una amplia poblacin de escolares ingleses de la
213
misma edad, alcanzndose un valor medio 20,3. Puede admitirse que el nivel de
intuicin probabilstica de los nios encuestados no difiere significativamente del
de sus compaeros ingleses?
8.16. Se obtuvieron los siguientes datos en la medicin de la intensidad de una
corriente: 3,823 3,844 3,762 3,871 3,762
Realizar un contraste para decidir si la intensidad real es significativamente menor
que 3,90.
Contraste bilateral
Para decidir entre las hiptesis:
H02= 20
H1220
Contrate unilateral
A veces estamos interesados en decidir entre las hiptesis:
H0 2 20
H1 2>20
214
Para ello, tomaremos una muestra de n valores de una poblacin
normal, y calcularemos en la misma la cuasivarianza muestral S. Si esta
verifica la relacin:
S 2 (n 1)
(8.6)
2
02
aceptacin su complementaria.
Actividades
8.17. Una muestra de 30 personas muestra una desviacin tpica en el tiempo de
ejecucin de una tarea de reconocimiento de palabras en una matriz de letras de
120 segundos. Es compatible este resultado, a un nivel de confianza de 99%, con
el supuesto de que la variabilidad en la poblacin, con una distribucin normal, es
de 150 segundos?
8.18. Para evaluar los conocimientos matemticos de los alumnos de un colegio,
un profesor utiliza una prueba que l construye. Con esta prueba viene obteniendo
una media de 20 y una varianza de 6. El profesor aplica la prueba a 30 de sus
alumnos seleccionados al azar y obtiene una media de 19,5 y una varianza
insesgada de 10. Es razonable pensar que la variabilidad de sus alumnos es
mayor que lo esperado?
Contraste bilateral
Supongamos que para un nmero n suficientemente grande de
experimentos, en cada uno de los cuales hay una probabilidad p
desconocida de que se produzca un cierto suceso, se hall una proporcin
muestral p. Se desea decidir entre las dos hiptesis siguientes:
215
H0 p=p0
H1 pp1
Contraste unilateral
Para realizar un contraste unilateral del tipo:
H0 pp0
H1 p>p1
216
Puesto que, en nuestro caso, esta probabilidad es 0,74, no tenemos
suficiente motivos para rechazar la hiptesis nula.
Actividades
8.19. En una encuesta electoral, se desea averiguar si hay ms candidatos a favor
de la poltica econmica del presidente que en contra de la misma. Si p representa
la probabilidad asociada a los habitantes que estn de acuerdo con dicha poltica
217
econmica y q=1-p. Cul de las siguientes hiptesis elegiras como hiptesis
nula: a: p>q; b: p=q=1/2; c: q>p
8.20. De entre 340 enfermos que acudieron un cierto da a consulta de atencin
primaria, 167 eran pensionistas. Estn de acuerdo estos datos con la hiptesis de
que al menos el 50 por ciento de los enfermos que acuden a consulta son
pensionistas?
8.21. En un test de intuicin probabilstica, de 251 escolares espaoles
encuestados, 42 obtuvieron el nivel mximo. Entre los escolares ingleses de su
edad el 14,8% alcanzaron dicho nivel. Pueden considerarse similares ambas
proporciones?
8.22. Se realizan 200 lanzamientos de una moneda y salen 120 caras, podemos
aceptar que la moneda no est trucada con un nivel de significacin del 5%?
8.23. Una mquina fabrica piezas de precisin y se garantiza que la proporcin de
piezas correctas producidas es al menos del 97%. Un cliente recibe un lote de 200
piezas y aparecen 8 piezas defectuosas; a un nivel de confianza del 95%
rechazar el lote por no cumplir las condiciones de la garanta?
218
Muestras independientes y muestras relacionadas
Una cuestin primordial al elegir el mtodo estadstico a emplear en
la comparacin de dos muestras es la hiptesis de independencia.
Diremos que dos muestras son independientes, si cada una de las
observaciones tomadas en la primera de ellas es, por su naturaleza,
independiente de todas las observaciones tomadas en la segunda y
recprocamente. No existe relacin entre los individuos de una u otra
muestra, ni en el orden en que han sido tomados los datos, puesto que cada
conjunto de valores ha sido tomado separadamente por un procedimiento
aleatorio.
Ejemplo 8.6. Los valores de la superficie neuronal de la zona dorsal de
Apodemus Sylvticus (DATOSA) y los correspondientes a la zona ventral
son dos muestras independientes. Se trata de clulas diferentes elegidas al
azar entre las de cada zona.
Contraste bilateral.
Supongamos que disponemos de dos conjuntos relacionados de
valores. El primero de ellos x1, x2, x3........ xn son observaciones de una
variable aleatoria 1, cuya media denotaremos por 1, y el segundo y1, y2,
219
y3......... yn, de la variable aleatoria 2, cuya media llamaremos 2. Si
queremos efectuar el contraste:
H0 1= 2
H1 1 2
220
el percentil del .100/2 % de la distribucin T de n-1 grados de libertad.
Obsrvese que la probabilidad de rechazar la hiptesis, en el caso de ser
cierta, es precisamente igual a .
Contraste unilateral
En algunas ocasiones podemos tener motivos para suponer que una de
las medias es mayor que la otra. Estaremos interesados en decidir entre las
dos hiptesis:
H0d0
H1d>0
221
Se calcula en la muestra el valor del estadstico de contraste (8.9) y la
regla de decisin es: Si T>T decidimos aceptar H0 y en caso contrario
decidimos aceptar H1
Algunos autores previenen contra el uso inadecuado de los contrastes
unilaterales, pues el valor crtico utilizado es, en general, menor que en el
contraste bilateral, para una misma significacin. Por ello, dichos autores
recomiendan usar el contraste unilateral, slo despus que ha resultado un
contraste bilateral significativo.
Actividades
8.24. A un grupo de pacientes portadores de lente intraocular, se les midi la
tonometra previa a la operacin de implante y en la fecha en que se obtuvo el
alta. Los datos son los siguientes:
P: 14 16 14 15 16 28 14 10 17 16 12 20 20 12 20 12 27 20 14 17
222
A: 20 12 10 13 16 16 10 16 16 5 12 14 20 12 18 20 23 18 20 12
A la vista de los datos y supuestas las poblaciones normales Puede deducirse que
la operacin efectuada aumenta la tonometra del paciente?
8.25. Un investigador sospecha que los hombres y las mujeres difieren en sus
actitudes hacia el aborto. Para confirmar sus sospechas selecciona aleatoriamente
30 varones y 30 mujeres y les pasa una escala para medir la mencionada actitud.
Los resultados obtenidos son los siguientes:
Hombres: media 38; desviacin tpica 6
Mujeres: media 31; desviacin tpica 5
Sabiendo que cuanto mayores son las puntuaciones en la escala ms favorable es
la actitud hacia el aborto, qu concluir el investigador con un nivel de confianza
de 0,95?
8.26. Supongamos que, sobre una misma muestra de estudiantes estudiamos las
calificaciones en 10 asignaturas diferentes y nos interesa analizar cules de estas
calificaciones difieren significativamente. Si usamos el test T de diferencias de
medias relacionadas, a un nivel de significacin del 0.01. Cuntas diferencias
habra que esperar resultasen significativas, simplemente por las fluctuaciones del
muestreo, en el caso de que no existiese ninguna diferencia real entre las
calificaciones? Cmo podramos solucionar este problema?
Contraste bilateral
Supongamos que disponemos ahora de dos conjuntos independientes
de datos. El primero de ellos x1, x2, x3........ xn son observaciones de una
variable aleatoria 1 cuya media y varianza denotaremos por 1 y 21,
respectivamente, y el segundo y1, y2, y3......... ym, de la variable aleatoria 2,
cuya media y varianza llamaremos 2 y 22. En general, los valores m y n
sern diferentes. Aunque, en los casos reales no suelen conocerse los
valores de 21 y 22, resulta conveniente proceder en principio al estudio de
este caso hipottico pues, como veremos, puede ser utilizado, con carcter
aproximado para muestras lo suficientemente grandes. En este caso,
procedemos a calcular el valor S del error de muestreo de la diferencia de
medias dado por (8.11).
12 22
(8.11) S
n m
223
Si queremos realizar el contraste:
H0 1-2=0
H1 1-20
Contraste unilateral
Si estamos interesados en decidir entre las dos hiptesis:
H0 1-20
H1 1-2>0
Actividades
8.27 Elegimos aleatoriamente 50 alumnos de Psicologa de la Universidad
Autnoma de Madrid y 120 de la Universidad Complutense. Supongamos que
224
cada universidad sigue un mtodo distinto de enseanza de la asignatura de
Anlisis de datos. Sea X 1 (la media de los alumnos de la Autnoma) igual a
74 y X 2 (la media de los alumnos de la Complutense) igual a 79. Sabiendo que
las desviaciones tpicas de la poblacin son 12 y 18 respectivamente, deseamos
contrastar la hiptesis de si la enseanza tiene efecto
Contraste bilateral.
En general, los valores 21 y 22 de las varianzas poblacionales no
sern conocidos. En el estudio de la diferencia de medias en muestras
independientes de varianza desconocida, el mtodo utilizado ser diferente
segn que las varianzas de las poblaciones puedan considerarse o no
idnticas. Por ello, el primer paso a realizar en un contraste de este tipo es
una prueba de homogeneidad de varianzas. Supondremos que, por el
resultado de dicha prueba, podemos suponer que las dos variables
aleatorias poseen una desviacin tpica comn . Esta viene estimada por la
expresin (8.14).
1 1
(nS x2 mS y2 )( )
(8.14) S n m
nm2
225
que aceptamos H0 si -T/2<T<T/2 y aceptamos H1 en caso contrario. -T/2es
el percentil del 100/2 % de la distribucin T de n-1 grados de libertad.
Contraste unilateral
Si estamos interesados en decidir entre las dos hiptesis:
H0 1-20
H1 1-2>0
226
considerar el peligro de aceptar un contraste unilateral, sin haber estudiado
previamente el caso bilateral.
Contraste bilateral.
Supongamos que al realizar la prueba de homogeneidad de varianzas
a los conjuntos independientes de datos x1, x2, x3........ xn e y1, y2, y3......... ym
llegamos a la conclusin de que las variables 1 y 2 poseen varianzas
diferentes. En dicho caso, Welch ha sugerido un procedimiento que tiene
carcter aproximado. Calcularemos el valor S dado por la expresin (8.17),
en la que S1 y S2 son, respectivamente las cuasivarianzas de la primera y
segunda muestra.
S12 S22
(8.17) S
n m
227
Siendo S el valor dado en la expresin (8.17). Este estadstico tiene
una distribucin T con f grados de libertad, donde f viene dado por la
expresin (8.19).
2
S12 S22
(8.19) f n m 2
S n m
2 2 2
1
n 1 m 1
Contraste unilateral
Si estamos interesados en decidir entre las dos hiptesis:
H0 1-20
H1 1-2>0
228
8.11. COMPARACION DE VARIANZAS EN POBLACIONES
NORMALES
En los apartados anteriores, hemos visto la necesidad de estudiar la
homogeneidad de las varianzas de dos poblaciones, con objeto de elegir
adecuadamente el mtodo estadstico a aplicar en cada caso. Por otro lado,
en ciertos problemas de investigacin es ms importante contrastar la
igualdad de varianzas que la de medias. Una modificacin en la
variabilidad de potencia de un medicamento, por ejemplo, aunque tal vez
sea menos importante que una modificacin en la potencia media, podra
tener como resultado la produccin de un porcentaje demasiado elevado de
lotes ineficaces por su baja potencia o peligrosos por su elevado efecto.
Contraste unilateral
Para el clculo de intervalos de confianza y la realizacin de
contrastes sobre el cociente da varianzas 12/22 de dos poblaciones se
utiliza el estadstico F dado en (8.21)
(8.21) F= S12/S22
229
H0 12/ 22=1
H1 12/ 22>1
Ejemplo 8.13. Con los datos del ejemplo 8.11, efectuaremos un contraste
de igualdad de varianzas: En este caso:
S12/S22 = 10.37/8.71 = 1.304
Puesto que el valor crtico F para n=m=9 grados de libertad es, para una
significacin de 5% igual a 3.18, deducimos la igualdad de las varianzas.
Contraste bilateral
Para realizar el contraste bilateral de homogeneidad de dos varianzas,
basta proceder como en el caso anterior y tomar como regla de decisin la
siguiente: Si F>F1-/2 rechazamos la hiptesis nula y en caso contrario la
aceptamos. En este caso, F1-/2 es el percentil del 100(1-/2)% de la
distribucin F con n-1 y m-1 grados de libertad. El nivel de significacin
del contraste es, sin embargo al considerar como hiptesis alternativa
tanto 12>22 como el caso contrario.
Intervalo de confianza.
Para un coeficiente de confianza dado, 1- el correspondiente
intervalo de confianza para el cociente de las varianzas viene dado por la
expresin (8.23).
S12 / S12 12 S12 / S12
(8.23)
F1 / 2 22 F / 2
230
Ejemplo 8.14. Calcularemos el intervalo de confianza del 95% en el
ejemplo. En este caso:
F97.5=4.43 y F2.5=1/4.43=.2257
a=1.304/4.43=0.2943 y b=1.304/0.2257=5.778
Actividades
8.28 En 200 clulas de la zona portal del hgado en ratas hembras, el porcentaje
medio de grasa citoplasmtica fue 42,13, con un error de muestreo de 1.5. En el
mismo nmero de clulas de ratas macho el porcentaje medio obtenido fue 22,49
con un error de muestreo de 0.95. Puede considerarse igual las varianzas de
ambas poblaciones? Calcular un intervalo de confianza del 95% para el cociente
de varianzas.
8.29. En el ejercicio 10,4, pueden considerarse iguales las medias? Calcular un
intervalo de confianza para la diferencia de medias.
8.30. Al realizar una encuesta de lecturas infantiles, entre 143 nios el nmero
medio de autores citados fue 7,37 con un valor S1=9.52. Entre 209 nias, el
nmero medio de autores citados fue 9,7 con un valor S2=1,.95. Son
significativas las diferencias entre medias?
Contraste bilateral
As como al comparar dos distribuciones continuas nos hemos
preocupado de la diferencia de medias o varianzas, al tratarse de variables
dicotmicas suele ser deseable comparar los parmetros de dos
distribuciones binomiales. Supongamos pues que tenemos una muestra de
n1 observaciones de una variable 1, con distribucin binomial B(n1,p1) en
la que se ha obtenido x1 veces la caracterstica considerada, y otra muestra
de n2 observaciones de la variable 2 que tiene distribucin B(n2,p2). De esta
segunda muestra se obtuvo un total de x2 apariciones de la caracterstica.
Para realizar el contraste:
H0 p1=p2
H1 p1p2
231
Se calcula de las muestras dadas el estimador para la proporcin,
supuestamente comn de las poblaciones, que viene dado por (8.24)
x1 x1
(8.24) p
n1 n1
Ejemplo 8.15. A dos grupos de personas se les hizo una prueba de destreza
manual. Del grupo A, 44 superaron la prueba y 10 no. Del grupo B, 81
super la prueba y 35 fallaron Son igualmente diestros ambos grupos?
En este ejemplo, obtenemos los siguientes valores:
p1 =0.185 p 2 =0.432 p 2 - p1 =0.247
p =0.33 Z=0.247/0.0828=2.98
Intervalo de confianza
Una vez decidida la diferencia entre dos proporciones, conviene
cuantificarla. El intervalo de confianza para un coeficiente dado de
confianza 1- viene dado por (8.27), en donde S viene dado por (8.26)
x1 x2
(8.26) S
n1 x1 n2 x2
(8.27) p1 p2 S .Z / 2 p1 p2 p1 p2 S .Z / 2
232
Ejemplo 8.16. El intervalo de confianza de la diferencia de proporciones
en el ejemplo anterior para un coeficiente del 95% viene dado por:
0.247 1.96*09762 = (0.097,0396)
siendo S=0.0762
Actividades
8.31. En el estudio de pacientes portadores de lente intraocular, de un total de 101
varones, 9 presentaron patologa oftlmica previa y 8 de 63 mujeres. Son
similares ambas proporciones?
8.32. Al compara dos tcnicas de radioterapia A y B se obtuvo resultados
positivos con la tcnica A en un 40% de 215 casos, y con la B en un 30% de 150
casos. Hallar un intervalo de confianza del 95% para la diferencia entre ambas
proporciones.
8.33. En el estudio sobre la lepra realizado en la provincia de Jan, de entre 184
enfermos que presentaban la forma clnica lepromatosa 117 seguan el tratamiento
con regularidad. De entre 105 pacientes que presentaban otra de las posibles
formas clnicas, 49 seguan con regularidad el tratamiento. Puede deducirse de
los datos, que los enfermos con forma clnica lepromatosa son ms regulares en el
tratamiento?
233
234
TEMA 9.
ANALISIS DE LA VARIANZA
9.1. INTRODUCCION
En el captulo anterior se estudiaron diversos mtodos de comparacin
de dos muestras. En muchos casos, sin embargo, nos vemos obligados a
comparar tres o ms muestras. En este captulo estudiaremos el Anlisis de
la Varianza, procedimiento estadstico que permite comprobar si r muestras
provienen o no de poblaciones con la misma media, cuando se dan ciertas
condiciones establecidas.
235
teniendo cada una de ellas un nivel de significacin individual , el nivel de
significacin global toma el valor k, por lo que crece la probabilidad de
encontrar diferencias significativas an en el caso de que las muestras
provengan en realidad de la misma poblacin.
El Anlisis de la varianza intenta paliar este problema, a la vez que
resulta un procedimiento ms eficaz de anlisis. Del mismo modo que al
realizar un contraste entre dos medias, podemos encontrarnos en el caso de
muestras independientes o relacionadas. Por medio del anlisis de la
varianza de un factor se estudia el caso de muestras independientes. El caso
de muestras relacionadas, corresponde al anlisis de la varianza de 2 o ms
factores.
(9.1) xij=+i+ij
236
diferencia entre la puntuacin media de los nios de 6 respecto a la de
todos los nios y ij la diferencia entre la puntuacin de este nio
concreto y todos los de 6.
Homocedasticidad. Se supone una varianza comn para todos los
grupos. Por tanto, podemos decir que la variable aleatoria xij sigue una
distribucin normal N(+i, ).
237
En la expresin (9.2) (xij-xi) es la desviacin de la observacin
respecto a la media de la muestra i, y representa la variabilidad dentro de la
poblacin i. Por otro lado, (xi-x) es la desviacin entre la media de la
muestra i y la media global, y mide la variabilidad entre los grupos.
Si la variabilidad entre grupos fuese grande respecto a la que hay
dentro de cada grupo, pensaramos que nos hallamos ante poblaciones con
medias diferentes, y rechazaramos la hiptesis nula. En la figura 9.1, se
muestran dos ejemplos. En el primero, la variabilidad entre grupos es
mayor que la que hay en cada grupo. Por el contrario, en la segunda, al
haber una gran dispersin dentro de cada grupo, no permite apreciar si hay
una diferencia real de medias en las poblaciones.
Figura 9.1
a) b)
238
SCD la suma de cuadrados dentro de los grupos y SCE la suma de
cuadrados entre grupos, y se verifica que SCT=SCD+SCE.
Hay que hacer notar que SCD es en realidad la varianza de los valores
xij respecto a la media global de todas las muestras, multiplicada por n. Por
tanto, el cuadrado medio CMD estima la varianza de los valores xij respecto
a la media global, esto es, 2. Por su parte CME estima la varianza de las
medias de cada muestra respecto a la media global. Si la hiptesis nula
fuese cierta, estas dos varianzas seran aproximadamente iguales, siendo las
diferencias observadas pequeas y debidas nicamente al error del
muestreo.
En el caso de ser mayor las diferencias entre grupos a las diferencias
dentro de los grupos, el valor Fexp ser mayor que la unidad. Puede
observarse que el razonamiento seguido para efectuar este contraste es
parecido al utilizado en el estudio de homogeneidad de varianzas, en el
captulo anterior. El estadstico Fexp sigue la distribucin F con k-1 y n-k
grados de libertad.
Adoptaremos, en consecuencia, la siguiente regla de decisin: Si el
valor Fexp Fk-1,n-k se acepta H0 En caso contrario aceptamos H1
239
Tabla 9.2. Tabla del anlisis de varianza
Fuente de variacin Suma de Grados de Cuadrados F
cuadrados libertad medios
Entre los cursos 650,63 2 325,31 8,42
Dentro de los cursos 9465,60 245 38,63
Total 10116,23 247
Puesto que, con los grados de libertad del ejemplo, el valor F obtenido
corresponde a un nivel de significacin menor de 0,0003, decidimos
rechazar la hiptesis nula, y concluimos que la puntuacin total vara entre
los cursos.
Actividades
9.1. Se desea analizar si existen diferencias en el gasto medio en medicamentos
efectuado por las familias de renta alta, media y baja. Para poder utilizar el
contraste F de anlisis de la varianza es necesario suponer que:
a. La varianza poblacional del gasto en medicamentos es la misma para los tres
niveles de renta
b.El gasto medio poblacional en medicamentos es el mismo para los tres niveles
de renta
c. La varianza muestral del gasto en medicamentos es la misma para los tres
niveles de renta
d.El gasto medio en medicamento en la muestra es el mismo en los tres grupos
9.2. En el anlisis de varianza llamamos factor:
a. A las variables extraas
b. A las variables dependientes
c. A las variables independientes
9.3. La varianza entre grupos en el anlisis de varianza es:
a. La varianza muestral
b. La atribuible al error
c. La atribuible a las diferencias entre grupos
9.4. Si en un ANOVA de un factor y cuatro niveles del factor se rechaza la
hiptesis nula, esto implica que:
a. Debemos concluir la igualdad de medias poblacionales en todos los grupos
b. Debemos concluir que las medias poblacionales de todos los grupos sern
diferentes unas de otras.
c. Algunas medias poblacionales de los grupos sern diferentes entre si.
240
9.5. En la figura adjunta se
representa grficamente la
tasa de mortalidad infantil en
una serie de paises
clasificados por zona
geogrfica en la forma
siguiente: 1=Europa Oriental:
2= Ibero Amrica; 3=Europa
Occidental, Norte Amrica,
Japn, Australia, Nueva
Zelanda; 4 = Oriente Medio;
5= Asia; 6 = frica. Es
mayor la variacin de la mortalidad entre grupos o dentro del os grupos? Si se
aplicase el anlisis de varianza, cul sera la variable dependiente y cul el
factor? Cantos niveles habra? Qu resultado cabe esperar?
9.6. La siguiente tabla de anlisis de varianza se obtuvo al estudiar la puntuacin
matemtica de los estudiantes de un a muestra por curso. Cuntos cursos hay en
la muestra? Establece las hiptesis adecuadas. Completa la tabla Puede deducirse
la existencia de diferencias por curso?
Fuente Suna cuadrados G.L. Cuadrado medio F p
Entre grupos 0,703472 2
Dentro 1182,45 247
Total 1183,16 249
6
curso
0 1 2 3 4 5 6
puntcombin
241
9.9. En un estudio sobre los efectos de un determinado gen en la proteccin del
organismo se analiza una muestra de 5 ratones, a 3 de los cuales se elimina el gen
y 2 no. Posteriormente se miden sus niveles de clulas cancergenas. Se obtiene
que la media para los que no tienen el gen es 126 y para los que lo tienen es 109.
Cul sera la variable dependiente y cul el factor si se considera para hacer un
anova de una va? Cules seran los y a que niveles? Si sabemos que el
estadstico del test de la F que se obtiene es 11.82, Qu conclusin sobre el
experimento se obtiene con = 0.05?
9.10. La tabla siguiente presenta el resultado del anlisis de varianza de la
esperanza de vida del hombre por zona geogrfica (ver ejercicio 9.5)
Fuente Suna cuadrados G.L. Cuadrado medio F p
Entre grupos 5675,93 5 1135,19 32,14 0,0000
Dentro 3178,43 90 35,3159
Tal 8854,36 95
242
xi=26.644 ni=90 cmd=6,2157
1 1 1 1
(9.7) xi x j t CMD i xi x j t CMD
ni ni ni ni
Actividades
9.11. La tabla siguiente presenta los intervalos LSD para las medias de la
esperanza de vida del hombre en diferentes zonas geogrficas (ver ejercicio 9.5).
Qu se puede concluir sobre la existencia de diferencias estadsticamente
significativas?
Intervalos LSD del 95%
grupo N Media D. Tpica L. Inferior L. Superior
1 11 67,6909 1,7918 65,1738 70,208
2 12 62,7083 1,71552 60,2984 65,1183
3 19 71,5 1,36335 69,5848 73,4152
4 11 64,8182 1,7918 62,3011 67,3353
5 16 60,1312 1,48568 58,0442 62,2183
6 27 50,637 1,14368 49,0304 52,2437
243
media del grupo 1 es 7,0793 hallar las medias de los otros grupos e indicar qu
diferencias son estadsticamente significativas.
Ejemplo 9.5. En el anlisis de varianza del ejemplo 9.1, para contrastar con
un nivel de significacin del 5 por ciento las hiptesis:
H0La puntuacin media es igual en 6 que en 7
H1Estos cursos tienen diferente puntuacin media,
244
t=3,517/0,9345=3,7635 que corresponde a un nivel de significacin de
0,0001.
Actividades
9.13. La tabla siguiente presenta los contrastes LSD para las medias de la
esperanza de vida del hombre en diferentes zonas geogrficas (ver ejercicio 9.5).
Compara los resultados con las conclusiones obtenidas en el ejercicio 9.10.
Contraste Limites de las diferencias Contraste Limites de las diferencias
1-2 *4,98258 4,92822 3-4 *6,68182 4,47301
1-3 -3,80909 4,47301 3-5 *11,3688 4,00599
1-4 2,87273 5,03421 3-6 *20,863 3,53535
1-5 *7,55966 4,62422 4-5 *4,68693 4,62422
1-6 *17,0539 4,22305 4-6 *14,1811 4,22305
2-3 *-8,79167 4,35338 5-6 *9,49421 3,72482
2-4 -2,10985 4,92822
2-5 2,57708 4,50859
2-6 *12,0713 4,09612
Comparaciones mltiples
El contraste anterior puede aplicarse para probar todas las posibles
diferencias entre medias, cuando el nmero de stas es pequeo. Sin
embargo, con un nmero grande de comparaciones, crece la probabilidad
de detectar como diferencias significativas algunas que no lo son
realmente. Si, por ejemplo, tenemos 10 pares de medias, es de esperar
0,05*45=2 diferencias significativas simplemente por azar.
El problema de las "comparaciones mltiples" ha recibido mucha
atencin por parte de diversos investigadores en Estadstica. Consiste en el
hallazgo de un tipo de test que permitan efectuar una serie de
comparaciones, manteniendo un nivel de significacin global prefijado.
245
Entre estos diversos mtodos, expondremos el de Scheff, que permite
efectuar contrastes de tipo muy general.
Definicin. Un contraste entre los parmetros 1,....,k es una funcin
lineal de los i tal que :
=i ci y ci=0
(9.9) (k 1) F (k 1) F
246
H01-3=0
H01-30 =0,9866282
H02-3=0
H02-30 =0,9941016
Actividades
1
9.15. En la figura adjunta se presenta
2
la distribucin de la tasa de
3
grupo
de anlisis de varianza. qu 5
247
9.3.MODELO DE EFECTOS ALEATORIOS
En este caso, suponemos que hemos seleccionado aleatoriamente k
niveles del factor de una poblacin infinita de posibles valores para el
mismo. Esto ocurre cuando, por ejemplo, tomamos al azar k animales de
una especie, para estudiar la variabilidad de algn parmetro dentro de la
misma. El problema que se plantea ahora es que no estamos interesados
nicamente en los n animales estudiados, sino en todos los elementos de la
poblacin que representan. Tericamente, el modelo planteado es el
siguiente:
xij=+i+ij
Procedimiento de clculo
Para realizar el anlisis de la varianza con efectos aleatorios, se
calcula, en primer lugar la tabla 9.2. Necesitamos, adems, estimar la
esperanza matemtica de los cuadrados medios o cuadrados medios
esperados, cuyos valores se muestran en la tabla 9.3.
1 k n 2i
(9.10) C
k 1 i 1
ni i 1
k
n
i 1
i
248
Para decidir entre las dos hiptesis:
H0 2=0
H0 2 0
Puesto que los tres colegios disponibles son solamente una muestra de
los posibles colegios de la provincia, el problema que se plantea ahora es
decidir entre las siguientes hiptesis:
249
Del resultado del anlisis se deduce la necesidad de rechazar la
hiptesis nula, por lo que conclumos que =0. A continuacin,
procederemos a estimar su valor. Al ser el nmero de alumnos en los
diferentes centros 80, 80 y 88, aplicando (9.10):
248 802 802 882
C 41, 66
2 248
Actividades
9.16. Considere el modelo de bloques aleatorizados, yij i j uij . Las dos
hiptesis nulas habituales para los contrastes de anlisis de la varianza implican
que
a. Las medias poblacionales son iguales para todas las categoras del factor y
todas las categoras del bloque
b. Las medias muestrales son iguales para todas las categoras del factor
c. Las medias muestrales son iguales para todas las categoras del bloque
d. Las medias muestrales son distintas para todas las categoras del factor
9.17. La siguiente tabla presenta el anlisis de varianza de la variable nmero de
alumnos por colegio en una muestra de colegios de la provincia de Jan.
Cuntos colegios haba en la muestra? Por qu el modelo debe ser de efectos
aleatorios? Estimar la varianza del nmero de alumnos por colegio en la poblacin
de colegios.
Fuente de Suma de Grados de Cuadrados F P
variacin cuadrados libertad medios
Entre 1,85862E7 320 58081,9 516,28 0,0346
colegios
Dentro de 112,5 1 112,5
colegios
Total 1,85863E7 321
250
Ejemplo 9.8. En el ejemplo 9.1 hemos llegado a la conclusin de que la
puntuacin total vara en los diferentes cursos escolares. Si sospechamos
que en alguno de los cursos es diferente el nmero de varones al de
hembras, podra pensarse que la diferencia obtenida viene motivada por
una diferencia de intuicin probabilstica entre ambos sexos. Para descartar
esta hiptesis conviene efectuar a los datos un anlisis de la varianza con
dos factores: sexo y curso escolar.
Definicin: Llamamos interaccin entre dos variables al efecto de una
de ellas cuando ste depende del nivel de la otra. As en el ejemplo
anterior, existira interaccin si la mejora de puntuacin de un curso al
superior slo se verificara en uno de los dos sexos. Consideraremos el
modelo siguiente:
xijk=+i+j+ij+ijk
251
Tabla 9.5. Anlisis de varianza de dos vas
Fuente de Suma de Grados de Cuadrados medios F
variacin cuadrados libertad
Factor A SCA a-1 SCA SCA
CMA FA
a 1 SCE
Factor B SCB b-1 SCB SCB
CMA FB
b 1 SCE
Interaccin SCI (a-1)(b-1) SCI SCI
CMA FI
(a 1)(b 1) SCE
Error SCE n-ab SCE
CMA
n ab
Total SCT n-1
252
H0 todas las ij son iguales a cero
H0 algun ij es diferente de cero
Actividades
9.18. En una empresa disponemos del salario medio de los hombre y del salario
medio de las mujeres para cada grupo de edad. Queremos detectar si existe
discriminacin salarial y si vara de unos grupos de edad a otros. Para ello con
estos datos podemos realizar un anlisis estadstico utilizando:
a. Anlisis de la Varianza de un factor, efectos fijos
b. Anlisis de la Varianza de dos factores
c. Anlisis de la Varianza de un factor, efectos aleatorio
Se ha experimentado la prdida de peso de cuatro materiales M1, M2, M3 y M4,
sujetos a tres condiciones C1, C2 y C3. El resultado del experimento viene
recogido en la siguiente tabla:
253
M1 M2 M3 M4
C1 11 -35 5 4
C2 40 11 43 6
C3 44 -12 0 -3
a. Construir tabla ANOVA de dos vias
b. Contrastar que los materiales son idnticos
c. Contrastar que las condiciones no influyen.
9.19. Indicar el mximo numero de factores variando en dos niveles que pueden
analizarse con 8 observaciones:
a. 8
b. 7
c. 3
9.20.Un anova bifactorial es equilibrado si:
a. Los grupos que definen los dos factores tienen igual varianza
b. Los grupos tienen el mismo nmero de sujetos
c. Los grupos tienen la misma media
d. Los grupos fueron tomados aleatoriamente
9.21.En la tabla siguiente se presenta la tabla del anlisis de varianza del nmero
de alumnos por colegio en una muestra de colegios de la provincia de Jan,
clasificado por zona (rural/urbana) y tipo (privado/pblico). Por qu en este caso
se usa el modelo de efectos fijos? Cules son los factores y sus niveles? Hay
efecto de alguno de los factores? Y de la interaccin?
Fuente de Suma de Grados de Cuadrados F P
variacin cuadrados libertad medios
Zona 1173,85 1 1173,85 14,02 0,0002
Tipo 601,553 1 601,553 7,19 0,0077
Interaccin 80,5555 1 80,5555 0,96 0,3273
Residual 26616,7 318 83,7002
Total 31549,6 321
254
9.5. COMPROBACION DE LAS HIPOTESIS DEL MODELO Y
TRANSFORMACIONES A LOS DATOS.
Aunque el modelo del anlisis de la varianza supone que las muestras
disponibles provienen de poblaciones normales de igual varianza, puede
ocurrir que en un caso concreto no se verifiquen estos supuestos, ni siquiera
aproximadamente. Por tanto, es de inters conocer la forma de averiguar si
estamos en este caso, y cual es la manera de proceder si uno de los
supuestos no se cumple.
En muchas ocasiones se violan simultneamente las hiptesis de
normalidad y homocedasticidad. La explicacin de ello es que, mientras en
una distribucin normal la varianza no depende del valor medio, hay otros
tipos de distribuciones, como la binomial, Poisson, exponencial. en que
estos dos parmetros son dependientes. Por ello, cuando queremos estudiar
la diferencia de medias en varias poblaciones que son, por ejemplo de
Poisson, nos encontraremos con que, adems de violarse el supuesto de
normalidad, las poblaciones tienen varianzas diferentes.
Una primera forma de saber si se cumplen o no las hiptesis
requeridas para poder aplicar correctamente el anlisis de la varianza,
consiste en inspeccionar los datos. As, la representacin grfica dela
distribucin de frecuencias nos permite observar visualmente la forma no
simtrica de la misma, que hace sospechar que la variable proviene de una
poblacin no normal. Igualmente, en algunos casos es evidente la
desigualdad de las varianzas. En caso de duda, puede aplicarse uno de los
contrastes que existen para este fin.
Cuando en el estudio de los datos se revela una desviacin acusada de
la normalidad, o una gran diferencia entre las varianzas, se puede tratar de
solucionar el problema efectuando a los datos una transformacin
adecuada. Todos los clculos del anlisis se harn con las variables
transformadas. Para expresar las conclusiones obtenidas (por ejemplo los
intervalos de confianza) en la escala primitiva, basta con efectuar a los
resultados la transformacin inversa. Las principales transformaciones
utilizadas son tres:
Transformacin logartmica
Si las desviaciones tpicas de los diferentes grupos son proporcionales
a las medias de los mismos, se aplica el siguiente cambio de variable:
Y=log X
255
Transformacin raiz cuadrada
Se emplea cuando las varianzas de los distintos grupos son funcin de
los valores medios.
Y=x
Actividades
9.23. El supuesto de independencia se aplica:
a. Slo a las observaciones
b. Slo a las muestras
c. A las observaciones y las muestras
9.24. El test de Bartlet se aplica para comprobar:
a. La independencia de las observaciones
b. La igualdad de las varianzas
c. La normalidad
9.25. Al aplicar el test de Bartlet se obtuvo un valor p=0,0001. Se debe concluir
que los grupos analizados tienen la misma varianza?
9.26. El grfico adjunto presenta los
residuos de la esperanza de vida de la
mujer respecto a la media en diferentes
zonas geogrficas. Es plausible la
hiptesis de igualdad de varianzas a la
vista del grfico de residuos? Qu
implicaciones tendra si lo nico que se
256
desea es contrastar la igualdad de las medias en las poblaciones?
257
Figura 9.2. Algunas salidas grficas en los programas de Anova de
Statgraphics
258
TEMA 10
VARIABLES ESTADISTICAS BIDIMENSIONALES
(10.1) Y = g X2
259
Tabla 10.1. Datos sobre cada libre de un cuerpo
X (seg) Y (mts.)
5 122,5
10 490,0
15 1102,5
20 1960,0
25 3062,5
30 4410,0
Dependencia aleatoria
Existen muchos fenmenos en los que, al observar pares de valores
correspondientes a variables estadsticas, no es posible encontrar una frmula
que relacione, de un modo funcional, esas variables. Si dichos pares de valores
los representamos en un sistema cartesiano, los puntos, en general, no se
ajustan de un modo preciso a una curva plana, sino que se obtiene un conjunto
de puntos ms o menos dispersos. Una representacin de ese tipo recibe el
nombre de nube de puntos o diagrama de dispersin.
260
Figura 10. 2 Figura 10. 3
Actividades
10.1. En las Figuras 10.4 y 10.5 hemos representado la esperanza de vida del hombre
en una serie de pases en funcin de otras dos variables. Discute en cada caso si la
relacin es directa o inversa, lineal o no. Respecto a cul variable la relacin es ms
intensa? Cul servira mejor para predecir la esperanza de vida del hombre? Qu
significa para ti una causa y un efecto? En qu casos de los mostrados en las figuras
10.2 a 10.5 considerara la relacin entre la esperanza de vida del hombre y otra
variable de tipo causal ?
261
10.2. EL CONCEPTO DE ASOCIACIN
El estudio de la posible relacin entre dos variables cuantitativas suele
iniciarse mediante la observacin del correspondiente diagrama de dispersin
o "nube de puntos". La presencia de una relacin entre las variables se pondr
de manifiesto en el diagrama por una cierta tendencia de los puntos a
acumularse en las proximidades de una lnea, como hemos visto en los
ejemplos anteriores.
En otros casos nos interesa analizar si dos variables cualitativas estn
relacionadas entre s, como en la actividad 10.2, o si una variable cuantitativa
est relacionada con otra cualitativa como en la actividad 10.3.
Actividades
10.2. Se quiere estudiar si un cierto medicamento produce trastornos digestivos en los
ancianos. Para ello se han observado durante un perodo suficiente de tiempo a 25
ancianos obteniendo los siguientes resultados de la Tabla 10.2. Utilizando los datos
de la tabla, razona si en estos ancianos, el padecer trastornos digestivos est
relacionado con haber tomado o no el medicamento, indicando cmo has usado los
datos.
Tabla 10.2. Sintomatologa digestiva segn se toma o no una medicina
Molestias digestivasNo tiene molestiasTotal
Toma la medicina 9 8 17
No la toma 7 1 8
Total 16 9 25
262
Al tratar de estudiar si existe o no una relacin entre dos variables
estadsticas, tratamos de contestar a las preguntas siguientes:
En los ejemplos anteriores hemos visto que se nos pueden presentar tres
tipos de estudio de la relacin entre variables segn la naturaleza de las
mismas:
263
que en los dems casos la relacin es de tipo aleatorio. En la figura 10.4 los
puntos estn mucho ms cerca de la lnea de regresin, porque la correlacin
entre las variables es ms intensa. En las figuras 10.3 y 10.5 la relacin sera
inversa. Podra darse el caso de que no se observara ninguna relacin entre las
variables y hablaramos de independencia.
hij=fij/n
X Y y1 yj yc
x1 y1 x1 f1.
x2 y2 x2 f2.
. . .
xi yi xi fij fi.
xn yn xr fr.
f.1 f.j f.c n
264
Distribuciones marginales y condicionadas
A partir de la tabla de frecuencias bidimensional (figura 10.6), pueden
obtenerse diferentes distribuciones unidimensionales. Si en la tabla de
frecuencias se suman las frecuencias por columnas, obtengo en cada columna
j, el nmero de individuos f.j con un valor de la variable Y=yj,
independientemente del valor X. A la distribucin as obtenida se le conoce
como distribucin marginal de la variable Y. De forma anloga podemos
definir la distribucin marginal de la variable X.
265
En particular, si X o Y son cuantitativas, podramos calcular su media y
varianza. As, por ejemplo, el nmero medio de cilindros de todos los coches
en el ejemplo 10.3 es 5,49 y su varianza 2,91. Otro tipo de distribucin para la
variable X es la que puede obtenerse fijando un valor Y=yj, que se conoce
como distribucin de X condicionada para Y=yj. As en la Tabla 10.4
podramos analizar la distribucin de coches europeos segn el nmero de
cilindros, y obtener la tabla 10.5 y Figura 10.10.
4 6 8 Total 120
frecuencia
90
Frecuencia 140 57 51 248
60
Porcentaje 56.45 22.98 20.56 30
0
4 6 8
f i,j h i,j
(10.2) h(x i |y j )
f. j h. j
266
Podramos intercambiar los papeles de filas y columnas y obtener la
distribucin condicional de X en funcin de alguno de los valores de Y. En la
tabla 10.4, podramos obtener la distribucin del origen de los coches de 4
cilindros, obteniendo la tabla 10.6 y figura 10.11.
Actividades
10.4. Se quiere estudiar si un cierto medicamento produce trastornos digestivos en los
ancianos. Para ello se han observado durante un periodo suficiente de tiempo a 25
ancianos obteniendo los siguientes resultados:
Molestias digestivas No tiene molestias Total
Toma la medicina 9 8 17
No la toma 7 1 8
Total 16 9 25
267
Utilizando los datos de la tabla, razona si en estos ancianos, el padecer trastornos
digestivos depende o no del medicamento.
10.5. En la siguiente tabla se muestra la edad actual de un grupo de pacientes
clasificados por sexos. Calcular la edad media de las distribuciones condicionadas de
varones y hembras.
EDAD 20-30 30-40 40-50 50-60 60-70 70-80 80-90 90-100
Hombre 6 9 38 49 38 14 13 17
Mujer 6 12 25 23 29 23 7 1
Row
1 2 3 Total Nmero cilindros /origen
----------------------------------
4 | 140 | 40 | 27 | 207 orige
| 35.18 | 10.05 | 6.78 | 52.01 n 1
---------------------------------- 4 2
6 | 57 | 12 | 15 | 84 3
cilindr
8 | 51 | 20 | 36 | 107
| 12.81 | 5.03 | 9.05 | 26.88
---------------------------------- 8
Column 248 72 78 398
Total 62.31 18.09 19.60 100.00 0 1 2 3 4
0 Porcent.
0 0 0
268
Es importante fijarse que, adems de las frecuencias absolutas dobles y
marginales, la tabla proporciona las frecuencias relativas dobles, esto es,
respecto al total de datos o hij. Podemos comprobarlo al ver que sumando
todas estas frecuencias relativas obtendremos 100. Para cada fila, aparece el
total de la fila y la frecuencia relativa de la fila respecto al total de datos
(frecuencia relativa marginal fi.de la fila i). Para cada columna obtenemos el
total de la columna y la frecuencia relativa de la columna respecto al total
(frecuencia relativa marginal f.jde la columna j).
269
Figura 10.14. Diagrama de barras tridimensional
Actividades
10.6. Compara las tres representaciones grficas obtenidas del programa
TABULACION CRUZADA en las figuras 10.10, 10.11 y 10.12. Cul de ellas
representa las frecuencias relativas dobles? Cul de ellas representa las frecuencias
relativas condicionales?
270
Si pedimos que las frecuencias relativas se calculen respecto al total de
las columnas obtenemos las distribuciones condicionales de las filas respecto a
cada una de las columnas (en la tabla 10.8 se presentan las distribuciones
condicionadas del nmero de cilindros en los coches segn su origen). En este
caso al sumar las frecuencias relativas de una misma columna obtenemos la
suma 100.
Actividades
10.7. En una Facultad se pregunt a los alumnos si fumaban y tambin si fumaban
sus padres, obtenindose los siguientes datos:
El alumno fuma El alumno no fuma
Los dos padres fuman 400 1380
Slo fuma uno de los padres 416 1823
Ninguno de los dos padres fuma 188 1168
Compara la distribucin de alumnos fumadores y no fumadores, segn fumen los dos
padres, uno slo o ninguno. Piensas que hay alguna relacin entre si los padres
fuman o no y si fuman los hijos?
271
(10.5) h(xi|yj)= hi.
fi . f.j
(10.8) fi,j
n
Actividades
10.8. Demostrar las relaciones (10.6), (10.7) y (10.8)
10.9. En la siguiente tabla hemos clasificado un grupo de estudiantes por sexo y si va
o no al cine asiduamente.
Va al cine con frecuencia Va al cine raramente
Chicos 90 60
Chicas 60 40
272
Comprueba si se cumplen las propiedades (6) a (9) en esta tabla. Piensas que la aficin al
cine en esta muestra de estudiantes depende del sexo?
273
Contraste de homogeneidad
Un primer caso que podemos encontrar al estudiar una tabla de
contingencia es aqul en que se dispone de una poblacin X clasificada en r
subpoblaciones x1, x2,...,xr. En cada una de estas poblaciones se toma una
muestra, y los individuos de la misma se clasifican segn una variable Y que
puede tomar c valores posibles y1, y2.....ym. Sea pij la proporcin de individuos
que, en la poblacin xi tiene como valor de Y=yj.
Un contraste de homogeneidad entre las muestras es aquel que consiste
en decidir entre una de las hiptesis siguientes:
H0 p1j = p2j = ...... = pmj para todo j
H1 algunas de estas proporciones son diferentes.
Contraste de independencia
En este supuesto, la utilizacin de la tabla viene motivada por el inters
de estudiar la asociacin entre las variables cualitativas observadas sobre una
misma poblacin. Un ejemplo podra ser el siguiente: existe relacin entre el
nmero de nios de una familia y el nivel de estudios de la madre? En
principio podemos sospechar que si, pero de lo que se trata es de definir, en
trminos estadsticos, una medida de la mayor o menor asociacin entre
ambos factores. Este concepto, que en las variables cuantitativas aparece
claro, necesita ser interpretado para las variables cualitativas. Diremos que no
existe asociacin, si la probabilidad de observar una cierta categora de una
variable no est afectada por la observacin de ninguna otra categora del otro
factor en el mismo individuo. En este caso, las variables cualitativas
correspondientes se dice que son independientes.
En las tablas de contingencia de las variables independientes, las
frecuencias relativas de cada valor del carcter X es la misma para cada valor
274
distinto del carcter Y, como se muestra en la Figura 10.15a) Diremos que la
asociacin entre dos variables es perfecta si cada categora de una de ellas
se produce con una categora de la otra, tal como se muestra en la Figura
10.15.b) Si unos valores de la variable X se presentan con mas frecuencia que
otros para alguna de las categoras de la variable Y diremos que existe una
asociacin parcial (Figura 10.15.c)
c) Asociacin parcial
Y1 Y2 Y3 Total
X1 10 80 10 100
X2 80 20 100 200
Total 90 100 110 300
275
fi f j
(10.9) ei , j
n
Una medida de la discrepancia entre las frecuencias esperadas y las
observadas, viene dada por el estadstico "Chi-cuadrado", que se define por
(10.10).
( fi , j ei , j )2
(10.10) i
2
j
ei , j
Actividades
10.10. Calcular las frecuencias esperadas en la tabla de contingencia obtenida en las
tablas de la figura 10.13. A la vista de los resultados Crees que existe algn tipo de
asociacin entre las variables? Calcular el estadstico Chi-cuadrado y realizar un
contraste de independencia.
10.11. Queremos saber si hay relacin entre dos variables cualitativas. El valor del
estadstico Chi-cuadrado en la tabla de contingencia (asumiendo que no hay relacin
entre variables para el clculo de las frecuencias tericas) fue 8,2 (el nmero de
grados de libertad es 3). Podemos indicar que hay relacin entre ambas variables?
276
En este caso podemos utilizar la forma alternativa (10.11) para el
clculo de Chi-cuadrado:
f f f12 f 21 n
2
(10.11) 11 22
2
f1 f 2 f1 f 2
Correccin de continuidad
Es una correccin para las tablas 2x2 parecida a la que se us al
aproximar la distribucin binomial por la normal. Consiste en usar la
expresin (10.12) modificada de Chi-cuadrado:
2
f11 f 22 f12 f 21 n / 2 n
(10.12)
2
f1 f 2 f1 f 2
(468 598) 2 93
2
0,3419
52 41x 49 x 44
277
(468 598) 46 5
2
93
2
0,141
52 41x49 x44
278
A 6 1 7 A 7 0 7
2 4 6 1 5 6
Total 8 5 13 Total 8 5 13
7!6!8!5! 7!6!8!5!
P 0,816 P 0, 0047
6!1!2!4!13! 7!0!1!5!13!
B B Total
A f11 f12 f1.
A f21 f22 f2.
Total f.1 f.2 n
279
Una primera medida de la asociacin entre A y B es el valor Ji-cuadrado
obtenido de la tabla. Sin embargo, este valor depende del tamao n de la
muestra, como se aprecia en la frmula (10.12). Para resolver este problema
Pearson defini como medida de asociacin la dada en (10.13).
(10.13) 2 / n
Riesgo relativo
Viene definido por (10.14).
P( A B) f11 f . 2
(10.14) RR
P( A B) f .1 f12
f11 f 22 f11 / f 21 C1
(10.15) RC
f 21 f12 f12 f 22 C2
280
presenta A cuando est presente B. El cociente C2 indica la razn de casos A
y no A cuando no est presente el factor B. Conviene observar que RR es una
medida no simtrica. Es decir, A hace el papel de variable dependiente y B de
independiente.
2 =9.73 p 0.001
Actividades
10.12. En un estudio sobre la lepra se hall que de cada 100 personas sanas 49 son
varones y de cada 100 enfermos 58 son varones. Indican estos datos la existencia de
una asociacin entre las variables sexo y padecer/ no padecer la lepra?
281
10.13. La siguiente tabla muestra datos sobre una enfermedad. Calcule la razn de riesgos
relativos y productos cruzados para mujeres vs. hombres.
Enfermos Sanos
Mujeres 46 1438 1484
Hombres 18 1401 1419
(10.16) C 2 /( 2 n)
min(r 1, c 1)
C max
1 min(r 1, c 1)
282
(10.17) V 2 / n( p 1)
( f mj ) f m
(10.18) x
N f m
283
En la expresin (10.18) fm+ es la mayor frecuencia marginal en filas y fmj
es la mayor frecuencia en la columna j-sima.
SITUACION
F. CLINICA CONTROL ALTA CONDICIONAL TOTAL
--------------------------------------------------------------------------------------------
LEPROMATOSA 219 20 239
TUBERCULOIDE 63 128 191
OTRAS 26 18 44
----------------------------------------------------------------------------------------------
TOTAL 308 166 474
Actividades
10.14. En un estudio sobre la lepra se obtuvo la siguiente tabla de la prueba de
mitsuda y forma clnica:
FORMA CLINICA
I L T B
284
MITSUDA+ 12 130 17 7
MITSUDA- 10 38 46 6
Indican los datos un valor predictivo de la prueba mitsuda sobre la forma clnica?
10.15. Analizar las siguientes medidas de asociacin entre variables cualitativas,
desde el punto de vista de su equivalencia por la informacin que proporcionan
sobre la existencia de una relacin causal entre las variables intervinientes
Dos variables A y B se correlacionan positivamente si y solamente si la
probabilidad de que ocurran simultneamente A y B es mayor que el producto de
las probabilidades de A y B (Kendall, Lazarsfeld y Nagel): P(AB) - P(A)P(B) >
0.
Dos variables estn positivamente correlacionadas si y solamente si la
probabilidad de B condicionada a A menos la probabilidad de B es mayor que
cero (Reinchebach y Suppes). Esto es, A y B estn correlacionadas
positivamente si y solamente si P(B/A) - P(B) > 0.
Dos variables estn positivamente correlacionadas si y solamente si la
probabilidad de B condicionada a A menos la probabilidad de B condicionado a
no A es mayor que cero (Salmon y Suppes). Esto es, A y B estn correlacionadas
positivamente si y solamente si: P(B/A) - P(B/A) > 0.
285
Ejemplo 10.8. La tabla siguiente da las calificaciones de 6 alumnos en dos
asignaturas A y B.
A B X Y d d2
8.3 7.5 1 2 -1 1
8.1 7.6 2 1 1 1
6.2 7.2 3 3 0 0
12.0 4.1 5 4 1 1
12.1 4.0 4 5 -1 1
3.5 3.8 6 6 0 0
Las columnas Xi, Yi indican el orden que cada alumno tiene en cada
asignatura y la d i =X i -Y i. El coeficiente de Spearman da una medida de la
asociacin entre dichos rdenes. Se calcula por la frmula:
6 d 2
(10.19) rs 1
n(n2 1)
Tau de Kendall
Para calcular este coeficiente, calculamos en primer lugar los valores P,
Q y S definidos en la forma siguiente:
286
P= n de pares que tienen el mismo orden en las clasificaciones X e Y
Q= n de pares para los cuales los rdenes no concuerdan.
S=P-Q
2S
n2 (n 1)
287
En ambos casos obtenemos una correlacin alta.
Patologa Previa
No Si Total
Varn 73 28 101
72,28 27,72 61,59
65,18 53,85
Hembra 39 24 63
61,90 38,10 38,41
34,82 46,15
Total 112 52 164
68,29 31,71
288
Para calcular el riesgo relativo, no suministrado por el programa
procedemos en la forma siguiente:
RR = 73 x 52 / (112 x 28) = 1,21
Actividades
10.16. Al clasificar 96 enfermos portadores de lente intraocular por sexo y resultado
de prueba fluorescencia se obtuvo:
Fluorescencia Retina
Hiperfluorescencia Normal Total
Varn 13 48 61
Hembra 15 20 35
Total 28 68 96
Es diferente la proporcin de hiperfluorescencia en varones y hembras? Calcule e
interprete las medidas de asociacin
10.17. Con la finalidad de averiguar si las bajas notas finales obtenidas en el curso de
Estadstica General es producto de las pocas horas dedicadas al estudio del curso
durante el ciclo, se obtuvo la siguiente informacin. Pruebe la hiptesis de relacin.
Horas de estudio 0-5 5-10 10-15 15-20 Total
0-3 25 15 8 1 49
3-6 20 10 11 3 44
6-9 15 8 15 10 48
Total 60 33 34 14 141
289
Es decir, para calcular la covarianza, para cada uno de los puntos (xi, yi)
restamos a cada valor xi su media x y el resultado lo multiplicamos por la
diferencia entre yi y su media y. La covarianza tiene la propiedad de ser igual
a cero si las variables son independientes, positiva si las variables tienen
dependencia directa, y negativa en el caso de dependencia inversa. Podemos
ver esto de forma intuitiva si razonamos del siguiente modo (Ver figura
10.13).
Figura 10.16. Divisin del plano en cuatro cuadrantes al trazar las rectas X=x e Y=y
En la figura 10.16 trazamos las dos rectas X=x e Y=y. El diagrama queda
dividido en cuatro regiones que en la figura hemos numerado de 1 a 4. Pueden
darse tres casos, segn el tipo de dependencia:
290
3. El caso restante, de independencia, corresponde a la covarianza nula.
Actividades
10.18. Razona por qu en caso de dependencia inversa entre variables numricas el
signo de la covarianza es negativo.
10.19.Cul de los siguientes enunciados es cierto si dos variables estn
correlacionadas positivamente:
1. Cuando una aumenta la otra tambin aumenta
2. Cuando una disminuye la otra tambin aumenta
3. Cuando una disminuye la otra tambin disminuye
4. La relacin entre las variables es de tipo lineal
10.20. Comprobar que la covarianza es invariante por traslaciones, pero no por
cambio de escala.
10.21. Las calificaciones en dos exmenes han sido:
Primer examen 7 9 5 6 4 4 5 1 6 4 7 2 8 5 4 2 4 5 7 2
Segundo examen 6 7 7 5 5 3 4 1 6 5 6 3 6 5 6 5 3 4 5 3
Calcular la covarianza, y a la vista de su valor indicar el tipo de dependencia entre las
dos calificaciones.
10.22. Las estadsticas muestran que casi todos los accidentes de circulacin se
producen entre vehculos que ruedan a velocidad moderada. Muy pocos ocurren a
ms de 150 Km. por hora. Significa esto que resulta ms seguro conducir a gran
velocidad?
Coeficiente de correlacin
Un problema con la covarianza es que no hay un mximo para el valor
que puede tomar, por lo cual no nos sirve para comparar la mayor o menor
intensidad de la relacin entre las variables. Un coeficiente que permite
estudiar no slo la direccin de la relacin sino tambin su intensidad es el
coeficiente de correlacion lineal o coeficiente de Pearson, que se define por la
relacin (10.21), siendo sx , sy las desviaciones tpicas de las variables X e Y
en la muestra analizada.
S xy
(10.21) r
Sx S y
291
Puesto que las desviaciones tpicas son siempre positivas, r tiene el
mismo signo que la covarianza y por tanto:
Cuando existe una relacin lineal funcional, esto es todos los puntos se
encuentran sobre una recta - que es el caso de mxima asociacin - el valor
de r ser 1 si la recta es creciente (relacin directa) o -1 si la recta es
decreciente (relacin inversa);
Cuando las variables son independientes, r=0 porque la covarianza es igual
a cero;
Los casos intermedios son aquellos en que existe dependencia aleatoria
entre las variables. Esta dependencia ser ms intensa cuanto ms se
aproxime a 1 o -1 el coeficiente de correlacin.
Actividades
10.23. Ordena los siguientes coeficientes de correlacin segn indiquen mayor o
menor intensidad en la relacin de las variables X e Y. Indica cules corresponden a
cada una de las grficas 2, 3, 4 y 5.
r= 0.982; r=0.637; r=-0.7346; r= -0.8665; r=0.
10.24. Indica cules de los siguientes enunciados sobre la covarianza son ciertos:
Cuando la covarianza entre X e Y es mayor que cero, entonces:
1. La correlacin entre X e Y es positiva
2. X e Y pueden tener una relacin no lineal
3. La nube de puntos es decreciente
10.25. Juan calcula la correlacin entre pesos y alturas de los chicos de la clase. Mide
el peso en kilos y la altura en metros. Angela mide la altura en cm. y el peso en grs. y
292
calcula tambin la correlacin Cul de los dos obtiene un coeficiente mayor?
10.26. Cul de las siguientes afirmaciones sobre el coeficiente de correlacin r es
cierta?
1. Si r=0 las variables son independientes
2. Si las variables son independientes, r=0
3. r puede interpretarse como un porcentaje de la varianza
4. Si la relacin es funcional r=1 0 r=-1
10.27. Analiza qu tipos de relaciones entre variables pueden originar la existencia de
correlacin y cules de ellos son de naturaleza causal. Pon ejemplos de relaciones
causales que den origen a un bajo coeficiente de correlacin.
293
El principio general que se utiliza para calcular dichas constantes se
conoce con el nombre de criterio de los mnimos cuadrados. Est basado en la
idea de que a medida que una curva se ajusta mejor a una nube de puntos, la
suma de los cuadrados de las desviaciones di (Figura 10.17), sumadas para
todos los puntos, es ms pequea. La desviacin o residuo del punto (xi,yi)
respecto de la curva es la diferencia entre la ordenada yi del punto y la
ordenada de un punto de la curva que tiene la misma abscisa xi. Es decir di =
yi - (a+b xi).
(10.22) D= [yi-f(xi)]2
294
Ejemplo 10.11. Estudiando la poblacin total en 1986 en funcin de la
poblacin total en 1970 en los diferentes municipios de la provincia de Jan se
obtuvo la siguiente ecuacin de la lnea de regresin:
Y =-0,0688 + 0,97658 X
295
de Y que es debida al azar, o sea, a las desviaciones de las observaciones yi
respecto de la recta de regresin y puede demostrarse que es igual a 1- r2,
siendo r el coeficiente de correlacin. El cuadrado del coeficiente de
correlacin r2 -llamado coeficiente de determinacin- representa la fraccin
de la varianza de Y debida o explicada por la regresin.
En el caso de que se desee ajustar a la nube de puntos una parbola de
grado n, ser preciso minimizar la expresin (10.26), obteniendo un sistema de
ecuaciones que nos permite determinar los parmetros a, b1, b2......bn.
Actividades
10.28. Ajustar una recta de regresin de Y sobre X a los datos del ejercicio 13.4.
Cual ser la nota esperada en el segundo parcial para un alumno que ha obtenido un
6.5 en el primero?
10.29. Al observar la densidad por hectrea de ciertas comunidades de aves mediante
dos mtodos diferentes de muestreo se obtuvieron los datos siguientes. Calclense las
dos rectas de regresin
Parcela 0 1,1 1,66 1,1 3,32 5,54 2,77 18,84 6,65
Taxiado ,28 0 ,7 ,55 2,37 3,79 1,95 14,17 2,94
10.30. Un comercio estudia la relacin entre el nmero de cajeras y el tiempo de
espera en cola, obteniendo los siguientes datos
N cajeras 10 12 14 12 18 20
Tiempo espera 59 51 42 32 22 18
296
REGRESIN SIMPLE, cuya ventana de entrada de variables nos pide las
variables que tomamos como Y (variable dependiente o explicada) y X
(variable independiente o explicativa).
Es importante darse cuenta cul variable tomamos como Y y como X,
porque el programa encontrar una ecuacin de Y en funcin de X (que no
siempre coincide con la ecuacin que da X en funcin de Y). En la Figura
10.18 presentamos el resultado que se obtiene en RESUMEN ESTADSTICO
cuando elegimos como variable Y (dependiente) la esperanza de vida del
hombre y como variable X (independiente) la esperanza de vida de la mujer en
el fichero DEMOGRAFA.
Este programa presenta una gran cantidad de informacin, pero nosotros
slo tendremos en cuenta la siguiente:
297
Anlisis de Regresin - Modelo Lineal Y = a + b*X
-----------------------------------------------------------------------------
Variable dependiente: evidahombr
Variable independiente: evidamujer
-----------------------------------------------------------------------------
Error Estadstico
Parmetro Estimacin estndar T P-Valor
-----------------------------------------------------------------------------
Ordenada 4,69411 1,11775 4,1996 0,0001
Pendiente 0,858511 0,0166701 51,4999 0,0000
-----------------------------------------------------------------------------
Anlisis de la Varianza
-----------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor
-----------------------------------------------------------------------------
Modelo 8569,86 1 8569,86 2652,24 0,0000
Residuo 306,962 95 3,23117
-----------------------------------------------------------------------------
Total (Corr.) 8876,82 96
Nota importante. Que una variable quede explicada por otra no quiere decir
que haya una relacin de causa y efecto. En el ejemplo analizado tanto la
esperanza de vida del hombre como la de la mujer tienen su causa en una serie
de factores que afectan a las dos variables simultneamente y se refieren al
desarrollo econmico de un pas y sus condiciones de vida, salud, etc. "Quedar
explicado" en regresin significa que una variable sirve para predecir la otra,
como hemos visto en el ejemplo.
En el ejemplo, hemos utilizado la regresin lineal porque en la grfica se
puede observar con claridad que la funcin que mejor aproxima los datos es
una lnea recta. En otros casos ser preferible usar una funcin diferente. En el
programa Statgraphics mediante OPCIONES DE ANLISIS es posible
realizar ajuste con una variedad de curvas, aunque la interpretacin es muy
similar a la que hemos hecho para el caso de la recta.
El programa tiene diversas representaciones grficas. La ms til es la de
GRFICO DEL MODELO AJUSTADO que dibuja la curva ajustada sobre la
nube de puntos. Cambiando el tipo de funcin en OPCIONES DE ANLISIS
podemos ver tambin visualmente cul de los modelos es ms ajustado a los
datos. El coeficiente de correlacin calculado para cada modelo y su cuadrado
(proporcin de varianza explicada) nos permite elegir entre varios modelos
aqul que proporciona la mayor proporcin de varianza explicada para el
conjunto de datos.
298
Figura 10.19. Dibujo del modelo ajustado a la nube de puntos
Actividades
10.31. Cul de los siguientes enunciados es cierto?
Cuando la intensidad de la relacin entre dos variables decrece:
1. La pendiente de la recta de regresin de Y sobre X crece
2. La pendiente de la recta de regresin de X sobre Y crece
3. Hay mayor dispersin en la nube de puntos
4. La covarianza aumenta en valor absoluto
10.32. Cul de los siguientes enunciados es cierto si el coeficiente de correlacin
entre dos variables es nulo?:
1. Las rectas de regresin Y sobre X y X sobre Y son paralelas
2. Las rectas de regresin Y sobre X y X sobre Y son perpendiculares
3. Las rectas de regresin Y sobre X y X sobre Y coinciden
4. La covarianza es nula
10.33. Cul es el valor del coeficiente de correlacin, si las dos rectas de regresin
tienen la misma pendiente?
a)0; b) 1; c) -1
10.34. Si X e Y tienen una correlacin perfecta, Cul es el ngulo que forman las
dos rectas de regresin?
a) 120 b) 90; c) 45; d) 0
10.35. Una recta de regresin tiene una pendiente igual a 16 y corta al eje de
ordenadas en el punto Y= 4. Si la media de la variable independiente es 8, cul es la
media de la variable dependiente?
299
10.14. INFERENCIAS SOBRE LOS PARAMETROS DE LA RECTA DE
REGRESION
Los clculos realizados en el apartado anterior se refieren a los valores
muestrales. En la mayor parte de los casos, sin embargo, estamos interesados
en hallar la frmula que expresa la relacin entre las variables en la poblacin.
En dichos casos, se supone que los valores y1,...yn son valores observados de
una variable aleatoria Y. Haremos las siguientes hiptesis:
Linealidad: Existe una relacin lineal entre los valores xi e yi que puede
expresarse en la forma siguiente:
yi=0+1xi+i, para cada i,
donde 0 y 1 son parmetros desconocidos - ordenada en el origen y
pendiente de la recta - referidos a la poblacin, xi es un valor fijo e yi es
una observacin de la variable aleatoria Y.
Homocedasticidad: El valor i, denominado "residuo", representa la
diferencia del valor yi con el punto de la recta que tiene como coordenada
X=xi. Para cada xi, i tiene una misma varianza, r2, que llamaremos
"varianza residual".
Normalidad: Las variables i tienen distribucin N(0, r).
(10.27) Y=a+bX
300
(10.28) yi = a+bxi
(10.29) S 2
(Y i a bxi ) 2
n2
r
SCT=SCA+SCB= 2y n
SCB= (yi a bxi)2 = S2r (n-2)
SCA = (a+bxi-y)2 = Sxy2n / Sx2 = b2Sx2n
CMA=SCA
CMB=SCB/(n-2)=Sr2
301
regresin. Por ello, recibe el nombre de "varianza debida a regresin". Su
valor ser mayor cuanto ms grande sea el valor de b.
Por otro lado CMB estima la varianza de los residuos. La suma de estas
dos varianzas es igual a la varianza de la variable Y, que puede ser
descompuesta en dos sumandos. El primero de ellos explica la variacin de Y,
que es explicada por la regresin sobre X. El otro es la variacin de los
"residuos" o diferencia entre la nube de puntos y la recta de regresin.
302
(10.31) bT1-/2 Sr / (Sxn)
2
S y2 x 2
(10.32) EMA
n 2 S x2
303
H0 0 = c
H1 0 c
304
dado, el intervalo de confianza viene dado por (10.34).
1/ 2
1 ( x x) 2
(10.34) yi S y 1 c 2 T
n nS x
Actividades
10.36. En el ejercicio 13.9 contrastar la hiptesis de no regresin.
10.37. En el ejercicio 13.5, calcular un intervalo de confianza para la pendiente de la
recta de regresin.
10.38. Al estudiar la relacin entre las concentraciones urbanas de los aos 1970 (X)
y 1986 (Y), se obtuvo la siguiente tabla del anlisis de la varianza:
Fuente de variacin Grados de libertad Suma de cuadrados
Regresin 1 19506.3
residual 95 8743.5
Completa la tabla y contrastar la hiptesis de no regresin.
305
distinguir entre el valor r muestral y el coeficiente de correlacin de la
poblacin, que se define como:
= Cov(X,Y)/xy
e2v 1
(10.36) r 2v
e 1
306
Ejemplo 10.6: El coeficiente de correlacin muestral entre las variables del
Ejemplo 13,2 es 0,9987, y el nmero de municipios muestreados 96.
Consideremos estos municipios como muestra de una poblacin de municipios
andaluces. Para hallar un intervalo de confianza para calculamos en primer
lugar la transformada de Fisher:
v=1/2 ln 1,9787/0,0013=3,6689
v=1/93=0,103695
Actividades
10.39. Si la ecuacin obtenida de la recta de regresin fue: Y = 21.2+0.82X, calcular
un intervalo aproximado de confianza del 95% para la X=20 si el coeficiente de
correlacin es 0,7.
10.40. El coeficiente de correlacin entre la altitud sobre el nivel del mar y la
concentracin urbana en una provincia con 96 municipios fue -0.3116. Puede
admitirse que el coeficiente es significativamente distinto de 0? Hallar un intervalo de
confianza del 99%.
10.41. Hallar un intervalo de confianza del 95% para el coeficiente de correlacin de
las variables altitud y distancia a la capital, sabiendo que en la muestra de 96
municipios se obtuvo un valor r=0.5131.
307
grficos. En caso de cumplirse las hiptesis, al menos de forma aproximada,
la grfica de los residuos formar una banda aproximadamente horizontal,
alrededor del valor medio cero, como se muestra en la figura 10.20. La
presencia de heterocedasticidad, se pondra de manifiesto cuando la dispersin
de los residuos dependa del valor de X. Una banda de forma lineal, como en la
figura 10.21 presupondra la existencia de otra variable que depende de X y es
la causa de la variacin.
308
REFERENCIAS
309
Cuadras, C. (1999). Problemas de probabilidades y estadstica. Barcelona:
EUB.
Cuadras, C. M., Echevarra B., Mateo, J. y Snchez, P. (1984).
Fundamentos de estadstica. Aplicacin a las ciencias humanas.
Madrid: Promociones Publicaciones Universitarias.
De Groot, M. (1988). Probabilidad y estadstica. Wilmington: Addison-
Wesley.
Fernandes, J. A., Batanero, C., Contreras, J. M., & Daz, C. (2009). A
simulao em Probabilidades e Estatstica: potencialidades e
limitaes. Quadrante, XVIII, 1, 161-183.
Freund, J. E., Miller, I. y Miller, M. (2000). Estadstica matemtica con
aplicaciones. Prentice Hall..
Garca Ferrando, M. (1989). Socioestadstica. Introduccin a la estadstica
en Sociologa. Madrid, Alianza Universidad.
Glass y Stanley (1974). Mtodos estadsticos aplicados a las ciencias
sociales. Mxico: Prentice Hill.
Hopkins, K.D., Hopkins, B.R. y Glass, G.V. (1997, 3 ed). Estadstica
bsica para las ciencias sociales y del somportamiento. Mxico:
Prentice-Hall Hispanoamericana.
Johnson, R. y Kuby, P. (2004). Estadstica elemental. Mxico: Thompson.
Kalbfleisch, J. (1984). Probabilidad e inferencia estadstica. Madrid: AC.
Maca, A., Lubin, P. y Rubio, P. (2000). Psicologa matemtica II. Madrid:
UNED.
MacRae, S. (1995). Modelos y mtodos para las ciencias del
comportamiento. Barcelona: Ariel.
Martn Andrs, A. y Luna del Castillo, J.D. (2005). Bioestadstica para las
Ciencias de la Salud. Madrid: Norma.
Martnez G., A. (2000). Diseos experimentales. Mtodos y elementos de
teora. Mxico: Trillas.
Martnez, R., Maci, M. y Prez, J. (1998). Psicologa Matemtica II.
Madrid: U.N.E.D.
Mendenhall, W., Wackerly, D. y Scheaffer R. (1994). Estadstica
matemtica con aplicaciones. Mxico: Grupo Editorial
Iberoamericana.
Merino, J.M., Moreno, E., Padilla, M., Rodrguez Mion, P. y Villarino, A.
(2002). Anlisis de datos en psicologa 1. Madrid: UNED.
310
Meyer, P. (1992). Probabilidad y aplicaciones estadstica. Mxico:
Addison-Wesley.
Moore, D. S. (1998). Estadstica aplicada bsica. Barcelona: Antoni
Bosch, editor.
Mullor R. y Fajardo M.D. (2000), Manual prctico de Estadstica aplicada
a las Ciencias Sociales. Barcelona, Ariel.
Nortes Checa, A. (1993). Estadstica terica y aplicada. Barcelona: PPU.
Pardo, A. (2002). Anlisis de datos categricos. Madrid: UNED.
Pardo, A. y San Martn, R. (1994). Anlisis de datos en psicologa II.
Madrid. Pirmide.
Pea, D. (1995). Estadstica. Modelos y mtodos. Madrid: Alianza
Universitaria.
Pea, D. (2002). Regresin y diseo de experimentos. Madrid: Alianza
Editorial.
Pea. D. y Romo, J. (1997). Introduccin a la estadstica para las ciencias
sociales. Madrid: McGraw-Hill.
Padilla, M., Merino, J.M. y Pardo, A. (1986). Psicologa matemtica I:
Ejercicios resueltos. Madrid: UNED.
Rios, S. (1967). Mtodos estadsticos. Madrid: Ediciones del Castillo.
Silva, L.C. (1993). Muestreo para la investigacin en ciencias de la salud.
Madrid: Diaz de Santos.
San Martn, R. y cols. (1987). Psicoestadstica: Estimacin y contraste.
Madrid: Pirmide
San Martn, R., Espinosa, L. y Fernndez, L. (1987). Psicoestadstica
descriptiva. Madrid: Pirmide.
San Martn, R. y Pardo, A. (1989). Psicoestadstica. Contrastes
paramtricos y no paramtricos. Madrid: Pirmide.
Spiegel, M. R (1991). Estadstica. Madrid: Mc Graw Hill.
Tanur, J. M., Mosteller, F., Kruskal, W. y otros. (1972). Statistics: a guide
to the unknown. Holden Day. California.
Tukey, J. W. (1977). Exploratory data analysis. Nueva York: Addisson
Wesley.
Wonnacot, T.H. y Wonnacot, R.J. (1991). Estadstica bsica prctica.
Mxico: Limusa.
Yez, L. (1989). Fundamentos de psicologa matemtica. Madrid:
Pirmide.
311