Estadistica Un Enfoque Descriptivo
Estadistica Un Enfoque Descriptivo
Estadistica Un Enfoque Descriptivo
Roberto Behar Gutiérrez
Mario Yepes Arango
Estadística
Un Enfoque Descriptivo.
Tercera Edición
Estadística, Un Enfoque Descriptivo
ISBN 958‐670‐068‐2
© Roberto Behar G. 1996, 2007
Mario Yepes A.
Tel: 572‐3334903 – 572‐ 3212167
FAX 572‐3398462
e‐mail robehar@univalle.edu.co
robehar@yahoo.com
Talleres Gráficos
De Impresora FERIVA S.A.
Cali, Colombia
Prólogo
Una segunda manera de visualizar el proceso de aprendizaje, consiste en el desarrollo de una fase
exploratoria de los datos que constituyen una muestra o una población si fuera el caso. En esta
fase se trata de definir algunos indicadores de rasgos del conjunto que constituye la muestra y
luego de procesar los datos, obtener ideas sobre sus propiedades y posiblemente establecer
algunas hipótesis sobre el comportamiento de estos rasgos, o sus relaciones en la población.
En esta fase se produce la maduración de muy buena parte de los conceptos básicos que es
necesario estudiar con todo el rigor, no sólo en la etapa de inferencia estadística, sino
previamente en el estudio de la teoría de la probabilidad; así por ejemplo se trabaja con la función
Este texto pretende orientar la primera fase mencionada, por tanto puede ser utilizada por algunos
investigadores que deseen hacer acopio de instrumentos de ayuda exploratoria.
Por el contenido, por la metodología y por el nivel de prerrequisitos puede ser usado por todos
aquellos estudiantes que vayan a introducirse en la disciplina estadística. En algunos temas se
requiere el conocimiento de los rudimentos del cálculo diferencial, aunque no son indispensables
para el entendimiento de los conceptos básicos.
En lo que respecta a la metodología para el logro de objetivos planteados, ésta trata en lo posible
de mantener la siguiente estructura: en primer lugar el planteamiento de la situación problema
que será resuelta por la herramienta que se pretende presentar enseguida; luego se plantea un
ejemplo, el cual se utiliza para introducir elementos que permitirán definir la notación simbólica
y presentar para el caso concreto del ejemplo, la ilustración de la solución al problema general
planteado; por último la presentación general de la herramienta usando la notación definida. Al
final de cada capítulo se proponen ejercicios con el objeto de que el lector pueda evaluarse y
retomar algunos temas que no hayan quedado suficientemente entendidos.
Con respecto al uso del texto en el desarrollo formal de un primer curso de Estadística, el docente
según los objetivos y de acuerdo con el grupo específico de estudiantes, podrá omitir o no los
desarrollos que impliquen procedimientos matemáticos que no estén al alcance de sus alumnos
o no los considere pertinentes, haciendo énfasis en la interpretación de los resultados.
No obstante que este texto es el producto del desarrollo de numerosos cursos, damos excusas por
los errores que pudiera presentar y agradecemos las sugerencias o rectificaciones que puedan
hacernos con el propósito de mejorarlo con base en la valiosa retroalimentación que debe generar
su uso.
Hoy después de 10 años de uso masivo de esta obra, que ha servido a centenares de
estudiantes de las más variadas disciplinas que van desde los propios estudiantes de la carrera de
Estadística de la Universidad del Valle, estudiantes de Administración de Empresas, Contaduría,
Matemáticas, Ciencias Sociales y Económicas y muchas más, de casi todas las Universidades de
la región, estamos entregando a usted, esta segunda edición, en la que se incluyen algunas
modificaciones, resultado de las sugerencias de muchos colegas que han visto en el texto un buen
instrumento para el logro de sus objetivos.
El gran valor del texto, continúa siendo darle vida a los resultados, no quedarse en las frías cifras,
no conformarse con cálculos con base en formulas. Se abunda en interpretación, se enfatiza en
los conceptos, que es lo que garantiza en ultimas el desarrollo de criterios para enfrentar futuros
problemas y situaciones reales.
Queremos agradecer las valiosas sugerencias de nuestros queridos colegas que durante todos
estos años han sido usuarios de esta obra, honrando nuestro esfuerzo, sugerencias que en su
mayoría han quedado plasmadas en esta segunda edición. Profesores como: Rafael A. Klinger A.,
Francisco A. Quiroga Z., Jorge E. Delgado, Javier Olaya, Jorge Payán, Robby Nelson Díaz,
Hernando Solano H., Guillermo Valdés, Libardo Farfán, Oscar Gamboa, Jaime E. Pérez, Ana
María Sanabria, Jorge Rodríguez, Gustavo Vargas, Alexander Taborda, Marco Fidel Suarez,
Marco A. Triana, Clara Inés Perea, Antonio Escudero A., Omar Rada B., Huber Ramos, Olga
Arias, Viviana Vargas, Mercedes Andrade, William Sánchez, Gabriel Conde, Edwin Rengifo,
Heberth Muriel, Reynaldo Carvajal, Hugo Hurtado, Rodrigo Izquierdo, Luis Eduardo Girón,
entre muchos otros.
Deseamos agradecer de manera muy particular al ingeniero Jaime Felipe Múnera quien puso todo
su profesionalismo y su cariño en el diseño de la nueva edición.
Expresamos nuestro reconocimiento a nuestra querida ex alumna Virginia Cabrera, por la labor
de transcripción y edición de este libro, la cual desarrolló no solo con gran profesionalismo sino
también con mucho tesón y gran afecto.
Agradecemos a los cientos de alumnos nuestros, muchos de los cuales son ahora profesionales de
éxito, quienes compartieron en forma directa la experiencia de ingresar al mundo de la
estadística, teniendo en muchas de sus noches este texto como interlocutor y compañero, quienes
en su momento nos hicieron notar algunos errores tipográficos, algunos cálculos errados y en no
pocas veces sesudas sugerencias.
Esta edición, la tercera, resulta de la intención de los autores de hacer público y disponible en la
web en forma gratuita, este libro. Por esta razón y para hacer más agradable la lectura hemos
ampliado los espacios entre líneas.
Otro cambio de interés, Aprovechando las sugerencias de algunos colegas, entre ellos Eloina
Mesa y Víctor González, hemos adaptado la notación en lo relativo a la representación de la
frecuencia relativa, cambiando la “h” por “f” , induciendo un cambio a la notación de la
densidad de frecuencia de h* hacia f* y análogamente la frecuencia relativa acumulada de H(x)
hacia F(x)..
Estos cambios están más acordes con la notación de la mayoría de los libros, haciendo a los
estudiantes más fácil la consulta de otros libros y materiales relacionados así como también
empalma de manera más natural con la notación usada en la teoría de la probabilidad para
conceptos equivalentes a los aquí desarrollados.
También por sugerencia de algunos colegas que han usado el libro por muchos años, hemos
incluido algún desarrollo que ligue el concepto de variable continua en estadística descriptiva con
el de variable aleatoria en teoría de la probabilidad, generando un puente intuitivo entre la
función de densidad de frecuencia relativa con la función de densidad de probabilidad,
relacionando también el área de los rectángulos de un histograma con le área bajo una curva y
por supuesto en su definición operativa, las áreas de rectángulos por la integral de la función de
INTRODUCCION
1.1 HISTORIA DE LA PALABRA ESTADÍSTICA 1
En su sentido actual, las palabras estadística y estadístico (esta ultima como sustantivo o como
adjetivo) tienen menos de un siglo de existencia, pero se emplean desde hace más tiempo, siendo
interesante estudiar el proceso por el que han llegado a adquirir la significación que hoy tienen.
Las palabras estadista, estadística, estadístico, parece que derivan más o menos indirectamente
del latín STATUS, en el sentido adquirido en el latín medioeval, de un estado político.
La primera de las tres palabras citadas es mucho más antigua que las otras dos. La palabra
estadista se encuentra, por ejemplo en "Hamlet" (1602), en "Cimbelino" (1610 ó 1611) y en "El
paraíso recobrado" (1617).
Según parece, la palabra estadística se empleó por primera vez en "Elementos de erudición
universal" del barón J.F. Von Bielfeld, traducido al inglés por W. Hooper M.D. (vol.3, Londres
1770), uno de sus capítulos se titula "estadística" y en él se define ésta como "La ciencia que nos
enseña la situación política de los estados modernos del mundo conocido". La palabra
estadística aparece de nuevo con una definición quizás más amplia, en el prefacio de "Una visión
política del estado actual de Europa" por E.A.W. Zimmermann publicada en 1787.
"Hace aproximadamente cuarenta años -dice Zimmermann- que esta rama del conocimiento
político, que tiene por objeto estudiar la potencia real y relativa de los distintos estados
modernos, de la capacidad derivada de sus condiciones naturales, la industria y la civilización de
sus habitantes y la sabiduría de sus gobernantes, se ha constituido, principalmente por parte de
los escritores alemanes, en una ciencia independiente... por la forma mas conveniente que ahora
ha tomado... esta ciencia conocida por el recién inventado nombre de estadística, ha llegado a ser
un estudio favorito en Alemania" ; y el adjetivo aparece también: "A los diversos artículos
contenidos en esta obra, algunos acreditados escritores estadísticos han añadido un resumen de
las principales épocas de la historia de cada país".
En pocos años estos vocablos fueron aceptados por diversos escritores, especialmente por Sir
John Sinclair, el editor y organizador de la primera "Información estadística de Escocia" al cual
se ha atribuido frecuentemente su introducción. En la carta circular dirigida al clero de la iglesia
de Escocia en mayo de 1790, indica que en Alemania las llamadas "investigaciones estadísticas"
han alcanzado gran extensión, y añade una nota explicativa de la frase "investigaciones
Esta esperanza estaba ciertamente justificada; pero la significación de la palabra sufrió un rápido
desarrollo durante el medio siglo siguiente a su introducción.
"estadística" (Statistik), en el sentido en que el término fue empleado por los escritores alemanes
del siglo XVIII, por Zimmermann y por Sir John Sinclair, significaba simplemente la exposición
de las características más notables de un Estado, siendo la forma de exposición casi inevitable en
aquel tiempo predominantemente verbal. La condición y el carácter definido de los datos
numéricos habían sido reconocidos en época algo anterior -especialmente por los escritores
ingleses-, pero las cifras fidedignas eran escasas. Sin embargo, después de comenzar el siglo XIX
fueron aumentando los datos oficiales; y en consecuencia las antiguas descripciones verbales
fueron desplazadas poco a poco por las exposiciones numéricas. La Estadística adquirió casi
insensiblemente una significación más estrecha a saber: la exposición de características de un
Estado por métodos numéricos. Difícil es fijar la época en que tal palabra adquirió este
significado cuantitativo; pero según parece la transición se realizó sólo a medias, aún después de
la fundación de la Royal Statistical Society en 1834. Los artículos del primer volumen del journal
aparecidos en 1838-39 son en su mayor parte de carácter numérico, pero la declaración oficial no
hace referencia alguna al método. "Podemos decir, con palabras del programa de esta sociedad,
que Estadística es la investigación de los hechos objeto de cálculos para poner de manifiesto las
condiciones y perspectivas de la sociedad". Se reconoce sin embargo, que "el estadista prefiere
utilizar cifras y datos numéricos".
Una vez realizado este primer cambio de significación, siguieron otros. La palabra Estadística
utilizada primero como el nombre de una ciencia, fue aplicada después para designar las series de
cifras sobre las que aquellas operaba y así se habló de estadísticas vitales, estadísticas de
beneficencia y otras. La misma palabra se aplicó luego a datos numéricos similares referentes a
otras ciencias, como la Antropología y la Meteorología. A fines del siglo XIX hallamos
"estadísticas de niños clasificados en listos, medianos y torpes", "estadísticas de caracteres
mentales en el hombre" y hasta "un examen estadístico de las características del hexámetro” de
Virgilio.
La evolución del significado del adjetivo "estadístico" (statistical) y del nombre "estadístico"
(statician) fue naturalmente análoga.
No hace falta multiplicar los ejemplos para hacer ver que la palabra estadística no está hoy
vinculada en forma principal a las "cosas del estado".
La estadística ha tenido un desarrollo extraordinario, que ha hecho que muchos problemas que
antes no tenían una clara solución, hoy la tengan.
Para que podamos hacernos a una idea de la diversidad de campos en los que la Estadística juega
un papel importante, se presentan a continuación algunas situaciones.
Se quiere determinar la efectividad de una vacuna; para ello se diseña un experimento en el cual
participa un gran conjunto de niños de cierta edad, los cuales son clasificados al azar en 2 grupos.
Al primer grupo se le aplica una vacuna y al segundo grupo no. Se les hace un seguimiento
durante un período adecuado de tiempo para comparar la incidencia de la enfermedad problema
en cada grupo. ¿Cuál debe ser la diferencia mínima en el número de afectados para aceptar que la
vacuna es efectiva?
Para que una enfermedad se produzca es preciso una combinación adecuada de las condiciones
de tres elementos que son: el agente, el ambiente y el huésped. Al proceso constituido por las
interrelaciones de estos tres elementos que caracteriza y explica la presencia de la enfermedad, se
conoce como "historia natural de la enfermedad". La Epidemiología se dedica en gran parte a la
determinación de la historia natural de las enfermedades, ya conociendo ésta, es posible de-
terminar cuál etapa del desarrollo de la enfermedad es más factible de interrumpir para evitar la
misma.
No es fácil en la mayoría de los casos, determinar la historia natural de una enfermedad, y en ello
la Estadística juega un papel muy importante al proporcionar herramientas para comparar la
distribución de la enfermedad en grupos con diversas características socioeconómicas (sexo,
edad, condiciones geográficas, raza, hábitos, etc.), con el ánimo de ir acotando las condiciones
ambientales y del huésped que conduzcan a la explicación de la historia natural de la enfermedad.
Para lanzar una nueva droga al mercado, es necesario superar una serie de etapas y pruebas que
son mas o menos rigurosas dependiendo de las leyes del país en cuestión. Generalmente el
consumo de una droga puede producir efectos colaterales que pueden ser más o menos graves.
Por tal razón es necesario diseñar experimentos para determinar niveles de sensibilidad y la dosis
adecuada que permita atacar la enfermedad y no producir molestias. (Nótese que estos aspectos
varían de persona a persona).
5. Fase de planeación
La planeación es en cierta forma "mirar hacia el futuro con los ojos del pasado". En el proceso de
planeación se requiere disponer la información cuantitativa y cualitativamente adecuadas para
tomar decisiones ahora, que tendrán implicaciones en el futuro. Una empresa debe hacer
proyecciones de demanda del artículo que se produce, pues con base en ella, se hará la
programación de la producción y todo lo que ella trae consigo.
Dicha demanda puede ser estimada a través de modelos estadísticos de series de tiempo.
6. Control de calidad
La calidad con que se produce un artículo es importante para cada industria. Esta constituye un
factor básico de competencia en el peor de los casos, por ejemplo en el caso de drogas o
alimentos se trata de la integridad e incluso de la vida de las personas. En la práctica es muy
costoso y a veces imposible inspeccionar el 100% de la producción o de la materia prima, se
puede en estos casos diseñar un plan estadístico de muestreo, y unos instrumentos que permitan
tomar decisiones muy confiables sobre la calidad de un lote de producción a partir de la
observación de unos pocos artículos, economizando de esta manera dinero y tiempo.
Se desea decidir sobre cuál de 2 procedimientos utilizar para la realización de una actividad
intermedia en la producción de un artículo, tomando como criterio de eficiencia. Se diseña el
experimento y se realizan observaciones durante corto tiempo con base en las cuales se deberá
decidir con cierta confiabilidad cuál procedimiento es mejor.
8. Producción agrícola
Se van a sembrar grandes áreas de terreno con papa china, se requiere por tanto diseñar un
experimento para determinar entre otras cosas: ¿cuál debe ser la distancia entre plántulas?,
¿cuáles deben ser los niveles de agua y de nutrientes a usar?, ¿hay o no interacción entre la
distancia entre las plantas y los niveles de nutrientes? todo ello para conseguir óptima
producción.
9. Econometría
Una empresa de seguros de vida, desea determinar cuanto debe cobrar al año por una póliza,
según la edad. Para ello, debe realizar un estudio estadístico sobre los riesgos y las frecuencias de
muertes por grupos de edad.
• “...Por el método de Ingeniería quiero decir la estrategia para causar el mejor cambio
posible, con los recursos disponibles, en una situación incierta o pobremente estudiada”
Aquí queda implícito que el ingeniero debe tomar decisiones con información incompleta, en
ambiente de incertidumbre, asumiendo riesgos, pero no de manera aventurera o irresponsable: lo
hará con criterio y guiándose por heurísticas, muchas de las cuales tienen como propósito hacerse
buenas ideas sobre la magnitud de los riesgos que asume y saber cual es el lado que lo pone
conservadoramente cerca de la seguridad.
El mismo autor, dedica el capítulo 3 de su libro a definir algunos heurismos usados por el método
de Ingeniería y los divide en 5 categorías, una de las cuales es:
• “Algunos heurismos que usan los ingenieros para mantener el riesgo dentro de los
límites permitidos”.
• “...nunca será posible desarrollar del todo algunos problemas complicados, debido a la
incertidumbre inherente al Método de Ingeniería”.
• “Si el sistema que desea cambiar es complejo y poco entendido; si el cambio deseado es
el mejor disponible y si está limitado por la disponibilidad de recursos, entonces usted
Basados en Koen (1985), queda claro que el método de ingeniería y la profesión de ingeniero,
estarán limitados en su eficiencia y eficacia, si en un sitio privilegiado de su maletín de
heurísticas, no tienen algunas que le permitan resolver y decidir en ambientes de riesgo e
incertidumbre, que constituyen su condición natural de operación.
Cuando Koen se refiere a que no todos los niveles de riesgo son aceptables, está sugiriendo que
el ingeniero en su responsabilidad, deberá cuantificar el riesgo para decidir con base en un juicio
sobre la magnitud de incertidumbre razonable. De esta manera la formulación de decisiones
relacionadas con procesos inciertos, requerirán valoraciones del tipo riesgo-beneficio.
En una situación experimental por ejemplo, en la que se pretende valorar la fatiga de cierto
material, es casi seguro, que experimentos repetidos bajo condiciones similares no generarán el
mismo resultado. ¿ Cual debe ser entonces el valor de la fatiga que debe reportarse, asociado a
dicho material, en un proceso de diseño?.
Si el ingeniero se enfrenta al problema del diseño de un canal para aguas de lluvia, ¿cuales deben
ser sus parámetros de diseño si el quisiera que el canal fuera suficiente, para lluvias tan intensas
como aquellas que se presentan en promedio una vez cada diez años?.
Conociendo la imposibilidad de predecir con certeza de que magnitud serán las máximas lluvias
que ocurrirán en el futuro. Cómo responder la pregunta?
El ingeniero debe cuantificar el riesgo y las heurísticas que le permitirán hacerlo, son
competencia de la probabilidad y la Estadística.
En este camino, conocer los elementos básicos de la teoría de la probabilidad, de tal manera que
a partir de la estimación de la probabilidad de ocurrencia eventos simples, pueda obtenerse
información sobre el riesgo de ocurrencia de eventos compuestos y complejos, es una necesidad
para el ingeniero.
Si con un determinado sistema, es posible resolver el problema con un riesgo r, ¿cuál sería el
riesgo si se colocaran n sistemas en paralelo? O combinaciones de serie y paralelo?
En una situación pobremente estudiada, ¿cómo hacer predicciones del riesgo, usando
información incompleta?
Koen (1985) en su intento por caracterizar el trabajo del ingeniero, expresa cómo el ingeniero
inicia su trabajo saliendo de un punto de partida que corresponde a una situación de
incertidumbre o pobremente estudiada y que su punto de llegada es incierto. En el camino,
deberá ir resolviendo las dificultades y obstáculos y tomando decisiones cuando existan varios
caminos alternativos.
¿Cómo poder hacer comparaciones y tomar decisiones ante diversos cursos alternativos de
decisión, en un ambiente de incertidumbre?
Koen plantea de manera muy pedagógica la diferencia entre los dominios de la Ciencia y de la
Ingeniería. Uno de los elementos conceptuales que marca esta diferencia, es la restricción en los
En ingeniería puede preferirse una solución que no es la óptima absoluta (utilizando algún
criterio de optimalidad), pero que se aproxima bastante bien a los requerimientos, si ésta es
mucho más rápida y/o barata que la óptima.
Por otro lado ante la incertidumbre o el pobre conocimiento de la situación, el ingeniero debe
disponer de heurísticas que le permitan en algunas ocasiones hacer ensayos en pequeña escala,
para predecir el comportamiento de un sistema, anticiparlo tomando las medidas adecuadas,
llenándose de argumentos para favorecer un curso determinado de acción. Este es el caso por
ejemplo, de los cilindros de prueba, que son construidos con la mezcla de concreto que el
ingeniero piensa usar en una obra y que debe someter al laboratorio para verificar su resistencia.
De nuevo, casi con seguridad, los cilindros construidos con la misma mezcla, presentarán
variabilidad en los resultados de resistencia medidos en el laboratorio. Con esta información,
deberá tomarse una decisión que será aplicada a las mezclas que con las mismas especificaciones
se realicen para construir la obra en cuestión. Conociendo la existencia de la mencionada
variabilidad ¿cómo estar seguros de que las mezclas que se produzcan se comportarán de la
misma manera que la muestra estudiada?.
¿Cómo realizar estos ensayos? ¿Cómo concluir con base en la información obtenida en los
ensayos, si se sabe que esa información parcial, no es reproducible en forma exacta si se
repitieran los ensayos?.
En esta situación, un excelente socavón, rico en las mejores fuentes para producir heurísticas, lo
constituye el diseño estadístico de experimentos, el cual no solo plantea muy buenas guías para la
ejecución de los ensayos, para garantizar la validez de las conclusiones que se obtengan, sino
que permite controlar el riesgo, definiendo a priori, la magnitud de los riesgos que el ingeniero
está dispuesto asumir, en el sentido de tomar decisiones equivocadas. Además incluye relaciones
esenciales que conectan los recursos a invertir con la calidad de las decisiones. En todo análisis
de un diseño estadístico de experimentos, arrojará información de tipo probabilístico.
Cuando se trata de la valoración del impacto de alguna medida o política gubernamental sobre el
medio ambiente, generalmente se compara la situación antes y después de la intervención.
¿Cómo saber si las diferencias observadas no se deben tan sólo al azar, sino que pueden atribuirse
a la intervención estudiada?.
Ya se dijo que una condición inherente al trabajo de un ingeniero, y que por tanto caracteriza el
Método de Ingeniería, es la restricción en la disponibilidad de recursos. Entre varias heurísticas
comparables en su eficiencia, el ingeniero podría escoger aquella que exija menos insumos de
información y en general que implique menos recursos.
Proteger los recursos, es una de sus misiones permanentes. En este sentido poder predecir el
estado final resultante de un curso de acción tomando en consideración características de su
punto de partida, le permitirá disminuir los riesgos de invertir recursos en rectificaciones por
deficientes predicciones.
Algo similar ocurre con la resistencia del concreto, que puede alcanzar su valor máximo a los 28
días.
Si una de las condiciones del punto de partida del ingeniero es la disponibilidad de información
sobre un conjunto de características relacionadas con la situación problema, ¿Cómo explorar esta
información, para plantear a partir de ella algunas hipótesis que permitan orientar el próximo
curso de acción?
En esta fase la Estadística entrega en las manos del ingeniero, algunas estrategias para hacer
útiles sus datos, dándoles sentido en el contexto de su problema a través del llamado Análisis
Exploratorio de Datos.
Si se quiere abordar la calidad desde el propio diseño del producto, intentando conocer la
interacción entre los parámetros de diseño del producto o de la operación de un proceso, con
características de preferencias o del ambiente del usuario final, se requiere usar la Estadística a
través de los llamados Métodos estadísticos para el logro de la calidad por diseño.
Esta distinción, indica que la lógica formal, no será el instrumento, que usará el ingeniero para
definir sus cursos de acción y para tomar sus decisiones sobre lo que funciona o no funciona,
pues como lo explica el propio Koen en su caracterización de heurismos, no se garantiza que la
aplicación de un heurismo sea siempre válida. Además heurismos diferentes disponibles en el
maletín del ingeniero pueden conducir a resultados contradictorios.
En este estado de cosas ¿Cómo decidir sobre la plausibilidad de una heurística o de alguna
estrategia, en ambiente de incertidumbre, si no es la lógica formal la que nos rige?
del proceso que los generó, sin comprometerse con la validez categórica de los mismos. Es decir,
que unos datos serán tan buenos como el proceso que les dio origen.
Igualmente cuando se requiere comparar cursos de acción, la Estadística proporciona unas guías,
que han de seguirse, y hacen plausibles la conclusiones que se obtengan al aplicar unos
procedimientos consistentes con dichas guías, aunque no las garantiza al cien por ciento, siempre
ofrece información sobre el riesgo de equivocarse en la magnitud establecida.
El pensamiento estadístico, es una dimensión transversal a toda heurística que intente obtener
información o tomar decisiones en ambientes de variabilidad e incertidumbre.
Para finalizar, podemos plantear la pregunta ¿Cómo comparar la eficiencia de varias heurísticas
en ambientes de incertidumbre o en situaciones pobremente estudiadas?
Una posible estrategia para lograr este propósito, como ya lo discutimos anteriormente, puede
darse con base en la simulación, la cual permite a costos relativamente bajos predecir el
comportamiento de una heurística, en diferentes ambientes y condiciones de partida. Conociendo
comportamientos aproximados de las componentes de un sistema y de sus complejas relaciones,
puede hacerse uso de las herramientas que proporciona la simulación para obtener resultados
empíricos del comportamiento del sistema completo, pudiéndose evaluar la sensibilidad o
robustez a ciertas condiciones y ambientes.
Cuando se hace referencia a investigación en este contexto, se entiende de la manera más general,
como un proceso de búsqueda de conocimiento, sin cualificar la naturaleza del conocimiento
Nótese que en esta parte, no se pretende asociar investigación con Estadística. No obstante
cuando se quiere juzgar la validez de un proceso generador de conocimiento, en cualquier campo,
no necesariamente usando la Estadística, aparecen en forma natural dos elementos a considerar y
a juzgar:
El mecanismo de generación de los datos básicos, que han de servir de cimientos o de materia
prima para la elaboración de información. En este primer elemento, la atención se centra en
valorar si el mecanismo o instrumento usado registra confiablemente los rasgos que se pretenden
observar o medir en el objeto de estudio. Así pues en el caso del astrónomo, quien pretende
registrar sus datos, usando un sofisticado telescopio, para estimar algunas distancias entre
cuerpos celestes, la pregunta clave es si las distancias registradas por su aparato corresponden a
las verdaderas distancias en la realidad, deberá estar razonablemente seguro que a través de su
instrumento, no se producen desviaciones significativas2 pues de no ser asi, el astrónomo deberá
estimar la magnitud de estas desviaciones o deformaciones, con el propósito de construir ajustes
que corrijan las deficiencias de su instrumento. Es razonable pensar que si lo que mide el
astrónomo no se corresponde con la realidad, sus elaboraciones conceptuales, aunque plausibles,
2 Significativo, en el contexto de la astronomía y de la problemática específica que se aborda. Esto deberá ser
materia de nuevas consideraciones.
Una vez se dispone de las observaciones, obtenidas con un proceso o instrumento que posee
validez externa, puede decirse que tenemos materia prima con calidad adecuada, que se tiene un
punto de partida, unas condiciones iniciales, a partir de las cuales se elaborara un nuevo
producto, se generaran afirmaciones simples o muy complejas sobre el objeto de observación,
que constituyen nuevos “hallazgos”.
La valoración de ese nuevo producto, de ese cuerpo de afirmaciones, tiene varias aristas. Una de
ellas es la compatibilidad con el conjunto de proposiciones aceptadas como validas, en el campo
que se trata. Si se encuentran contradicciones, se está frente a un nuevo problema a resolver: o se
rechazan las nuevas afirmaciones y se buscan razones que justifiquen su invalidez o se replantean
las proposiciones aceptadas y dadas como válidas hasta ese momento, buscando una explicación
plausible para ese nuevo comportamiento registrado. La otra arista, no excluyente con la primera,
es juzgar el producto, es decir el nuevo conjunto de afirmaciones generadas, con base en un
3 Entre otras, que mas tarde abordaremos en forma específica, como lo es la representatividad de la muestra objeto
de la aplicación del instrumento.
juicio sobre el proceso de elaboración, es decir haciendo una valoración crítica de “la lógica”4
utilizada, partiendo de las observaciones válidas, y usando el universo de proposiciones
aceptadas como válidas.
Cuando el resultado de esta valoración crítica del proceso de construcción de las conclusiones, es
positivo se dice que el estudio tiene validez interna.
Los conceptos de validez externa y validez interna, adoptan formas muy especiales, cuando la
naturaleza de la investigación, hace que la observación se realice con base en muestras de
individuos de una población que tiene variabilidad en cuanto a las características objeto de la
investigación y por tal razón las conclusiones son obtenidas mediante un proceso inductivo, en el
cual están presentes ingredientes como el azar y la incertidumbre.
La característica esencial de los estudios que usan métodos estadísticos, radica en la observación
con base en muestras probabilísticas5 y las inferencias de naturaleza probabilística, que permiten
asociar a sus conclusiones o hallazgos niveles de confianza, como resultado de la componente de
aleatoriedad o azar que involucra.
5 Muestra probabilística, para diferenciarla del muestreo intencional, en el que es el juicio del investigador el que
decide sobre los elementos a estudiar y por lo tanto las inferencias no son de naturaleza estadística. En adelante
siempre que se haga referencia a muestra o a muestreo, entenderemos muestreo probabilístico.
Se puede ver que en esta situación una componente adicional al instrumento de observación
propiamente dicho, es la representatividad de la muestra.
Aquí, el criterio para valorar la representatividad de una muestra, tiene dos dimensiones
esenciales: el mecanismo mediante el cual se seleccionan las unidades a incluir en la muestra y
el número de elementos a incluir en la misma. En resumen: la forma y la cantidad.
La forma de muestrear, es decir el mecanismo para seleccionar la muestra, debe ser tal que se
procure plausiblemente conservar la estructura de las características y las relaciones que se
quieren observar, que los alejamientos se deban solamente a la acción del azar. Esta afirmación, a
veces se operacionaliza con afirmaciones como: “..Todos las unidades de la población deben
tener la misma probabilidad de ser seleccionadas en la muestra” algo así como la democracia en
la selección de la muestra. aunque podría funcionar algo más flexible, como: “ ..El mecanismo de
selección6 debe ser tal que se conozca la probabilidad que tiene cada unidad de la población de
ser incluida en la muestra..”, esta segunda afirmación, mas general que la primera, exige conocer
los ponderadores o pesos que más tarde, en el análisis deberá darse a cada una de las unidades de
la muestra para conservar la mencionada estructura de la población.
De hecho cada uno de los llamados modelos de muestreo7, tiene asociado el conocimiento de la
probabilidad que cada unidad de la población tiene de ser seleccionada, así por ejemplo en
6 Nótese que la representatividad de una muestra, se juzga más que por si misma, por el mecanismo que le dió
orígen.
7 En las llamadas poblaciónes finitas, es decir que la población esta conformada por un número conocido N de
unidades.
Pueden existir mezclas de estos modelos básicos y además otros tipos de muestreo que surgen
como resultado de consideraciones de eficiencia o de dificultades prácticas.
En resumen, puede decirse entonces, que el establecimiento de un modelo de muestreo, que tenga
asociadas probabilidades conocidas de selección de cada una de la unidades de la población, es
garantía de que la muestra es representativa (por su forma).
Existe la falsa creencia de que para que la muestra sea representativa debe contener el 10% de las
unidades de una población, lo cual se contradice con un sencillo ejemplo: para saber el tipo de
sangre de una persona, no es necesario extraerle el 10% de la sangre, basta con una sola gota,
puesto que se sabe que todas las gotas de sangre de su cuerpo son del mismo tipo. Aquí se nota
como el grado de homogeneidad de las unidades toma un papel importante en la definición del
tamaño de la muestra. Podría traerse también el caso de la sabia ama de casa que solo prueba una
sola cucharadilla de su rica sopa, para tomar con base en ella la decisión de ponerle o no mas sal,
eso si, asegurándose de antemano en garantizar la homogeneidad al menear con maestría por
todos los rincones de la olla. El tamaño de la muestra si se relaciona con el tamaño de la
población a muestrear, pero la heterogeneidad, es decir la variabilidad de la característica de
interés, pesa mucho más en su determinación, a tal punto que en poblaciones muy grandes9, el
tamaño de la población no tiene ninguna importancia, es decir que las fórmulas para el cálculo
del tamaño de la muestra no toman en cuenta el tamaño de la población,
En todo caso el criterio que define si una muestra de un tamaño determinado, puede considerarse
representativa, tiene relación con el nivel de precisión requerido. Puede intuirse que entre mas
precisión se exija, más grande se requerirá la muestra.
muestra ( θ n )11 . La probabilidad de que el error tolerable no sea sobrepasado debe ser mayor o
11 A la expresion para calcular este valor con base en la muestra se le conoce como estadístico y cuando se usa
como instrumento para conocer la magnitud del parametro, se le llama estimador
igual que el nivel de confianza (γ). De esta manera la expresión de donde se despeja el tamaño
de muestra es :
P ⎡ θ − θˆn ≤ δ ⎤ ≥ γ
⎣ ⎦
Nótese que el tamaño de muestra crece muy lento aún con grandes incrementos del tamaño de la
población, asi por ejemplo para N = 300 resulta una muestra de
n=120. Sin embargo si el tamaño de la población se duplicará a 600, la muestra sería de 150.
Notese que no se duplica. Es más, si N = 900, el tamaño de muestra será de n = 164. Si la
población fuese muy grande, digamos N = 1000000, el tamaño de muestra sería n = 200, el cual
es el valor límite (tope), como se percibe en la figura, manteniendo en todos los casos el mismo
nivel de precisión requerido.
Podría decirse entonces que la validez interna, la comparabilidad se logra a través del control de
los factores de confusión. En esta situación podría encontrarse la asociación de las variables edad
de corte y rendimiento, en cada grupo de suertes que tengan el mismo número de cortes, de esta
manera, dentro de cada grupo el número de cortes permanece constante y puede lograrse la
comparación deseada, siempre y cuando no existan otros posibles factores de confusión, como
podrían ser la aplicación de madurantes en forma diferencial en las suertes observadas.
12 Una suerte es un lote de terreno, que se maneja como una unidad, para la siembra, el arreglo, el corte, etc.
13 Normalmente el terreno se va empobreciendo con el número de siembras (cortes) hasta el punto de que se hace
necesario “arreglar” (Remover y abonar) el terreno después de un cierto número de cortes, generalmente
cuatro(4).
A esta solución, para lograr validez interna, se le llama construcción de bloques14. No obstante
existen otras soluciones para este mismo problema de falta de comparabilidad, como por
ejemplo, la aleatorización o involucrar en el modelo de análisis al factor de confusión como una
variable, que permite hacer las comparaciones para cada nivel del factor, cuando se da este caso,
al factor de confusión en el modelo se le conoce como covariable.
La materia prima de la Estadística son los datos, los cuales son el resultado de la "observación"
de alguna(s) característica(s) de los elementos de interés en cierto estudio. La naturaleza de la
característica y el instrumento que dispone para registrar la misma, definirá el tipo de escala de
medición que se ajuste a la situación dada.
Escalas de medición. Cuando se hace referencia a las escalas se trata de asociar números a las
características con el propósito de manipularlas y obtener nuevo conocimiento sobre las
características del estudio.
Se consideran generalmente cuatro escalas de medición: escala nominal, escala ordinal, escala de
intervalo y escala de razón.
La escala nominal, hace uso de los números para dar nombre a los elementos que han sido
clasificados en distintos grupos, clases o categorías de acuerdo con alguna propiedad cualitativa.
El número asignado a una clase sólo actúa como un rótulo o código para diferenciar los
elementos de esa clase con los de otra. Por ejemplo si se clasifica un conjunto de objetos por su
color, las categorías pueden ser: azul, amarillo, rojo, verde, a las cuales podemos asociar res-
pectivamente los números 1,2,3,4 y se hablará de la categoría 1 para hacer referencia al grupo de
objetos de color azul o 4 para el verde, pero los números aquí, sólo son códigos para nombrar los
elementos de una clase.
La escala ordinal, hace uso de los números para clasificar los elementos de un conjunto en
categorías en los cuales los números no sólo sirven para nombrar sino que son base para
comparaciones de la forma: "más grande", "igual", "menor", es decir, que el valor numérico de la
medida se usa para indicar el orden que ocupa un elemento al comparar el tamaño relativo de sus
medidas, del más grande al más pequeño, de allí el nombre de escala. Un ejemplo, cuando a una
persona se le pide ordenar de la más importante a la menos importante, asignando números de 1 a
4, a las siguientes necesidades: empleo, salud, vivienda, servicios públicos. Aquí el número se
usa para representar la prioridad de las necesidades; de esta manera si un individuo asigna el
número 1 a la vivienda y el 4 al empleo, indicará que para él es "más importante" la vivienda que
el empleo.
La escala de intervalo, considera pertinente información no sólo sobre el orden relativo de las
necesidades, como en la escala ordinal, sino también del tamaño del intervalo entre mediciones,
esto es, el tamaño de la diferencia (resta) entre dos medidas. La escala de intervalo involucra el
concepto de una unidad de distancia. Por ejemplo la escala con la cual casualmente
representamos la temperatura; un incremento en una unidad (grado) de la temperatura está defi-
nido por cambio particular en el volumen de mercurio en el interior del termómetro, de esta
manera, la diferencia entre dos temperaturas puede ser medida en unidades (grados). El valor
numérico de una temperatura es meramente una comparación con un punto arbitrario llamado
"cero grados". La escala de intervalo requiere un punto cero, como también, una unidad de
distancia, pero no importa cual punto se define como cero ni cual unidad es la unidad de dis-
tancia. La temperatura ha sido medida adecuadamente por mucho tiempo en las escalas
Fahrenheit y centígrada, las cuales tienen diferente temperatura cero y diferentes definiciones de
1 grado o unidad. El principio de la medida de intervalo no es violado por cambios en la escala o
en la localización.
La escala de razón, es usada cuando no solamente el orden y el tamaño del intervalo ente
medidas son importantes, sino también la razón (o cociente) entre dos medidas. Si es razonable
hablar de que una cantidad es "dos veces" otra cantidad, entonces la escala de razón es apropiada
para la medición, como cuando medimos distancias, pesos, alturas, etc. Realmente la única
diferencia entre la escala de razón y la escala de intervalo, es que la escala de razón tiene un
punto cero natural, mientras que en la escala de intervalo éste es arbitrario. En ambas escalas la
unidad de distancia es arbitrariamente definida.
Es muy importante tener presente la escala de medición cuando se realiza un estudio, puesto que
las pruebas estadísticas varían dependiendo de la escala de medición de las características en
referencia.
En general puede decirse que la escala de razón es la que tiene a su disposición una mayor
cantidad de herramientas estadísticas para su tratamiento.
Variable discreta, es aquella cuya naturaleza hace que el conjunto de valores que puede tomar la
variable sea finito o infinito numerable.
Por ejemplo, la variable: número de personas por hogar, el conjunto de valores que puede asumir
ésta son:
Otros ejemplos son los siguientes: número de consultas al médico durante un año, número de
clientes que llegan a un banco durante una hora, número de ensayos realizados hasta obtener el
primer éxito.
Variable continua, es aquella, cuya naturaleza hace que exista un intervalo de puntos, los cuales
son valores que puede tomar la variable. Por ejemplo, la estatura de una persona, esta variable
puede tomar cualquier valor en el intervalo (1.50 m, 1.60m). El tiempo entre dos llegadas
consecutivas al servicio de urgencias de un hospital. El área cultivada de trigo en las fincas del
valle del Río Cauca .
Las definiciones como son presentadas son de utilidad en el tratamiento descriptivo de los datos,
como se verá más adelante.
Se definen a continuación algunos términos que se usarán con frecuencia en el presente escrito.
1.6.1 Población
Se identificará con este nombre al conjunto de elementos de interés en un estudio, sobre los
cuales se desea información y hacia los cuales se extenderán las conclusiones. El término
población no debe asociarse exclusivamente con población humana; tiene sentido hablar de la
población de tornillos que se producen durante un día en una determinada fábrica, o de la
población constituida por todas las fincas de un país o una región.
En todo estudio, la población debe estar definida en forma muy precisa, de tal manera que pueda
determinarse en algún momento si un elemento dado pertenece o no a la población. Por ejemplo
supóngase que se va a realizar un estudio para determinar el porcentaje de desempleo en Cali a
abril 4 de 1995; algunas reflexiones tendientes a caracterizar a la población que concierne a dicho
estudio son las siguientes:
¿Que significa ser residente en Cali? ¿una persona que llegó a Cali en abril 3 de 1995, pertenece
a la población? o ¿una persona que se fue de Cali en la misma fecha?
Por la naturaleza del estudio los elementos de interés son las personas que "deberían estar
empleadas" (de la observación de estas se definirá quienes lo están y quienes no, para determinar
el porcentaje de desempleo), entonces cabe la pregunta: ¿cómo se caracterizan los que "deberían
estar empleados”? (edad, condiciones de salud, incapacidad, etc.).
Estas reflexiones sugieren definiciones precisas que conducen a una determinación adecuada de
la población.
1.6.2 Muestra
En muchas ocasiones se requiere conocer una característica medible de la población, para ello se
puede observar, uno a uno, todos los elementos de la población (Censo), lo cual casi siempre es
impracticable o muy costoso; en estos casos puede "hacerse una idea" sobre la característica
poblacional, observando sólo algunos elementos de la población, éstos constituyen una muestra
de esa población.
1.6.3 Parámetro
1.6.4 Estadística
el diámetro promedio de los tornillos de una muestra de la población de una fábrica, etc. En
general una estadística es una función de los datos de una muestra; como puede intuirse el valor
que asume una estadística depende de la muestra que se haya tomado. Generalmente se usan las
estadísticas para hacerse una idea de los parámetros, cuando esto sucede se llaman estimadores.
Nótese que una estadística en general varia de una muestra a otra, en este sentido puede mirarse
como una variable y dársele el tratamiento que expondremos para las variables.
A continuación se presentan las principales actividades que es necesario realizar cuando se hace
un estudio estadístico.
Consiste en la justificación del estudio, la determinación de los objetivos del estudio, revisión
bibliográfica, planteamiento de las hipótesis que se desea probar o rechazar o definición de los
parámetros que se desea estimar, incluyendo la precisión que se requiere en la estimación.
En esta etapa se realiza el plan de análisis, se define una ruta preliminar de ataque al problema.
Se seleccionan, si es del caso, algunas técnicas estadísticas que podrían ayudar a esclarecer
preliminarmente la situación. Es razonable, que el plan preliminar sufra modificaciones, en la,
medida en que se van valorando los hallazgos. Sin embargo tener un plan permite definir un
camino de acción, una valiosa guía de acción.
Algunos llaman a esta etapa "diseño del experimento" ( o diseño de la muestra) y consiste en
definir si se observará la población completa (censo) o sólo parte de ella (muestreo). En este
último caso deberá determinarse el tipo de muestreo a utilizar y el tamaño de la muestra para
unas especificaciones de precisión deseadas (error tolerable y nivel de confianza), igualmente
debe definirse la logística de la recolección de la información.
Esta es una etapa muy importante, pues de ella depende la calidad de la información. Los errores
en este sentido no los miden las herramientas estadísticas, por esta razón la recolección de la
información requiere mucho control sobre los instrumentos como también sobre el proceso de
medición.
La dificultad para diseñar un control eficiente sobre la calidad de los datos recogidos, en algunas
ocasiones, hace más confiable una muestra que un censo, puesto que se requiere controlar un
menor volumen de recursos, garantizando de esta manera una mejor calidad de los datos.
Esta etapa la constituye la aplicación de las técnicas que proporciona la estadística descriptiva y
que consiste en la organización de la información en forma útil y comprensible, mediante la
elaboración de cuadros, tablas, gráficos y reduciendo los datos recolectados por medio de algunos
indicadores que faciliten su interpretación; esta etapa es una fase exploratoria, no obstante
constituye un medio para hacerse una idea de los rasgos poblacionales. El análisis de la muestra,
pocas veces tiene interés en sí mismo, siempre se usa la muestra como un instrumento para
conocer la población. Por esa razón la característica de Representatividad de la muestra debe
garantizarse siempre, independientemente de que se realice análisis exploratorio (descriptivo) o
se utilicen herramientas probabilísticas para hacer inferencia estadística.
Se denomina así, al proceso inductivo que permite inferir a toda la población proposiciones,
basadas en las observaciones y resultados proporcionados por una muestra. Como puede intuirse
en este proceso de inferencia, aparece un factor de incertidumbre, y de error, puesto que muestras
distintas pueden arrojar resultados distintos; es precisamente esto lo que hace que la teoría de la
probabilidad sea la herramienta básica de la inferencia estadística, ésta no evita los errores que
por azar se cometen, pero si los cuantifica y les asocia una medida que indica el nivel de
confianza de los resultados obtenidos, lo cual constituye su principal mérito.
En esta última etapa se plantean las conclusiones en forma clara, indicando sus alcances y
limitaciones, igualmente se plantean nuevas hipótesis que pudieran surgir en la propia
exploración de los datos.
Cuando se habla de estadística descriptiva, da la impresión que es una de las varias "estadísticas"
que existen. En realidad es una etapa de la metodología estadística, en la que no se involucra la
teoría de la probabilidad como herramienta para realizar inferencias a toda la población, sin
embargo se construyen indicadores, se hacen gráficos, se realizan comparaciones, siempre con el
interés de conocer sobre la población de donde fue tomada la muestra.
La estadística descriptiva permite procesar los datos de una muestra y obtener información que
puede ser usada con fines exploratorios, para plantear hipótesis o como materia prima de la etapa
de inferencia estadística.
Capítulo 2
Ejemplo 2.1
Se toma información sobre el número de clientes que llegan a un banco en una hora pico, ob-
servando una muestra de 25 períodos de un minuto se obtuvieron los siguientes resultados: 8, 6,
7, 9, 8, 7, 8, 10, 4, 10, 8, 7, 9, 8, 7, 6, 5, 10, 7, 8, 5, 6, 8, 10, 11.
A esta información, que no ha tenido ningún tipo de tratamiento se le llama muestra bruta y se
representa por x1, x2,...., xn donde n es el número total de datos.
Se puede comenzar a organizar la información escribiendo los datos distintos de que consta la
muestra y haciendo un conteo para determinar el número de veces que aparece cada dato; valor
éste que se denominará frecuencia absoluta. El cuadro 2.1 muestra la situación del ejemplo.
Como puede observarse, la suma de las frecuencias absolutas de todos los datos, debe
coincidir con el número total de datos (tamaño de la muestra).
Se puede también expresar la frecuencia absoluta como una fracción o porcentaje del nú-
mero de datos y surge así lo que se conoce como frecuencia relativa del dato xi que se
denota por fi, así pues:
f i = i ; en el ejemplo f 3 = = 0.12
n 3
n 25
que indica que el dato x3 = 6 representa el 12% de toda la muestra, es decir que de
acuerdo con la muestra, en la hora pico, el 12% de las veces llegan al banco 6 clientes por
minuto.
También se podría calcular el número de datos que son menores o iguales que xi, que se
denomina frecuencia absoluta acumulada hasta xi , y se denota por Ni; si x1, x2, ... ,
xm están ordenadas en forma creciente, entonces:
Ni = n1 + n2 + ... + ni
Fi = = f1 + f 2 +...+ f i
Ni
n
CUADRO 2.2
Propiedades y relaciones
Si se toma una muestra de n datos, de los cuales hay m distintos, que ordenados en forma
creciente son x1, x2, ... , xm, entonces:
• 0 ≤ ni ≤ n ; i = 1, 2, 3, ..., m
• n1 + n2 + ... + nm = n ; es decir ∑n = n
m
i= 1
i
• fi = ; 0 ≤ fi ≤ 1
ni
n
• f1 + f 2 +...+ f m = 1 ; es decir ∑ fi = 1
m
i =1
• N j = n1 + n2 + ... + n j ; es decir N j = ∑ ni
j
i= 1
• Nm = n
• n1 = N1 ≤ N 2 ≤ ... ≤ N m = n
• F j = f1 + f 2 +...+ f j ; es decir F j = ∑ fi
j
i =1
• f1 = F1 ≤ F2 ≤...≤ Fm = 1
En realidad las frecuencias acumuladas pueden definirse como funciones sobre todos los
números reales, así:
F(x) = fracción (o porcentaje) de los datos que son menores o iguales que x.
Así pues :
F(4.32) = la fracción del total de datos que son menores o iguales que 4.32.
= 0.04
N(4.32) = 1
REPRESENTACIÓN GRÁFICA
Fig. 2.1. Diagrama de frecuencias del número de clientes que llegan a un banco en un minuto, en la
hora pico.
Fig. 2.2. Gráfico de frecuencias acumuladas para la variable "número de clientes que llegan a un
banco en un minuto en la hora pico"
Como puede notarse el gráfico corresponde a una función escalonada, lo cual indica que sólo hay
datos en los puntos de discontinuidad, cuya frecuencia está representada por el valor del salto
correspondiente.
Supóngase que se tienen observaciones sobre la estatura de las personas que conforman una
muestra de tamaño 25 y que el instrumento de medición usado tiene precisión hasta las
centésimas de milímetro, así pues un valor podría ser 1.74325 metros; si se pretendiera aplicar el
procedimiento que se usó para las variables discretas, habría varios problemas, uno de ellos es
que seguramente, todos los datos son distintos, lo cual generaría una tabla de frecuencias
absolutas con el mismo nivel de información que la muestra bruta; además, no es de interés
conocer con ese nivel de detalle la información, por ejemplo, no es de interés conocer cuántas
personas tienen una estatura de 1.74325 metros.
En estos casos, es más fácil agrupar la información en los llamados intervalos de clase. Para
ilustrar sobre su construcción, se plantea el siguiente ejemplo.
Ejemplo 2.2
Los datos que a continuación se presentan corresponden a los tiempos de atención (en minutos)
de pacientes en el "filtro" del servicio de urgencias de un hospital:
13.1, 7.1, 14.8, 19.0, 10.2, 18.0, 19.8, 15.0, 17.3, 10.8, 22.3, 14.5, 17.1, 14.9, 12.0, 14.0, 18.4, 10.2, 15.8,
16.5, 15.0, 17.6, 4.2, 13.4, 21.2, 14.7, 13.8, 21.0, 14.3, 11.1, 18.9, 8.3, 16.6, 11.2, 20.2, 14.4, 13.5, 18.2,
12.4, 17.0, 26.7, 15.5, 22.0, 12.9, 17.9, 7.4, 18.0, 19.8, 16.0, 21.2.
Generalmente se empieza por determinar las observaciones extremas (mínima y máxima), que en
el ejemplo aparecen marcadas: min (xi) = 4.2; max (xi) = 26.7.
Se debe determinar los valores L0, L1, L2, ...,Lm que constituirán los límites de los m intervalos de
clase que se van a construir, con longitudes C1, C2, ..., Cm; de esta manera:
L1 = L0 + C1
L2 = L1 + C2
Li = Li-1 + Ci
Lm = Lm-1 + Cm
El primer límite inferior, L0, debe escogerse de tal manera que sea un poco menor que el dato más
pequeño; un criterio para definirlo es el siguiente:
Como los datos están registrados con una cifra decimal, se entiende que el instrumento de
medición usado tiene una precisión de hasta las décimas de minuto. Puede decirse que los datos
tienen (3) cifras significativas, lo cual indica que el registro "4.2 minutos" está representando
cualquier valor real en el intervalo: (4.15 , 4.25), de esta manera puede definirse L0 = 4.15.
Si se quiere que todos los intervalos de clase sean igual longitud, es decir C1 = C2 = ... = Cm =
C , se deberá adoptar un valor C, que puede ser arbitrario o estimado con base en el rango de los
datos. En este caso, una aproximación de C puede lograrse así:
C≅
Rango
m
Para el ejemplo 2.2 se construirán intervalos de diferente tamaño, por ser la situación más
general.
Para determinar la frecuencia asociada con cada intervalo, deben contarse los datos que
pertenecen a cada uno; las definiciones de las frecuencias dadas anteriormente siguen vigentes
para el caso de variables continuas, lo mismo que sus propiedades.
Se determina el punto medio de cada intervalo, que se denomina marca de clase y se representa
por x'i así:
Li− 1 + Li
x i' =
2
OBSERVACIONES
1. Se puede apreciar en el cuadro 2.3. que el límite superior de un intervalo coincide con el
límite inferior del siguiente, lo cual podría originar un problema de indefinición en caso de que
un dato coincidiera con un límite, no se sabría donde clasificarlo. En el ejemplo no puede existir
este problema puesto que todos los límites se han construido con una cifra decimal adicional a la
que tienen los datos; cuando aquella posibilidad exista, se recomienda la convención: (Li-1 , Li]
que significa que en cualquier intervalo de clase, el límite inferior no pertenece a él, pero sí, su
límite superior.
4. Cuando sea posible debe procurarse que todos los intervalos sean de igual longitud, lo
cual en ocasiones simplifica algunos cálculos y sobre todo facilita la interpretación, puesto que
comparando directamente las frecuencias, se está comparando la densidad (concentración) en
cada intervalo.
En algunas veces no es posible construir intervalos de igual longitud, por ejemplo, cuando la
variable "salario" toma un rango amplio de valores, para bajos salarios, clases de $100.000 de
longitud pueden considerarse, por ser esta diferencia importante, pero para altos salarios esta
longitud resulta pequeña. En estas situaciones la longitud de los intervalos crece con los valores
de la variable, incluso a veces los intervalos extremos pueden ser abiertos ("los que ganan menos
de $500.000" o los que ganan $1´000.000 o más).
Cuando los intervalos de clase son de diferente tamaño como en el ejemplo presentado, se
dificulta conocer donde hay mayor concentración de los datos, esta situación se soluciona
calculando la densidad de frecuencia relativa de cada intervalo, que consiste en expresar el
porcentaje (o fracción) promedia de datos que hay por cada unidad de intervalo de clase.
Así por ejemplo el intervalo 13.15 - 16.15 contiene el 30% de los datos. Como el intervalo tiene
una longitud de 3 minutos, se puede decir que dicho intervalo tiene una densidad promedio de
10% por cada minuto, que es el resultado de plantear: "si el 30% de los datos están en una
longitud de 3 minutos, en un minuto que porcentaje habrá?
De esta manera si se asume que los datos en cada intervalo están uniformemente distribuidos, se
puede definir la densidad f*i en el i-ésimo intervalo, como:
f i* = i
f
Ci
Si se expresa la densidad como una función para cualquier número real x, se obtiene la llamada
función empírica de densidad, que para el ejemplo 2.2 estará dada por:
⎧
⎪
0 si x <4.15 ó x >27.15
⎪ 0,04 3 ≡ 1,33% /min si 4.15 < x 7.15
⎪ 0,10 4 ≡ 2,5%/min
⎪
si 7.15 < x 11.15
⎪ 0,12 2 ≡ 6%/min
⎪
si 11.15 < x 13.15
f *(x) = ⎨ 0,30 3 ≡ 10%/min
⎪
si 13.15 < x 16.15
0,18 2 ≡ 9%/min
⎪
16.15 < x 18.15
⎪
⎪
5.33% /min si 18.15 < x 21.15
⎪ 1.66% /min 21.15 < x 27.15
⎪⎩
La palabra "empírica" es para resaltar que proviene de una muestra, pero pretende indicar
el comportamiento de la variable en la población (función de densidad de probabilidad).
⎧0
⎪ x ≤ L0 x > Lm
f ( x ) = ⎨ fi
⎪C
*
⎩ i
Li-1 < x Li , i = 1, 2, ..., m
Este gráfico es conocido con el nombre de histograma y consiste en una serie de rectángulos,
cuya base son los intervalos de clase y su altura la densidad correspondiente.
Al observar la figura 2.3 se puede apreciar que el área de uno de los rectángulos, por ejemplo el i-
ésimo es:
Ai = base x altura
= Ci x f*i
como f i* = i , entonces :
f
Ci
Ai = Ci x i = f i
f
Ci
Lo cual significa que el área de cada rectángulo es equivalente con su frecuencia relativa; de esta
manera si un rectángulo tiene el doble de área que otro significa que contiene el doble de datos.
La función empírica de densidad puede usarse para calcular en forma aproximada el porcentaje
de datos que hay en un intervalo cualquiera. Si en el ejemplo 2.2 se deseara estimar el porcentaje
total de consultas que duran 20 minutos o menos, se procede de la siguiente manera:
( ]
18.15 20 21.15
El porcentaje de datos menores o iguales que 20 puede calcularse al sumar el porcentaje de datos
menores ó iguales a 18.15 (74%) más el porcentaje de datos que hay entre 18.15 y 20, el cual
puede obtenerse mediante el siguiente razonamiento: "si en el intervalo 18.15 - 21.15 se tiene una
densidad de 5.33 %/min entonces que porcentaje de los datos habrá en una longitud de (20 -
18.15) minutos?
( 20 − 1815
. )min = 9.86%
5.33%
min
Así pues que el porcentaje de datos que son menores o iguales que 20 es:
Con el mismo procedimiento se puede construir en forma general, para cualquier x, el porcentaje
(o fracción) de datos que son menores o iguales que x, que se denota por F(x) y se conoce como
función empírica de distribución acumulativa.
Supóngase que x pertenece al intervalo (Li-1 , Li] el cual tiene una longitud Ci y una frecuencia
relativa fi, e interesa conocer la frecuencia relativa acumulada hasta x.
En virtud del supuesto sobre la homogeneidad en la distribución de los datos en cada intervalo, se
puede plantear la siguiente regla de tres: "si en Ci unidades hay una frecuencia fi, en (x - Li-1)
unidades, qué frecuencia habrá ?", la respuesta es:
( x − Li −1 )
fi
Ci
Por lo tanto:
F ( x) = F ( Li −1 ) + i ( x − Li −1 )
f
Ci
0 si x ≤ 4.15
Si se desea estimar el porcentaje de datos que son menores o iguales que 15 minutos, es decir:
Si se desea estimar el porcentaje de datos que hay entre "a" y "b", dígase f(a,b) se
Así por ejemplo, el porcentaje de datos que hay entre 15 minutos y 20 minutos puede estimarse
como:
O sea que aproximadamente el 39.4% de los pacientes son servidos en el "filtro" en un tiempo
entre 15 y 20 minutos.
De la función F(x) en el ejemplo 2.2, se observa que en cada intervalo, F(x), representa un
segmento de la recta, cuya pendiente es la densidad del intervalo respectivo. Esto da origen al
siguiente gráfico con el nombre de ojiva.
Estas mismas ideas que se han desarrollado hasta ahora a partir de los datos de una muestra,
tienen sus respectivos homólogos cuando se trabaja con todos los datos de la población
estadística y las variables continuas con las que trabajamos recibirían el nombre de variables
aleatorias, análogamente las funciones de densidad empíricas f*(x) y la Función de distribución
acumulada F(x), reciben los nombres de función de densidad de probabilidad y Funcion de
distribución acumulativa de probabilidad. Aquí intentaremos dar el paso de una manera natural
de los conceptos de las muestras a los conceptos de las poblaciones, es decir, de las frecuencias
relativas a la probabilidad y de las áreas de los rectángulos en el histograma a las áreas bajo
curvas o funciones y en los cálculos pasaremos de las suma de áreas de rectángulos al calculo de
intergrales. Ilustraremos este proceso con el siguiente ejemplo.
Por razones de índole administrativo, se quiere representar los datos por medio de un histograma
que considere los siguientes intervalos de clase: 0-2 años, 2-3 años, 3-5 años, 5-10 años, 10-20
años.
i Intervalo Frecuencia
(Años de Relativa
Antigüedad) %( fi )
1 0-2 10%
2 2-3 5%
3 3-5 40%
4 5-10 40%
5 10-20 5%
TOTAL 100%
Un histograma es una serie de rectángulos construidos cada uno de los cuales tiene como base el
intervalo correspondiente y cuya área representa la frecuencia relativa fi de su intervalo
respectivo. De tal manera que un intervalo que contiene el doble de datos que otro, deberá estar
representado por rectángulo que tiene el doble del área. (Ojo que se dice el doble de área y no de
altura). Observe del cuadro de frecuencias de nuestro ejemplo, que el primer rectángulo, deberá
tener el doble de área que el segundo. El Tercero deberá tener la misma área del cuarto y además
debe tener 4 veces el área del primero, pues esa es la relación de las áreas.
Vamos a construir el primer rectángulo de un área arbitraria, pero las demás áreas deberán
guardar proporcionalidad de acuerdo con las frecuencias relativas fi .
Interpretación de la altura f i * de los rectángulos de un histograma.
Por lo pronto denotemos la altura del rectángulo i-esimo, por fi * , observe que le hemos colocado
De la definición de histograma quedó establecido que las áreas representan las frecuencias
relativas respectivas, es decir que si llamamos Ai al área correspondiente, entonces estamos
diciendo que: Ai = fi , pero como el área de un rectángulo es base por altura, entonces:
fi* =
fi
. Observe que se divide la frecuencia relativa entre el número de unidades que tenga el
Ci
intervalo correspondiente, entonces las unidades de fi * son (% de datos por cada unidad de la
variable en dicho intervalo). Veamos por ejemplo para el primer intervalo: f1 = 10% y C1 = 2 , así
que la altura del primer rectángulo es: f1* = = = 5% / año , que escrito en forma decimal
f1 10%
C1 2 años
Es intuitivamente claro, que si el primer intervalo tiene el 10% de los datos y estos datos están
distribuidos en un intervalo que tiene una longitud de dos (2) unidades, pues en promedio hay 5%
por cada unidad ( f1* = 5% / año ≡ 0.05 / año )
El cuarto intervalo, (5; 10], por ejemplo, en sus 5 unidades (5 años) contiene 40% de los datos.
Así que en promedio, hay 8% de los datos en cada unidad o lo que es lo mismo:
f 4* = = = 8% / año ≡ 0, 08 / año
f4 40%
C4 5 años
Es decir que las unidades del eje Y en el gráfico de la Figura.2.4B, es 1/unidad o %/unidad, por
eso se le conoce como densidad de frecuencia ( fi * ).
Figura 2.4C. Representación del porcentaje de trabajadores con antigüedad de 4 años o menos.
Observe que el área sombreada se calcula sumando por un lado las áreas de los primeros
rectángulos (10%+5%) y por otro lado la parte del tercer rectángulo comprendida entre 3 y 4,
que resulta ser la mitad de 40%, es decir 20%. Así que el porcentaje de trabajadores con
antigüedad de 4 años o menos se estima en:
Haciendo cuentas usando el concepto de densidad de frecuencia, podríamos decir que como en el
tercer intervalo su densidad es de 20%/año y en entre 3 y 4 años hay una unidad, entonces habrá
el 20%.
Figura2.4D. Representación en el Histograma del porcentaje de trabajadores con Antigüedad entre 4 y 7,5
años.
P ( 4 ≤ X ≤ 7,5) = f3* * ( 5 − 4) + f 4* *(7,5 − 5) = 20%/ año *(1año) + 8%/ año *(2,5años) = 40%
Rec
Aquí hemos obtenido una fórmula para calcular la frecuencia relativa acumulada hasta x0, cuando
este valor se encuentra entre 5 y 10 años de antigüedad.
Así pues si x0=8 años, entonces: P ( X ≤ 8) = 55% + 8%/ año *(8 − 5)años = 79% .
⎧ x≤0
⎪
0 Función de Distribución de Frecuencia Relativa
⎪ 0< x≤2
Acumulada.
⎪ 0,10 + 0, 05* ( x − 2 )
0, 05* x
2< x≤3
⎪
F ( x ) = P ( X ≤ x ) = ⎨ 0,15 + 0, 20*( x − 3) 3< x ≤5
⎪ 0,55 + 0, 08*( x − 5) 5 < x ≤ 10
⎪
⎪0,95 + 0, 005*( x − 10) 10 < x ≤ 20
⎪
⎩ 1 x > 20
Usando dicha expresión podemos estimar por ejemplo el porcentaje F(4), es decir el porcentaje
de trabajadores con 4 años de antigüedad o menos: Observe que x=4, se encuentra en el intervalo
3 < x ≤ 5 , por lo tanto:
Ahora imaginemos que disponemos de un número muy grande de datos de tal manera que sea
posible construir muchos intervalos de pequeña anchura y a tal punto que el conjunto de
rectángulos del histograma se convierte en una curva suave f * ( x ) como se muestra en la Figura .
Note que si ahora conociéramos la expresión para f * ( x ) , el área sombreada podría calcularse
como:
F ( x) = P ( X ≤ x ) = ∫ f ( x ).dx
x
*
es decir, que el área ahora podría calcularse como la integral bajo
−∞
la curva.
A esta función suave f * ( x ) que se supone ahora describe la población completa y no una muestra
Se dice que X es una variable Aleatoria Continua si existe una función f(x), llamada función
densidad de probabilidad (fdp) de X, que satisface las siguientes condiciones:
∫ f ( x ).dx = 1
+∞ Ya hemos dicho antes que el área del
b) histograma y ahora el área bajo la función
−∞ de densidad, debe ser 100%.
P ( a ≤ X ≤ b ) = ∫ f ( x ).dx
b El área atrapada entre los valores a y b es
c) Para cualquier a, b se tiene que justamente el porcentaje de datos de la
a población que cumple con esas
especificaciones. Mirado como la
experiencia aleatoria de sacar al azar un
valor de X, esta área puede interpretarse
como probabilidad.
Ejemplo 2.2C.
Ω X = { x ∈ℜ / 0 ≺ x ≤ 2}
veces se denota por ℜ X
Rango o Recorrido de la variable aleatoria X. algunas
Cual deberá ser la ecuación que defina las dos rectas que conforman el triangulo equilátero y
que definen la función de densidad de probabilidad estimada?.
Pues como el área debe ser igual a la unidad, esto significa que la altura h del triangulo, debe
ser tal que el área valga 1.
Area = 1 = = =1
base * altura 2* h
2 2
De donde se deduce que la altura h=1. Por lo tanto la ecuación de la recta de pendiente positiva
es f(x)=x. la ecuación de la recta con pendiente negativa será: f(x)=2 –x, así pues:
⎧ x 0 < x ≤1
f ( x) = ⎨
⎩2 − x 1 < x ≤ 2
x.dx +
1,0 1,5
x.dx +
1,0 1,5
0,5 1,0
⎛ x2 ⎞
P ( 0,5 ≤ X ≤ 1,5 ) = + ⎜ 2x − ⎟ =
1,0 1,5
x2
2 ⎝ 2 ⎠ 1,0
P ( 0,5 ≤ X ≤ 1,5 ) =
0,5
3
4
Observe que el área, en este caso, se hubiera podido calcular como el área de dos trapecios, con
base mayor la altura del triangulo.
Ejemplo 2.2D
El tiempo, en horas, que tarda un autobús urbano en completar su recorrido se puede representar
mediante una variable aleatoria X con la siguiente función de densidad:
⎧ kx ; 0 ≤ x ≤ 1
f (x) = ⎨
⎩ 0 ; resto
De acuerdo a las propiedades de una función de densidad para variables aleatorias continuas se
−∞
⎡1 2 1 ⎤ k
⇒ ∫ kxdx = k ∫ xdx = k ⎢ x ⎥ = ⎣⎡(1) 2 − (0) 2 ⎦⎤ = (1) =
1 1 k k
⎣⎢ 2 0 ⎦⎥ 2 2 2
0 0
=1⇒ k = 2
k
Ahora al igualar y despejar k se obtiene que:
2
Por lo tanto:
⎧2x 0 ≤ x ≤1
f ( x) = ⎨
⎩ 0 en otra parte
F ( X ) = P( X ≤ x) = ∫ f (t )dt
x
⎣2 ⎦ 0 ⎣2 ⎦ 2
x x
0 0
⎧0 x<0
⎪ 2
F(x)=P ( X ≤ x ) = ⎨ x 0 ≤ x ≤ 1
Función de Distribución Acumulativa de Probabilidad
⎪1 x >1
⎩
La probabilidad de que el autobús efectúe su recorrido como mucho en 3/4 de hora se obtiene así:
F (3 / 4) = P ( X ≤ 3 / 4 ) = ⎜ ⎟ = = 0.5625
⎛3⎞
2
9
⎝ 4 ⎠ 16
Lo cual significa que aproximadamente el 56% de las veces el autobús se tarda ¾ de hora o
menos.
Calcular la probabilidad de que el autobús tarde entre 20 minutos (1/3 de hora) y 1 hora
en completar su recorrido.
⎝3⎠ 9
2
Por lo tanto la probabilidad de que el autobús tarde entre 20 minutos (1/3 de hora) y 1 hora en
completar su recorrido es de 0.8888. Es decir que se espera que aproximadamente el 88,9% de las
veces el autobús tarde un tiempo comprendido entre 20 minutos y una hora.
Ejemplo 2.2E
Cierto constructor trabaja con avales bancarios para cada una de sus obras, de forma que los
intereses que debe pagar empiezan a resultarle muy gravosos cuando las licencias sufren retrasos
superiores a 4 meses. En estos momentos, el constructor tiene en proyecto un total de 12 obras.
Calcule:
En realidad lo que se pide es la probabilidad de que el tiempo de tramitación de una obra sea
superior a 4 meses. P(X>4).
P( X > 4) = ∫ f ( x)dx = ∫
+∞ +∞
1 −3x
1
e
3 dx
P( X > 4) = ∫ e dx = ∫ e 3 dx = − e 3
4 4
∞
= −e +e = ( 0) + e = 0.2635
∞ 1 −3 x 1 ∞ − x − x − (∞) − ( 4) −
1 1 1 1 1 4
3 3 3
4 3 3 4 4
Es decir que un poco más de la cuarta parte de las veces que se hace un trámite de licencia, ésta
tarda más de 4 meses y resulta gravosa para el constructor
Ejemplo 2.2F
El porcentaje de alcohol (100X) en cierto compuesto se puede considerar como una variable
aleatoria donde X, con la siguiente función de densidad de probabilidad:
f ( x) = 20 x 3 (1 − x) ; 0 ≤x ≤1.
F ( x) = P ( X ≤ x ) = ∫ f ( x)dx
x
⎧ x<0
⎪x
0
F ( x) = ⎨ ∫ 20 x3 (1 − x)dx = 20 ⎜ x 4 − x 5 ⎟ 0 ≤ x ≤ 1
⎪ ⎛1 1 ⎞
⎪0 ⎝4 5 ⎠
⎪ x >1
⎩ 1
⎧ x<0
F ( x) = ⎨20 ( 14 x − 15 x ) 0 ≤ x ≤ 1
⎪
0
⎪
4 5
⎩ 1 x >1
será el área bajo la función de densidad, o por lo menos no disminuye. Además note que está
definida para todos los números reales.
b) Calcule la probabilidad de que el compuesto contenga las dos terceras partes o menos de
alcohol.
P ( X ≤ 23 ) = F ( 23 ) = 20 ⎜ ( 23 ) − ( 23 ) ⎟ =0,469
⎛1 4 1 5⎞
⎝4 5 ⎠
Ya sabemos que la mediana es aquel valor x , tal que P ( X ≤ x ) = 50% , es decir aquel valor para
⎛1 1 ⎞
20 ⎜ x 4 − x5 ⎟ = 0,50
⎝4 5 ⎠
Lo cual significa que la mediana del contenido de alcohol es 0,687, es decir que la mitad de
las veces el compuesto resulta con 68,7% de alcohol o menos.
d) Supóngase que el precio de venta del compuesto anterior depende del contenido de
alcohol. Específicamente si 1/3 ≤ X ≤2/3, el compuesto se vende a 50 dólares/galón, de
otro modo se vende a 30 dólares /galón. Si el costo por galón del compuesto es 20
dólares /galón, entonces a la larga, cuanta es en promedio la utilidad por galón?
Definamos una nueva variable aleatoria que represente la Utilidad U, por galón.
⎧$ 30 Si 13 ≤ X ≤ 32
U =⎨
⎩ $ 10 En Otro caso
P(U = $ 30) = P( 13 ≤ X ≤ 23 ) = F ( 23 ) − F ( 13 ) =
⎡ 1 ⎛ 2 ⎞ 4 1 ⎛ 2 ⎞5 1 ⎛ 1 ⎞ 4 1 ⎛ 1 ⎞5 ⎤
P (U = $ 30) = 20 ⎢ ⎜ ⎟ − ⎜ ⎟ − ⎜ ⎟ + ⎜ ⎟ ⎥ = 0, 4156
⎣⎢ 4 ⎝ 3 ⎠ 5 ⎝ 3 ⎠ 4 ⎝ 3 ⎠ 5 ⎝ 3 ⎠ ⎦⎥
Utilida Probabilida
d d
U
$ 30 0,4156
$ 10 0,5844
TOTAL 1,0000
Con base en este gran conjunto de datos, se construyó un histograma que nos permite tener una
estimación empírica de la función densidad, la cual está representada por las alturas de los
rectángulos. Con base en la densidad empírica se ajustó el modelo que muestra la Figura que
Figura 2.4 L. Ilustración del ajuste de un modelo para función de densidad de probabilidad
Con base en dicha función de densidad ajustada: a) Verifique que f(x) es una verdadera función
de densidad b) Construya la Función de distribución acumulada de probabilidad para la duración.
c) Estime la probabilidad de que un dispositivo dure menos de 200 horas. d) Estime la
probabilidad de que un dispositivo dure más de 200 horas, si se sabe que todavía funciona
después de 150 horas. e) De acuerdo con los resultados anteriores, decida si es razonable pensar
que los dos eventos son independientes. f) Si se instalan 3 de estos dispositivos en un sistema y la
duración de cada dispositivo es independiente de las de los otros, estime la probabilidad de que al
menos uno de ellos dure más de 150 horas. g) Cuál es el número máximo “n” de dispositivos que
deberán ponerse en un conjunto de modo que haya una probabilidad 0,50 de que después de 150
horas todos estén funcionando
Ejemplo 2. 2G.
Si un instrumento electrónico tiene una duración X (en unidades de 1000 horas) que se considera
una variable aleatoria continua con función de densidad de probabilidad.
El costo del artículo es $2, sin embargo el fabricante vende el artículo en $5, con la condición de
que devuelve todo el dinero si el instrumento dura 900 horas o menos , es decir si X≤ 0,900.
F ( x) = P ( X ≤ x ) = ∫ f ( x)dx
x
⎧ Si x ≤ 0
⎪ x −x
F ( x) = P ( X ≤ x ) = ⎨ e dx = e − x dx + e − x dx
⎪ ∫−∞ ∫−∞ ∫0
0
x>0
0 x
⎩ 0
⎧ 0 Si x ≤ 0
F ( x) = P ( X ≤ x ) = ⎨
Función de Distribución Acumulativa de Probabilidad para
⎩1 − e x>0
−x
la variable aleatoria duración, X.
Lo cual significa que a la larga, aproximadamente en el 59% de las ventas debe devolverse el
dinero al no cumplir el instrumento con la duración de más de 900 horas.
ΩU = {−$2, $3} es decir cuando le toca devolver el dinero, pierde los $2 del costo y cuando no
Unas medidas cada vez mas utilizadas, son los cuartiles, que son tres valores Q1, Q2, Q3 que
dividen la muestra ordenada en cuatro partes que contienen aproximadamente el mismo numero
de datos (de allí su nombre), es decir que el 25% de los datos son menores que Q1, el 50% de los
datos son menores que Q2 y el 75% de los datos son menores que Q3. Estos tres valores producen
una muy buena síntesis de la distribución de frecuencias.
Nótese que siempre entre los valores Q1 y Q3, se encuentra el 50% central de los datos.
Calculemos los cuartiles para el ejemplo anterior, del tiempo de espera en un servicio de
urgencias.
Primer cuartil Q1
Note que el primer cuartil Q1, se encuentra en el intervalo 11.15 a 13.15, puesto que la frecuencia
acumulada hasta 11.15 es F(11.15)= 14% y F(13.15)=26%. Por lo tanto debe existir un punto
Q1, en dicho intervalo, tal que su frecuencia acumulada sea el 25%, es decir:
F (Q1)=25%.
De donde puede despejarse Q1, obteniéndose el primer cuartil Q1 = 12.98 minutos. Es decir que el
25% de las personas son atendidas en 12.98 minutos o menos.
Se desea encontrar el tiempo Q2, tal que el 50% de las personas son atendidas en ese tiempo o
menos, es decir: F(Q2) = 50%.
Despejando Q2, resulta Q2 = 15.55 minutos. Es decir que la mitad de la gente (50%), espera
15.55 minutos o menos.
Tercer cuartil
De donde al despejar resulta Q3= 18.35 minutos. Lo cual se interpreta como que el 75% de las
personas esperan 18.35 minutos o menos.
Los cuartiles proporcionan una muy buena idea de la forma como están distribuidos los datos,
pues entre un par de cuartiles consecutivos siempre está el 25% de los datos. Esta interpretación
de la información que se obtiene de los cuartiles se hará más evidente en los diagramas de cajas y
alambres, que se presentará más adelante.
Nótese que entre los cuartiles Q1 y Q3 siempre se encuentra el 50% central de los datos, pues
abajo de Q1 esta el 25% y arriba de Q3 esta el 25%.
En el ejemplo anterior diríamos que la mitad de las personas esperan entre 12.98 y 18.35
minutos.
Rango intercuartílico (RIC) = Q3 - Q1. Para el ejemplo tendríamos que RIC= 5.37 minutos
Este diagrama constituye una síntesis muy buena de la distribución de frecuencias y su sencillez
la hace más útil, sobre todo en aquellas situaciones donde se hace necesario comparar dos o más
distribuciones (poblaciones o tratamientos).
En la figura, se ilustra un diagrama de caja y alambres para el caso del ejemplo de los tiempos de
espera.
15 Estos gráficos son una contribución del gran estadístico Jhon Tukey.
Entre los cercos interiores, generalmente se encuentra un porcentaje alto de los datos, de tal
manera que los puntos que se salen de los cercos, son puntos sospechosos de ser “OUTLIERS16”
(Puntos atípicos).
16 Los datos caracterizados como OUTLIERS tienen gran importancia, pues son puntos que tienen magnitudes
“raras” con respecto al conjunto de datos. Es muy importante señalar que lo “raro”, supone un criterio de lo que es
“normal”, de tal manera que se supedita a esa definición. Un punto puede ser raro, si se supone que la distribución
de la cual proviene es Gaussiana (campana de Gauss), pero puede no serlo si su población de origen es una
Weibull (forma de bañera). El señalar algunos puntos como OUTLIERS obliga a poner especial atención sobre
ellos, puede ser desde una mala medición, hasta un verdadero hallazgo. En no pocas ocasiones los OUTLIERS se
convierten en los puntos mas valiosos de una investigación. Imagínese un perno con una resistencia
extraordinariamente superior a lo corriente.
Cuando se verifica que el dato es válido (medición correcta), en necesario definir la manera de involucrarlo en los
análisis (ponderación). Un libro que trata de estos aspectos es BARNETT and LEWIS. “Outliers in Statistical
data”.
Fig. 2.5. Diagrama de caja y alambres para la distribución de los tiempos de espera en el servicio de
urgencias de un hospital.
Con esta información se procede así: la caja se construye entre los cuartiles Q1 y Q3, con un
ancho arbitrario. Dentro de la caja se marca Q2, con trazo. Los alambres que salen de Q1 y Q3,
van hasta el dato más próximo al cerco interno (sin cruzar el cerco.). Note que en este caso
dichos puntos son 10.2 (que es el dato mas próximo al cerco interno inferior, que esta en 4.92) y
por arriba esta el punto 22.3 (El dato mas próximo al cerco interno superior que es 26.4). Los
puntos que se salen del cerco son marcados sobre el gráfico.
Se marcan (dibujan) los puntos que se han salido del cerco, en este caso son: 4.2 por abajo y el
dato 26.7 que se salió del cerco interno superior.
También suele definirse un “cerco externo” ubicado a 3RIC de Q1 y Q3. Los puntos que quedan
fuera de este cerco externo se conocen como OUTLIERS y son puntos que pueden ser atípicos,
comparados con el cuerpo de datos. (En nuestro caso el cerco externo estaría entre los puntos -
3.13 y 34.46, fuera de los cuales no se encuentra ningún dato.)
2.3.2 Como calcular los cuartiles, cuando los datos no están agrupados
Ejemplo 2.3
Los siguientes datos corresponden a las edades de 14 personas seleccionadas al azar, entre cierta
clase de empleados de la población objetivo de un estudio.
25, 38, 29, 42, 39, 54, 23, 33, 45, 45, 26, 34, 30, 31.
Observe que cuando los números indican “posición”, los colocamos entre paréntesis.
Los cuartiles los descubrimos calculando la posición que ocupan; es conveniente empezar por
el segundo cuartil
Para calcular la posición que ocupa el segundo cuartil, promediamos las posiciones extremas
ocupa la posición (14)+(1) / 2 = (7.5). Como existe la posición 7.5, porque un dato queda en la
posición 7ª o en la 8ª, entonces que interpretaremos que queda en el medio de los datos que
están de 7º y 8º , para evitar esta riña, hacemos el promedio de los dos datos que ocupan esas
posiciones:
Primer Cuartil17, Q1. El primer cuartil se obtiene considerando solo los datos que quedan
antes de la mediana. Para este grupo de datos se calcula la media .Se trata pues de encontrar la
posición de la mitad de la mitad.
La posición que ocupara el primer cuartil será la mediana de este primer grupo de datos: que es
el que ocupe la posición
17 Note que si el número de datos es impar, el segundo cuartil Q2, resultaría ser un dato de la muestra. En este caso,
para calcular la ubicación del primer cuartil Q1, se toman en cuenta los datos que quedaron antes del segundo
cuartil, excluyendo el dato que resulto ser el segundo cuartil Q2. Análogamente para el tercer cuartil Q3.
Es decir que el primer cuartil, Q1 es el dato que ocupa la 4º posición, o sea que Q1 = 29 Años
Si aplicamos este mismo procedimiento a los datos mayores que la mediana, se obtiene el tercer
cuartil
La posición que ocupara el tercer cuartil será la mediana de este segundogrupo de datos: que es
el que ocupe la posición
Q3 = 42 Años
18 Note que en este caso particular, todos los puntos quedaron dentro de los dos (2) cercos, lo cual no ocurre
siempre, por esta razón los puntos interiores mas cercanos al cerco son el mínimo y el máximo de los datos, que
definen la longitud de los “alambres” que van pegados a la caja.
En resumen puede decirse que los diagramas de cajas y alambres son útiles, entre otros para los
siguientes propósitos:
2. Para hacerse una muy buena idea de la dispersión de los datos, basándose en la longitud
de la caja (rango intercuartílico), pues siempre la caja, corresponde al 50% de los datos que están
en la parte central. Además se aprecia el rango de los datos, el cual corresponde a la distancia
entre las observaciones más extremas.
3. El diagrama de cajas y alambres, nos permite hacernos una muy buena idea sobre el grado
de asimetría de una distribución, al comparar la proporción de la caja que queda a la izquierda de
la mediana, con la que queda a la derecha, igualmente la longitud de los alambres respectivos. En
el ejemplo de la figura, se observa que los datos estan más concentrados en entre Q1 y Q2 que
entre Q2 y Q3, lo cual es una muestra de cierto grado de asimetría.
4. El diagrama es útil para identificar posibles OUTLIERS ( fuera de los cercos internos
pero dentro de los externos) y OUTLIERS (fuera de los cercos externos).
5. Una utilidad grande de los diagramas de caja y alambres, es comparar varias poblaciones,
a través de sus distribuciones. En este caso se construye un diagrama para cada distribución y se
dibujan en una misma escala (sobre un mismo plano), lo cual permite muy fácilmente hacerse
una idea de las semejanzas y las diferencias de los rasgos más importantes de las distribuciones.
Como se ilustrara en un ejemplo más adelante.
Ejemplo 2.4
En el cultivo de la caña de azúcar, se llama una “suerte” a un lote de terreno, en el cual hay
varias parcelas del cultivo, a las cuales se les da el mismo tratamiento, es decir cuando se
cosecha, se hace en todas las parcelas de la suerte, cuando se arregla el terreno igualmente o
cuando se siembra o se riega. El terreno de una suerte puede llegar a ser usado hasta para cuatro
siembras consecutivas antes de ser “acondicionado” de nuevo (remover tierra, agregar abono,
fertilizantes, etc.). Se supone que con cada siembra el terreno se fatiga y que eso se verá reflejado
en la producción de caña (o en la de azúcar).
Se han tomado datos de producción de varias suertes, que han estado sometidas a diferente
número de cortes (o de siembras), que tienen diferente procedencia (caña propia (1) o de
proveedor externo (0), edad de corte (meses). Use un diagrama de cajas para comparar las
distribuciones de frecuencias de los rendimientos para las suertes de acuerdo con los diferentes
criterios, que se menciona en el problema.
PREGUNTA 1: El número de cortes que se haya hecho sobre un terreno, desde su último
acondicionamiento, afecta el rendimiento?
Para dar respuesta a esta pregunta, debe compararse las distribuciones del rendimiento para las
poblaciones que tienen distinto número de cortes. A continuación se comparan, a través de
diagramas de cajas.
Se puede observar en la figura 2.6 en forma contundente que el número de cortes afecta
considerablemente el rendimiento, note por ejemplo que la caña sembrada en un terreno con
cuatro cortes, tiene un rendimiento mediano de alrededor de 83 Ton/Fa, mientras la de tres (3)
cortes tiene alrededor de 110 Ton/Fa, la de dos (2) cortes 130 Ton/fa y la de un corte tiene un
rendimiento mediano de aproximadamente 143 Ton/fa.
En la Figura 2.7, puede notarse que las distribuciones, para los cortes 1, 2, 3 tienen variabilidad
muy parecida, mientras que la variabilidad de la distribución del rendimiento para las de cuatro
(4) cortes es mayor.
Nótese también que en esta situación se han considerado en forma conjunta la producción propia
del ingenio y la de los proveedores externos, por eso surge de manera natural la pregunta
siguiente.
Para dar respuesta a esta pregunta, deben construirse los diagramas de caja para cada número de
cortes, separadamente para caña del “ingenio” y para “proveedores”, como se muestra en la
figura 2.7. De esta manera estamos valorando la “procedencia” como un posible factor de
confusión.
Fig. 2.7. Diagrama de cajas de la comparación del rendimiento de acuerdo con el origen de la caña y
el número de cortes en la suerte
Observe en la gráfica las cajas sombreadas corresponden a las distribuciones del rendimiento,
para caña del “ingenio”, mientras la blanca corresponde a “proveedor” externo. Se nota un
comportamiento bastante similar, es decir, no parece existir diferencia en la caña con respecto a
su origen. Los rendimientos medianos, son consistentes con los del primer gráfico, al igual que
su variabilidad.
La edad de corte, parece tener bastante importancia, averigüemos ahora por su distribución:
Para dar respuesta a este interrogante, se construyen cajas para la variable “edad de corte”
(meses), para cada una de las distintas subpoblaciones que resultan de la combinación de número
de cortes y origen (procedencia).
Fig. 2.8. Comparación de la edad de Corte según el numero de cortes que se han practicado en la
suerte
En esta situación, sería muy conveniente conocer un poco más sobre el fenómeno, para tener
claridad acerca de cuál es la edad óptima de corte, aunque depende de la variedad de caña que se
siembre. Supongamos que para nuestro caso, la edad de corte recomendada está entre 12.5 y 13.5
meses. A medida que la caña envejece va empobreciendo su contenido de sacarosa, que es en
realidad lo que interesa. En estas condiciones podría decirse que en casi todos los casos se corta
después de 12,5 meses, sin embargo, un porcentaje muy grande de las veces se está cortando por
encima de los 13.5 meses. Se sugiere averiguar las razones para que esto esté ocurriendo.
Dado que ya conocemos que el número de cortes, es una variable importante, debemos
involucrarla en el análisis, para que no se convierta en un factor de confusión. De esta manera
debe construirse las cajas para la distribución del rendimiento, para cada categoría de número de
cortes y de edad. Aquí, la edad se ha categorizado, en tres grupos: joven, madura y vieja.
Veamos el resultado.
Obsérvese en la figura 2.9, que para cada número de cortes hay tres gráficos que corresponden
a diferentes grados de madurez de la caña al cortarse, pero sistemáticamente, en cada uno de los
grupos de tres gráficos, la distribución de la caña joven, tiene un rendimiento mediano mas alto,
seguido por la madura y por último por la vieja, presentándose diferencias relativamente mas
grandes en la caña de cuatro (4) cortes.
La media aritmética de una muestra de datos: x1, x2,..., xn, se define como:
∑x
n
x + x 2 + ... + x n
x= 1 =
i= 1
i
= ∑ xi
n n
1 n
n i= 1
Si los datos corresponden a una variable discreta que está organizada en un cuadro de fre-
cuencias, se puede escribir:
∑ ni x i
m
x = i =1 = ∑ × xi = ∑
m m
ni
f i xi
i =1 i =1
n n
Ejemplo 2.5
2 + 3+ 2 + 2 + 2 + 3+ 1+ 3+ 3+ 4
x= = 2.5
10
xi ni fi
1 1 0.1
2 4 0.4
3 4 0.4
4 1 0.1
∑n x
m
1× 1+ 4 × 2 + 3× 4 + 1× 4
x= = = 2.5
i= 1
i i
n 10
x= ∑ f i xi =
m
0.1 x 1 + 0.4 x 2 + 0.4 x 3 + 0.1 x 4 = 2.5
i =1
di = xi - a
∑(x − x) = 0
n
i= 1
i
∑ ( xi − x ) = ∑ xi − ∑ x = ∑ xi − nx
n n n n
i= 1 i= 1 i= 1 i= 1
= ∑ xi − n (
∑x )=
n
n
i
0
i= 1 n
Como puede apreciarse, las desviaciones de los datos que están a la izquierda de la media tienen
signo negativo y las de la derecha signo positivo, por esta razón, para que la suma de todas sea
cero, debe suceder que la suma de las distancias a la media de los datos de la izquierda de ella,
debe ser igual a la suma de las distancias a la media de los datos de la derecha, lo cual convierte a
la media en el centro de gravedad.
La interpretación física nos dice que si justo donde se ubica la media aritmética se colocara un
punto de apoyo y se colgara de los puntos donde se ubican los datos, el mismo peso en cada uno,
entonces el sistema quedaría en equilibrio.
2. La media de los cuadrados de las desviaciones de los datos con respecto a un valor "a" es
mínima, cuando a = x . Es decir:
∑ ( x − a)
n
2
i =1
i
f(a)= tiene su mínimo en a= x
n
Demostración:
f(a)= ∑ xi − x + x − a ⎤
1 n ⎡
( ) ( )
2
n i =1 ⎣ ⎦
Desarrollando el cuadrado:
f (a ) = ∑
1 n ⎡
n i =1 ⎣⎢
( )
xi − x + 2 xi − x x − a + x − a ⎤
⎦⎥
( )( ) ( )
2 2
( )
( ) ( ) ∑ ( x − x) +
n x−a
= ∑ xi − x + 2 x − a
2
2
1 n 1 n
n i =1 i =1
i
n n
∑ (x )
− x = 0
n
Como (propiedad 1)
i= 1
i
Entonces:
∑( )
xi − x + n x − a ( ) ∑ ( x − x)
( )
n n
f (a ) =
2 2 2
i =1
= i =1
+ x−a
i 2
n n
Como puede apreciarse el primer término no depende de "a" y además n( x - a)2 ≥ 0, por tanto
f(a) es mínimo cuando n( x - a)2 = 0 y esto ocurre cuando a = x .
3. Si xi = k, para todo i, o sea que si todos los datos son iguales a k, entonces: x = k.
Veamos:
∑ xi ∑k
m n
x= = = = k
i= 1 i= 1 nk
n n n
4. Si todos los datos de una muestra se multiplican por una constante, el promedio de dicha
muestra resulta multiplicando por la misma constante, es decir:
∑y ∑ ax ∑x
n n n
y= = = a = ax
i= 1 i= 1 i= 1
i i i
n n n
Z = ax + by
Veamos:
∑ Zi ∑ ( ax + by )
n n
∑ xi ∑ yi
Z= i =1
= i =1
=a +b
i i
n n n n
Z = ax + b y
Ejemplo 2.6
Si se define la variable ingreso familiar Z, como la suma de los ingresos de los esposos, entonces
el ingreso familiar de la pareja i será: Zi = Xi + Yi y el ingreso familiar promedio será:
n1 x 1 + n2 x 2 + ... + nk x k
x=
n
∑n x
k
x=
i
i= 1
i
es decir:
n
∑x
xi =
j
Gi
El promedio x i, de los datos del grupo i, está dado por:
ni
por tanto: ∑x
Gi
j = ni x i
∑x = ∑x + ∑x + ... + ∑x
n
j= 1
j j j j
= n1 x 1 + n2 x 2 + ... + nk x k
G1 G2 Gk
∑x
n
n1 x1 + n2 x 2 + ... + nk x k
x= =
j= 1
j
Entonces:
n n
Ejemplo 2.7
Una muestra de 500 trabajadores tienen un salario promedio de $108.000, si el salario promedio
de los hombres es $120.000, y el de las mujeres $100.000, ¿cuántos hombres y mujeres hay?
n1 + n2 = 500 (1)
Además:
n1 × 120.000 + n2 × 100.000
$108.000 = (2)
500
Se sabe que cuando los datos están agrupados en clases, se pierde la individualidad de la
información, así por ejemplo puede conocerse que en el intervalo (10,20] hay 3 datos, pero no co-
nocemos cuál es el valor de cada uno de estos datos; esto plantea una dificultad para el cálculo de
la media usando la definición presentada.
n1 x 1 + n2 x 2 + ... + nm x m
x=
n
∑n x
= ∑ hi × xi'
m
'
x= i =1
i i m
n i =1
Ejemplo 2.8
12 × 15 + 16 × 30 + 42 × 50 + 25 × 65 + 5 × 85
x= = 481
.
100
O en forma equivalente:
x = 48.1
La mediana ya fue tratada cuando tocamos el tema de los cuartiles, pues la mediana corresponde
con el segundo cuartil. En síntesis la definimos de la siguiente manera.
ordenamos dichos valores de la forma: X (1) , X ( 2) ,..., X ( n ) . Ahora hemos colocado los subíndices
entre paréntesis para indicar las nuevas posiciones de los datos, es decir que el menor de los datos
ahora se llama X (1) van en secuencia no decreciente, hasta llegar a X ( n ) que es el mayor de
⎧
⎪
X n +1 n impar
⎪
Me = ⎨ X n + X⎛ n ⎞
2
⎪ 2 ⎜ +1⎟
⎪⎩
⎝2 ⎠
n par
2
Si quisiéramos definir la mediana con solo palabras, deberíamos decir que es un valor Me, tal que
supera no más de la mitad de los datos y es superado por no más de la mitad de los datos. (parece
un trabalenguas, pero es una definición válida) A continuación se presentan algunos ejemplos:
supóngase que se tiene la siguiente muestra ordenada en forma no decreciente: 2, 5, 7, 9, 11,
veamos si 5 cumple la definición: 5 supera un dato (no más de la mitad de los datos) y es
superado por 3 datos (más de la mitad), esto implica que 5 no es la mediana.
Probemos con el 7; éste supera dos datos (no más de la mitad) y es superado por dos datos (no
más de la mitad), así que Me = 7, se puede intuir que siempre que el número de datos sea impar,
al ordenar la muestra, existirá un valor único tal que supera y es superado por el mismo número
de datos, éste será la mediana.
Cuando el número de datos es par por ejemplo, sea la muestra 2, 5, 7, 9, 11, 15, ordenada en
forma no decreciente, al aplicar la definición al valor 7; éste supera a 2 datos (no más de la
mitad) y es superado por 3 datos (no más de la mitad) esto implica que 7 es mediana.
Al ensayar con el valor 9; éste supera tres datos (no más de la mitad) y es superado por dos datos
(no más de la mitad), es decir que también 9 es mediana; nótese además que cualquier punto de la
recta real, que se encuentre entre 7 y 9, cumple con la definición, en estos casos cuándo el
número de datos es par, se ha convenido definir la mediana como el promedio de los dos datos
que son medianos así pues:
7+ 9
Me = = 8
2
Supóngase que se tienen m intervalos: (L0 , L1] , (L1 , L2] , ..., (Lm-1 , Lm] , la mediana es
el punto cuya frecuencia absoluta acumulada es n/2 ó la relativa acumulada es 0.50, es
decir la mediana es el valor x tal que:
n
N(x) =
2
o en forma equivalente:
F(x) = 0.50
De acuerdo con esto el intervalo (Li-1 , Li] que contiene la mediana es tal que:
y N(Li) ≥
n n
N(Li-1) <
2 2
o lo que es equivalente:
Una vez localizado el intervalo que contiene la mediana, se encuentra por interpolación el valor
Me, tal que:
n
Me = N-1 ( ) = F-1 (0.50)
2
fi
F(Me) = 0.50 = F(Li-1) + (Me - Li-1)
Ci
0.50 − F (Li −1 )
M e = Li −1 + ∗ Ci (2.7)
fi
− N ( Li− 1 )
n
M e = Li− 1 + 2 ∗ Ci (2.8)
ni
Ejemplo 2.9
Si se observan las frecuencias acumuladas puede notarse que el 28% de los datos son menores o
iguales que 40 y que el 70% son menores que 60, lo cual implica que debe existir un punto en el
intervalo (40 , 60] tal que el 50% de los datos sean menores o iguales que él; lo cual indica que el
intervalo (40 , 60] contiene la mediana. De acuerdo con la expresión (2.7), se tiene que:
Li-1 = 40
0.50 − 0.28
F(Li-1) = 0.28 Me = 40 + × 20 = 50.5
0.42
fi = 0.42
Ci = 20
Propiedad de la mediana
La suma de las distancias de los datos a un punto "a" es mínima cuando ese punto es la mediana,
es decir:
a = Me .
Ejemplo 2.10
Figura 2.10.
La respuesta a dicha pregunta puede darse mediante la siguiente reflexión: si se escoge un origen
arbitrario sobre la carretera para medir los recorridos desde cada población a dicho origen,
podremos notar que el recorrido a la población C es la mediana, lo cual significa de acuerdo con
la propiedad que la suma de las distancias de las demás poblaciones hasta la población C es la
mínima posible y por lo tanto su promedio también será mínimo, de esta manera la fábrica debe
colocarse en la población C si se quieren minimizar los costos de transporte.
La sensibilidad es una cualidad deseable en un indicador, puesto que ello implica qué cambios
producidos en la muestra pueden ser detectados por el indicador; pero mucha sensibilidad en un
indicador puede ser contraproducente, puesto que cambios irrelevantes en la muestra pueden
producir grandes cambios en el indicador, lo cual puede prestarse para interpretaciones
equivocadas, esto ocurre con la media aritmética, cuando la distribución es asimétrica, es decir
cuando hay unos pocos valores muy grandes o muy pequeños, la media es muy afectada por
ellos.
Ejemplo 2.11
Si se pretende formar una idea de la magnitud de los salarios de dicha empresa, usando la media
aritmética se tiene:
i =1
+$15.000 × 0.40+$120.000 × 0.05
x=$18.450
Como puede apreciarse, un 5% de valores muy grandes influyen tanto en la media, que su valor
$184.500, es superior al 95% de los salarios por esta razón, en este caso, la media aritmética, mal
podría representar la muestra.
La mediana en cambio es más resistente a los valores extremos, en este caso, la mediana
corresponde al valor Me = $130.000.
2.4.1.3 La moda
Cuando se trata de una variable de naturaleza continua, la moda corresponde al(os) valor(es)
alrededor del(os) cual(es) se produce una mayor concentración de datos, es decir a los puntos de
mayor densidad de frecuencia. En lenguaje matemático diríamos, refiriéndonos a la función de
densidad de frecuencia o de probabilidad, que la(s) moda(s) corresponden a los cpuntos que son
máximos locales, como muestra la figura 2.11.
Los tres puntos que muestra la figura 2.11, son puntos de máxima densidad en sus entornos
respectivos. Si se conociera la función de densidad en forma analítica, podríamos encontrar la(s)
moda(s), por derivación de la función f(x); pero como sólo se dispone de la función de densidad
empírica que se construyó a partir de la muestra, se debe definir un procedimiento que permita
acercarse a la determinación de los mencionados máximos relativos, para ello se hace referencia
a la figura 2.12.
Fig. 2.12: Función empírica de densidad. Elementos que intervienen en le cálculo de la moda
Se supone que la moda de mayor densidad se encuentra en el intervalo (Li-1 , Li] que posee la
mayor densidad de frecuencia (el rectángulo más alto). Si las dos clases adyacentes: la anterior y
la siguiente, tienen igual densidad de frecuencias, se puede suponer que la moda (máximo
relativo) se encuentra en el punto medio de la clase que contiene la moda; en caso contrario la
moda estará desplazada un poco hacia la clase adyacente de mayor densidad de frecuencia.
(suena razonable este criterio).
Por esta razón se conviene que la moda corresponde a la proyección del punto 0, ver la figura
2.12, observe que con este procedimiento la moda estará siempre más cerca de la clase adyacente
con mayor densidad de frecuencia.
Con la notación que aparece en el gráfico y sabiendo que los triángulos AOB y DOE son
semejantes, se puede escribir:
M0 = Li-1 + r
Además
Δ1
= =
OG r
Δ2 Ci − r
, de donde :
OF
Δ1
r= ∗ Ci
Δ1 + Δ 2
De esta manera
Δ1
M 0 = Li− 1 + ∗ Ci
Δ1 + Δ 2
(*)
Δ1 = i − i −1
f f
Ci Ci −1
Δ 2 = i − i +1
f f
C i C i +1
− i −1
fi f
Ci Ci −1
M 0 = Li −1 + ∗C
f i −1 f i +1 i
− −
2 fi
Ci Ci −1 Ci +1
Ejemplo 2.12
Como puede apreciarse la clase de mayor densidad de frecuencia es (40, 70] así pues que:
. − 1%
M 0 = 40 + × 30
15%
. − 1%) + (15%
(15% . − 0.5%)
M0 = 50
La moda se usa con mucha frecuencia como indicador de centralidad en características que tienen
escala nominal débil, como la escala nominal u ordinal, no obstante tiene grandes aplicaciones en
variables continuas de escala fuerte, por ejemplo en biología, cuando se quiere asociar por
ejemplo edad y longitud de peces, seguir el comportamiento de la moda en el tiempo, es una
manera de hacer seguimiento a una cohorte de peces. Una aplicación extraordinariamente
importante de la moda, la constituye el llamado método de la máxima verosimilitud para
construir estimadores, que es muy usado por sus importantes propiedades asintóticas. El
resultado de estos métodos es el hallazgo de la moda de una función de probabilidad o de
densidad, llamada función de verosimilitud.
Ejemplo 2.13
Una población que tenía 10.000 habitantes en el año cero, creció el primer año a una tasa del 2%,
el segundo año creció a una tasa del 4% y el tercer año al 10%. ¿Cuál es el factor de expansión
promedio de la población en los 3 años?
Lo cual significa que al final del año 1, la población era de 10.200 habitantes, es decir se
multiplicó por el factor de expansión f1 = (1 + 0.02) = 1.02 , al siguiente año, los 10.200
crecieron en un 4% para quedar al final del año 2 una población de 10.608, es decir que los
10.200 se multiplicaron por el factor de expansión f2 = (1 + 0.04) = 1.04; por último los 10.608
se multiplicaron por el factor de expansión f3 = (1 + 0.10) = 1.10 para resultar al final del tercer
año, una población de 11.669 habitantes es decir que:
P3 = P0 . f1 . f2 . f3 = 11.669
El factor f de expansión promedio debe ser tal que comenzando con la misma población P0 y
expandiéndose por el mismo factor f todos los años, al final del tercer año debe obtenerse la
misma población P3 que producen los factores f1, f2, y f3.
Es decir que si la población se expandiera cada año por el mismo factor f, la población al final del
tercer año será: P0 f3 que debe ser equivalente con la aplicación de los factores f1, f2, f3, o sea:
P0 . f3 = P0 . f1 . f2 . f3
Así que: f = 3 f1 ⋅ f 2 ⋅ f 3
Con los números del ejemplo, la media geométrica de los factores de expansión: 1.02, 1.04, 1.10
es:
f = 3 . × 104
102 . × 110
. = 10527
.
Generalizando se dirá que la media geométrica M.G. de los datos x1, x2, ...,xn es:
M.G.= n x1 ⋅ x 2 ⋅ ... ⋅ x n
M.G. = n
x1n1 ⋅ x2n2 ⋅ ... ⋅ x mnm
M.G. = (x ) ⋅ (x )
' n1 ' n2
( )
⋅ ... ⋅ x m'
nm
n
1 2
Se tiene dos grupos de datos, el grupo A: 2, 98, 3, 97, y el grupo B: 49, 51, 48, 52; obsérvese que
aunque en ambos grupos el promedio es 50, da la impresión de que este promedio representa
mejor los datos del grupo B que los del grupo A, puesto que los datos del grupo B están menos
dispersos.
r = max(xi) - min(xi)
∑x − Me
n
D. M. =
i= 1
i
n
Si se dispone de una distribución de frecuencias, donde cada xi aparece asociado con su fre-
cuencia ni, entonces puede escribirse:
∑ ni x i − x
m
D.M. = i =1 = ∑ f i xi − x
m
i =1
n
Que corresponde a la media de las distancias que se presentan en el gráfico que esta a
continuación:
Si los datos están agrupados en intervalos de clase, una expresión aproximada para el cálculo de
la desviación media es:
∑ ∑ f i xi' − x
ni xi' − x
D.M. = =
m m
i =1 i =1
n
2 − 4 + 5 − 4 + 8 − 4 + 1− 4 + 4 − 4
D.M.= = 2
5
Lo cual indica que en promedio los datos están separados de la mediana Me en 2 unidades.
S = ∑ xi − x
1 n
( )
2
2
n i= 1
S = ∑ ni (xi − x ) = ∑
f i (x i − x )
m m
2 1 2 2
n i =1 i =1
Si los datos están agrupados en intervalos de clase, una expresión aproximada para la varianza es:
S2 = ∑ (
ni xi' − x =) ∑ ( f i xi' − x )
m 2 m 2
1
n i =1 i =1
No obstante que la varianza está dada por una expresión cuadrática, que ofrece muchas ventajas
en la manipulación matemática, tiene algunas desventajas, entre las cuales están: su no fácil
interpretación directa y que sus unidades no coinciden con las unidades de la variable en estudio,
así por ejemplo si x está en metros, su varianza estará dada en metros cuadrados. Esta última
desventaja se pretende remediar extrayendo la raíz cuadrada a la varianza para obtener la que se
conoce como desviación estándar (S), que será:
S=
1
(
∑ xi − x )
2
f (x − ks, x + ks ) ≥ 1 −
1
k2
f ( x − 2 s, x + 2 s ) ≥ 1 − = 0.75
1
22
Es decir que en el intervalo construido a 2 desviaciones estándar a cada lado de la media está por
lo menos el 75% de los datos. Para k = 3, se dice que está por lo menos el 88.8% de los datos.
Este principio proporciona cotas para la frecuencia, en términos de la desviación estándar, lo cual
ayuda a su interpretación, pero como es muy general, dichas cotas pueden ser muy bajas, se
observa que para k = 1 el principio dice que en el intervalo ( x − s , x + s ) hay por los menos el
0% de los datos, lo cual es obvio.
Propiedades de la varianza
Las propiedades que se presentan a continuación pueden ser heredadas por la desviación estándar
con las limitaciones que genera la función raíz cuadrada.
∑x
()
n
2
S2 = − x
i
2
i
1.
n
Esta, más que una propiedad es una forma alternativa de calcular la varianza, realizando menos
cálculos numéricos que con la expresión que proporciona la definición. Su demostración es la
siguiente:
S2 =
1 n
(
∑ xi − x ) = ∑
1 n ⎡ 2
n i= 1 ⎣⎢
x i − 2 xx i + x ⎤()
⎥⎦
2 2
n i= 1
= ∑ x i2 − ⋅ 2 x ∑ x i + ∑ x ()
n 2
1 1 1 n
n n i= 1 n i= 1
∑x
()
n
= ∑ x i2 − 2 x ⋅ + ⋅n x
i= 1
i
1 1 2
n n n
=
1
∑ ()
x i2 − 2 x + x ()
2 2
S2 =
1
()
∑ xi2 − x
2
Sx2 = 0
S x2 = ∑
1 n
( )
x i − x , pero se sabe que si xi = C entonces x = C , de este modo:
2
n i= 1
S x2 = ∑ (C − C ) 2 = 0
1 n
n i= 1
Es decir: si se tiene una muestra x1, x2, ...,xn, que tiene varianza S2x y cada dato se multiplica por
la constante k, la varianza de esta nueva muestra:
S y2 =
1 n
(
∑ yi − y ) = (
∑ kxi − k x
1 n
)
2 2
n i= 1 n i= 1
= ∑ K xi − x
1 n 2
( ) = K2 ⋅
1
(
∑ xi − x )
2 2
n i= 1 n
= K 2 S x2
5. Si yi = xi + C, entonces S y2 = S x2
i = 1, 2, ..., n
Es decir: que si todos los datos se trasladan la misma distancia C, la varianza no cambia,
lo cual puede verificarse así:
S y2 =
1
(
∑ yi − y ) =
1
[
∑ ( xi + C) − x + C ( )]
2 2
n n
=
1
(
∑ xi + C − x − C ) =
1
(
∑ xi − x )
2 2
n n
= S x2
Ejemplo 2.14
∑n x i' − M e
m
i= 1
i
D. M.=
n
0.50 − H (Li −1 )
M e = Li −1 + ∗ Ci
fi
0.50 − 0.45
M e = 40 + ∗ 30 = 46
0.25
Entonces
2015 − 46 + 70 30 − 46 + 50 55 − 46 + 40 75 − 46 + 20 90 − 46
D.M.=
200
D.M. ≈ 21.15
Lo cual indica que en promedio los datos están separados de la mediana en 21.15
unidades
b) Calcule la varianza
( )
( x)
∑ ni x i'
m
= −
2
2
200
c) La desviación estándar
S= 553.7 = 235
.
f (x − 2 s, x + 2 s )>1 − =0.75≡75%
1
22
x − 2 s =49.75 − 2(23.5)=2.75
x + 2 s =49.75 + 2(23.5)=96.75
La respuesta casi obligada es: depende..., porque si las magnitudes de los datos de la res-
puesta son "grandes", por ejemplo: la distancia recorrida diariamente por un cartero,
registrada durante 30 días. En este caso, una desviación estándar de 200 metros puede ser
pequeña, así como una desviación estándar de 10 micras podría ser grande si se está
estudiando el diámetro de ciertas células.
C.V. = × 100%
S
x
Entonces, si una muestra tiene una media aritmética x = 40.000 metros y una desviación
estándar S = 500 metros entonces:
El juicio sobre su tamaño esta siempre ligado al problema específico que se estudia.
Surgen de esta manera y como resultado de la propia experiencia en un campo específico,
valores de coeficiente de variación como limitantes en un proceso de control de calidad.
Algunas de las normas sobre materiales de construcción exigen no sólo un promedio de
resistencia por encima de un nivel mínimo, sino también control sobre la variabilidad
expresado en forma de coeficiente de variación.
En el área de la agricultura, una determinada variedad de maíz puede tener asociado (por la
experiencia) como natural, un coeficiente de variación en su rendimiento por hectárea, cual es
distinto (generalmente menor) si el cultivo está bajo riego, que si esta bajo temporal.
EJERCICIOS PROPUESTOS
1. Una entidad encargada del control de contaminación de cierto río, lleva registros sobre el
oxígeno disuelto, X, expresado en mg/l; éstos se presentan a continuación:
2.6, 3.6, 3.1, 2.6, 2.7, 3.9, 2.4, 2.7, 2.5, 2.3, 4.0, 3.2, 2.5, 1.7, 0.3, 3.1, 2.6, 1.3, 4.3, 1.5, 2.8,
1.8, 4.2, 3.5, 2.4, 2.2, 3.4, 3.7, 0.8, 2.3, 1.9, 4.5, 1.2, 2.2, 2.2, 3.0, 2.1, 1.8, 2.9, 3.8, 3.5, 1.6,
3.2, 4.4, 1.4, 0.7, 2.8, 3.3, 0.5, 2.3 .
d) Estime el porcentaje de registro que son mayores que 1.5 mg/l, pero son
menores que 3.5 mg/l.
4. Verifique si:
Xi − X
Zi = ; i = 1, 2, . . . , n
Sx
Entonces: Z = 0 y S z2 = 1
n1S12 + n2 S 22
S2 =
n1 + n2
f) Si a los datos: x1, x2, ..., xn, de una muestra se aplica la transformación
yi = axi + b, con a > 0 y b > 0, entonces "y" tiene menor dispersión relativa que
"x" (en términos del coeficiente de variación).
6. Si P1, P2, ...,Pn representa la población (número de habitantes) de una región en los años
1, 2, ...,n respectivamente usando el concepto de media geométrica, encuentre una
expresión para estimar la tasa de crecimiento. Obsérvela y comente las ventajas que
presenta.
7. En una población del Cauca se tomó una muestra de 50 familias para observar el número
de personas menores de 12 años con el propósito de estimar algunos indicadores sobre
demanda potencial de educación escolar. Esta arrojó los siguientes resultados:
4 0 1 2 3 0 2 5 3 1
3 2 1 2 1 3 0 3 0 1
0 2 3 0 1 4 2 1 5 4
2 1 4 2 3 1 2 0 1 3
2 2 5 0 3 3 2 0 1 5
7.2 Determine qué porcentaje de las familias tienen 3 personas o menos que son
menores de 12 años.
7.4 Usted está seguro del resultado obtenido en el numeral 7.3 ? qué supuesto
está implícito en la estimación?
8.4 Calcule el porcentaje de cilindros que resistieron más de 235 kg/cm2 pero
menos 264 kg/cm2.
8.5 Estime el riesgo, si se usa ese concreto en una obra que exige 240 kg/cm2 de
resistencia a la compresión. Le parece alto ?
a) La media aritmética
b) La mediana
c) La moda
8.11 Si se aumenta la muestra con 10 cilindros más que se prueban con los
siguientes resultados: 232, 256, 287, 228, 295, 226, 277, 233, 247, 277.
Interprete.
(0.3 , 1.1] ?
b) Haga una proyección de la población para 1988 si se sabe que en 1982 había
102.800 habitantes.
c) Estime el número promedio de años que deben transcurrir para que dicha
población tenga 500.000 habitantes?
3.1 INTRODUCCIÓN
En general se usará la siguiente notación: X1, X2, ..., Xi, ..., Xm representan las "m"
categorías a considerar para clasificar los elementos de la muestra en lo que respecta
a la variable X. Estas categorías pueden corresponder a nombres si se trata de escala
nominal de las variables cualitativas, puede coincidir con los valores que toma la
variable X si es discreta o pueden representar intervalos de clase si X es una variable
continua.
Análogamente Y1, Y2, ... Yj, ..,Ys, representan las "s" categorías a considerar para
clasificar los elementos de la muestra con respecto a la variable Y.
Cuando los elementos de una muestra se clasifican simultáneamente por dos (2)
características X e Y, surge para su representación las llamadas "tablas de doble
entrada" que se construirán más adelante.
• Xi ∩ Xk = Ø si i ≠ k
• X1 U X2 U ... U Xm = Ω
• Yj ∩ Yt = Ø si j ≠ t
• Y1 U Y2 U ... U Ys = Ω
i= 1 j = 1
Ejemplo 3.1
(6,1), (1,1), (3,1), (4,2), (6,1), (1,1), (3,1), (4,2), (5,2), (5,1), (5,4), (6,1), (2,1), (3,2), (4,3),
(6,2), (2,1), (3,2), (4,2), (3,2), (4,2), (4,3), (3,3), (4,3), (4,4), (4,4), (4,4), (4,2), (2,1), (6,2),
(6,3), (4,4), (2,1), (5,1), (5,5), (4,4), (3,2), (2,2), (6,4), (6,5), (6,4), (6,2), (6,3), (6,2), (6,2),
(5,2), (5,4), (5,1), (5,4), (5,4)
Los datos anteriores pueden ser organizados haciendo conteos en forma análoga a
como se hizo en el caso unidimensionales como se muestra a continuación:
CUADRO 3.1
Y
X Y1 Y2 ... Yj ... Ys
X1 n11 n12 ... n1j ... n1s n1.
X2 n21 n21 ... n2j ... n2s n2.
: : : : : : : :
Xi ni1 ni2 ... nij ... nis ni.
: : : : : : : :
Xm nm1 nm2 ... nmj ... nms nm.
n.1 n.2 ... n.j ... n.s n
Y
X 1 2 3 4 5
1 2 0 0 0 0 2
2 4 1 0 0 0 5
3 2 4 1 0 0 7
4 0 5* 3 5 0 13
5 3 2 0 4 1 10*
6 3 5 2 2 1 13
14 17* 6 11 2 50
El dato (6,3) indica que la familia observada está compuesta por 6 personas de las
cuales 3 producen algún tipo de ingreso.
Con respecto a los valores que figuran en el cuadro 3.1, con * pueden interpretarse de
la siguiente manera:
• El 10 significa que en la muestra hay diez (10) familias compuestas por 5 per-
sonas; es decir para las cuales X = 5. Entonces n5.= 10
Fig. 3.1: Distribución conjunta de frecuencias absolutas y relativas de las variables "número de
personas/familia" (X) y "número de personas que producen algún ingreso en la familia" (Y).
Notación
CUADRO 3.3
Y
X 1 2 3 4 5
1 0.04 0.00 0.00 0.00 0.00 0.04
2 0.08 0.02 0.00 0.00 0.00 0.10
3 0.04 0.08* 0.02 0.00 0.00 0.14*
4 0.00 0.10 0.06 0.10 0.00 0.26
5 0.06 0.04 0.00 0.08 0.02 0.20
6 0.06 0.10 0.04 0.04 0.02 0.26
0.28 0.34* 0.12 0.22 0.04 1.00
En forma general se representa la distribución conjunta de frecuencias relativas de la
siguiente manera:
Y
X Y1 Y2 ... Yj ... Ys
X1 f11 f12 ... f1j ... f1s f1.
X2 f21 f21 ... f2j ... f2s f2.
: : : : : : : :
Xi fi1 fi2 ... fij ... fis fi.
v: : : : : : : :
Xm fm1 fm2 ... fmj ... fms fm.
... ... 1.00
f.1 f.2 f.j f.s
donde f ij = ; f i. = i.
nij n
n n
• 0.14 indica que el 14% de las familias están compuestas por 3 personas; es decir
que para el 14% de las familias se cumple que X = 3. Entonces f3.= 0.14
• 0.34 indica que en el 34% de las familias ocurre que 2 personas producen algún
ingreso; es decir que para el 34% de las familias se cumple que Y = 2. Entonces
f.2 = 0,34
CUADRO 3.4
El cuadro 3.4, muestra la distribución relativa de las familias si sólo se observa "el
número de personas que producen algún ingreso a la familia".
CUADRO 3.5
Y
X 1 2 3 4 5
1 0.04 0.04 0.04 0.04 0.04
2 0.12 0.14 0.14 0.14 0.14
3 0.16 0.26 0.28 0.28 0.28
4 0.16 0.36 0.44 0.54 0.54
5 0.22 0.46 0.54* 0.72 0.74
6 0.28 0.62 0.74 0.96 1.00
El valor 0.54 marcado en el cuadro 3.5 indica que el 54% de las familias están
compuestas por 5 ó menos personas de las cuales 3 ó menos aportan algún ingreso a
la familia. Con símbolos se escribiría : F(5,3) = 0.54
Roberto Behar y Mario Yepes
Capítulo 3 149
NOTACION Y PROPIEDADES
N ( x, y )
=
n
Como puede deducirse del ejemplo 3.1, se cumplen las siguientes propiedades:
∑ ∑ nij
m s
1. = n11 + n12 + ... + n1s + n21 + n22 + ... + n2s+ ... + nm1
i= 1 j = 1
∑ nij =
+ nm2 + nms = n
m
2. n1j + n2j + ... + nmj = n.j
i= 1
∑ nij =
s
3. ni1 + ni2 + ...+ nis = ni.
j=1
∑ ni. = n
m
4.
i= 1
∑ n. j = n
s
5.
j=1
De las anteriores propiedades, al dividir por "n" se obtiene para las frecuencias
relativas:
∑ ∑ f ij = 1.00
m s
6.
i =1 j =1
∑ f ij
m
7. = f.j
i =1
∑ f ij
s
8. = fi.
j =1
∑ f i. = 1.00
m
9.
i =1
∑ f. j = 1.00
s
10.
j =1
Entonces:
Si x ³ Xm , y ³ Ys ⇒ F(x,y) = 1.00
OBSERVACIÓN
En este caso, las categorías a considerar para cada variable están representadas por
intervalos de clase, que se construyen de la forma propuesta en el capítulo 2.
Casi todos los conceptos desarrollados para la situación en que ambas variables son
discretas son válidos aquí, incluyendo las propiedades de las distribuciones de
frecuencia. Sin embargo, es particular en el tratamiento de variables continuas, por su
naturaleza, el concepto de función empírica de densidad conjunta de las variables X e
Y. Esta temática se desarrolla a través del ejemplo que se presenta a continuación:
Ejemplo 3.2
Con base en los 200 datos, se construyó los siguientes intervalos de clase:
CUADRO 3.6
70 50 60 15 5* 200
Hay en la muestra 20 fincas cuya área cultivada está entre 10 y 40 hectáreas y cuya
producción anual de maíz está entre 60 Ton. y 180 Ton. Usando la notación se
escribiría n23 = 20.
Hay 5 fincas que producen al año entre 250 y 350 Ton. de maíz, es decir n.5 = 5
CUADRO 3.7
Los valores fij de este cuadro se obtienen expresando el número de datos, como una
fracción (o porcentaje) del total de 200 datos, es decir:
f ij =
nij
n
• 0.100 indica que el 10% de las fincas tienen área cultivada de maíz entre 10 y 40
hectáreas y a la vez tienen producción anual entre 60 y 180 Ton. f23 = 0.100.
• 0.30 indica que el 30% de las fincas de la muestra tienen área cultivada de maíz
entre 10 y 40 hectáreas, es decir f2. = 0.30
• 0.025 indica que el 2.5% de las fincas producen al año entre 250 Ton. y 350 Ton.
de maíz, o sea f.5 = 0.025.
Observe que de igual manera que en el caso discreto, pueden construirse las dis-
tribuciones marginales tanto para el área cultivada (X), como para la producción
anual de maíz (Y).
(X1 ∩ Y1),(X1 ∩ Y2), ... , (X1 ∩ Y5), (X2 ∩ Y1), ... , (X2 ∩ Y5), ... , (X4 ∩ Y5)
para la región Xi ∩ Yj
f ij
f*ij =
Aij
con el supuesto de que los datos en cada región están uniformemente distribuídos.
Al definir f*ij para cualquier punto del plano X - Y, se obtiene la llamada función
empírica de densidad conjunta de X e Y.
Para el ejemplo 3.2, las áreas de las distintas regiones definidas por los intervalos de
clase en X e Y se muestran en el cuadro 3.8.
Los valores del cuadro se calcularon con base en los productos de las longitudes de
los intervalos correspondientes. Dado que X está en hectáreas e Y está dado en Ton.,
las unidades del área calculada son hectáreas x toneladas.
CUADRO 3.8
f ij* =
f ij
Aij
CUADRO 3.9
FIG. 3.3. Función empírica de densidad conjunta para las variables "área cultivada" y
"producción anual de maíz"
Ejemplo 3.3
Por tanto el volumen total sobre la zona sombreada y que corresponde a la solución
del problema es:
f(región sombreada) = V(Rij es la región sombreada que esta incluida en (Xi ∩ Yj) y que
por lo tanto tiene densidad constante f*ij) = R23 . f*23 + R33 . f*33 + R24 . f*24 +
Por tanto el porcentaje de fincas con áreas cultivada de maíz entre 30 Fa. y 60 Fa. y
con producción anual entre 100 Ton. y 300 Ton., está dado por
que determinan los (Xi ∩ Yj), de forma que si (x,y) ∈ (X2 ∩ Y3), entonces
consideraciones de que el punto (x,y) pertenezca a cada una de las distintas regiones
F(x,y) = R11 . f*11 + R12 . f*12 + R13 . f*13 + R21 . f*21 + R22 . f*22 + R23 f*23
= 250 x 0.00068 + 350 x 0.0004286 + (y-60) x 0.0000583 x 10 + (x-10) x
25 x 0.0001533 + (x-10) x 35 x 0.0000571 + (x-10) x (y-60) x 0.0000277
Este procedimiento se repetiría para cada una de las regiones (Xi ∩ Yj)
Ejemplo 3.4
Se tomó una muestra de 500 hogares en los cuales se observó las características:
X1 = 1; X2 = 2; X3 = 3; X4 = 5
Para la variable Y, ingresos del hogar (en miles de pesos) se construyeron los si-
guientes intervalos de clase:
CUADRO 3.10
Y (50 ; 75] (75 ;125] (125 ; 200] (200 ; 300] (300 ; 550]
X Y1 Y2 Y3 Y4 Y5
X1=1 36 15 12 9 3 75
X2=2 38 20 23 14 5 100
X3=3 86 60 25 22 7 200
X4=5 15 30 40 30 10 125
175 125 100 75 25 500
Al expresar las frecuencias absolutas como una fracción con respecto al número total
de elementos obtenemos el cuadro 3.11.
Dado que en la pareja (X,Y), sólo Y es una variable continua, la convenida función
empírica de densidad conjunta, resulta de estandarizar la frecuencia relativa fij por
unidad de intervalo de Yj
f ij* =
f ij
Cj
CUADRO 3.11
DISTRIBUCION CONJUNTA DE FRECUENCIAS RELATIVAS DEL NUMERO DE
PERSONAS (X) Y EL INGRESO DEL HOGAR (Y).
Y (50 ; 75] (75 ; 125] (125 ; 200] (200 ; 300] (300 ; 550]
X Y1 Y2 Y3 Y4 Y5
X1=1 0.072 0.030 0.024 0.018 0.006 0.15
X2=2 0.076 0.040 0.046 0.028 0.010 0.20
X3=3 0.172 0.120 0.050 0.044 0.014 0.40
X4=5 0.030 0.060 0.080 0.060 0.020 0.25
0.35 0.25 0.20 0.15 0.05 1.00
De esta manera f*ij es una densidad por unidad lineal y no por área.
Con este proceso se da origen al cuadro 3.12, donde la función empírica de densidad
conjunta de X e Y puede definirse como:
CUADRO 3.12
Y (50 ; 75] (75 ; 125] (125 ; 200] (200 ; 300] (300 ; 550]
X Y1 Y2 Y3 Y4 Y5
X1=1 0.00288000 0.00060000 0.00032000 0.00018000 0.00002400
X2=2 0.00304000 0.00080000 0.00061333 0.00028000 0.00004000
X3=3 0.00688000 0.00240000 0.00066666 0.00044000 0.00005600
X4=5 0.00120000 0.00120000 0.00106666 0.00060000 0.00008000
Como es lógico la suma de las áreas de todas las "láminas" es 1.0 (ó 100%)
Ejemplo 3.5
Con base en la función empírica de densidad conjunta para el número de personas por
hogar y el ingreso del hogar estime:
lo cual significa que aproximadamente el 16.7% de los hogares están compuestos por
3 personas y tienen ingresos entre $90.000 y $275.000.
Ejemplo 3.6
n(A ∩ C)
n(C) = 300 viviendas con energía eléctrica
= 120 viviendas con agua y energía eléctrica
>
A
C
380 120
180
1320
120
f(A/C) = = 0.40, lo cual significa que de las viviendas con energía, el 40%
300
tienen agua potable.
120
f(C/A) = = 0.24, lo cual significa, que de las viviendas con agua potable, el 24%
500
tienen energía eléctrica.
f(A ∩ C) =
120
= 0.06, lo cual significa que de todas las viviendas observadas, el
2000
6% tienen simultáneamente agua y energía. (Note que esta frecuencia no es
condicional).
Puede calcularse:
380
f(A/ C ) = = 0.2235; significa que de las viviendas que no tienen energía eléc-
1700
trica, el 22.35% de ellas, tienen agua potable.
180
f( A /C) = = 0.60; significa que de las viviendas que tienen energía eléctrica, el
300
60% no tienen servicio de agua potable.
180
f(C/ A ) = = 0.12; significa que de las viviendas que no tienen agua, el 12% de
1500
ellas tienen energía.
1320
f( C / A ) = = 0.88; significa que de las viviendas que no tienen agua, el 88% de
1500
ellas no tienen energía.
f( A ∩ C ) =
1320
= 0.66; significa que de todas las viviendas observadas, el 66% no
2000
tienen agua ni energía. (No es una frecuencia condicional)
500
f(A) = = 0.25; significa que de todas las viviendas observadas el 25% tienen
2000
servicio de agua. (No es una frecuencia condicional).
300
f(C) = = 0.15; de todas las viviendas observadas, el 15% tienen servicio de
2000
energía eléctrica.
Del ejemplo anterior puede obtenerse una definición para la frecuencia condicional
n( A ∩ C )
f (A / C ) =
de A dado C, así:
n(C )
f (A ∩ C )
f (A / C ) =
f (C )
) n(Xni(Y∩ )Y j ) = nnij
cribirse:
(
f Xi /Yj = =
nij n
f (X i ∩ Y j )
j .j n. j n
f (Y j )
= =
f ij
f. j
( ) (
f Xi ∩Yj )
También:
f Yj / Xi = =
f (X i )
f ij
f i.
∑ f (X i / Y j ) = 1
m
ii)
i =1
( )
condicional de Y dado X , f*(Y/X), que se definirá como:
(
f * Yj / Xi =) f Yj Xi
CY j
Ejemplo 3.7
Haciendo referencia al ejemplo 3.2, en el cual se observa una muestra de 200 fincas,
las variables área cultivada de maíz (X) en Ha, y producción anual (Y) en Ton. se
presenta a continuación la distribución conjunta de frecuencias absolutas
70 50 60 15 5 200
a) Construir la distribución condicional del área cultivada, para las fincas con
producción anual entre (60; 180), dicha distribución se denota por {Xi ; f(Xi/Y3)}
En el cuadro anterior:
f(X2/Y3) = 20/60 = 0.33 significa que de las fincas que producen entre 60 y 180 Ton.
de maíz al año, el 33% de ellas tienen área cultivada entre 10 Ha. y 40 Ha.
b) Construir la función empírica de densidad condicional del área cultivada, para las
fincas con producción anual entre 60 Ton. y 180 Ton.
f ( X i Y3 )
f * ( X i Y3 ) =
CXi
como ejemplo:
f ( X 1 Y3 ) 14 60 14
f * ( X 1 Y3 ) = = = = 0.023
C X1 10 600
⎧ 0.0000
⎪ 0.0233 x ∈
si x<0 ó x > 150
⎨ 0.0110 x ∈
si (0;10]
⎪ 0.0080 x ∈
f*(x/y3 ) = si (10;40]
⎩ 0.0006 x ∈
si (40;90]
si (90;150]
c) Calcule qué porcentaje de las fincas que producen anualmente entre 60 y 180 Ton.
de maíz tienen áreas cultivadas entre 18 Ha. y 70 Ha.
14
f(X1/Y3) = = 0.233, significa que de las fincas que producen anualmente entre 60 y
60
180 Ton. de maíz, el 23,3% de ellas, tienen área cultivada entre 0 y 10 hectáreas.
14
f(Y3/X1) = = 0.175, significa que de las fincas con área cultivada de maíz entre 0 y
80
10 hectáreas, el 17.5% de ellas producen anualmente entre 60 y 180 Ton. de maíz.
f(X1 ∩ Y3) =
14
= 0.07, significa que de todas las fincas de la muestra, el 7% tienen
200
área cultivada entre 0 y 10 Ha, y producen al año entre 60 y 180 Ton. de maíz.
( )
De la definición de la distribución condicional
(
f Xi Yj =) f Xi ∩Yj
f Yj ( )
( )
ó
(
f Yj Xi = ) f Xi ∩Yj
f (X i )
2. Una encuesta realizada por un periódico entre los intoxicados que habían asistido
a una boda, mostró que el 90% de ellos había comido pollo. Esto es una clara
indicación de la fuente de contagio.
f(P/I) = 0.90
Sería de más valor comparar el porcentaje de intoxicados entre los que comieron
pollo con el porcentaje de intoxicados que no comieron pollo, es decir:
f(I/P) con f( I/ P )
Aunque tampoco sería del todo concluyente, véase por qué : supóngase que en el
peor de los casos:
f(I/P) = 100% y f( I/ P ) = 0%
Es decir, todos los que comieron pollo se intoxicaron y de los que no comieron
pollo ninguno se intoxicó, aun así, no puede atribuirse la culpa al pollo con abso-
luta seguridad, puesto que pudo pasar lo siguiente:
Todos los que comieron pollo, tomaron sobremesa y los que no comieron pollo no
tomaron sobremesa y, puede haber sido ésta la causa, puesto que en estas
circunstancias también se obtienen los mismos resultados numéricos.
Esta situación permite visualizar que las asociaciones estadísticas entre eventos no
guardan necesariamente una relación de causa a efecto.
3. Una encuesta entre prostitutas realizada en Cali mostró que un elevado porcentaje
de ellas, más del 80%, habían nacido en el Valle del Cauca. Se piensa que quizás
la constitución de la familia y los patrones educativos de esta zona del país
predispongan a esta situación.
son del Valle del Cauca. Así por ejemplo dicha afirmación se cumpliría, si en Cali
sólo hubiera 10 prostitutas y 8 de ellas hubiesen nacido en el Valle.
4. Aunque para la mayoría de la gente los infartos cardíacos están asociados con
períodos de ejercicio violento, es mucho más probable que éstos ocurran durante
períodos de descanso; más de la mitad de las víctimas de ataques coronarios lo han
presentado mientras dormían o descansaban. Menos del 2% lo han presentado
mientras estaban dedicados a "hacer deporte, correr o a empujar un gran peso"
(tomado de Patterns of Disease, Parke Davis Co.)
- Observe que los porcentajes a que hace referencia el enunciado se expresan con
base en los muertos, por tanto no indican riesgo. Nótese la diferencia entre:
f(E/M) = porcentaje de los muertos, que hacían ejercicio violento cuando mu-
rieron.
f(M/E) = porcentaje de los que hacen ejercicio violento, que porcentaje muere
mientras lo hace.
En forma análoga debe interpretarse:
Sería más adecuado comparar la proporción de accidentes por cada 1.000 horas al
volante para mujeres y para hombres.
LEE
CARRO SI NO
PROPIO
SI 9.900 100 10.000
NO 60.100 29.900 90.000
70.000 30.000
Analizando la estructura del cuadro anterior, pueden deducirse los siguientes re-
sultados:
100
f(A/C) = = 1%
10. 000
Donde A representa "analfabeta" y C representa tener carro.
29. 900
f(A/ C ) = = 33.2%
90. 000
Con los cálculos realizados puede notarse que la distribución porcentual de los
analfabetas es distinta para la subpoblación de los que tienen carro que para los que
no tienen carro, es decir:
f(A/C) ≠ f(A/ C ) y
Lógicamente:
f( A /C) ≠ f( A / C )
por tal razón se dice que las características "tener carro propio" y "saber leer" son
estadísticamente dependientes.
Se habla de dependencia "estadística" puesto que ésta se concluye sólo con base en la
observación de una(s) distribución(es) de frecuencia y no por el análisis cualitativo
del fenómeno en el que participan las características en estudio, por eso es importante
recalcar que LA DEPENDENCIA ESTADÍSTICA NO EXPRESA RELACIÓN DE
CAUSA A EFECTO, aunque pueda usarse como un instrumento preliminar para
posteriormente buscar relaciones que permitan dar una explicación al fenómeno en el
área específica de estudio.
Ejemplo 3.8
Y
X Y1 Y2 Y3 Y4
X1 75 90 120 15 300
X2 100 120 160 20 400
X3 75 90 120 15 300
250 300 400 50 1000
Y
X Y1 Y2 Y3 Y4
X1 0.075 0.090 0.120 0.015 0.30
X2 0.100 0.120 0.160 0.020 0.40
X3 0.075 0.090 0.120 0.015 0.30
0.25 0.30 0.40 0.05
con la definición presentada, debe cumplirse para todos los (Xi ∩ Yj) que:
Para verificar si las variables X e Y son estadísticamente independientes de acuerdo
Veamos:
Como se verifica la definición para todo i e j, se concluye que las variables X e Y son
estadísticamente independientes.
"X e Y son independientes si y sólo si f(xi ∩ yj) = f(xi).f(yj); para todo i, j que es
categórica, puesto que no admite término medio: son independientes si cumplió la
definición o no son independientes si no cumplió la definición.
Puede pensarse en definir un instrumento que involucre la separación entre f(xi ∩ yj)
manera tal que permita poner en evidencia la intensidad de la dependencia estadística.
Ejemplo 3.9
CUADRO 3.13
Y
X Y1 Y2 Y3 Y4 Y5
X1 8 11 10 1 0 30
X2 2 12 14 30 2 60
X3 10 12 24 17 7 70
X4 0 5 12 2 21 40
20 40 60 50 30
f(x1 ∩ y1) =
8
= 0.04
200
×
30 20
f(x1) f(y1) = = 0.015
200 200
ello debemos encontrar para cada casilla el valor n*ij tal que f*(xi ∩ yj) = f(xi) . f(yj)
con el objeto de comparar esta distribución con la distribución real que se tiene; para
Es decir:
= ×
nij* ni. n. j
, de donde
ni × nij
n n n
nij* =
n
n1. × n.3 30 × 60
*
n13 = = = 9
n 200
De esta manera podemos construir la siguiente distribución:
CUADRO 3.14
Y
X Y1 Y2 Y3 Y4 Y5
X1 3 6 9 7.5 4.5 30
X2 6 12 18 15 9 60
X3 7 14 21 17.5 10.5 70
X4 4 8 12 10 6 40
20 40 60 50 30
• Algunos valores de las frecuencias absolutas, no son números enteros, por ejemplo
el n*14 = 17.5, lo cual refuerza la naturaleza hipotética de estos valores.
∑ nij* =
hipotética, es decir:
s
ni .
j=1
∑ nij* =
m
n. j
i= 1
ni. × n. j
esto puede deducirse, reemplazando n*ij por su equivalente así que:
n
∑ nij* = ∑ ∑ n. j =
ni. × n. j
= ⋅ n = ni.
s s s
ni. ni.
j= 1 j= 1 n n j= 1 n
∑ ∑ ( nij − )
es decir:
m s
nij* , desafortunadamente, esta suma es siempre cero, puesto que:
∑ ∑ ( nij − ) = ∑ ∑n
i= 1 j = 1
− ∑ ∑ nij* = n − n = 0
m s m s m s
nij*
i= 1 j = 1 i= 1 j = 1 i= 1 j= 1
ij
esto nos dice que la suma no puede usarse como indicador del grado de dependencia
debido a que su valor es siempre cero, esto puede remediarse, haciendo la suma de
los cuadrados de las diferencias, es decir:
∑ ∑ ( nij − )
m s 2
nij*
i= 1 j= 1
esta suma será mayor entre mayores sean las diferencias, y será cero sólo cuando
todas las casillas coincidan, es decir cuando se cumple la definición de indepen-
dencia; esto hace que pueda usarse como un indicador de dependencia, pero aún así,
presenta algunos inconvenientes como por ejemplo el hecho de dar la misma im-
portancia a diferencias iguales, no importando la magnitud de los valores que se
restan, así pues si nij = 2 y n*ij = 5 es considerado de la misma manera que si nij =
300 y n*ij = 303 y como puede apreciarse aunque en ambos casos hay una diferencia
de 3 unidades, ésta es relativamente mayor en el primer caso que en el segundo, de
(n )
esta manera puede corregirse el indicador expresando la diferencia al cuadrado como
una fracción de n*ij , con lo cual resulta el llamado cuadrado de contingencia.
− nij*
x2 = ∑ ∑
2
m s
ij
i= 1 j= 1 nij*
ni. × n. j
el cual puede simplificarse al efectuar el cuadrado y reemplazar a n*ij por su valor
, con lo cual se produce la expresión equivalente:
n
⎡ m s nij2 ⎤
x = n ⎢∑ ∑ − 1⎥
⎢⎣i = 1 j = 1 ni.n. j ⎥⎦
2
Aunque x2 = 0 sólo cuando las variables son independientes y crece cuando crecen
las diferencias, tiene el inconveniente de que está afectado por el número n de
y i. ×
nij n n. j
que como puede apreciarse no varía si multiplicamos todas las
n n n
casillas nij por una constante k, lo cual es equivalente a multiplicar el número de
observaciones por ese mismo factor; este aspecto puede corregirse definiendo el
llamado cuadrado medio de contingencia f 2 .
= = ∑∑ − 1
x2 m s nij2
ni. × n. j
2
f
n i= 1 j= 1
f2 al igual que x2 , es siempre mayor o igual que cero y no está acotado en forma
general, pero si tiene cota superior para cada problema específico en función del
número m de categorías de X y el número s de categorías de la variable Y, esto puede
nij ≤ ni.
deducirse del hecho:
nij ≤ n.j
de donde resulta que:
≤ 1
nij2
ni. × n. j
0 ≤ f2 ≤ min(m-1; s-1)
se puede demostrar que:
0 ≤ H2 ≤ 1
min(m - 1 ; s - 1)
f2
H2 = , con lo cual siempre se garantiza que
( )
El cuadrado de contingencia
x = = + + + ...
4 5
2
i= 1 j= 1 nij* 3 6 9
... +
(2 − 10)
2
+
(20 − 6) 2 = 92.26
10 6
= = = 0.46
2 x2 92.26
f
n 200
H2 = = = = 015
min( m - 1 ; s - 1) min(3 ; 4)
f2 0.46 0.46
.
3
Todos los indicadores de dependencia que se han presentado, están definidos bajo el
supuesto de que se calculan con base en información poblacional.
En otras palabras, tratan de medir el grado de dependencia de las características sin
contemplar el efecto producido por la incertidumbre, cuando se trabaja con una
muestra para hacerse una idea sobre la población. No obstante existen pruebas que
tienen en cuenta esta incertidumbre.
Conjuntodeloselementos
n ni 2 ... nij ... ni s cuyacaracterísticaXvalex i
i1 (constaden i elementos)
Y Y2 ... Y Ys
1 j ...
SubconjuntodeElementoscuya
característicaYvaley j
(constaden i jelementos)
De acuerdo con ésto la media aritmética de Y para los que satisfacen la condición
X = xi , que denotaremos por M(Y/x = xi) ó M(Y/xi), será :
M (Y xi ) =
ni1Y1 + ni 2Y2 + ... + nisYs
ni.
M (Y xi ) = Y1 + i 2 Y2 + ... + is Ys
ni1 n n
ni. ni. ni.
f (Y j xi ) =
Recordando que :
nij
ni.
Entonces:
M(Y/xi) = f(y1/xi).y1 + f(y2/xi).y2 + ... + f(ys/xi).ys
∑ f (Y j xi ). y j
que en representación abreviada es :
M (Y xi ) =
s
j =1
PROPIEDAD
Si se hace una partición de los elementos de la muestra de acuerdo con los valores de
la característica X, colocando en un conjunto los que tienen X = x1 , en otra los que
tienen X = x2 y así sucesivamente, y a cada grupo calculamos la media aritmética, de
la característica Y, entonces por la propiedad de la media aritmética:
∑ M (Y
O lo que es lo mismo:
y= xi ). fi.
m
i =1
= ∑ ( y j − y)
s
1 2
S 2y . n. j Varianza de Y para los n datos de la muestra.
n j=1
Si se va a calcular la varianza, sólo para los ni. elementos que satisfacen la condición
X = xi y cuya media aritmética es M (Y/xi), entonces se escribirá:
S 2y / x i = ∑[ y j − M (Y x i ) ]
s
1 2
. nij
ni. j= 1
∑[ y j − M (Y x i ) ]
ó
S 2y / x i =
s 2 nij
.
j= 1 ni.
( )
si se tiene en cuenta que
f y j xi =
nij
ni.
∑ [y j − M (Y xi )]2. f (y j xi )
Puede escribirse
S y2 / x =
s
j =1
i
Nótese que tanto las distribuciones condicionales de frecuencias como sus rasgos
asociados (media condicional y varianza condicional, etc.), no son conceptos nuevos,
son exactamente los mismos elementos conocidos, solo que aplicados a un
subconjunto de la muestra que satisface una determinada condición. Por lo tanto
todas, absolutamente todas las propiedades deducidas para el caso unidimensional se
satisfacen en las distribuciones condicionales.
Ejemplo 3.10
Se tomó una muestra de 500 viviendas de la población de Igor y entre otras se ob-
servaron las siguientes características: número de personas que duermen en la
vivienda (x) y área de dormitorio (Y), en m2.
Al tratar la información se construyeron las siguientes categorías:
Para la variable X
(Número de personas)
Para la variable Y
(área de dormitorio en m2)
X Y1 Y2 Y3 Y4 Y5 Y6
X1 10 4 2 5 3 1 25
X2 4 40 20 15 17 4 100
X3 3 35 61 10 40 26 175
X4 1 18 59 14 34 24 150
X5 2 3 8 6 16 15 50
20 100 150 50 110 70 500
Estime:
a) El área de dormitorio promedia para las viviendas en que duermen dos personas.
M (Y x2 ) = ∑ Y j' f (y j )
6
x
j =1
2
De esta manera:
M(Y/x2) = 3.5 x 0.04 + 5.0 x 0.40 + ... + 20.5 x 0.04 = 8.415 m2.
Es decir que las viviendas en que duermen dos personas tienen en promedio un área
de dormitorio de 8.415 m2.
∑[ ] (
b) La varianza del área de dormitorio, en las viviendas en que duermen dos personas.
= − M (Y x2 ) ⋅ f y j x2 )
6 2
SY2 x y 'j
j =1
2
SY2 x2 = (3.5 - 8.415)2 x 0.04 + (5.0 - 8.415)2 x 0.40 + (7.5 - 8.415)2 x 0.20 +
... + (20.5 - 8.415)2 x 0.04
= 17.6 m4
∑ xi . f(xi/y2)
5
M(X/y2) =
i= 1
i Xj f(xj / y2)
1 1 0.04
2 2 0.40
3 3 0.35
4 4 0.18
5 5 0.03
De esta manera:
Es decir que en las viviendas con área de dormitorio entre 4.0 y 6.0 m2, en promedio
duermen 2.76 personas.
∑ [ Xi - M(X/Y2)]2 . f(xi/y2)
dormitorio entre 4.0 y 6.0 m2.
5
S x2 y2 =
i= 1
y= ∑ y 'j ⋅ f. j
6
i =1
∑ (y 'j − y )
= 3.5 x 0.04 + 5.0 x 0.20 + 7.5 x 0.30 + 10.5 x 0.10 + 14.0 x 0.22 + 20.5 x 0.14
= 10.39 m2
= ⋅ f. j = 27.4 m 2
6 2
S y2
i =1
X = ∑ xi fi.
5
i =1
= ∑ (xi − x )
5 2
S x2 f i.
i =1
X=x
2 Y Y2 ... Y Ys M( Y/x 2) S 2Y/X 2
1 j ...
..
.. .
. n ni2 ... n ij ... nis .. ..
i1 . .
X=x Y
i
1 Y2 ... Y Ys M( Y/x ) S 2Y/X i
j ... i
..
.. n n . n nms
. m1 m2 ... mj ... .. ..
. .
X=x
m Y Y2 ... Y Ys M( Y/x m) S 2Y/X m
1 j ...
∑ [M (Y xi ) − y ] ⋅ fi.
INTERVARIANZA DE Y.
=
m 2
2 [Varianza de las Medias]
Sby
i =1
De otro lado cuando interesa formarse una idea sobre la magnitud de la varianza de Y
al interior de cada subconjunto de datos, es decir cuando se quiere tener una idea
sobre la magnitud de las varianzas:
S2Y/x1, S2Y/x2, ... , S2Y/xm.
∑
INTRAVARIANZA DE Y
S wy = SY x ⋅ fi.
m
2 2 [Media de las Varianzas]
i =1
i
Interesante expresión que representa una versión del conocido análisis de varianza,
que en palabras diría: la varianza de la distribución marginal de una variable Y, se
puede siempre expresar como la varianza de las medias condicionadas por alguna
característica X=x, más la media de las varianzas condicionales por la misma X=x.
Antes de probar la expresión base del análisis de la varianza, se presentan algunas
observaciones:
Dado que la suma de la intervarianza S2bY con la intravarianza S2wY debe dar
siempre el mismo valor S2y, cualquiera que sea la variable condicionante, entonces
si para la variable X es mayor el valor S2bY que para la variable Z, necesariamente
la intravarianza S2wY para la condicionante X, debe ser menor que para Z, de tal
manera que la suma siempre arroje el mismo valor S2y .
0 ≤ S2bY ≤ S2Y
Entonces S2bY será más grande, cuanto más cerca esté de S2Y.
Como ayuda nemotécnica de S2bY y de S2wY, son del inglés "between" y "within" que
significa "entre" y "dentro" respectivamente (en castellano ambas intervarianza e
intravarianza tienen las mismas iniciales).
0 ≤ S2bY ≤ S2Y
Este hecho permite expresar la intervarianza como fracción de la varianza total S2Y,
así se define la razón de correlación:
e y. x = 2
2
2 S by
Sy
0 ≤ e2y.x ≤ 1
De esta manera se tiene que:
∑ fi. S y2 xi = 0
estadística en la variación de la variable Y.
=
m
2
Si e2 y.x = 1, indica que S2 by = S2 y en consecuencia S wy , lo
i =1
y
cual implica que todas las S 2y x i = 0 , es decir que al interior del conjunto en el cual
X = xi, Y es una constante, este hecho marca el mayor grado de fuerza de X en la
variación de Y, puesto que el valor de X determinaría en forma inequívoca el valor de
la característica Y.
En general entre mayor sea el valor de e2y.x más importante será el factor (variable)
X, en la explicación de la variación de la característica Y.
Ejemplo 3.11
= ∑ [M (Y xi ) − y ] ⋅ fi.
m 2
2
Como la intervarianza Sby
i =1
∑ S y2 xi ⋅ fi.
y la intravarianza : S2wy(x)
=
m
2
Sby
i =1
Esto significa que se debe calcular previamente M(Y/xi), fi , S2y/xi para cada i.
Sabiendo que:
M (Y xi ) = ∑ y 'j f (y j xi )
m
j =1
S y2 x = ∑ [y j − M (Y xi )] ⋅ f (y j xi )
m 2
j =1
i
La intervarianza
la intravarianza
S2bY + S2wY = 2.33 + 25.06 = 27.4 valor que coincide con la varianza S2Y calculada
en el ejemplo 3.10.
Nótese que la intervarianza está midiendo cuan distintos son los promedios de la
variable Y cuando se calculan en diferentes conjuntos de acuerdo con la característica
X, si la intervarianza es pequeña, como este caso, indica que esas medias
condicionadas son muy similares no importa en cual conjunto de X = xi, se calcula;
aquí se estaría diciendo que el área promedia de dormitorio para las viviendas en que
duerme una persona es similar al área promedio para las viviendas en que duermen
dos personas, y al área promedio de las viviendas formando la muestra global.
Ejemplo 3.12
∑ [M (X y j )− x]2 f. j
La intervarianza
=
s
2
Sbx
j =1
La intravarianza
= ∑ S x2 y f. j
s
2
S wx
j =1
(
M X yj = ) ∑ xi f (xi )
m
yj
i =1
Para j = 1, 2, ... , 5
CUADRO 3.15
Y
X Y1 Y2 Y3 Y4 Y5 Y6
X1 10 4 2 5 3 1 25
X2 4 40 20 15 17 4 100
X3 3 35 61 10 40 26 175
X4 1 18 59 14 34 24 150
X5 2 3 8 6 16 15 50
20 100 150 50 110 70 500
CUADRO 3.16
X = ∑ fi.xi =
m
0.05 x 1 + 0.20 x 2 + ... + 0.10 x 5 = 3.2
i =1
Así que :
LA INTERVARIANZA
LA INTRAVARIANZA
Donde
= ∑ [M (Y xi ) − y ] ⋅ fi.
m
2 2
Sby
i =1
= ∑ S y2 x ⋅ fi. ; S y2 x = ∑ (y j − M (Y xi ))2 f (y j xi )
s
2
S wy
j =1
i i
Se sabe que
S y2 = ∑ (y j − y )2 f. j ,
s
si se tiene en cuenta que
j =1
f. j = ∑ fij
m
i =1
S y2 = ∑∑ (y j − y ) fij
m s
i =1 j =1
S y2 = ∑∑ {y j − M (Y }2
xi )+ M (Y xi ) − y fij
m s
i =1 j =1
i =1 j =1 i =1 j =1
∑∑ [y j − M (Y xi )][M (Y xi ) − y ]⋅ fij
(E 3.1)
+2
m s
i =1 j =1
∑∑ [y j − M (Y xi )]2 f (y j xi )⋅ fi. =
m s
i =1 j =1
S 2y xi
Entonces
= ∑ S y2 x ⋅ fi.
m
expresión ésta que corresponde a la intravarianza S2wy(x) .
i =1
i
∑ ∑ [M (Y xi ) − y ]2 fij = ∑ [M (Y xi ) − y ]2 ∑ fij
m s m s
i =1 j =1 i =1 j =1
= ∑ [M (Y xi ) − y ] fi. = Sby
m
2 2
i =1
Por último se prueba que el tercer término de la expresión (E 3.1) vale siempre cero:
∑ ∑ [y j − M (Y xi )][M (Y xi ) − y ] f ij =
m s
2
i =1 j =1
∑ ∑ [y j − M (Y xi )][M (Y ( )
xi ) − y ] f y j xi ⋅ f i.
m s
2
i =1 j =1
=2 ∑ [M (Y xi ) − y ] f i. ⋅ ∑ [y j − M (Y xi )]f (y j xi )
m s
i =1 j =1
∑ [M (Y xi ) − y ]⋅ f j. = ∑ M (Y xi ) − Y = 0
m m
i =1 i =1
Sea (x1,y1), (x2,y2), ... , (xn,yn) una muestra de n elementos a cada uno de los cuales se
ha observado las características X e Y.
Ti = xi + yi
S T2 = ∑ ti − T
1 n
( )
2
es decir que:
[ )]
n i= 1
S(2x + y ) = ∑ ( xi + yi ) − x + y
1 n
(
2
[( ) ( yi − y )]
n i= 1
= ∑ xi − x +
1 n 2
n i= 1
= ∑( xi − x ) + ∑( yi − y ) + 2 ∑ (x i )(
− x yi − y )
n n n
1 2 1 2 1
n i= 1 n i= 1 n i= 1
∑ (x i )( )
o sea que
S(2x + y ) = S x2 + S y2 + 2 − x yi − y
n
1
n i= 1
∑ (x i )(
− x yi − y )
n
1
al término se le conoce como covarianza entre las
n i= 1
(x )( )
variables x e y, que se denotará así:
− x yi − y
COV ( x , y ) = ∑
n
i
(E 3.2)
i= 1 n
Cuando la covarianza es positiva y "grande" indica que hay una tendencia fuerte de
las variables a crecer en forma conjunta, es decir que cuando x crece la tendencia de
y también es a crecer; lo contrario ocurre cuando la covarianza es negativa y "grande"
(en valor absoluto), ver figura 3.6.
y
La covarianza proporciona una idea
II. .... I (aunque no muy precisa) sobre el grado de
............. .
.................. .. conformación lineal de los puntos en el
. . ................ . .
y . ..... . .. ..
.. ...... ...... . . diagrama de dispersión.
. . .... .. ... . .
. . ... ........
... .. ....
III . . .. .
. IV
x
x
Fig. 3.6
Si el diagrama de dispersión tiene la forma que muestra la figura 3.7
|COV(x, y)| ≤ Sx . Sy
Con base en esta propiedad, podremos juzgar si la covarianza entre dos variables es
"grande" o "pequeña", comparándola con el producto Sx . Sy .
COV ( x , y )
Mirándolo de otra manera:
≤ 1
Sx ⋅ S y
COV ( x , y )
es decir que:
− 1 ≤ ≤ 1
Sx ⋅ S y
COV ( x , y )
r=
Sx ⋅ S y
Se sabe que r tiene el mismo signo que la covarianza y además
-1 ≤ r ≤ 1
1 n
( )(
∑ xi − x yi − y ) ( ) ( )
1 n xi − x yi − y
∑
n i= 1
r= = ⋅
Sx ⋅ S y n i= 1 Sx Sy
De esta forma si |r| = 1 indica que todos los puntos en el diagrama de dispersión
tienen una conformación rectilínea perfecta que tendrá pendiente positiva o negativa
dependiendo del signo del coeficiente de correlación lineal r; por tanto entre más
cerca del valor 1 (uno) esté |r|, más cercano está el diagrama de dispersión a una
conformación rectilínea y entre más cerca a cero esté |r|, más lejos estará el diagrama
de dispersión a una conformación rectilínea. A continuación se presentan diagramas
de dispersión y sus correspondientes coeficientes de correlación lineal.
y y
. .
. .
.. .
. ..
r=1
. .
. r = -1
..
.
x x
(a) (b)
y
y
........ .
....... ...... .. .
. .........
. ... . . ...
.
... . . . ....... ....................... ....
.............. .. ..... ....... ... . .. ....
. . ... .............. . .......
. . . . .. ..... .. .... ....... .. ...... .
.......... . . ... . .. . .. . .. .........
. . .. . . . ... . . . ....
............ .. . . . . . .. .
.. .. . .
r = 0.90
r = -0.68
x
x
(d)
(c)
.......... ....... . . .
...... .. . ......... ....... .
.. . . ... .. ... . ... . .
... .... ....................................................
... ...... ............ ... .......... ...........
. . ... ............... ............ ........
..... .. .... .. .... .. .......... .. ..
. ... . .. . .. . .. . ......
. . . ... . . .. ....
. . . . .. .
.
r = -0.1
x
(e)
FIG 3.8
Véase ahora, que efectivamente el valor del coeficiente de correlación r está siempre
en el intervalo [ -1, +1 ]
Sean:
x− x
Z=
Sx
y− y
W=
Sx
1 + 1 + 2 COV(z, w) ≥ 0
⎛ x − x y − y ⎞
COV ( z , w ) = COV ⎜ ⎟
⎝ ⎠
,
SX SX
COV ( z , w) = COV ( x , y )
de acuerdo con las propiedades de la covarianza:
1
Sx ⋅ S y
COV ( x , y )
= =
Sx ⋅ S y
r coeficiente de correlación
-1 ≤ r ≤ 1
por tanto
OBSERVACIONES
i =1 j =1
Si los datos están agrupados en intervalos de clase, entonces los xi y/o yj serán las
marcas de clase correspondientes.
∑∑ (xi − x )(y j − y ) f ij
Demostración:
COV ( x, y ) =
m s
i j
∑∑ (xi − x )(y j − y ) f i. f. j
Así que
COV (x, y ) =
m s
∑ (x i − x ) f i . ∑ ( y j − y ) f . j
i j
=
m s
i j =1
⎞ ⎛ s ⎞
∑ ∑
⎛ m
= ⎜ xi f i. − x ⎟ ⋅ ⎜⎜ y j f . j − y ⎟⎟
⎜ ⎟ ⎜ ⎟
⎝ i =1 ⎠ ⎝ j =1 ⎠
=0⋅0
COV (x, y )= 0
COV ( x , y )
Como
rxy = = = 0
0
Sx ⋅ S y Sx ⋅ S y
lo que queda demostrado.
Ejemplo 3.13
E (15 , 25) 5 10 0 15
D (25 , 35) 15 15 10 40
A (35 , 45) 10 16 4 30
D (45 , 55) 5 9 1 15
35 50 15 100
COV ( x, y ) = ∑ ∑ (xi − x )( yi − y ) f ij
m s
i =1 j =1
= ∑∑ xi y j f ij − x ⋅ y
m s
i j
x = 34.5; y = 19.000
y
3. Obsérvese también que en el
gráfico, no obstante que el diagrama
de dispersión muestra una
conformación en la cual aparecen X
e Y conectadas por una relación
funcional, sin embargo el
.. .. ... . . . ... .. ..
coeficiente de correlación lineal es .. ..
. ..
r = 0, lo cual indica ausencia de .. ..
.. . ..
correlación lineal y no significa que .
. .
.
no exista entre X e Y otro tipo de . . x
correlación.
EJERCICIOS PROPUESTOS
1.5 Construya la distribución condicional del ingreso familiar para las familias
con 2 personas.
1.6 Calcule e interprete claramente, de acuerdo con las variables que considera el
problema:
1.8 Entre las familias que tienen 2 ó 3 personas, qué porcentaje tienen ingresos
entre $1’500.000 y $2’700.000.
1.9 Entre las familias que tienen ingresos entre $1’500.000 y $2’700.000, qué
porcentaje constan de 2 ó 3 personas.
Roberto Behar y Mario Yepes
Capítulo 3 207
Calcule:
1.10 El ingreso promedio por familia y su desviación estándar.
1.11 El ingreso promedio por familia, para las familias con 2 personas, y su
desviación estándar.
1.13 El número promedio de personas por familia, para las familias con ingresos
entre $2’500.000 y $4’000.000 y su desviación estándar.
⎧ axy si (x,y) ∈ D
⎨
⎩0
f*(x,y) =
en cualquier otra parte
2.2 Calcule el porcentaje de elementos que tienen 0.2 ≤ x ≤ 0.3 y 2.5 ≤ y ≤ 3.8.
2.1 Determine el valor de la constante "a"
2.3 Entre los que tienen 2.5 ≤ y ≤ 3.8, que porcentaje representan los que tienen
0.2 ≤ X ≤ 0.3.
3. Suponga que las variables X e Y que se observaron en una población son discretas
y sus rangos son respectivamente
Rx = { 0,1,2 } : Ry = { 2,3,4 }
Donde :
Y Y1 Y2 Y3 Y4
X X1 : (45;55] Y1 : (150;160]
X1 5 20 8 7 X2 : (55;70] Y2 : (160;165]
X2 12 38 30 20 X3 : (70;85] Y3 : (165;175]
X3 3 12 32 13 Y4 : (175;190]
4.4 Construya la función empírica de densidad del peso, para las personas con
estatura entre 165 y 175 cm.
4.5 Construya la función empírica de densidad de la estatura para las personas con
peso entre 50 y 60 kg.
4.6 Qué porcentaje de las personas tienen estatura entre 162 y 170 cms. y peso
entre 48 y 75 kg.
4.7 De las personas que tienen estatura entre 162 y 170 cms., qué porcentaje de
ellas tienen peso entre 48 y 75 kg.
4.8 De las personas que tienen peso entre 48 y 75 kg., qué porcentaje tienen
estatura entre 162 y 170 cm.
4.12 Estime el peso promedio y su varianza para las personas con estatura 160 y
175 cm.
4.13 Estime el peso promedio y su varianza para las personas con peso entre 48 y
75 kg.
4.14 Estime el porcentaje de personas para las cuales: su estatura es menor que
2.5 veces su peso.
4.15 Descomponga la varianza de la estatura, con base en los grupos definidos por
la variable peso, de acuerdo con la expresión del análisis de la varianza.
Comente.
∑ X iYi
5. Muestre que:
COV ( X , Y ) = − X ⋅Y
n
0 ≤ f2 ≤ min(m-1 , s-1)
7. En 100 parcelas de igual área, se quiere ensayar tres tipos de abono X1, X2, X3, para
evaluar su incidencia en el rendimiento del trigo; para ello se abonaron unas
parcelas con X1, otras con X2 y otras con X3 fueron tomadas al azar.
Posteriormente se observó en cada una la producción de trigo Y (en toneladas),
registrándose la distribución que aparece a continuación, donde:
Y Y1 Y2 Y3 Y4
X
X1 7 15 3 5 30
X2 3 7 10 20 40
X3 15 8 4 3 30
25 30 17 28 100
Calcule:
b) S Y2 x1 , S Y2 x2 , S Y2 x 3 , S Y2
8. Con base en los datos del ejemplo 3.13, indique si la variable "edad" explica
estadísticamente la variación en la variable "ingreso".
e2y.x = e2x.y =
EL MODELO DE REGRESION
Sir Francis Galton fué la primera persona en trabajar con estadística en lo que se
refiere a relaciones. A finales del siglo pasado, Galton condujo muchas
investigaciones concernientes con la influencia de la herencia sobre varios atributos
humanos tanto mentales como físicos. En varios de estos estudios involucró la
relación padre-hijo. En particular, Galton (1889) reportó hallazgos acerca de las
relaciones entre las estaturas de los padres e hijos. El observo que los padres altos
tienden a tener hijos altos y padres bajos tiendes a tener hijos bajos. Sin embargo él
también observó lo que llamo efecto de regresión en ésta relación. El notó por
ejemplo que la estatura de los hijos tienden a “regresar” a la media de su grupo.
Padres muy altos tienden a tener hijos mas altos, pero no tan altos como el promedio
de sus padres. Padres de muy baja estatura tienden a tener hijos de baja estatura, pero
no tan bajos como el promedio de sus padres. Para aquellos padres en el rango
medio, los promedios de las estaturas de sus hijos corresponden mas estrechamente
al promedio de la estatura de sus padres.
El denotó la relación entre la estatura de padres e hijos por la letra “r” (por regresión).
4.1 INTRODUCCIÓN
Otro tipo de casos en los cuales, cobra importancia el proceso de estimación de una
característica con base en otra, es cuando de ordinario, no es posible desde el punto
de vista técnico o práctico, la medición directa de la característica Y, pero se tienen
registros (Xi,Yi) de algunas ocasiones.
Son muchas las motivaciones para usar el análisis de regresión, entre las cuales se
presentan algunas que no son excluyentes entre sí:
Aplicación # 1.
Aplicación # 2.
Se desea encontrar una fórmula cuantitativa o ecuación para describir (por ejemplo
predecir) una variable dependiente Y como una función de variables independientes
X1, X2 , ..., Xn . La estructura de una cartera en términos del monto por tiempo de
atraso influye en el valor mensual del recaudo (Y). Se desea predecir el recaudo que
se logrará de una cartera con $ X0 de clientes al día, $ X1 de clientes con un mes de
atraso, $ X2 con 2 meses de atraso, $ X3 con 3 meses de atraso, $ X4 con cuatro (4) o
mas meses de atraso.
Aplicación # 3.
Aplicación # 4.
Se desea saber, entre las variables independientes cuáles son importantes y cuáles no
para describir o predecir una variable dependiente. Puede necesitar controlar otras
variables.
Ejemplo: una empresa que vende a crédito, desea conocer cuales variables son
importantes para el establecimiento del monto a aprobar de un crédito (Y). Las
variables a considerar son ingreso mensual (X1), profesión u oficio (X2), antigüedad
en el actual empleo (X3), vivienda propia (X4), cuenta bancaria (X5), barrio de
residencia (X6), número de personas a su cargo (X7). El estudio se realiza con base a
una muestra aleatoria de 1000 clientes, a los cuales se les mide un indicador de
cumplimiento (factor de amplificación del plazo), el cual se toma como variable de
respuesta.
Aplicación # 5.
Aplicación # 7.
Aplicación # 8.
también una herramienta que permite calificar la bondad del modelo; igualmente se
destacarán las limitaciones en la aplicación de los instrumentos que se definen.
Así por ejemplo el dominio de los valores que puede asumir la variable X, puede
constituir una restricción en la definición de la familia de modelos, por tal razón es el
especialista del área del estudio del fenómeno, quien dirá en primera instancia que
familia considerar.
= k
dy
dx
El criterio que se usará para definir lo que se entiende por "el mejor modelo de la
familia" es el criterio de los mínimos cuadrados y al modelo que satisfaga ese
criterio se lo llamará línea de regresión mínimo cuadrática.
Ejemplo 4.1
El esfuerzo cortante del suelo en un cierto estrato arcilloso, parece estar relacionado
con la profundidad.
CUADRO DE DATOS
OBSERVACION (i) 1 2 3 4 5 6 7 8 9 10
Profundidad x (pies) 6 8 14 14 18 20 20 24 28 30
Esfuerzo cortante y (Klb/pie2) 0.28 0.58 0.50 0.83 0.71 1.01 1.29 1.50 1.29 1.58
Se sabe que no existe una asociación funcional perfecta entre profundidad y esfuerzo,
es decir que puede suceder que diferente muestras que están a la misma profundidad,
pueden tener distintas fuerzas cortantes, de hecho si miramos los datos esto se revela
en las dos muestras que se tomaron a 14 pies y también en las que se tomaron a 20
pies de profundidad.
Sin embargo, las distribuciones de frecuencia del esfuerzo y, puede ser bien
específica para el suelo que se encuentra a la misma profundidad x. En especial es de
mucho interés encontrar un modelo que permita estimar la media M(y/x) para dicha
distribución condicional de frecuencia.
M(y/x) es una función de x. Para hacerse una idea de la naturaleza de dicha función,
de su forma, puede ser de mucha utilidad graficar en los puntos (x,y) en un plano
cartesiano, dando origen al llamado “ diagrama de dispersión ”, como se muestra en
el siguiente grafico:
2.25
2
M(y/x) = a + bx
1.75
1.5
Esfuerzo 1.25
(KLb/pie2)
1
0.75
0.5
0.25
0 x (pies)
Profundidad
A partir del diagrama de dispersión se puede se puede observar una cierta tendencia
rectilínea de la nube de puntos, lo cual hace razonable pensar que el promedio M(y/x)
tenga la forma de una línea recta, como se insinúa en el grafico:
M(y/x) = a + b x
∑ (x i −x ) (y −y )
n
rxy =
i= 1
i
Sx ⋅ Sy
para la situación del ejemplo se tiene que :
así que:
rxy = 0.914
Queda ahora la tarea de hallar cual recta es. Es decir que cuales deben ser los valores
de “a“ y “b” que definen “ la mejor ” recta.
En realidad, puede pensarse que para una observación (x,y) puede modelarse como:
y = M(y/x) + e
es decir que el valor del esfuerzo cortante para una observación particular tomada a
una profundidad x, puede visualizarse como la media de su distribución condicional
M(y/x) más lo que le haga falta, que hemos llamado e y se conoce como error.
e = y - M(y/x)
y M(y/x) = a + bx
1.29
eg {
M(y/x= 28 ) = a + b(28 )
28
x
Fig. 4.2 b: Representación del error para una presentación preliminar.
Asi como muestra el gráfico: para el punto (28 , 1.29), el error asociado es
e g = yg - M(y/xg)
= 1.29 - [a + b * 28]
note que si consideramos un modelo particular, “a” y “b” serian números conocidos y
el error e, tendría por lo tanto un valor concreto.
e1 = 0.28 - [a + b(6)]
e2 = 0.58 - [a + b(8)]
e3 = 0.50 - [a + b(14)]
e4 = 0.83 - [a + b(14)]
e5 = 0.71 - [a + b(18)]
e6 = 1.01 - [a + b(20)]
e7 = 1.29 - [a + b(20)]
e8 = 1.50 - [a + b(24)]
e9 = 1.29 - [a + b(28)]
e10 = 1.58 - [a + b(30)]
note que dicha suma solo depende de los parámetros a y b del modelo, es decir que:
∑ ei2 = f ( a, b) ←
10
función de a y b.
i= 1
⎛ n ⎞
na + ⎜ ∑ x i ⎟ ⋅ b = ∑ yi
n
⎜ ⎟
⎝ i= 1 ⎠ i= 1
( )
⎛ n ⎞
∑ i ⋅ +
⎜∑ i ⎟
⎜ 2⎟
⋅b + ∑ xi yi
n
⎝ i= 1 ⎠
x a x
i= 1
Por ahora no se preocupe mucho por saber de donde salieron las ecuaciones.
Expresemos el sistema de acuerdo a los datos concretos obtenidos en el problema.
10 a + 182 b = 9.57
182 a + 3876 b = 203.23
CUADRO 4.2
Un sistema de dos ecuaciones lineales, con dos incógnitas, que al resolverlo resulta:
a = 0.015 b = 0.0517
Lo cual significa que para el suelo que se encuentra a una profundidad de 10 pies, se
espera aproximadamente un esfuerzo cortante promedio de 0.532 Klb/pie2.
El modelo permite hacer predicciones sobre el esfuerzo cortante promedio para la
profundidad que se pida (dentro del rango de los valores observados para x, en este
caso entre 6 y 30 pies).
∂ M ( y x)
M(y/x) = a + b x
= b
∂x
ó lo que es lo mismo:
M(y/xo + 1) - M(y/xo ) = b
Lo cual significa que la pendiente del modelo rectilíneo, puede interpretarse, como la
diferencia del esfuerzo cortante promedio de suelos con un pie de diferencia en
profundidad.
En otras palabras, para el caso del ejemplo, se diría que el esfuerzo cortante promedio
del suelo aumenta en 0.0517 Klb/pie2 por cada pie que aumenta la profundidad.
2. Nótese que:
∑ ( xi − x ) ( yi − y )
resulta de despejar a y b de las ecuaciones normales, conduce a:
∑ ( xi − x )
b = =
Cov( x , y )
2
S x2
= =
S xy Sy
r
S x2 Sx
∑ xi yi − n x y
∑ xi2 − n( x )2
donde r es el coeficiente de correlación lineal
a = y - bx
Nótese que lo desarrollado en el ejemplo sólo es válido para la familia de modelos
rectilíneos M(y/x) = a + bx , sin embargo, las ideas que se usaron para obtener los
resultados siguen siendo válidos para cualquier otra familia de modelos, adaptando
los criterios a las especificidades pertinentes.
M (y/x) = y* = f(x, ß)
e 1 = y1 - y * 1
e 2 = y2 - y * 2
.
.
.
e n = yn - y * n
La magnitud de estos errores depende del modelo que se escoja, es decir, depende del
juego de parámetros ß = (ß0, ß1, ß2, ...,ßk) que se seleccione, como puede apreciarse
en el gráfico de la figura 4.3.
y
x Los trazos verticales que aparecen en la
x x
figura, corresponden a la magnitud de los
x
x distintos errores de predicción. Con el
Se i
x x
x
x criterio de los mínimos cuadrados, se
y* = f(x,I)
x define el mejor modelo, entre los de una
yi y*
i
familia dada, como aquel que produzca la
menor suma de los cuadrados de los
x errores de predicción.
Encontrar (ß0, ß1, ß2, ..., ßk) de tal manera que sea e12 + e22 + ... + en2 la menor
expresar de la manera siguiente:
posible.
Si se parte del hecho, de que los datos (x1, y1), (x2, y2), ...,(xn, yn) son conocidos
entonces, la suma de los ei2 es una función de los ß.
=
n n
2
e12
i= 1 i= 1
función G( β 0 , β 1 , β 2 ,..., β k )
optimización adecuada para encontrar los (ß0, ß1, ß2, ..., ßk), que hacen mínima la
min G( β 0 , β 1 , ... , β k ) = ∑
hallar ß0, ß1, ß2, ..., ßk , que,
n
[ yi - f(xi, ß0 , ß1 , ... , ßk)]2
i= 1
Resolviendo el sistema:
∂G ( β )
= 0
∂β 0
∂G ( β )
= 0
∂β 1
. Sistema de (k+1) ecuaciones con (k+1) incógnitas.
.
∂G ( β )
.
= 0
∂β k
∂ (β ) ∂f ( x i β )
= ∑ 2 [y ]
− f ( x i , β 0 , β 1 , ... , β k ) .
n
∂β j ∂β j
, j = 0, 1,... ,k
i= 1
i
∂f ( x i , β )
= 2 ∑ [ y i − f ( x i , β 0 , β 1 , ... , β k )] .
∂G
= 0
n
∂β 0 ∂β 0
∂f ( x i , β )
i= 1
= 2 ∑ [ y i − f ( x i , β 0 , β 1 , ... , β k )] .
∂G
= 0
n
∂β 1 i= 1 ∂β 1
.
∂f ( xi , β )
= 2 ∑ [ y i − f ( x i , β 0 , β 1 , ... , β k )] .
.
∂G
= 0
n
∂β k i= 1 ∂β k
∂f ( x i , β )
(0) ∑ ei = 0
n
∂β 0
∂f ( x i , β )
i= 1
(1) ∑ ei = 0
n
i= 1 ∂β 1
. ECUACIONES NORMALES (E 4.1)
∂f ( x i , β )
.
( k ) ∑ ei = 0
n
i= 1 ∂β k
Es decir cuando f(x ,ß0, ß1, ß2, ... , ßk) es una función lineal en los parámetros.
donde f1(x), f2(x), ..., fk(x) son funciones que sólo dependen de x y no de los ß.
Obsérvese que las fj(x) no tienen que ser necesariamente funciones lineales en x,
pueden ser cualquier función; la única restricción es que no involucre los parámetros
ßj en su expresión, de esta manera, por ejemplo, la función:
Véase que ocurre entonces, con las ecuaciones normales, cuando f(x,ß) es lineal en
los parámetros, es decir cuando es de la forma:
∂f ∂f ∂f
= 1; = f1 ( x ) , ... , = f k ( x)
∂β 0 ∂β 1 ∂β k
(0) ∑ ei =
n
0
i= 1
(1) ∑ ei ⋅ f1 ( xi ) =
n
0
i= 1
. (E 4.2)
.
(k ) ∑ e ⋅ f (x ) =
n
0
i= 1
i k i
Ejemplo 4.1
Con este propósito, se diseño un experimento que permitió para una muestra de 30
ensayos hacer las mediciones de resistencia de los 10 días (X) y los 28 días (Y),
arrojando los siguientes resultados3 expresados en libras/pulg2. (psi):
1800 2800
2135 2750
1450 2640
2140 2530
1870 2740
1945 2300
1720 2270
3 Los resultados y las funciones propuestas en el ejemplo 4.1 no son reales sino hipotéticas.
2230 3040
1540 3120
2100 2850
2400 3235
2650 3000
1765 2720
1280 2005
1350 1900
1980 2700
2000 3010
2380 3140
2070 2870
1990 2740
1775 2180
1748 2320
2135 2980
1534 2650
2320 3000
2188 3102
1831 2930
1302 2740
2005 2955
1434 2328
Estudios anteriores permiten pensar que la familia de modelos que pueden explicar
estadísticamente el fenómeno es de la forma:
Con base en el método de los mínimos cuadrados, plantee las ecuaciones normales y
haga las estimaciones para ß0, ß1, ß2, que corresponden al mejor modelo de la familia
en estudio.
f1(x) = x ; f2(x) = x2
(0) ∑ ei =
n
0
i= 1
(1) ∑ ei ⋅ f1 ( xi ) =
n
0
i= 1
(2) ∑ ei ⋅ f 2 ( xi ) =
n
0
i= 1
Si se reemplaza ei = y i − y i* , donde:
y i* = f ( x i ) = β 0 + β 1 x i + β 2 x i2 , es decir:
ei = y i − β 0 − β 1 x i − β 2 x i2
(0) ∑ (y − β 0 − β 1 x i − β 2 x i2 = 0 )
n
i= 1
(y
i
(1) ∑ )
− β 0 − β 1 x i − β 2 x i2 x i = 0
n
i= 1
(y )
i
(2) ∑ − β 0 − β 1 x i − β 2 x i2 x i2 = 0
n
i= 1
i
(0) ∑ y i = nβ 0 + β 1 ∑ x i + β 2 ∑ x i2
n n n
i =1
(1) ∑ y i x i = β 0 ∑ x i + β 1 ∑ x i2 + β 2 ∑ x i3
n n n n
(E 4.3)
i =1
(2) ∑ y i x i2 = β 0 ∑ x i2 + β 1 ∑ x i3 + β 2 ∑ x i4
n n n n
i =1
Como se dispone de los datos (xi,yi), entonces las incógnitas en la ecuaciones (E 4.3),
sólo son ß0, ß1, ß2.
n = 30 ; ∑ yi = 81545 ; ∑x = 57067
30 30
i= 1 i= 1
i
∑x = 112
. × 108 ; ∑x = 2.26 × 1011 ; ∑x = 4.69 × 1014
30 30 30
2 3 4
i= 1 i= 1 i= 1
i i i
∑yx = 313
. × 1011 ; ∑yx = 157
. × 108
30 30
2
i= 1 i= 1
i i i i
De acuerdo con esto, para el ejemplo, las ecuaciones normales quedan expresadas de
la siguiente manera:
Lo cual significa que se espera que para los ensayos en los cuales la resistencia a los
10 días es de 1900 psi, la resistencia promedia a los 28 días sea 2638.8 psi.
Ejemplo 4.2
Con los mismos datos del ejemplo 4.1, se desea ajustar un modelo de la familia de los
modelos rectilíneos, es decir, de la forma:
f(x) = ß0 + ß1x
Como puede apreciarse también es una modelo lineal en los parámetros ß0,
ß1,(aunque en este caso en especial, también es lineal en x).
En este caso f1(x) = x, así que las ecuaciones normales de acuerdo con (E 4.2)
(0) ∑ ei =
n
0
i= 1
(1) ∑ ei x =
n
0
Como ei = y i − y i* = y i − f ( x i )
i= 1
ei = y i − β 0 − β 1 x i
( 0) ∑ ( y i − β 0 − β 1 xi ) = 0
n
i= 1
(1) ∑ ( yi − β 0 − β 1 xi ) xi = 0
n
i= 1
( 0) ∑ y i = nβ 0 + β 1 ∑ x i
n
i= 1
(1) ∑ yi xi = β 0 ∑ xi + β 1 ∑ x
n
(E 4.5)
2
i= 1
i
De nuevo, al lado izquierdo quedan las constantes y las sumas del lado derecho
representan los coeficientes de las incógnitas.
ß0 = 1678.84 ; ß1 = 0.54637
que debe interpretarse como la resistencia promedia a los 28 días para conjunto de
ensayos para los cuales la resistencia a los 10 días fue de 1900 psi.
Ejemplo 4.3
Con los mismos datos del ejemplo 4.1, sobre resistencia de cierto tipo de concreto, se
desea ajustar un modelo de la familia de la forma:
f ( x ) = β 0 + β 1 ln x + β 2 x
(0) ∑ e i =0
n
i =1
(1) ∑ e i ⋅ f1 ( x i ) = 0
n
(E 4.2)
i =1
( 2) ∑ e i ⋅ f2 ( x i ) = 0
n
i =1
e i = y i − β 0 − β 1 ln x − β 2 x
(0) ∑ yi = nβ 0 + β 1 ∑ ln xi + β 2 ∑ xi
n n n
Al
i= 1 i= 1 i= 1 calc
(1) ∑ yi ln xi = β 0 ∑ ln xi + β 1 ∑ (ln xi ) + β 2 ∑ xi ln xi
n n n n ular
2
las
i= 1 i= 1 i= 1 i= 1 dife
(2) ∑ yi xi = β 0 ∑ xi + β 1 ∑ xi ln xi + β 2 ∑ xi xi
n n n n rent
es
i= 1 i= 1 i= 1 i= 1 sum
ator
ias con base en el siguiente cuadro, que contiene respectivamente: el número de la
observación, la resistencia a los 10 días (X), la raíz cuadrada de X, el logaritmo
natural de X, y por último la resistencia a los 28 días (Y) que constituye la
característica a predecir.
[ Ln ( x ) ] 2 ( x)
2
Obser-
vación #
Resist. a los
diez días
Ln (x) x Resistencia a los
28 dias (y)
x Lnx y i Lnx i yi xi M ( y / xi ) ei e i2
1 1800 7.5000 42.4300 2800 56.2500 1800.3050 318.2250 21000.0000 118804.0000 2680.4580 119.5422 14290.3500
2 2135 7.6700 46.2100 2750 58.8289 2135.3640 354.4307 21092.5000 127077.5000 2792.2940 -42.2937 1788.7600
3 1450 7.2800 38.0800 2640 52.9984 1450.0860 277.2224 19219.2000 100531.2000 2569.5060 70.4941 4969.4100
4 2140 7.6700 46.2600 2530 58.8289 2139.9880 354.8142 19405.1000 117037.8000 2795.4110 -265.4110 70443.0100
5 1870 7.5300 43.2400 2740 56.7009 1869.6980 325.5972 20632.2000 118477.6000 2709.1050 30.8946 954.4800
6 1945 7.5700 44.1000 2180 57.3049 1944.8100 333.8370 16502.6000 96138.0000 2733.5860 -553.5860 306457.5000
7 1720 7.4500 41.4700 2270 55.5025 1719.7610 308.9515 16911.5000 94136.9000 2657.0270 -387.0270 149789.8000
8 2230 7.7100 47.2200 3040 59.4441 2229.7280 364.0662 23438.4000 143548.8000 2826.1260 213.8737 45741.9600
9 1540 7.3400 39.2400 3120 53.8756 1539.7780 288.0216 22900.8000 122428.8000 2598.1220 521.8781 272356.8000
10 2070 7.6400 45.5000 2870 58.3696 2070.2500 347.6200 21926.8000 130585.0000 2769.8810 100.1193 10023.8700
11 1990 7.6000 44.6100 2740 57.7600 1990.0520 339.0360 20824.0000 122231.4000 2743.5300 -3.5297 12.4600
12 1775 7.4800 42.1300 2180 55.9504 1774.9370 315.1324 16306.4000 91843.4000 2676.3220 -496.3220 246336.0000
13 2100 7.6500 45.8300 2850 58.5225 2100.3890 350.5995 21802.5000 130615.5000 2783.1710 66.8293 4466.1500
14 2400 7.7800 48.9900 3235 60.5284 2400.0200 381.1422 25168.3000 158482.7000 2885.4890 349.5108 122157.8000
15 2650 7.8800 51.4800 3000 62.0944 2650.1900 405.6624 23640.0000 154440.0000 2967.8890 32.1115 1031.1500
16 1765 7.4800 42.0100 2720 55.9504 1764.8400 314.2348 20345.6000 114267.2000 2668.8410 51.1591 2617.2500
17 1280 7.1500 35.7800 2005 51.1225 1280.2080 255.8270 14335.8000 71738.9000 2520.8050 -515.8050 266055.2000
18 1350 7.2100 36.7400 1900 51.9841 1349.8280 264.8954 13699.0000 69806.0000 2536.9520 -636.9520 405707.9000
19 1980 7.5900 44.5000 2700 57.6081 1980.2500 337.7550 20493.0000 120150.0000 2743.9560 -43.9559 1932.1230
20 2000 7.6000 44.7200 3010 57.7600 1999.8780 339.8720 22876.0000 134607.2000 2750.3880 259.6122 67398.4900
21 2380 7.7700 48.7900 3140 60.3729 2380.4640 379.0983 24397.8000 153200.6000 2880.3040 259.6958 67441.9000
22 1748 7.4700 41.8100 2320 55.8009 1748.0760 312.3207 17330.4000 96999.2000 2663.6560 -343.6560 118099.4000
23 2135 7.6700 46.2100 2980 58.8289 2135.3640 354.4307 22856.6000 137705.8000 2792.2940 187.7063 35233.6500
24 1534 7.3400 39.1700 2650 53.8756 1534.2890 287.5078 19451.0000 103800.5000 2593.7580 56.2424 3163.2070
25 2320 7.7500 48.1700 3000 60.0625 2320.3490 373.3175 23250.0000 144510.0000 2856.2180 143.7819 20673.2400
26 2188 7.6900 46.7800 3102 59.1361 2188.3680 359.7382 23854.4000 145111.6000 2813.2630 288.7375 83369.3400
27 1831 7.5100 42.7900 2930 56.4001 1830.9840 321.3529 22004.3000 125374.7000 2695.6180 234.3819 54934.8600
28 1302 7.1700 36.0800 2740 51.4089 1301.7660 258.6936 19645.8000 98859.2000 2524.9410 215.0593 46250.5100
29 2005 7.6000 44.7800 2955 57.7600 2005.2480 340.3280 22458.0000 132324.9000 2754.1290 200.8714 40349.3200
30 1434 7.2700 37.8700 2328 52.8529 1434.1370 275.3149 16924.6000 88161.3600 2563.6980 -235.6980 55553.3200
Hasta ahora se conoce la técnica para ajustar un conjunto de datos (Xi,Yi) el mejor
modelo entre los de una familia dada de modelos lineales en los parámetros, usando
el método de los mínimos cuadrados.
Como puede intuirse del gráfico de la figura 4.3, el modelo se ajusta de forma
perfecta cuando todos los ei son cero, o en forma equivalente, todas la predicciones
y*i , para los distintos xi de la muestra, coinciden en forma perfecta con los diferentes
valores de yi, observados .
suma de los cuadrados de los errores. No obstante se sabe que ∑ ei2 es la mínima , no
Se sabe que el modelo de regresión mínimo cuadrático encontrado, produce la menor
de ésta, produzca una suma ∑ ei2 mínima, menor que la mínima de la primera familia,
vista, es posible también que si se ensayara otra familia de modelos, el mejor modelo
lo cual estaría indicando, de acuerdo con este criterio, que el segundo modelo es
predicción, puesto que hasta ahora no se ha encontrado una cota para ∑ ei2 , que
mejor que el primero, pero aún así no se sabe si es bueno o no en términos de la
( )
Intuitivamente puede deducirse que una cota para la suma de los cuadrados de los
errores, ∑ ei2 , está dada por ∑ y i − y . A continuación se justifica esta exploración
2
∑ ei2 = ∑ [ yi − f ( xi , β )]
intuitiva.
2
Se espera que el peor de los casos, ocurra cuando la información que aporta la
característica X, no ayude nada en la predicción de Y, lo cual significa que
y* = M(y/x) = C constante
En este caso, como de acuerdo con las ecuaciones normales, para modelos lineales en
los parámetros debe cumplirse que
==> C =
∑ yi = y , lo cual significa que si M(y/x) es una constante ella debe ser
n
∑ ei2 = ∑ ( yi − y )
y.
2
Así pues que en esta situación extrema, , de donde se
desprende en general, para cualquier familia de modelos se cumple que:
0 ≤ ∑ ei2 ≤ ∑ ( yi − y )
∑ ( yi − y )
2
(E 4.8)
2
Obsérvese que para un conjunto de datos, es un valor fijo que no
constituye una escala que permite interpretar la magnitud de ∑ ei2 . De acuerdo con
depende de la familia de modelos que se desee estudiar, por tanto la expresión (E 4.8)
∑ ei2
∑( )
0≤ ≤ 1
yi − y
2
∑ ei2
∑ ( yi − y )
R = 1−
2
2
De esta manera:
0 ≤ R2 ≤ 1
∑ ei2 = ∑ ( yi − y )
2
Siendo R2 = 0 cuando es decir, cuando x, no aporta
información para predicción de y; por otro lado R2 = 1 es decir, cuando ∑ ei2 = 0 es
decir, cuando el modelo mínimo cuadrático se ajusta en forma perfecta a los puntos
(xi,yi) observados. En general el modelo será mejor, cuando más cerca de uno (1) esté
el valor de R2 correspondiente.
Con relación a los ejemplos anteriores, sus coeficientes de correlación R2 son los
siguientes:
El coeficiente de determinación:
i= 1
i= 1
∑ ei2
∑ ( yi − y )
R = 1− = 1−
2 2079642
2 3521162
R 2 = 0.4094
Aunque no existe una frontera para clasificar con base en R2 los modelos en buenos y
malos, puede decirse que este modelo no sería del todo confiable en la predicción de
Y.
Por esta razón cuando un modelo de regresión simple (una sola variable predictiva x),
el coeficiente de determinación no es muy alto, debe explorarse la situación para
vincular mas variables al modelo con el propósito de explicar mayor porcentaje de la
variación de y.
Para la situación planteada en el ejemplo 4.3, para predecir la resistencia a los 28 días
de curado (Y) a través del modelo:
El coeficiente de determinación:
i= 1
i= 1
∑ ei2
∑ ( yi − y )
R = 1− = 1−
2 2401138
2 3521162
R 2 = 0.318
∑ ( yi − y ) = ∑ ei2 + ∑ [ M ( y / xi ) − ]
n 2 n n 2
y (E 4.9)
i= 1 i= 1 i= 1
Donde:
∑ ( yi − y )
n 2
se conoce como la variación total y sólo depende de los datos, no
i= 1
depende del modelo que se quiere ajustar, es decir que para un conjunto de datos
dado, la variación total es una constante (el numerador de la varianza de y).
∑e
n
2
Se conoce como la variación residual (ó variación no explicada), puesto que
i= 1
i
∑ [ M ( y / xi ) − ]
n 2
y Se conoce como la variación explicada por el modelo M(y/x).
i= 1
Así, para que la suma sea constante, debe suceder que si la variación explicada
aumenta, entonces la variación residual disminuya y viceversa .
Para probar la expresión (E 4.9), se parte del supuesto de que la familia de modelos
que se estudia es lineal en los parámetros, es decir de la forma :
f ( x ) = β 0 + β 1 f1 ( x ) + β 2 f 2 ( x ) + ... + β k f k ( x )
∑( yi − y ) = ∑ ( yi − M ( y / xi ) + M ( y / xi ) − y )
n 2 n 2
∑ [( yi − )]
i= 1 i= 1
= M ( y / xi ) + M ( y / xi ) − y
n 2
i= 1
∑ [ ei + ( M ( y / xi ) − y )]
Recordando que ei = yi - M(y/xi) puede escribirse:
∑( yi − y ) =
n 2 n 2
i= 1 i= 1
elevando al cuadrado del binomio que está dentro de los corchetes se obtiene
distribuyendo la sumatoria:
∑ ( yi − y ) = ∑ + ∑ [ M ( y / xi ) − ] [
+ 2 ∑ ei M ( y / x i ) − y ]
n 2 n n 2 n 2
ei2 y
i= 1 i= 1 i= 1 i= 1
para obtener la expresión (E 4.9) que se desea probar, sólo restaría mostrar que el
doble producto es cero, lo cual se logra recordando que las ecuaciones normales que
dieron origen al modelo mínimo cuadrático M(y/x) son:
(0) ∑ ei =
n
0
i= 1
(1) ∑ ei M i ( y / xi ) =
n
0
i= 1
.
.
( k ) ∑ ei M k ( y / xi ) =
n
0
i= 1
] [∑ ei M ( y / xi ) − y ∑ ei ]
Por lo tanto:
[
2∑ ei M ( y / x i ) − y = 2
Pero
∑ e M( y / x ) = ∑ e [ β ]
+ β 1 M 1 ( y / x i ) + ... + β k M k ( y / x i )
n
= β 0 ∑ e i + β 1 ∑ e i M i ( y / x i ) + ... + β k ∑ e i M k ( y / x i )
i= 1
i i i 0
= 0
∑( yi − y ) = ∑ ei2 + ∑ [ M ( y / xi ) − y ]
n 2 n n 2
i= 1 i= 1 i= 1
∑ [ M ( y / xi ) − y ]
∑ ( yi − y )
2
R =
2
2
O en forma equivalente
R2 = 1 −
Variación Residual
variación total
∑ ei2
∑ ( yi − y )
R = 1−
2
2
Obviamente 0 ≤ R2 ≤ 1
Ejemplo 4.4
De acuerdo con el cuadro anterior y con los datos obtenidos se obtiene que:
i= 1
i= 1
∑e
Así:
∑( y )
R = 1− = 1−
2
2372934
− y
2 i
2
3521162
i
R 2 = 0.326
Aunque no existe una frontera para clasificar con base en R2 los modelos en buenos y
malos, puede decirse que este modelo no sería muy confiable en la predicción de Y.
Por otro lado, no siempre es posible modelar los fenómenos con familias de modelos
lineales en los parámetros, siendo forzoso usar familias de modelos no lineales, con
las consiguientes dificultades que llevan inherentes.
Cuando se trató el método de los mínimos cuadrados, como una técnica para obtener
el modelo de una familia que mejor se ajuste a un conjunto de puntos dados, se
desarrolló en forma general para cualquier familia de modelos f(x) y se plantearon en
forma general las llamadas ecuaciones normales.
Modelos de la forma: M ( y / x ) = β 0 x β 1
si se hace:
Ln M(y/x) = W
Lnx = T
Lnß0 = B0
ß1 = B1
asi si:
yi = M(y/x) . ei
Ln yi = Ln [M(y/x) + Ln ei]
Wi = Ln ß0 + ßLnx + ei*
puede aplicarse:
ln M(y/x) = lnß0 + (lnß1)x + Ln ei
W = ß0 + ß x + ei*
Si se hace:
LnM(y/x) = W
Lnß0 = B0
Lnß1 = B1
Funciones exponenciales
Y = a ebx
Forma Lineal : LnY = Ln a + b X
Funciones potenciales
Y = a xb
Forma Lineal : LnY = Ln a + b Ln x
Funciones logarítmicas
En forma lineal : y = a + b Ln x
Funciones especiales
Y = a e b/ x
Forma Lineal : LnY = Ln a + b / x
Y = 1 (a + b e − x )
Forma Lineal : 1/ Y = a + b e− x
Funciones polinomicas
Forma Lineal : Y = a + b e− x
Los análisis de regresión son usados de modo muy práctico en todas las ramas de la
ingeniería para obtener relaciones empíricas entre dos (o más) variables. Algunas
veces la relación entre dos variables en ingeniería no puede deducirse con base en
consideraciones teóricas; en estos casos la relación requerida entre las variables
puede ser obtenida empíricamente con base en las observaciones experimentales.
Por ejemplo para graficar el logaritmo de las observaciones de fatiga N de un material
versus el logaritmo aplicado al rango de stress S, se observa una tendencia lineal asi
como se muestra en la siguiente figura.
100
Rango de esfuerzo (ksi)
10
1
100 135 151 180 245 299 350 450 600 800 1050 1500 2000
La línea de regresión de Log N sobre Log S daría entonces las constantes a y b. Esta
ecuación de regresión además sugiere una relación S - N de la forma
N Sb = a
Es menester hacer algunas precisiones acerca del uso de las líneas de regresión.
•
y
No debe olvidarse que los ß's que
resultan al aplicar el criterio de los
B A
mínimos cuadrados, se ejecuta con
base en una muestra, lo cual permite C
intuir que si se tomara otra muestra de
la misma población los resultados
podrían ser distintos, es decir existe
una incertidumbre cuya magnitud x
puede estar asociada con el tamaño de
la muestra, entre otras características. Fig. 4.4 Riesgo de la extrapolación
• Los desarrollos que se han presentado son todos de naturaleza exploratoria, sin
embargo, como se discutió desde el principio, los resultados pueden variar de
muestra en muestra. Surge aquí la pregunta, entonces ¿cómo creer en los
resultados que provienen de una muestra, si para otra muestra los resultados no
coinciden exactamente ?. La respuesta tiene varias aristas; la primera: la
regularidad estadística, hace que a medida que la muestra se incrementa en su
tamaño, la variación de muestra a muestra, sea cada vez menor, de tal manera que
con una muestra suficientemente grande, tenemos gran confianza que los
resultados puntuales obtenidos, no cambiarían mucho si se repitieran de nuevo el
experimento o el estudio según sea el caso. La segunda arista, es que para
cualquier tamaño de muestra, no necesariamente grande, es posible hacer
afirmaciones probabilísticas acerca de los parámetros estimados y aún de las
predicciones realizadas con el modelo, siempre y cuando se satisfagan ciertas
condiciones o supuestos, que exige el modelo para realizar ese tipo de inferencias.
Algunas de ellas son las siguientes:
.
.
...... ..
..
.
.... ... . .........
..
........
.
...
.
...
.....
.. . ..
....
. .. .......
....... .
. ...
..... .
.
. ..
.... . .
... ..
.......
...
........
... ..
..
.
a) parece que b) parece c) parece d)No hay
el modelo es que el que el información
apropiado modelo modelo para juzgar
rectilíneo es rectilíneo el modelo,
incorrecto, es correcto la pendiente
sugiere un para buena está total y
modelo parte de los definida por
cuadrático puntos;: el punto
lejano
Regla empírica sobre la relación n/p. Como una guía empírica puede decirse que si
existen aproximadamente 10 datos por cada parámetro que se desea estimar en el
modelo, el valor del coeficiente de determinación que se calcule es confiable
(creíble).
∑e ( n − p)
∑(y
= 1 −
2
− y)2 (n − 1)
2 i
RA
i
( )
De donde resulta fácilmente que:
n −1
R A2 = 1 − 1− R2
n− p
Ejemplo 1.
RA2 = 1 −
10 −1
10 − 9
(1 − 0.90)= 0.1
!!!! Tremenda Sorpresa !!!! Nos indica que en esas condiciones el valor creíble del
coeficiente de determinación es el 10%.
Ejemplo 2
Supongamos la misma situación anterior pero donde lo único distinto es que todos
los cálculos y estimaciones se realizaron con n=90 datos. Veamos que pasa:
RA2 = 1 −
90 −1
90 − 9
(
1 − 0.90)= 0.89
Paso de 90% a 89%, es decir que tuvo un cambio casi despreciable. Note que en esta
ocasión se cumple la recomendación empírica de que hayan 10 datos por cada
parámetro, es decir la razon n/p = 10.
EJERCICIOS PROPUESTOS
∑x y − X .Y
β1 =
i i
n
S X2
β 0 = Y − β1 X
M(y/x) = ß0 + ß1X
4. Plantee las ecuaciones normales, si en lugar de conocer los puntos (x1, y1),
(x2, y2), ...,(xn, yn) sólo se conociera la distribución conjunta de frecuencias ab-
solutas: {(xi, yi), nij}.
4.5 619
1.0 549
4.0 495
4.5 1049
4.5 1033
5.0 1522
4.0 723
4.0 681
5.0 987
0.5 163
0.5 182
6.0 764
6.0 1373
1.0 978
1.0 466
. M ( y / x ) = β 0 + β1x
M ( y / x ) = β 0 + β 1 x1.5 + β 2 e x
51
M( y / x) = β 0 x β1
5.2
5.3
b. Cuál de los tres modelos encontrados le parece mejor, desde el punto de vista
del ajuste. Use el coeficiente de determinación ajustado. Justifique.
Rata Número
1 2 3 4 5 6 7 8 9 10
Peso inicial 50 64 76 64 74 60 69 68 56 48
X (gramos)
Aumento 128 159 158 119 133 112 96 126 132 118
Y
c. Por medio del criterio de los mínimos cuadrados, encuentre el mejor modelo de
la familia propuesta que se ajusta a los puntos del diagrama de dispersión.
e. Estime el aumento de peso promedio para las ratas con peso inicial de 70 grs.
Precio
(X) 100 90 80 70 70 70 70 65 60 60 55 50
$/ lbs.
Cantidad
vendida 55 70 90 100 90 105 80 110 125 115 130 130
lbs. (Y)
a. Ajuste un modelo rectilíneo para predecir la demanda (Y) con base en el precio.
c. Haga una estimación de la demanda cuando el precio por libra sea de $75, e
interprete claramente el resultado.
(x,y) No. de
Observaciones
(6,50) 2
(6,70) 5
(6,90) 10
(8,50) 5
(8,70) 30
(x,y) No. de
Observaciones
(8,90) 25
(10,50) 8
(10,70) 25
(10,90) 11
(12,50) 10
(12,70) 6
(12,90) 2
g. Dado que para cada valor de x, existen en los datos varios valores de y. Estime
las varianzas: V(y/x = 6), V(y/x = 8), V(y/x = 10), V(y/x = 12). Le parece a usted
que hay homogeneidad de varianzas?
15 1.54 0.59
16 2.09 0.95
17 3.54 1.02
18 1.17 0.39
19 1.15 0.23
20 2.57 0.45
21 3.57 1.59
22 5.11 1.74
23 1.52 0.56
24 2.93 1.12
25 1.16 0.64
b. Ajuste por mínimos cuadrados los modelos propuestos por usted, y valore con
base en el coeficiente de determinación ajustado.
c. Con base en el modelo que Ud. considero más adecuado haga la predicción
correspondiente para una precipitación x = 2.3 pulg., interprete su respuesta en
el contexto del problema
e. Use el modelo para realizar una predicción para X1 = 1000 y X2 = 38° latitud.
Interprete claramente su resultado.
(mg/l) (JTU)
1 400 5
2 550 30
3 700 32
4 800 58
5 500 20
Ya que la turbidez es fácil de medir se puede usar una ecuación de regresión para
predecir la concentración de sólidos disueltos con base en la turbidez. Suponga
que la varianza de concentración de sólidos es constante.
a. Ajuste una línea recta a estos datos. Que valores se obtuvo para el intercepto y
la pendiente (parámetros de la recta de regresión).
13. Suponga que los datos del consumo de agua individual por día se acumularon para
4 barrios en Igor-City, tal como presenta la siguiente tabla.
E(y/x) = ß0 + ß1X
estándar σ.
respectivamente, y e es un variable aleatoria normal con media 0 y desviación
Año Habitantes
1982 240100
1983 245400
1984 247500
1985 251000
1986 253400
1987 258200
1988 261000
1989 262000
1990 265000
1991 268000
1992 274500
REFERENCIAS BIBLIOGRAFICAS
BEHAR, R. OJEDA M.M et AL. (1996) “Un modelo de regresión jerárquica para
análisis de datos de una muestra por conglomerados estratificada”. (Coautores:
Ojeda M. M. Y Torres-Hernández M.T.). Ponencia presentada en el VI
Encuentro de Estadísticos CUBA-MEXICO. Ciudad de La Habana, Cuba.
19-23 de Febrero de 1996
BEHAR R., BOUZA C.N y OJEDA M.M. (1995). “Pruebas del tipo signo bajo
modelos superpoblacionales”. Ponencia presentada en el II Congreso
Iberoamericano de Estadística celebrado en septiembre de 1995 en OAXACA,
México.
BOX G.E.P. (1976). “Science and Statistics “. JASA 71: 791 - 799
COCHRAM, W. (1977). “Sampling techniques ”. 3th. Ed. J. Wiley and Sons, N.Y.
DAVID, F.N. (1962). “ Games, goods and gambling: the origins and history of
probability and statistical- ideas from the Earliest times to the Newtonians Era
“. London Griffin; New York: Hafner.
LARSEN, R., F. (1976). “ Stroup Statistics in the real world ”. Ed. Collier
MacMillan. N.Y.
SCHMID, C.; SCHMID, S. (1979). “ Hand book graphic presentation. J. Wiley and
Sons ”
THELL, H. (1971). “ Principles of Econometrics ”. Ed. John Wiley and Sons, N.Y.
UNGER LEIDER H, SMITH C.C., (Febrero 1967) “ Use and abuse of Statistics,
geriatrics”, 22, 112 - 120.
WALKER, Helen. (1929). “ Studies in the history of statístical method, with special
reference to artain educational problems”. Baltimore: Williams and Wilkins.