Guia Estadistica I v4
Guia Estadistica I v4
Guia Estadistica I v4
NÚCLEO DE SUCRE
ESCUELA DE ADMINISTRACIÓN Y CONTADURÍA
PROFESOR
NOVIEMBRE 2007
PROF. JOSÉ FÉLIX APONTE MÁRQUEZ
1
Índice
i
Introducción
El objetivo principal de esta monografía es proporcionar a los participantes de un curso de estadística
básica, una detallada guía de las técnicas y teorías más relevantes en el área de estadística aplicada a las
ciencias sociales, administrativas, económicas y gerenciales. Como bien se especifica en el título de la
monografía, se trata de una guía, por tanto se espera que el participante se involucre lo suficiente con las
técnicas aquí presentadas para que se logre la construcción del conocimiento.
No se hará énfasis en el cálculo matemático riguroso ni en demostraciones de los teoremas, puesto que
el propósito es ofrecer un punto de vista práctico pero sin menoscabo de las teorías básicas que
soportan a las aplicaciones.
Se han incorporado algunas herramientas tecnológicas que facilitan en gran medida el cálculo de las
medidas numéricas descriptivas y gráficas estadísticas. Se ofrecen algunas ideas de cómo construir a
partir de herramientas de amplio uso en la actualidad, como las hojas de cálculo de Microsoft Excel y
algunos programas estadísticos como gstat que es de libre distribución y que puede ser descargado
desde la página web http://www.gstat.org/. Adicionalmente al trabajar con datos numéricos
agrupados, se muestra la utilización de un programa estadístico llamado Esta+ v3.1.3 que tiene
copyright por Alejandro Vergara Massa (http://www.terra.es/personal8/estaplus), este programa
puede ser distribuido gratuitamente pero no es fuente abierta, es decir, no se puede modificar y hay que
hacer referencia al autor del mismo.
En la actualidad la estadística ha tenido un auge que se debe en gran medida al desarrollo desmesurado
de nuevas tecnologías y a los estudios de los investigadores en diversas áreas como la medicina,
mercadeo, industrias, control de procesos, entre otros que al crear la necesidad de analizar datos
(generalmente multivariantes) contribuyen a que los estadísticos desarrollemos nuevos métodos
adecuados para su análisis.
El motivo principal de escribir un texto en Estadística I, es que en muy pocos libros de lengua española
se presenta un enfoque orientado al cálculo de las medidas descriptivas paso a paso y además que
ofrezca en su contraparte el cálculo de las mismas pero con un aprovechamiento de las tecnologías
disponible ya en manos de la mayoría de los estudiantes universitarios.
Es importante destacar que algunos ejercicios engloban un análisis descriptivo completo y que se
pueden utilizar para observar la relación que existe entre las distintas medidas descriptivas y en esto se
diferencia en gran medida de otros textos, que sólo se enfocan en el cálculo por separado de estas
medidas y no se muestra el análisis en conjunto de todas las medidas descriptivas. Este tipo de
ejercicios generalmente se presentan al final de cada unidad, para que el estudiante una vez haya
revisado toda la unidad, tenga la oportunidad de vincular los conceptos y procedimientos de manera
más realista y completa.
Es justo señalar que aunque el contenido del presente texto esté inspirado en la asignatura de
Estadística I de la carrera de Licenciatura en Administración y Licenciatura en Contaduría de la
Universidad de Oriente, la organización del mismo no es exactamente igual a la planteada en el
1
programa de dicha asignatura, debido a que se fusionaron algunas unidades para darle mayor fluidez al
texto y para hacerlo más ameno en la lectura.
La guía se organiza en siete capítulos que se enumeran a continuación, con una indicación del número
de horas que se podría aplicar en un régimen semestral que abarque todo el texto:
• CAPÍTULO III: Medidas de Descriptivas [Tendencia Central, Dispersión, Asimetría y Curtosis]. (20 horas)
En el CAPITULO IV, se realiza una descripción básica, pero sin menoscabar los detalles importantes
del cálculo de probabilidades. En este capítulo se introduce el concepto de variable aleatoria y sus
propiedades probabilísticas, con lo cual se crea la base de la teoría de la estadística inferencial.
En el último, CAPITULO VI, se realiza un pequeño resumen de los diferentes tipos de números
índices que existen y se explica la construcción de los mismos para los casos de índices de precios, de
cantidades y de valor. Se toma como caso particular el índice de precios al consumidor (IPC) y se detalla
la construcción del mismo y sus aplicaciones en el campo de la economía aplicada.
2
Capítulo I
Hoy día se ha diversificado el concepto de Estadística a tal punto que existen varias definiciones
de autores reconocidos del área. El New Collegiate Dictionary de Webster y muchos autores
como Ciro Martínez Bencardino [6], definen la Estadística como “una rama de las matemáticas
que trata de la recopilación, el análisis, la interpretación y la presentación de una gran cantidad de
datos". Por otra parte, Kendall y Stuart [3] afirman que “La Estadística es la rama del método
científico que trata de los datos reunidos al contar o medir las propiedades de alguna población”.
Fraser [1], al comentar al respecto dice que “La Estadística trata con métodos para obtener
conclusiones a partir de los resultados de los experimentos o procesos”. Freund [2] entre otros,
considera a la estadística como algo que abarca “el conocimiento relacionado con el tomar
decisiones en situaciones de incertidumbre”. Mood, Graybill y Boes [5] definen la estadística
como la “tecnología del método científico” y añaden que trata con “el diseño de experimentos e
investigaciones y la inferencia estadística”.
Una revisión superficial de estos conceptos, nos revela una carencia impresionante de
uniformidad, sin embargo todas tienen en común que se trata del análisis de datos a partir de un
diseño experimental.
Entonces se puede decir que la Estadística es la ciencia que permite acercarnos a la realidad de los
procesos por medio del análisis de los datos que se recolectan a partir de un diseño estructurado y
controlado, y que por medio de este análisis podemos obtener aseveraciones netamente confiables
que permiten al investigador ofrecer una opinión objetiva de la realidad o del problema estudiado.
En las últimas décadas la estadística ha alcanzado un alto grado de desarrollo, hasta el punto de
incursionar en la totalidad de las ciencias; inclusive, en la lingüística se aplican técnicas estadísticas para
esclarecer la paternidad de un escrito o los caracteres más relevantes de un idioma.
La estadística se aplica en ciencias administrativas y económicas, entre otras, en las siguientes áreas:
3
Producción: En la producción masiva de un artículo se hace necesario detectar y eliminar
alteraciones sistemáticas de la calidad para ello se aplican métodos de control de la calidad que
es una de las ramas de aplicación de la estadística moderna. También se aplican técnicas de
modelos estadísticos para predecir volúmenes de ventas en función de algunos factores o
variables del sistema productivo.
Finanzas y Economía: En la estimación del valor que tomará en el futuro a corto, mediano
o largo plazo una variable que influya en el control financiero o económico, se utilizan técnicas
de pronóstico estadístico, y esta rama de la estadística se conoce como la econometría.
También es posible contrastar teorías de modelos económicos en función de los datos reales
encontrados en los mercados financieros.
Población
La población es un conjunto finito o infinito de medidas (numéricas o no) que se realizan sobre
elementos, personas u objetos, y que presentan características comunes para extraer información de una
investigación. El término población se usa para denotar el conjunto de elementos del cual se extrae la
muestra. Se puede clasificar en:
• Población Finita:
Es aquella que está formada por un número limitado de elementos. Por ejemplo, la
población de estudiantes de administración en cierta universidad en un tiempo
determinado.
• Población Infinita:
Es aquella cuyo número de elementos no es contable en su totalidad. Por ejemplo,
la población del monto total (con impuesto incluido) de cada factura en las
empresas del país en el mes de diciembre de determinado año.
4
Es común que aunque ciertas poblaciones tengan en teoría un número finito de
elementos, se consideren y manejen como poblaciones infinitas, esto bien sea
porque su tamaño es muy grande o porque es muy difícil contabilizar el tamaño de
la misma. Al respecto hay que decir que aunque una población de tamaño muy
grande, matemáticamente no sea una población infinita, los cálculos estadísticos del
tamaño muestral y el manejo de los datos a posteriori, en cuanto a resultados
prácticos, no presentan diferencias si la consideramos infinita o finita.
Al estudiar poblaciones, hay que distinguir entre unidades experimentales (elementos, personas u
objetos) bajo estudio de un determinado problema o investigación y el marco muestral. Note que al
estudiar, por ejemplo, la edad promedio de los estudiantes de la universidad, las unidades muestrales
son los estudiantes como tal (ya que sobre ellos se puede medir la variable estudiada: Edad), y la
población propiamente dicha viene formada por la característica estudiada en esas unidades muestrales.
En este ejemplo, al listado de las edades de todos los estudiantes de la universidad, se denomina
marco muestral.
El marco muestral es entonces un listado, mapa o base de datos, que tenga la información de las
unidades muestrales que se quieren estudiar, por lo tanto debe estar completo y presentar la
información clara y sin ambigüedades, ya que de ello depende el éxito de la selección de la muestra
estadística de la población objeto.
Muestra
La Muestra es una parte o un subconjunto de la población. Para que la muestra tenga validez desde el
punto de vista estadístico debe ser seleccionada de manera aleatoria (al azar sin ninguna forma
intencional o subjetiva) y un requisito esencial es que debe ser representativa de la población objeto de
estudio.
Definir cuándo una muestra es representativa es sumamente complicado y aquí es donde está el secreto
de una buena investigación que pretenda extrapolar los resultados de la muestra hasta los otros
elementos que no fueron seleccionados. Una muestra es representativa si capaz de representar con
exactitud las preferencias o características del total de la población.
5
Diferencia entre población y muestra:
Generalmente se estudian las características de una muestra
que es seleccionada de una población, por lo tanto los
términos población y muestra están relacionados. Sin
embargo una población es el todo y una muestra es una
fracción o parte del todo. Cuando las poblaciones y las
muestras sean finitas, denotaremos por N el tamaño
poblacional y por n el tamaño muestral.
Población Muestra
El Muestreo no es más que la acción de seleccionar una muestra de una población dada.
Para que los resultados obtenidos de los datos muestrales se puedan extender a la población, es
decir, que se pueda hacer una inferencia con niveles aceptables mínimos de error, la muestra debe
ser representativa.
6
Fases para la selección de una muestra (plan de muestreo):
La tarea de determinación de una muestra se inserta dentro de las diferentes etapas de una
investigación estadística, de ahí que es importante tomar en consideración los siguientes puntos
para la selección de la muestra:
Tener en cuenta los objetivos y finalidad de la investigación
Determinar y delimitar la población objetivo (Construir el Marco Muestral)
Determinar el tipo de variables o características a observar
Nivel de confianza adoptado (Generalmente se estila utilizar entre un 90 y un 99%, siendo
el más utilizado el 95% de confianza, queda a criterio del investigador)
Error de estimación permitido
Recursos humanos y técnicos disponibles
Medios Financieros o presupuesto
Métodos y técnicas a utilizar. Sobre todo la técnica de muestreo
Nivel de la investigación (Exploratoria, Descriptiva, Correlacional o Explicativa)
Medios o herramientas usados para la medición de las variables
Métodos para medir la representatividad, validez y fiabilidad de la muestra
7
de confianza de la muestra tomada. Entre las modalidades básicas del muestreo
probabilístico, tenemos:
o Muestreo aleatorio simple (es el más sencillo pero a su vez el más importante,
y que es la base para las otras modalidades de muestreo probabilísticos). En el
muestreo aleatorio simple, cada elemento de la población tiene la misma
probabilidad de ser elegido, y cada muestra de cualquier tamaño debe tener la
misma posibilidad de ser seleccionada para su estudio. Se puede utilizar una tabla
de números aleatorios para seleccionar los elementos de la población que pasaran
a ser parte de la muestra, también se pueden utilizar métodos menos rigurosos
como la selección al azar por papeletas que tienen el nombre de cada elemento
metidas en una bolsa, o utilizando una calculadora que genere n números
aleatorios (que serían las identificaciones de los que se seleccionarán para la
muestra), los números se restringen a que estén entre 1 (primer elemento del
marco muestral) y N (último elemento).
o Muestreo sistemático: Para construirla, primero debemos tener ordenados y
etiquetados los elementos de la población, digamos desde el 1 hasta el N, en una
lista. Se elige un individuo al azar (punto de partida) y a continuación a intervalos
constantes de tamaño k, se eligen todos los demás hasta completar la muestra. Si
se llega al final de la lista, se sigue saltando desde la última posición hasta la
primera, es decir, el marco muestral se debe pensar como una lista circular sin
fin, empatando el final con el principio.
o Muestreo estratificado: se aplica cuando nos interesa que la muestra tenga la
misma composición a la de la población la cual se encuentra divida en clases o
estrato. Si por ejemplo en la población el 20% son mujeres y el 80% hombres, se
mantendrá la misma proporción en la muestra. Es muy eficaz cuando la
población dentro de cada estrato es homogénea, ya que se reduce la variabilidad
total de la característica observada. Una ventaja adicional es que permite
presentar resultados y hacer inferencia para cada estrato por separado. Dentro de
cada estrato se debe aplicar muestreo aleatorio simple para seleccionar la sub-
muestra de ese estrato.
Existen una cantidad de factores que determinan por qué una muestra representativa es más
apropiada para analizar la población que la misma población. A saber:
8
b) Tiempo: generalmente un estudio tiene sentido sólo en un período de tiempo
determinado, por ejemplo si queremos predecir el resultado de una elección presidencial y
se está a sólo 3 semanas de las elecciones, no nos daría tiempo preguntarle a toda la
población sobre su intención de voto. Sería conveniente tomar una muestra de la
población y trabajar con los resultados muestrales para proyectar los resultados de las
elecciones.
c) Imposibilidad Técnica: si por ejemplo queremos estimar el peso promedio de los peces
en las costas venezolanas, sería técnicamente imposible capturarlos todos para poder
pesarlos.
d) Naturaleza destructiva de algunas pruebas: en algunas pruebas para medir variables de
elementos se utiliza un mecanismo que conlleva a la destrucción del elemento observado.
Por ejemplo, en una fábrica de cauchos se desea estimar la cantidad de kilómetros
promedio que rinden antes de presentar fallas (deformación, roturas, pérdida de aires,
etc.), se somete a una prueba en máquinas especiales de fricción, peso y golpes simulando
la conducción tal como si fuera en el asfalto con un carro, se mide la cantidad de
kilómetros hasta donde presente una falla. En este caso se destruye el elemento observado
y no sería para nada atractivo para la fábrica someter todos los cauchos a estas pruebas.
e) Mayor control sobre las fuentes de error: generalmente hay más posibilidades de
cometer errores de observación o de trascripción cuando se hacen en una población
grande. Con las muestras hay más posibilidad de controlar este tipo de errores por ser
cantidades manejables y propensas a revisiones exhaustivas.
9
como referencia o patrón. Ya sea usando instrumentos, o bien, por medio de los sentidos.
Valor o Dato: Es el resultado al medir una variable o variable en un elemento de la población.
Datos: El conjunto de valores de una variable para cada uno de los elementos de la muestra.
Tipos de Variables:
Las variables corresponden a ciertos rasgos, cualidades o propiedades observables de los
elementos de la población o muestra bajo estudio. Algunas características son mensurables y se
describen numéricamente, por tal motivo se llaman cuantitativas (por ejemplo: estatura, peso,
ingreso, producción, ventas y costos). Otros se expresan mediante palabras por no ser
mensurables pero si cuantificadas y se denominan cualitativas o atributos (por ejemplo:
profesión, estado civil, género, marcas, calidad, entre otras).
Variable
Cuantitativa Cualitativa
10
La diferencia entre variables cuantitativas y cualitativas está en la relación que tienen con el patrón
o estándar, contra el cual son comparadas al ser medidas. Si esta relación puede ser expresada con
números, debido a una proporcionalidad, entonces la variable es cuantitativa.
Por ejemplo, si la altura de una persona es de 1,7 m, eso significa que es 1,7 veces más largo que el
metro patrón depositado en París, o sea una proporción numérica real, y por eso la variable altura es
cuantitativa y continua. En general, todas las variables físicas basadas en el Sistema Internacional
de Unidades (metro, kilo, segundo, litro, etc.) son ejemplos clásicos de variables cuantitativas
continuas.
En cambio, una variable es cualitativa cuando su relación con el patrón no es una proporción
numérica. El género, el color, el olor, son ejemplos de este tipo de variables. Se pueden codificar
con números a los resultados, cuando se miden esas variables, pero eso no quiere decir que la
relación sea numérica. Por ejemplo, si se conviene en codificar (con fines de facilitar la
trascripción de los datos) con un “2” al sexo masculino y con un “1” al femenino, eso no quiere
decir que un hombre valga por dos mujeres.
Las variables cuantitativas se clasifican en continuas o discretas. Se diferencian entre sí, porque en
la primera la relación numérica con el patrón puede ser cualquiera, mientras que en la segunda hay
algunos valores prohibidos. Entonces una variable continua se expresa mediante números reales.
En una variable continua hay infinitos puntos posibles dentro de un intervalo cualquiera de la
misma, en el dominio de los números reales. En cambio, cuando la variable tiene algunos valores
que son posibles y otros que no, entonces se trata de una discreta (se expresan por lo general con
los números enteros positivos). Por ejemplo, las de recuento o enumeración: como el número de
hijos, la cantidad de empleados, el número de artículos defectuosos, el número de alumnos en un
aula y otras. Allí se usan valores enteros para contar los resultados; no tendría sentido medir, por
ejemplo, 12,75 alumnos en un aula.
Las variables cualitativas se clasifican en atributos u ordinales. Se diferencian entre sí en que los
atributos son las cualidades del objeto de la medición, observables sin emplear instrumentos.
Como las organolépticas (color, sabor, olor, textura y nivel de ruido) donde se usan los sentidos
para medir. En cambio, las ordinales implican medir el orden de los resultados obtenidos, para
luego clasificarlos. Como el resultado de una carrera de autos o un concurso de belleza. Debe
destacarse que una variable de tipo continua, puede usarse como variable ordinal y aún de
atributos, pero estableciendo rangos de valores o convenciones utilizadas por los investigadores,
pero es conveniente tener en cuenta, desde el punto de vista de la cantidad de información, que la
riqueza contenida en la variable continua se va perdiendo al volverla cualitativa, mediante algún
tipo de convención. Por ejemplo, para clasificar a un varón recién nacido como “robusto”
verificamos que pese más de 4 kg al nacer; todo aquel que pesó menos será clasificado en la otra
categoría como “no robusto”. Naturalmente, que al dicotomizar1 una variable se pierde información
y eso atenta contra la calidad de las estadísticas obtenidas con esos datos. El hecho de saber que
un recién nacido es “robusto” no indica cuál fue su peso al nacer, lo único que se sabe es que pesó
más de 4 kg.
1 Transformar una variable al tipo dicotómica, es decir, que tenga sólo dos opciones de valor.
11
Las variables de atributos se clasifican en dicotómicas o politómicas. La diferencia se basa en si el
atributo puede adoptar dos o más valores diferentes. Dicotómicas son aquellas que pueden tener
sólo dos valores posibles, como: el género (masculino o femenino), el factor sanguíneo Rh (+/-),
la ausencia o no de defectos en un artículo (defectuoso o no defectuoso). Por su parte, las
Politómicas son aquellas variables que pueden tener más de dos resultados posibles, como: el estado
civil, tipo de empleado (administrativo, directivo, obrero), marcas de autos en el mercado y otras.
Una variable compuesta es aquella que relaciona dos o más variables simples. Por ejemplo, en
administración se usan para casos como: ventas mensuales (Cantidades de cada artículo
multiplicada por el precio de cada artículo), ganancia diaria (ingresos menos costos diarios). La
idea de variables compuestas está asociada a mediciones multidimensionales; para estudiar sus
resultados se suele emplear el análisis estadístico multivariado que no será abordado en esta guia.
Las variables de las escalas nominal y ordinal se denominan también categóricas, por otra parte las
variables de escala de intervalo o de razón se denominan variables numéricas. Con los valores de
las variables categóricas no tiene sentido o no se puede efectuar operaciones aritméticas. Con las
variables numéricas sí.
La escala nominal sólo permite asignar un nombre al elemento medido. Esto la convierte en la
menos informativa de las escalas de medición.
Los siguientes son ejemplos de variables con este tipo de escala:
Nacionalidad.
Estado Civil
Uso de anteojos.
A veces por razones de simplicidad a la hora de presentar los datos o de pasarlos a una base de
datos se asignan números a las distintos atributos de la escala nominal, por ejemplo, se puede
asignar 1 a los elementos de la muestra que sean género femenino y 2 a los masculinos, a pesar de
que los valores son formalmente numéricos, sólo están siendo usados para identificar a los
individuos medidos. En este caso no significa que un hombre vale el doble que una mujer.
En la escala nominal la única relación que se puede encontrar entre sus elementos en la relación
de igualdad.
La escala ordinal, además de las propiedades de la escala nominal, permite establecer un orden
entre los elementos medidos. Los elementos se clasifican jerárquicamente por la relación mayor o
igual que, no obstante, mayor tiene aquí muchos sentidos, puede ser: más alto, más agradable, etc.
Ejemplos de variables con escala ordinal:
Preferencia a productos de consumo.
Clasificación de películas por una comisión especializada.
El orden de llegada en una carrera
Madurez de una fruta al momento de comprarla.
En la escala ordinal no tienen sentido las operaciones aritméticas entre los elementos.
12
La escala de intervalo, además de todas las propiedades de la escala ordinal, hace que tenga
sentido calcular diferencias entre las mediciones. Los elementos aquí ya son números cardinales.
Existe la unidad de medida y tiene sentido constante en todo el recorrido de la variable. Pero la
escala carece de cero absoluto, es decir, la ausencia de la característica observada no se
corresponde con el cero natural.
Las operaciones permitidas para la escala de intervalos son la suma y resta, pero no la
multiplicación ni la división.
Finalmente, la escala de razón permite, además de lo de las otras escalas, comparar mediciones
mediante un cociente.
Esta escala se caracteriza también porque tiene una unidad constante y posee el cero absoluto, es
decir, la razón entre dos datos, significa lo mismo en cualquier punto de la escala.
13
Razón - Distinción - Equivalencia Determinación de - Media Aritmética Longitud,
- Orden - Mayor que igualdad de las - Media peso,
- Distancia - Razón aritmética razones Geométrica densidad,
- Comparación conocida entre dos - Desviación Ingreso,
intervalos estándar costos,
- Razón conocida - Correlación de utilidad,
entre cualquiera de Pearson tiempo,
dos escalas de - Coeficiente de Fracción de
valores variación defectuosos.
- Medidas de
Asimetría y de
curtosis
Investigación Directa: El investigador observa directamente los casos o individuos en los cuales
se produce el fenómeno, entrando en contacto con ellos; sus resultados se consideran datos
estadísticos originales, por eso también se le conoce como investigación primaria.
Es necesario mencionar que los pasos que se van a enumerar se refieren a la investigación directa,
por ser esta la investigación utilizada en la estadística.
14
II. La Recolección de los datos
III. La ordenación, clasificación, tabulación y descripción de los datos (Estadística
Descriptiva)
IV. Generalización o inferencia final (si la investigación tiene ese nivel, se puede hacer por
medio de pruebas de hipótesis o contrastes de modelos)
V. El análisis critico y sugerencias para la toma de decisiones
15
lo que hace difícil el análisis de ellos, es por ello que se hace necesario clasificar los datos,
clasificación que se realiza mediante la revisión, el agrupamiento y la tabulación de los
datos.
Después de haber dado una clasificación lógica a los datos, se encuentra en condición de
ser analizados desde el punto de vista estadístico. En este paso donde el estadístico, tiene
su mayor función, pues, se van a calcular todas las medidas de los métodos descriptivos
(promedios, porcentajes, frecuencias, desviación estándar, gráficas, etc.). En función del
análisis y la interpretación que se le de al resto de los datos, se trata de validar y
comprobar su articulación dentro del tema y los objetivos planteados.
La fase final de este paso tiene un carácter que podemos llamar de publicitario, ya que se
busca la manera de presentar los resultados al público no conocedor o experto de las
técnicas estadísticas. Se trata de que los resultados sean entendidos por la mayor cantidad
de personas aunque sean de distintas áreas del conocimiento. Para esto se utilizan medios
gráficos, textuales y tabulares.
El análisis descriptivo de los datos, como un proceso de fabricación, comienza con
materias primas, que incluye datos numéricos o categóricos; los productos terminados son
cualquier información útil que podemos refinar partiendo de los datos brutos.
16
Cuestionario del Capítulo:
1) ¿Por qué se considera importante la estadística?
2) Enuncie las ramas en las que se divide la estadística y establezca su campo de acción.
3) ¿Por qué es importante la revisión bibliográfica en el desarrollo de una investigación estadística?
4) Defina: Población, Muestra, Censo y Muestreo.
5) ¿Por qué usualmente se recurre al análisis a través de muestras y no de poblaciones?
6) ¿Cuál es el nivel de medición de las siguientes variables?
a) Nº de hijos que tiene un matrimonio
b) Nº de nacimientos anuales en municipios del estado
c) Temperatura en grados centígrado
d) Tiempo de vida de un bombillo
e) Estado Civil de un grupo de personas
f) Nivel de agrado de un producto alimenticio nuevo (Mucho, Medianamente, Poco,
Nada)
g) Nota definitiva en una asignatura (0,1,2,3,4,5,6,7,8,9,10)
h) Religión que profesan los alumnos de cierta universidad
i) Valoración de un líder político (gusta mucho-aborrece mucho)
j) Gasto promedio semanal de familias del estado
k) Estatura de un grupo de personas
l) Preferencia por cierta marca de refresco
m) Horas que se dedica a estudiar a la semana
n) Evaluación de los estudiantes hacia un profesor utilizando como respuestas (muy malo,
malo, regular, bueno, muy bueno)
o) Clasificación de los estudiantes de acuerdo a la carrera que estudia
p) Clasificación de los estudiantes de acuerdo al semestre que cursa
q) Clasificación de los estudiantes de acuerdo a la carrera que estudia pero con la ayuda de
los códigos: 1, 2, 3,4,5,6,7,8,9,10,11,12 un número para cada carrera
7) Identificar de qué tipo son las variables anteriores según sus valores (Cuantitativa Discreta,
Cuantitativa Continua o Cualitativa)
8) Proponer 3 variables cualitativas y 3 variables cuantitativas que no sean las listadas
anteriormente
9) Se ha hecho un estudio para determinar la preferencia de la marca ACE por parte de las amas
de casa de Venezuela. Entre las 50 amas de casa entrevistadas, 30 dijeron que preferían esta
marca.
a) ¿Qué constituye la muestra?
b) ¿Qué constituye la población?
c) ¿Cuál es el porcentaje, dentro de la muestra, de las amas de casa que prefieren la marca
del detergente?
10) Se desea hacer un estudio sobre malos tratos a las mujeres en el seno familiar en Caracas.
a) Cuál es la población objeto de estudio?
b) Proponga variables para estudiar el problema que sean de los distintos tipos estudiados
en clase (por lo menos cinco).
17
11) De los siguientes enunciados ¿cuál probablemente usa la estadística descriptiva y cuál la
estadística inferencial?
a) Un médico general estudia la relación entre el consumo de cigarrillo y las enfermedades
del corazón.
b) Un economista registra el crecimiento de la población en un área determinada.
c) Un economista por medio de un análisis entre variables realiza un pronóstico del índice
de precios del año siguiente
d) Se desea establecer el promedio de bateo de un equipo de béisbol determinado.
e) Un profesor de expresión oral emplea diferentes métodos con cada uno de sus 2
cursos. Al final del curso compara las calificaciones con el fin de establecer cuál
método es más efectivo.
f) Realizar una revisión de un conjunto de bombillos de un lote más grande con el fin de
determinar el porcentaje de defectuosos en total del lote grande de acuerdo al resultado
de la revisión del conjunto pequeño de bombillos.
g) Realizar una encuesta sobre la opinión del trasporte de la universidad. Resumir los
resultados y analizarlos por medio de tablas, gráficas y porcentajes.
12) ¿Es posible, que en algún caso particular, la muestra tenga un tamaño mayor que la población?
13) La escala nominal en qué se diferencia de la escala ordinal?
14) La escala de intervalo en qué se diferencia de la escala de razón?
15) Clasifique las siguientes variables en continua o discreta:
a) Ingreso de los profesores de educación media
b) Número de facturas dañadas en una tienda en un mes
c) Total de venta al mes en una farmacia
d) Cantidad de bombillas que se dañan en un empresa por mes
e) Cantidad de gasolina consumida por un vehículo en una semana
f) Tiempo que tarda una persona en una cola en el banco
16) Identifique la población, la muestra y la variable de interés en los siguientes enunciados:
a) Se quiere determinar el gasto en alimentos promedio mensual de las familias
venezolanas. Se tiene un listado de 800 familias de todas partes del País con sus
respectivos gastos en alimento.
b) Un fabricante de cigarrillos realiza una encuesta sobre 1500 adultos fumadores en la
ciudad de Caracas y obtuvo que el 40% de los encuestados preferían su marca.
c) Se les pregunta a todos los profesores de la universidad sobre la opinión de alargar el
semestre y se obtuvo que el 80% no está de acuerdo.
d) Cada día se selecciona al azar 50 latas de un producto para realizar un control de
calidad y en base a éste se determina si el lote completo del día se envía a la venta o no.
17) ¿Qué ventajas ofrece el muestreo probabilístico sobre el no probabilístico?
18) Encuentre una tabla de números aleatorios y utilícela para seleccionar una muestra aleatoria
simple de 20 estudiantes de la sección del curso de estadística.
19) Diseñe una encuesta para estudiar (a su criterio pero investigue los antecedentes de cada tema):
a) Qué factores inciden en el rendimiento académico de los estudiantes de la universidad
b) Cual es la percepción entre los usuarios de telefonía celular, sobre la calidad del servicio
de su proveedor de telefonía celular
c) En qué invierten las familias que residen en el estado sus ingresos mensuales.
18
Bibliografía del Capítulo I:
19
Capítulo II
Una posible forma de organizar los datos es ordenarlos de menor a mayor (o de mayor a menor)
cuando estos posean algún criterio de organización (numérico, alfabético o jerárquico).
Realmente la ordenación de datos tiene más bien una raíz histórica; con el desarrollo y
masificación de los programas de manejo de datos deja de tener importancia desde el punto de
vista computacional, pero desde la perspectiva de la enseñanza de la estadística en aulas, tiene un
gran valor conceptual.
Antes de explicar cada una de las formas de organización, definimos frecuencia como el número
de veces que se repite un valor determinado en la muestra; y una clase es un intervalo de valores
que puede tomar la variable, se utilizan las clases para resumir el rango total de valores que puede
tomar la variable en sub-intervalos que cubren en totalidad todos los posibles valores. Así que la
frecuencia de una clase es el total de los datos medidos que caen en el rango de valores
indicados por la clase respectiva.
Tipo I: Serie Simple. Cuando se tienen un número pequeño de observaciones, casi todas
distintas, estas se darán por extensión simple.
Este tipo de organización se utiliza sólo cuando la muestra consta de un número muy pequeño de
elementos y cuando los valores sean distintos.
20
Tipo II: Series de Frecuencias. Cuando se tiene un gran número de observaciones pero muy
pocas distintas, se organizan en una tabla de frecuencias.
Tipo III: Serie de Clases y Frecuencias. Cuando haya muchas observaciones y la mayoría de
ellas distintas, se pueden ordenar agrupándolas en intervalos o clases y contando cuántas
observaciones caen en cada intervalo.
Ejemplo: El tiempo (en minutos) que demora un cliente en una cola antes de ser atendido
en cierta entidad bancaria se resume en la siguiente tabla:
Clase Frecuencia
(2, 5] 6
(5, 8] 14
(8, 11] 30
(11, 14] 16
(14, 17] 3
(17, 20] 1
Total 70
Nos dice en el intervalo (2, 5] hay 6 observaciones,
en el intervalo (5, 8] hay 14 observaciones, …..
Los valores que toman las variables en los sujetos de nuestro estudio deben
Base de Datos almacenarse en forma desagregada en una base de datos. En la actualidad este
proceso se realiza en soporte informático (generalmente en excel) para su
posterior análisis con alguno de los diferentes paquetes estadísticos. Una base de datos es una estructura
en filas y columnas, de forma que en las filas se colocan los individuos u observaciones y en las
columnas las variables. En las celdas que quedan delimitadas se anotan los valores de las variables para
cada individuo, es decir, los datos. En general, sea cual sea el tipo de datos de los que dispongamos,
siempre es posible asignar números a los distintos resultados; así en el caso de una variable cualitativa
como es el sexo, se pueden asignar números a las dos categorías de esa variable, por ejemplo, 1 al
21
resultado "hombre" y 2 al resultado "mujer", lo que por supuesto no significa que demos más categoría
a un género que al otro, este procedimiento se realiza para facilitar el vaciado de datos.
Se establecen los códigos que se utilizarán para resumir las respuestas de cada ítem, en este
caso utilizaremos los mismos códigos o valores propuesto en el cuadro anterior.
Y pueden ser escritas en Excel para su posterior análisis como se muestra en la figura Nº 2.
22
Figura Nº 2: Datos de la Base de Datos trascritas a Excel
Tiene ciertas ventajas, como la de poder expresar con palabras la importancia de ciertas cantidades, así
como la de efectuar y destacar comparaciones que se crean necesarias hacer. También debe señalarse
que es fundamental combinada con otro tipo de presentación, es decir que un tabla o una gráfica debe
ir acompañada con una presentación textual para resumir y resaltar resultados que se crean esenciales
para el lector de las mismas.
Ejemplo: De acuerdo a la encuesta aplicada se obtuvo que el 80% de los estudiantes no están de
acuerdo con que se cobre el servicio de transporte que presta la universidad.
Tablas o Cuadros estadísticos: Este método suele usarse con mayor frecuencia que el anterior.
Consiste en el arreglo sistemático de las cifras de una matriz identificando filas y columnas, o sea ,
utilizando una tabla de doble entrada. Para su construcción existen ciertas normas básicas que permiten
que el cuadro cumpla con su objetivo que es presentar la información ordenadamente, facilitando su
interpretación y análisis.
23
De acuerdo con el propósito para el que se construyen los cuadros estadísticos, pueden clasificarse en:
a) Cuadros generales o de referencia: son los usados como fuente de información, no tienen un
propósito determinado sino que simplemente proporciona información detallada. Es el tipo de
cuadro que presentan las publicaciones de organismos generalmente gubernamentales, que
recogen información primaria. Como ejemplo podemos señalar el cuadro XXX que representa
la base de datos del ejemplo XX.
b) Cuadros de resumen: Son aquellos que tienen un propósito específico y donde se muestran
resumidos los datos utilizando algún criterio. Generalmente son de menor tamaño respecto a
los anteriores, son breves y claros y van acompañados de algún texto correspondiente a una
investigación particular; incluyen datos relacionados entre sí y eventualmente algún tipo de
elaboración propia del autor.
Partes de los Puede darse la siguiente clasificación general de las partes principales de un cuadro:
Numeración, Título, Encabezados, Columna Matriz o Conceptos, Cuerpo, Fuente y
Cuadros Notas al Pie. Todas ellas son importantes y contribuyen conjuntamente a que el
cuadro que se presente sea claro y de fácil interpretación.
Numeración: Es un índice correlativo que se utiliza para poder hacer referencia al contenido del
cuadro. Se pueden utilizar varios formatos como por ejemplo: Tabla Nº 1, Tabla Nº 2, …. O Tabla Nº
2.1, Tabla 2.2, en donde el primer índice hace referencia al capítulo y el segundo índice a la tabla en ese
capítulo. La numeración de las tablas se debe ubicar en la parte superior antes del Título.
Título: Debe ir en la parte superior del cuadro y expresar en forma clara y precisa el contenido del
cuadro, para lo cual resulta útil tener en cuenta, al redactarlo, las siguientes cuestiones: ¿Qué? datos se
están presentando, ¿Dónde? o sea qué área geográfica corresponden esos datos, ¿Cómo? están
clasificados los datos y por último ¿Cuándo? o sea, a qué período (meses, años, etc.) corresponde la
información.
Encabezados: son los títulos que corresponden a cada columna componente del cuadro y se colocan
en la parte superior de las mismas. El primer encabezado corresponde a la columna matriz o concepto,
los siguientes corresponden a las columnas de datos. En algunos casos se presentan encabezados y sub-
encabezados.
Cuerpo: Es la parte del cuadro en la que se presenta el conjunto de datos estadísticos, cuyo arreglo en
filas y columnas se hará de acuerdo a las clasificaciones que se presentan en la Columna Matriz y en los
Encabezados .
Fuente: Es el lugar de donde se obtuvo la información y se indica al pie del cuadro. Si los datos fueron
recopilados por el mismo investigador se colocará “elaboración propia”, en caso que los datos fueron
proporcionados por otro organismo o se obtuvieron de publicaciones deberá colocarse el origen de los
mismos, indicando autor, título de la publicación, número de serie, página, edición, fecha de
24
publicación, etc., según corresponda. Si la información se obtuvo directamente (personalmente) se
colocará: Fuente: “Elaboración Propia”, pero en ningún caso debe faltar esta parte del cuadro.
Notas al pie: Es una parte opcional, tiene por objeto aclarar ciertos aspectos generales, relativos a todo
el cuadro, que no han sido señalados en el título; por ejemplo: la unidad de medida correspondiente a
los datos presentados en el cuadro y explicaciones relativas a algún dato particular, o a alguna fila o
columna en especial. Generalmente se colocan entre paréntesis o con letras de menor tamaño que las
utilizadas para el título. Las notas al pie van debajo del cuerpo del cuadro y antes que la fuente.
- Si la precisión que presentan las cifras es innecesaria a los fines del cuadro, deberán ser
redondeadas siguiendo el método tradicional: si la última cifra significativa es mayor que 5, se la
elimina y se agrega una unidad a la cifra anterior; en caso contrario, simplemente se la elimina.
Incluso, si éstas cifras son números grandes, puede llevarse el dato a miles o millones, en cuyo
caso deberá indicarse, dicha unidad utilizada, en las notas de pie.
- Por último, hemos de recomendar simplicidad de la presentación de los cuadros, para lo cual,
tratar el menor número posible de temas por tabla; elegir un tamaño y forma adecuadas al
informe que se presenta; no trazar más rayas que las necesarias para dividir columnas o filas,
siendo esenciales aquéllas que separan encabezados, la columna matriz y los totales.
- Tener las cifras ordenadas en columnas y filas facilita las comparaciones entre sí. Sin embargo
, debe tenerse en cuenta que es más fácil comparar cifras ubicadas en columnas que en filas, y
que las comparaciones entre columnas adyacentes es más factible de hacer que entre columnas
separadas, esto último debe tenerse presente sobre todo cuando existen sub-encabezados.
- Permite destacar cifras particulares. Si hay cifras que por alguna razón deben destacarse del
resto de la información, deberán colocarse en aquéllas posiciones de la tabla adecuadas para tal
fin o resaltarla utilizando letras negritas o algún otro método.
25
Gráficos estadísticos: Tiene por objeto presentar a los datos estadísticos por medio de figuras: líneas,
áreas, volúmenes, etc.
Este método suele reemplazar o complementar a los cuadros estadísticos, que sólo presentan cifras y
que en general resultan inexpresivas; en cambio, un gráfico ayuda a visualizar rápidamente una situación
cualquiera describiéndola, debido a su claridad, facilidad de comprensión y retención de los resultados.
Un gráfico destaca ciertos hechos esenciales de los fenómenos observados y sirve como un medio de
control, ya que hace particularmente visible toda variación anormal y toda discontinuidad crítica en la
marcha del fenómeno en observación.
- En un gráfico no se puede presentar una gran cantidad de información como lo permite hacer
un cuadro, ya que puede resultar confuso si en un mismo gráfico se pretende comparar muchas
distribuciones.
Partes de las Las partes componentes de un gráfico coinciden en cierto modo con las de un
cuadro: podemos indicarlas en el siguiente orden: Numeración, Título, Diagrama,
Gráficas Escalas y Ejes, Fuente y Notas al Pie. Valen las mismas indicaciones que las hechas
para cuadros, salvo respecto a la numeración y el Título, los cuales debe ir colocado
en la parte inferior del diagrama, comenzando por la enumeración y seguido del Título. El diagrama
correspondería al cuerpo del cuadro, puede presentar distintas formas y su objeto es presentar la
información a través de un gráfico. La escala es una de las componentes de un gráfico con la que hay
que tener especial cuidado. Los gráficos se harán con referencia al sistema de ejes coordenados
cartesianos ortogonales tomando en el eje de las abscisas (X) las clasificaciones cuantitativas o
cronológicas y en el de las ordenadas (Y) se representarán las magnitudes que corresponden, para lo
cual se necesita tomar como unidad de medida aquélla cantidad que origina una escala cuyo límite
inferior esté por debajo del menor valor observado y su límite superior cubra al mayor valor observado;
la escala en el eje vertical se marca a partir del origen del sistema (al cual le corresponde el cero); si las
magnitudes tienen un rango alejado del origen, será necesario cortar el eje.
Existen una gran cantidad de gráficas y diagramas estadísticos, entre los de mayor uso se encuentran los
siguientes:
26
Gráficas De Es una gráfica para variables cualitativas y donde se utilizan figuras Se debe identificar cada sección del
Áreas como círculos o triángulos que luego se dividen en fracciones de área gráfico con una etiqueta del nombre de
proporcional al porcentaje de frecuencia de las distintas categorías la categoría y el porcentaje que le
que puede tomar la variable cualitativa representada. corresponde.
Pictogramas Son diagramas que se hacen por medio de dibujos, que tengan No se debe exagerar en las figuras
relación con el fenómeno que se quiere representar. Los dibujos escogidas, recuerde que lo importante es
deben ser proporcionales en área al valor que tratan de representar. trasmitir visualmente las diferencias en
También se puede utilizar una figura repetida varias veces, en este las dimensiones de los distintos valores
caso se asigna un valor fijo a cada figura. tomados en el fenómeno observado.
Diagrama De Permite mostrar apropiadamente a pequeños conjuntos de datos Sólo se utilizan para variables que toman
puntos y tiene la gran ventaja de ser fácilmente construido a mano. pocos valores distintos y cuyas
En este tipo de gráfico, la abscisa representa los valores de la variable frecuencias no son elevadas.
estudiada y en la ordenada se dibuja una cantidad de puntos igual a la
frecuencia de aparición de un valor en el conjunto de datos
estudiado.
Diagramas de Es una gráfica de representación de la distribución de una variable
Frecuencia discreta. En el eje horizontal se encuentran los valores que toma la
Absoluta variable, sobre las cuales se levantan líneas de altura igual a la
frecuencia de cada valor de la variable.
Diagramas de Es una gráfica de representación de la distribución acumulada de una
Frecuencia variable discreta. En el eje horizontal se encuentran los valores que
Acumulada toma la variable, sobre las cuales se levantan líneas de altura igual a la
frecuencia acumulada de cada valor de la variable.
Histogramas Es un gráfico en forma de barras de una variable continua que Si los intervalos de clase no son del
se ha discretizado en intervalos, de forma que la altura de las mismo ancho se debe corregir las alturas
barras en cada intervalo es proporcional a su frecuencia de las barras calculándola como la
correspondiente. Las barras se dibujan unidas para trasmitir la frecuencia de la clase dividida entre el
idea de continuidad de la variable. ancho de la clase.
Polígonos de Es una gráfica similar al histograma. Sobre cada marca de clase de
Frecuencias cada intervalo en el eje horizontal se dibuja un punto de altura igual a
la frecuencia observada de dicha clase, luego se unen los puntos
marcados por medio de una línea formando así el polígono que debe
unirse al eje horizontal en el primer límite inferior de la distribución y
en el último límite superior.
Polígonos de Sobre cada límite superior de cada intervalo de clase en el eje
Frecuencias horizontal se dibuja un punto de altura igual a la frecuencia
Acumulada acumulada observada de dicha clase, luego se unen los puntos
marcados por medio de una línea formando así el polígono que debe
unirse al eje horizontal en el primer límite inferior de la distribución.
Cuando se utilizan los porcentajes acumulados en vez de las
frecuencias acumuladas el gráfico se denomina ojiva.
Gráfica de Es una gráfica que se utiliza para comparar dos variables numéricas
Dispersión con la idea de encontrar relaciones entre las mismas. En el eje
horizontal se construye una escala para la variable independiente y en
el eje vertical una para la variable dependiente. Se grafican los puntos
como pares ordenados (x,y) en el sistema de coordenadas resultante.
Diagrama de Caja Es un diagrama que se utiliza para representar una variable continua
o Boxplot junto con las características de ubicación como los cuartiles y la
mediana. Su estructura está formada por una caja, figura rectangular,
y dos segmentos horizontales situados a ambos lados de ésta. Los
bordes de la caja representan los cuartiles 1º y 3º, respectivamente, y
la mediana corresponde a la línea central.
La organización y presentación de los datos depende, como ya se comentó al principio del capítulo, del
tipo de datos que se está trabajando y de los objetivos de la investigación, entre múltiples factores que
inciden en la elección de la herramienta adecuada para presentar los resultados. A continuación se
muestra una guía de cómo organizar y presentar los datos de acuerdo a si son cualitativos o
cuantitativos.
27
Generalmente al tener que describir una variable categórica se
Tablas y Gráficas puede escoger entre una tabla de frecuencias y/o porcentajes y
Adecuadas para una gráfica como el diagrama de barras o el diagrama de torta.
Para detallar el procedimiento de organización y presentación de
Datos Cualitativos un conjunto de datos cualitativos, véase el siguiente ejemplo.
Ejemplo: Para crear nuevos planes y productos de líneas de crédito, se resumen todos los
créditos aprobados en el Banco Azul durante el año 2006. Estos créditos se clasifican en Micro
Crédito, Crédito Habitacional, Crédito Automotriz y Otros tipos de créditos. Se contabiliza la
ocurrencia de cada uno de estos tipos de créditos y se presentan en una tabla como la siguiente:
Podemos copiar la tabla Nº 4 en una hoja del programa Excel, como se muestra en la figura Nº 3,
para construir las gráficas adecuadas.
Diagramas de Barras
Son gráficas que generalmente se utilizan para describir un variable cualitativa y que se construyen
utilizando barras del mismo ancho y de largo igual a la frecuencia correspondiente a cada categoría de la
variable. Entre los gráficos de barras, se encuentran los de barras absolutas simples, barras porcentuales
simples, barras absolutas subdivididas, barras porcentuales subdivididas, el de barras compuestas, el de
barra única y del de barras direccionales.
El siguiente es un gráfico de barras absolutas simples. Las barras son absolutas porque representan
cantidades netas y no porcentajes, y son simples ya que cada barra indica una procedencia. Por otro
lado, hay que notar que las barras son horizontales porque la variable clasificatoria (tipo de crédito) es
cualitativa.
Después de que se copian los datos en Excel, se selecciona el área de la columna matriz y los datos que
se van a graficar como se muestra en el recuadro resaltado de la figura Nº 4. Luego se selecciona el
asistente de gráficos señalado por el paso “2” en la figura Nº 4. Se abre un menú, en el cual
28
seleccionamos la opción de “Barras” como se muestra en el paso “3” y por último se hace clic en
finalizar. Este procedimiento produce el diagrama de barras que se muestra en la figura Nº 5.
1 3
Otros
Tipo de Crédito
Automotriz
Habitacional
Micro Crédito
Figura Nº 5: Diagrama de Barras que explica la frecuencia durante el año 2006 de los créditos
otorgados en el Banco Azul de acuerdo al tipo de crédito
Los gráficos de barras subdivididas muestran mayor cantidad de datos que el anterior diagrama de
barras simple. En el diagrama de barras subdivididas, cada barra se particiona de acuerdo a valores de
otra variable que queremos reflejar en la misma gráfica. Generalmente los diagramas de barras
subdivididas se utilizan para representar de manera gráfica los resultados contenidos en una tabla de dos
vías (dos variables cruzadas, generalmente categóricas).
Para ejemplificar este tipo de gráficas, tomaremos el ejercicio Nº 2.40, página 68, del libro de Berenson,
Levine y Krehbiel [1], que dice así:
29
La victoria de Bill Clinton en las elecciones presidenciales de 1996 se atribuyó a
ciertas mejoras en las condiciones económicas y el bajo nivel de desempleo. Si
suponemos que se aplicó una encuesta a 800 adultos, poco después de la
elección, y se obtuvo la siguiente clasificación cruzada de las condiciones
financieras y nivel educativo:
Nivel Educativo
Condiciones Preparatoria Estudios Profesionales Total
Financieras o Inferior Universitarios Graduados
Empeoraron 91 39 18 148
No Cambiaron 104 73 31 208
Mejoraron 235 48 161 444
Total 430 160 210 800
El procedimiento en Excel para hacer el gráfico de barras subdivididas es el siguiente:
1. Copiar la tabla de los datos sin incluir los totales marginales (ni de las columnas ni de las filas),
en una hoja de Excel y luego dejarla seleccionada (queda sombreada)
2. Hacer clic en el asistente de gráficos y en la ventana que se abre
3. Escoger la opción de barras horizontales
4. Indicar que se quiere la opción de barras subdivididas
5. Apretar el botón de finalizar
Observe la figura Nº 6 que señala cada uno de los pasos antes descritos, es posible que luego tenga que
hacer clic en el botón derecho del Mouse sobre la gráfica resultante para ajustar los nombres de las
categorías, leyenda y formato general del gráfico.
30
El resultado de la operación en Excel es el gráfico mostrado en la figura Nº 7, en donde se observa
además de que el tamaño de la barra es más grande para las personas que opinan que las condiciones
financieras mejoraron, indicando de esta manera que la mayoría de las 800 personas tienen esa
percepción positiva, también podemos dilucidar la composición de acuerdo al nivel educativo de esas
personas. Por lo tanto es un gráfico más rico en información.
Mejoraron
Preparatoria o Inferior
No Cambiaron Estudios Universitarios
Profesionales Graduados
Empeoraron
La ventaja de los gráficos circulares es su fácil interpretación, por su forma de mostrar los datos de
manera precisa y clara.
Ejemplo de diagrama circular: Continuando con los datos del ejemplo de la página 29 y tabla Nº 4, que
trata sobre las modalidades de créditos aprobados en una cartera de clientes de cierto banco para el año
2006. Podemos construir un gráfico circular para la variable categórica Tipo de Crédito que toma como
valores las categorías: Micro crédito, Habitacional, Automotriz y Otros.
El procedimiento consiste en copiar la tabla Nº 4 en una hoja de Excel, seleccionar la parte de la tabla
que contiene las frecuencias de cada categoría y el encabezado de la tabla (no seleccionar ni el total ni
los porcentajes por categorías ya que Excel calcula estos valores), luego seleccionar el asistente de
31
gráficos e indicar que se quiere un gráfico circular tal como lo muestra la figura Nº 8, por último hacer
clic en el botón finalizar y se obtiene un gráfico como el de la figura Nº 9.
Figura Nº 8: Procedimiento en Excel para construir un diagrama circular con los datos de la tabla Nº 4
Otros
3%
Micro
Crédito
30%
Automotriz
47%
Habitacional
20%
Figura Nº 9: Diagrama Circular que explica el porcentaje de acuerdo al tipo de crédito aprobado
durante el año 2006 en el Banco Azul (Véase tabla Nº 4)
En los pictogramas cada dibujo o figura indica una cierta cantidad de unidades que debe estar bien
definida en la parte inferior o en la parte derecha de la gráfica. Aunque no se puede variar el tamaño del
32
dibujo figura, sí se puede cortar proporcionalmente a la frecuencia de unidades que se quiera
representar.
Edad Frecuencia
18 3
19 3
20 7
21 3
22 1
23 1
24 2
Total 20
33
Diagrama de Puntos: Es una Diagrama de Frecuencia Absoluta: Es la
representación sencilla de la distribución de representación en un sistema cartesiano de una
una variable discreta. En el eje horizontal se distribución absoluta de una variable discreta. En
reflejan los distintos valores que puede tomar el eje de las abscisas se marcan los valores que
la variable y sobre cada uno de estos valores toma la variable y sobre cada marca se levanta una
se dibujan puntos uno sobre otro, tantos barra de altura igual a la frecuencia respectiva.
como la frecuencia en la muestra de cada También se puede representar en el eje de las
valor de la variable. ordenadas la frecuencia relativa o el porcentaje de
Para el ejemplo de las edades y con la ayuda ocurrencia de los valores que toma la variable,
de la tabla Nº 5, se construye el siguiente esto depende de lo que se quiera resaltar.
gráfico. 8
Frecuencia Absoluta
6
0
18 19 20 21 22 23 24
Edades en Años
34
Diagrama de Frecuencia Acumulada
Es una representación de la distribución acumulativa de una variable discreta, en donde se marcan
en el eje de las abscisas los valores que toma la variable y sobre cada marca se dibuja una línea
horizontal de altura igual a la frecuencia acumulada respectiva; se va formando un gráfico tipo
escalera y la información básica para su construcción es la columna de la frecuencia acumulada de
la tabla de frecuencias de la variable discreta representada.
Figura Nº 13: Ejemplo de un diagrama de frecuencia acumulada para la variable discreta edad.
Este tipo de gráfica también se puede hacer con la información de la frecuencia relativa acumulada o
con el porcentaje acumulado y en general la forma será idéntica y lo que se modifica es la interpretación
de los resultados.
Definiciones previas:
Clase: Es un rango de valores que determina un intervalo con un límite inferior llamado LI y un
límite superior llamado LS. Una tabla consta de c clases, por lo tanto hace falta un subíndice en
los límites inferiores y superiores para poder referirnos al límite inferior de la clase i, LI i o al límite
superior de la clase i LS i . Con i variando desde 1 hasta c.
35
Marca de Clase (mi): Cada clase tiene una marca que se define como el punto medio del
intervalo de clase. Es decir que la marca del intervalo de clase i, mi, se determina como:
LI + LS i
mi = i . La marca de clase es el valor representativo del intervalo y se utilizará mas
2
adelante como la aproximación de todos los valores de la variable que pertenecen a la clase
correspondiente, por esta razón las tablas deben construirse de tal manera que la mayoría de los
datos queden cerca de las marcas de clase.
Ancho de Clase (ai): Se define como la diferencia entre el límite superior y el límite inferior de la
clase. Es común que las tablas tengan todas las clases del mismo ancho, aunque esta no es una
condición imprescindible.
Frecuencia Absoluta ( fi ): La frecuencia absoluta de la clase i, es el número de valores de la
muestra que caen en el rango de valores que determinan a dicha clase. La suma de todas las
frecuencias absolutas es igual a la cantidad total de datos en la muestra estudiada, es decir,
∑ fi = n .
i
Marca Frecuencia Frec. Relativa Frec. Abs. acum. Frec. Relativa acum.
Clase m f fr F FRA
[LI1, LS1] m1 f1 fr1=f1/n FA1=f1 FRA1=fr1
[LI 2 , LS 2 ] m2 f2 fr2=f2/n FA2= f1+f2 FRA2= fr1+fr2
[LI3, LS3] m3 f3 fr3=f3/n FA3=f1+f2+f3 FRA3=fr1+fr2+fr3
. . . . . .
. . . . . .
[LIc, LS c] mc fc frc=fc/n FAc= f1+f2+… +fc =n FRAc= fr1+… +frc =1
TOTALES n 1
Tabla Nº 7: Tabla de intervalos de clases y frecuencias con sus respectivas fórmulas de cálculo.
36
¿Cómo construir una tabla Suponga que se tiene una muestra de valores observados de una
de intervalos de clases a variable continua, digamos x1 , x 2 ,..., x n .
partir de una muestra de A continuación se enumerará paso a paso un procedimiento
datos continuos? que explica cómo construir las tablas de intervalo de clases:
1er paso: Determinar el menor de los valores que llamaremos Min y el mayor de los valores que
lo denotaremos Max. Es recomendable (aunque no estrictamente necesario) que ordene la
muestra de los datos para facilitar los cálculos y conteos que se harán más adelante.
2do paso: Determinar el rango, R=Max – Min
3er paso: Establecer el número de clases que tendrá la tabla, para esto existen tres métodos:
a) Estimar el número de clases por medio de la fórmula de
Sturges que dice que c = 1+ 3.32 log n . Este valor se debe
aproximar al entero superior inmediato.
b) Calcular el número de clases como c = n . Este valor se debe
aproximar al entero superior inmediato. Este método no es
muy recomendable si n es muy grande ya que podría dar
valores muy por encima de 15 y la tabla podría quedar
excesivamente larga.
c) Establecer c como un número arbitrario entre 5 y 15.
R
4to paso: Estimar el ancho de los intervalos de clase. a = . El valor resultante se aproxima por
c
exceso de acuerdo a la mínima unidad de variación de los datos. Por ejemplo, si los datos varían
de 10 en 10 y a resultó en la fórmula anterior igual a 13,3 entonces debemos llevar de 13,3 a 20
(próximo valor de acuerdo a las unidades de 10 en 10).
5to paso: Recalcular el rango. R * = a.c . Luego llamamos E la diferencia entre el rango nuevo y el
rango original. E = R * − R
6to paso: Calculamos E y lo redondeamos por exceso de acuerdo a la mínima unidad de
2
variación de los datos, llamemos a esa cantidad d. Luego el 1er límite inferior de la tabla se calcula
como: LI 1 = Min − d . Los demás límites se obtienen al sumar sucesivamente el valor del ancho de
la clase a.
Ejemplo: Los siguientes datos representan los gastos promedios mensuales de 80 familias
seleccionadas al azar en la ciudad. Los datos están dados en millones de Bolívares.
0.8 0.8 0.6 1.0 1.0 1.3 0.6 0.9 0.6 1.3 0.6 0.8 0.7 1.2 1.1 0.7
0.7 0.7 0.4 0.9 1.1 1.5 0.7 1.0 0.5 1.5 0.7 0.7 0.6 1.3 1.2 0.6
0.7 0.6 0.6 0.8 0.5 1.5 0.6 1.1 0.6 1.7 0.6 0.6 0.5 1.0 0.5 0.6
0.6 0.5 0.7 0.9 1.0 1.4 0.6 1.2 0.7 1.4 0.6 0.5 0.6 1.7 0.6 0.5
0.4 0.6 0.7 1.2 1.2 1.0 0.8 1.1 0.7 1.0 0.8 0.6 0.7 1.4 0.6 0.8
Organice los datos en una tabla de intervalos de clase utilizando el método de Sturges.
37
2do paso: R=Max-Min= 1.7-0.4 =1.3
3er paso: Calculamos el número de clases, c = 1 + 3.32 log n = 1 + 3.32 log 80 = 7.32 → c = 8
R 1.3
4to paso: Determinamos el ancho de las clases, a = = = 0.16 → a = 0.2
c 8
5to paso: Recalculamos el rango, R * = a.c = 0.2 x8 = 1.6 . Luego E = R * − R = 1.6 − 1.3 = 0.3
6to paso: Dividimos E entre 2, y obtenemos así E = 0.15 → d = 0.2 , por lo tanto el 1er límite
2
inferior de la tabla debe ser LI 1 = Min − d = 0.4 − 0.2 = 0.2 . Como el ancho de clase es a=0.2,
entonces el 1er límite superior será igual a LS1=LI1+ 0.2 = 0.4
La columna principal de la tabla queda entonces, comenzando con la clase Nº 1 desde el valor de
0.2 hasta 0.4 inclusive y luego la clase Nº 2 que consta de los valores mayores a 0.4 hasta 0.6, así
sucesivamente se van conformando las 8 clases de la tabla que se muestra completa abajo.
Clase Clases
Nº
1 0.2 - 0.4
2 0.4 - 0.6
3 0.6 - 0.8
4 0.8 - 1.0
5 1.0 - 1.2
6 1.2 - 1.4
7 1.4 - 1.6
8 1.6 - 1.8
El paso siguiente consiste en contar cuántos valores caen en cada uno de los intervalos de clase.
En este paso hay que considerar que por convención se ha decidido que los valores a contabilizar
deben ser estrictamente mayores que el límite inferior y todos los comprendidos hasta menor o
igual que el límite superior.
Clase Clases fi
Nº
1 0.2 - 0.4 2
2 0.4 - 0.6 28 ← Indica que hay 28 valores en la muestra que son mayores que 0.4 pero menores o iguales que 0.6
3 0.6 - 0.8 20
4 0.8 - 1.0 10
5 1.0 - 1.2 9
6 1.2 - 1.4 6
7 1.4 - 1.6 3
8 1.6 - 1.8 2
Totales 80 ← Observe que la suma de las frecuencias es igual al n
38
Podemos completar la tabla calculando las demás frecuencias y porcentajes, de acuerdo a las
fórmulas presentadas en la tabla Nº 7.
Tabla Nº 8: Tabla de intervalos de clases y frecuencias del ejemplo del gasto promedio mensual
de las familias del estado.
Si los intervalos de clase no son del mismo ancho se debe corregir las alturas hi de las barras
calculándola como la frecuencia de la clase dividida entre el ancho de la clase, hi = fi/a.
Figura Nº 14: Ejemplo de un histograma que representa la distribución de la variable continua “gasto
familiar en el estado”
Polígonos de Frecuencia:
Es una gráfica similar al histograma. Se construye dibujando sobre cada marca de clase de cada
intervalo en el eje horizontal, un punto de altura igual a la frecuencia observada de dicha clase,
luego se unen los puntos marcados por medio de una línea formando así el polígono que debe
unirse al eje horizontal en el primer límite inferior de la distribución y en el último límite superior.
39
Figura Nº 15: Ejemplo de un polígono de frecuencia, construido sobre el histograma para resaltar la
idea de que son gráficos análogos.
60 90%
55
Porcentaje Acumulado
50
80%
45 70%
40
60%
35
30 50%
25 40%
20
30%
15
10 20%
5 10%
0
0%
0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8
0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8
Gasto promedio mensual Gasto Promedio M ensual
Figura Nº 16: Ejemplo de un polígono de Figura Nº 17: Ejemplo de una ojiva, construida
frecuencia acumulada a partir de los datos de la tabla Nº 8
Gráficos lineales:
Ejemplo: Graficar las ventas mensuales de la empresa AAA para el año 2006.
Podemos escribir las ventas para cada mes en un libro de Excel como mostramos en las figura Nº 18.
Luego marcamos el área de los datos que queremos graficar y hacemos clic en el asistente para gráfico.
Al hacer clic aparecerá un menú (ver figura Nº 19) en donde se escoge la opción gráfico de línea y luego
escogemos la opción finalizar. Excel generará (ver figura Nº 20) un gráfico que podemos modificar en
40
cuanto a tamaño y opciones de Título, Leyendas, entre otras opciones que se activarán al hacer clic con
el botón derecho del Mouse sobre el gráfico resultante.
41
35
30
20
15
10
0
Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
Figura Nº 20: Evolución de las ventas mensuales de la empresa durante el año 2006 (Gráfica de Línea
creada en Excel)
Este gráfico permite observar la variación de un fenómeno a través del tiempo, o la tendencia del
fenómeno. Es muy usado para representar la evolución de series de datos correspondientes a ingresos y
egresos.
Es de anotar que por medio de gráficos tendenciosos se pueden deformar o resaltar situaciones o
estados, que presentados en un gráfico apropiado, mostrarían un comportamiento normal.
La relación entre los ejes no es la más apropiada (ver figuras No.21 y No.22).
Figura º 21: Gráfico con desproporcionalidad en los ejes, el eje horizontal es muy pequeño
42
Figura º 22: Gráfico con desproporcionalidad en los ejes, el eje vertical es muy pequeño
Gráficos con escalas desproporcionadas, o mala elección del punto de origen (ver gráfico
No.3).
Figura º 23: Gráfico con mala escala en el eje vertical, note que las distancias entre cada
marca no son iguales aun cuando es de 5 en 5. Además el origen no es el adecuado.
Es decir que “La longitud del eje vertical es igual a tres cuartos de la longitud del eje
horizontal”.
43
Diagrama de tallo y hojas:
33 1 4
33 7 7 8 9 6
34 1 2 2 0 2 2 3 3 2
34 5 6 9 8 5 7 7 6 6
35 1 2 1 3 2
35 8 6
36 0 1
36 5
44
A modo de ejemplo, construyamos un gráfico circular en perspectiva.
Como puede verse en la figura Nº 24, el 6.26% 'No Interesado' tiene aquí una cobertura visual
algo mayor que en un gráfico circular plano (sin la perspectiva 3D). Dibújelo y convénzase de este
comentario.
Pero, si se cambia la orientación del dibujo central, como se indica en la figura Nº 25, se tiene
una representación en que los casos 'No Interesado' se ven disminuidos.
Estas variaciones de la representación causadas por un giro del gráfico, no están presente en el
caso del círculo en posición normal y, por lo tanto, este último es más fidedigno como resumen
informativo visual.
45
Como conclusión, a pesar de su simplicidad, los gráficos circulares deben ser construidos
teniendo especial cuidado en resguardar su capacidad de representar sin distorsiones la
información original.
Como puede observarse, las estadísticas calculadas para construir este gráfico, dividen el recorrido
de los valores observados en cuatro partes. Cada una de éstas contiene aproximadamente el 25%
del total de las observaciones.
La interpretación del gráfico está basada en la comparación de las longitudes de los cuatro
tramos. Debe tenerse presente que cada uno de los tramos tiene la misma cantidad de elementos,
por lo tanto los tramos de menor longitud representan una mayor densidad. Es decir, los tramos
más cortos representan una mayor aglomeración de elementos muestrales.
La ventaja de esta representación reside en que permite resumir datos en forma simple,
entregando una visión global de la muestra con pocos elementos. A pesar de la simplicidad de este
gráfico, requiere de algún cuidado en su análisis para poder interpretar la información que entrega.
Es conveniente realizar abundante ejercitación que incluya comparaciones con otras formas de
representación, tales como histogramas por ejemplo.
46
Cuestionario del Capítulo:
1. ¿Cuál es el objetivo de un gráfico?
2. Describa los componentes de una gráfica.
3. ¿Cuáles son las principales causas de distorsión de la información de un gráfico?
4. ¿Cuál debe de ser la proporción entre los ejes del plano cartesiano para la construcción de
un gráfico?
5. La tabla muestra una distribución de frecuencias de la duración de 400 bombillas de 60W.
Duración (horas) Número de tubos
[300-400) 14
[400-500) 46
[500-600) 58
[600-700) 76
[700-800) 68
[800-900) 62
[900-1000) 48
[1000-1100) 22
[1100-1200) 6
6. El gerente de personal de una compañía registró el número de días que sus 50 empleados
habían faltado al trabajo por enfermedad.
10 35 12 8 44 6 15 20 5 7
5 11 17 8 4 7 25 9 2 10
12 12 3 10 9 3 5 16 31 9
0 4 7 11 3 18 2 10 6 22
2 9 8 29 6 4 7 10 0 1
47
a) Identificar la variable y su clasificación.
b) Construir una tabla de frecuencia apropiada a estos datos.
c) Construir un gráfico apropiado para ayudar al gerente a tomar decisiones
8. A continuación, se ofrece una distribución de frecuencia del peso (en Kg) de 120
personas que utilizaron un elevador cierto día.
Clase fi
[45-55) 10
[55-65) 35
[65-75) 55
[75-85) 15
[85-95) 5
9. Nora Velarde, asesora de una pequeña empresa de corretaje, intenta diseñar programas de
inversión que fuesen atractivos para jubilados. Ella sabe que si un inversionista potencial
pudiera obtener un cierto nivel de intereses, estaría dispuesto a invertir su capital, pero
debajo de un cierto nivel de intereses, no estaría dispuesto a hacerlo. De un grupo de 50
48
sujetos, Nora obtuvo los datos siguientes con respecto a los diferentes niveles de réditos
requeridos por cada individuo para que pueda invertir 1000 dólares:
Punto de diferencia ($) fi
[70 – 75) 2
[75 – 80) 5
[80 – 85) 10
[85 – 90) 14
[90 – 95) 11
[95 – 100) 3
[100 – 105) 3
[105 – 110) 2
a. Construya un histograma y coméntelo brevemente.
b. Grafique una ojiva.
c. Qué porcentaje de las personas estarían dispuestas a invertir si los niveles de réditos
son menores de 83 puntos de diferencias en $?
d. Qué porcentaje de las personas estarían dispuestas a invertir si los niveles de réditos
están entre 82 y 92 puntos de diferencias en $?
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
1 1,4 1,8 2,2 2,6 3 3,4 3,8 4,2
49
11. En un reporte de mercadeo se informa que, con base en las ventas de 2007, las 5 marcas
de refrescos que más se vendieron fueron Coca Cola, Big Cola , Frescolita, Pepsi Cola y
Chinoto. La lista siguiente proviene de una muestra de 50 compras de esas marcas:
Coca Cola Frescolita Chinoto Coca Cola Pepsi Cola
Big Cola Big Cola Coca Cola Big Cola Coca Cola
Pepsi Cola Pepsi Cola Big Cola Coca Cola Coca Cola
Big Cola Pepsi Cola Coca Cola Big Cola Coca Cola
Coca Cola Coca Cola Coca Cola Coca Cola Pepsi Cola
Coca Cola Frescolita Chinoto Chinoto Coca Cola
Chinoto Pepsi Cola Pepsi Cola Pepsi Cola Coca Cola
Frescolita Coca Cola Frescolita Pepsi Cola Frescolita
Pepsi Cola Coca Cola Coca Cola Pepsi Cola Pepsi Cola
Big Cola Coca Cola Big Cola Pepsi Cola Chinoto
a) Construir la tabla de distribución de frecuencias.
b) Construir una gráfica de barras y un diagrama de torta.
c) ¿Qué porcentaje de las ventas tienen Pepsi Cola y Coca Cola?.
12. Los datos que se muestran a continuación, son los cargos (en dólares) por los servicios de
electricidad, agua y gas durante el mes de julio del 2000 para una muestra de 50
apartamentos de 3 habitaciones en Caracas:
96 171 202 178 147 102 153 197 127 82
157 185 90 116 172 111 148 213 130 165
141 149 206 175 123 128 144 168 109 167
95 163 150 154 130 143 187 166 139 149
108 119 183 151 114 135 191 137 129 158
Elaborar:
a. Una tabla de distribución de frecuencias.
b. Un histograma y un polígono de frecuencias.
c. Un histograma porcentual.
d. Una ojiva.
Determinar:
13. Construya un diagrama de barra para explicar la distribución por el tipo de sangre y un
diagrama de torta para el color de cabello
Color de cabello frecuencia Tipo de sangre frecuencia
Negro 11 AB 4
Castaño 24 O 12
Pelirrojo 6 A 35
Rubio 18 B 16
50
14. En la tabla de frecuencia que se da a continuación faltan datos, complétela.
Valores fi FA fr FRA
0 2
1 5
2 9
3 14 0.7
4 0.2
5
Totales
Clases mi fi FA fr FRA
20 - 24 0.1
24 - 28 0.25
- 32 11 0.55
32 - 0.85
- 40 1.00
Total
a) Qué tipo de datos están representados en la tabla?
b) Construya un polígono de frecuencias relativas
c) Construya un histograma
16. Las siguientes medidas corresponden a las alturas de 50 niños.
1,56 1,59 1,63 1,62 1,65 1,61 1,59 1,51 1,62 1,62
1,53 1,49 1,57 1,54 1,53 1,59 1,58 1,57 1,47 1,64
1,55 1,59 1,53 1,56 1,53 1,47 1,57 1,60 1,54 1,56
1,50 1,62 1,59 1,62 1,54 1,68 1,52 1,62 1,59 1,49
1,65 1,53 1,59 1,56 1,54 1,58 1,52 1,63 1,56 1,62
a) Construir una distribución de frecuencias absolutas y relativas.
b) Obtener las correspondientes distribuciones de frecuencias acumuladas.
c) Representar las distribuciones anteriores mediante histogramas.
d) Dibujar los correspondientes polígonos de frecuencias.
e) Hallar a partir del polígono de frecuencias acumuladas la proporción de
observaciones entre 1,59 y 1,62 ambas inclusive.
f) ¿Qué conclusiones puede extraerse?
17. Se seleccionaron al azar 60 hombres con edades comprendidas entre 18 y 40 años. Se les
preguntó la marca de su cerveza venezolana preferida. Los resultados fueron los
siguientes:
Polar No Toma No Toma Brahma Regional Regional Regional Regional Regional Regional Polar Brahma
Regional Polar Brahma Polar Regional No Toma Polar Brahma No Toma Regional Polar Brahma
Regional Regional Brahma Polar Regional No Toma Polar Brahma No Toma Regional Polar Brahma
Regional Regional Brahma Polar Regional No Toma Regional Regional No Toma No Toma Regional No Toma
No Toma Brahma Polar Polar Regional No Toma Regional Brahma Brahma No Toma No Toma No Toma
a) Organice los datos en una tabla adecuada
b) Presente dos gráficas para explicar mejor el conjunto de datos
c) Qué análisis o descripción puede hacer de los datos?
51
18. A continuación se presenta un diagrama de torta obtenido para una distribución según la
marca de los primeros 220 vehículos que pasaron por la entrada de la universidad.
Jeep
Otros Construya una tabla en donde se indique la frecuencia
5%
Fiat
5% de cada marca además de su porcentaje
9%
Toyota
40%
Chevrolet
18%
Ford
23%
19. Considere el siguiente gráfico que corresponde a las ganancias mensuales promedio de
ciertos vendedores informales de la ciudad (datos en millones de Bolívares). Conteste las
siguientes preguntas:
18
e. Qué porcentaje de los vendedores tienen ganancias mensuales de a lo sumo 1,55 millones
de Bolívares?
f. Construya un polígono de porcentajes
g. Construya una ojiva
h. En base a la ojiva, ¿Qué porcentaje de vendedores tienen ganancias mensuales de por lo
menos 1,2 millones de Bolívares?
i. En base a la ojiva, ¿Qué porcentaje de vendedores tienen ganancias mensuales entre 0,8 y
1,3 millones de Bolívares?
j. En base a la ojiva, ¿Qué porcentaje de vendedores tienen ganancias mensuales menores
de 1,4 millones de Bolívares?
52
20. Considere el siguiente gráfico que corresponde a las ventas diarias promedio de 40 abastos
de la ciudad (datos en millones de Bolívares). Conteste las siguientes preguntas:
0,4
a. ¿Qué nombre recibe este
0,35 tipo de gráfico? Ponga
0,3 nombre a los ejes y un
título adecuado al gráfico
0,25 b. ¿Los intervalos de clase
0,2 tienen el mismo ancho?
c. ¿Cuántos datos tiene la
0,15
clase de mayor
0,1 frecuencia?
d. Construya la tabla de
0,05
frecuencias (completa)
0 que corresponde con este
0,6 0,8 1 1,2 1,4 1,6 1,8 2 2,2 2,4 2,6 2,8 3 3,2 3,4 gráfico
e. Construya un histograma
f. Construya una ojiva
g. En base a la ojiva, ¿Qué porcentaje de ventas diarias son de por lo menos 1,4 millones
de Bolívares?
h. En base a la ojiva, ¿Qué porcentaje de las ventas diarias están entre 1 y 2 millones de
Bolívares?
i. En base a la ojiva, ¿Qué porcentaje de las ventas diarias promedios son menores de
1,5 millones de Bolívares?
21. Considere el siguiente gráfico que corresponde a los promedios de nota acumulada de 50
estudiantes de la universidad (escala del 0 al 10). Conteste las siguientes preguntas:
100%
a. ¿Qué nombre recibe este
tipo de gráfico? Ponga
90%
nombre a los ejes y un
80%
título al gráfico
70% b. ¿Los intervalos de clase
60% tienen el mismo ancho?
50% c. ¿Qué porcentaje de los
40%
estudiantes tienen
30%
promedio de por lo
menos 5 puntos?
20%
d. ¿Qué porcentaje de los
10% estudiantes tienen
0% promedio entre 5 y 8
0 1,25 2,5 3,75 5 6,25 7,5 8,75 10 puntos?
53
h. Construya un histograma
22. Se realizó una pequeña encuesta a una muestra de 50 obreras de un ente gubernamental
del estado Sucre. Entre los datos que se recolectaron esta la edad en años, el estado civil,
el número de hijos, los años de experiencia en el ente, el nivel de escolaridad ( 0 = no
estudió nunca, 1= hasta el 1er año de primaria, 2= hasta el 2do año de primaria, . . .),
Miles/Día= Gasto en Transporte Diario de la Familia en cientos de Bs., Gastos Educac.
= Gasto mensual en concepto de educación de la familia en miles de Bolívares, ausencias
= Dias que se ausenta del trabajo por trimestre, Calificación=Calificación del supervisor
con respecto a su desempeño laboral (1= Muy Mal, 2=Mediocre, 3=Regular, 4=Bueno,
5= Excelente).
54
BASE DE DATOS PARA EL EJERCICIO Nº 22
55
Capítulo III
Podemos clasificar las medidas descriptivas en cuatro grupos de acuerdo con la característica que
cuantifica en la distribución.
Central: Se utilizan para ubicar Media Aritmética ( x ),
la posición del centro de la Mediana (Me) , Moda (Mo),
distribución. Media Geométrica (G), Media
Armónica (H)
Medidas de No-Central: Permiten ubicar Cuartiles (Q1, Q3), Deciles
Posición cualquier lugar del (D1, D2, D3, …., D10),
posicionamiento de la Percentiles (P1, P2,…, P100)
distribución
La mayor parte de los conjuntos de datos muestra una tendencia bien determinada a agruparse o
aglomerarse alrededor de cierto punto central. Así que para cualquier conjunto de datos,
generalmente se puede seleccionar algún valor típico o promedio, para describir todo el conjunto.
A este valor típico o promedio se le denomina medida de tendencia central. En la figura Nº 27,
56
se muestran dos distribuciones con el mismo nivel de dispersión y con valores distintos de
posición central.
Figura Nº 27: Comparación de dos distribuciones con diferentes medidas de posición central.
Las medidas de posición no central, permiten ubicar un valor cualquiera en la distribución, para
el cual un cierto porcentaje de los datos se encuentra por debajo de dicho valor. Vemos en la
figura Nº 28 que el 75% de los valores son menores de el percentil 75 o tercer cuartel que en la
figura es la cantidad de 1.0. Podemos ubicar otros percentiles con cualquier porcentaje dado entre
1% y 100%.
Figura Nº 28: Ejemplo de una medida de posición no central, el tercer cuartil (Q3), representado en el
gráfico por un punto.
57
Las medidas de dispersión se utilizan para establecer el grado de variabilidad que tienen los
datos. Si los datos están muy condensados alrededor de una valor, la distribución tiene poca
dispersión como vemos en la figura 29(A) y si por el contrario los valores se encuentran muy
separados se dice que la distribución tiene una dispersión alta (figura 29 (B)).
En las distribuciones asimétricas hacia la izquierda la media es menor que la mediana y esta a su
vez es menor que la moda. De manera inversa ocurre en las distribuciones asimétricas hacia la
derecha como podemos observar en la figura Nº 30.
58
Por otro lado las medidas de curtosis, permiten distinguir el grado de apuntamiento o
acumulación que tiene la distribución de los datos. Si los datos están muy concentrados alrededor
de un valor se llama leptocurtica, si los valores están normalmente distribuidos alrededor del
centro de la distribución se llama mesocurtica y si por el contrario está muy poco concentrada
alrededor del centro se llama platicurtica. En la figura Nº 31 vemos un ejemplo de los tipos de
clasificación de una distribución de acuerdo a la curtosis.
Observación: Trabajaremos primero con las medidas descriptivas numéricas para las
distribuciones de datos sin agrupar y al final del capítulo revisaremos el caso en donde los
datos se presentan agrupados.
59
Las medidas de Posición central tienen como función, ubicar el centro de la distribución.
Observamos en la figura 4.6, que el centro de la distribución A está alrededor de 25 unidades y el
centro de la distribución B está alrededor de 60. Precisamente se desea que los valores de
tendencia central resulten en valores cercanos a los que se indicaron para las distribuciones antes
mencionadas.
Media Aritmética ( x )
Media Aritmética Ponderada ( x p )
x + x + ... + xn −1 + xn ∑x i
x= 1 2 = i =1
n n
Ejemplo:
Los salarios anuales (en dólares) de los jefes de ventas de una empresa pequeña son:
34.500 30.700 32.900 36.000 34.100 33.800 32.500
60
El salario medio de la plantilla de jefes de ventas será:
7
x + x + x3 + x4 + x5 + x6 + x7 ∑x i
x= 1 2 = i =1
7 7
es decir,
34.500 + 30.700 + 32.900 + 36.000 + 34.100 + 33.800 + 32.500
x=
7
= 33.500 dolares
La media es una medida de centralización que formaliza la idea intuitiva de centro de las
observaciones.
CARACTERÍSTICAS:
1. La media aritmética es la medida de tendencia central más utilizada y por lo tanto es de
fácil explicación ya que la mayoría de las personas han utilizado el término promedio para
referirse a la media aritmética.
2. Siempre se puede calcular la media aritmética y esta es un valor único.
3. La media aritmética en condiciones normales (nos referimos a condiciones normales a que
no existen valores atípicos en la muestra) es la que mejor aproxima el centro de la
distribución.
4. En los casos en donde existan datos atípicos o datos extremos en la muestra no es
recomendable utilizar la media aritmética puesto que esta se ve muy afectada por los datos
atípicos. Esto significa que en distribuciones que no sean simétricas no se recomiende
utilizar la media aritmética como medida de centro.
n
∑ w i *xi w 1*x1 + w 2 *x 2 + w 3*x 3 + ... + w n *x n
x p = i=1n =
w1 + w 2 + w 3 + ... + w n
∑ wi
i =1
61
Ejemplo:
Si un examen final de curso se valora como 3 veces los exámenes parciales y un estudiante
tiene una nota de examen final de 85 y notas de exámenes parciales de 70 y 90, calcular su
nota final.
En este caso hay tres datos que corresponden a las notas 70, 90 y 85, y establecemos las
ponderaciones de cada dato como 1, 1, y 3, respectivamente. Note que las ponderaciones
iguales a 1 no modifican las notas de los parciales pero la ponderación del examen final es
de 3 ya que este vale tres veces más que los parciales.
Mediana (Me): Se define como mediana el valor de la distribución, supuesta esta ordenada
de menor a mayor, que deja a su izquierda y a su derecha la misma cantidad de observaciones, es
decir, el valor de la variable que divide a la distribución en dos partes iguales.
Esta medida de tendencia central se basa en la ordenación de los datos. Por lo que para cu cálculo
primero debemos ordenar los datos en orden creciente.
Mediana
x n + x n
Si el tamaño de la muestra n es par
+1
2 2
Me =
2
Ejemplo 1:
Puntuaciones obtenidas por 10 alumnos en un examen:
5,3 2,8 3,4 7,2 8,3 1,7 6,2 9,3 3,2 5,9
las ordenamos de menor a mayor:
1,7 2,8 3,2 3,4 5,3 5,9 6,2 7,2 8,3 9,3
62
Como n =10 es par entonces:
x n + x n
2
+1
2
x( 5) + x( 6 ) 5,3 + 5, 9
Me = = = = 5, 6
2 2 2
Ejemplo 2:
Los salarios anuales (en dólares) de los jefes de ventas de una empresa pequeña son:
34.500 30.700 32.900 36.000 34.100 33.800 32.500
Los ordenamos de menor a mayor:
30.700 32.500 32.900 33.800 34.100 34.500 36.000
En este caso Me y x son muy parecidos por lo que para hacernos una idea del centro de las
observaciones no habrá mucha diferencia entre usar como medida de posición la media o la
mediana.
La mediana es más estable ante la existencia de datos atípicos (como el 41 en el ejemplo de las
edades), se dice que es más robusta que la media.
63
Tenemos que: x = 5,3 y Me= 5,6, valores que están muy cercanos y que en este caso
ambos miden con suficiente precisión el centro de la distribución de los datos.
Entonces:
x n + x n
2
+1
2
x( 5) + x( 6 ) 5,3 + 5,9
Me = = = = 5, 6 y por otro lado la media aritmética
2 2 2
Observamos en el ejemplo anterior que la media es muy susceptible a las observaciones extremas
y que la mediana es más robusta en la presencia de datos atípicos.
Moda (Mo): La moda es el valor de la variable que más veces se repite. A veces aparecen
distribuciones de variables con más de una moda (bimodales, trimodales, etc), e incluso pueden
existir conjuntos de datos que al no repetirse ninguno no tiene una moda.
Por ejemplo, en la serie {14, 15, 17, 17, 21, 21, 21, 33, 36, 40}, la moda es 21.
La moda es una medida muy natural para describir un conjunto de datos; su concepto se adquiere
fácilmente: es la altura más corriente, es la velocidad más común, etc. Además tiene la ventaja de
que no se ve afectada por la presencia de valores altos o bajos.
64
La principal limitación está en el hecho de que requiere un número suficiente de observaciones
para que se manifieste o se defina claramente. Por esto es poco utilizada en series de datos no
agrupados.
Otros inconvenientes son que puede darse el caso de que una determinada serie no tenga moda o
que tenga varias modas.
Por ejemplo :
L, K, M, O, N (no hay moda)
5, 6, 10, 5, 8, 6, 7, 4 (2 modas 5 y 6)
La Moda debe usarse con cuidado. Su objetivo es identificar zonas donde se producen
aglomeraciones de datos, sin embargo, podría ser que por el solo hecho de haber una observación
extra en un punto aislado, éste pudiese aparecer como una moda.
Este inconveniente es especialmente delicado cuando hay pocas observaciones en la muestra, tal
como es el caso que se observa en el gráfico siguiente.
Como puede apreciarse en la figura Nº 33, cuatro alumnas tienen una estatura de 165 cm. Si no se
pone atención al resto de las observaciones, se podría reportar este valor como la moda principal,
lo que tiende a confundir ya que alrededor 159 cm. hay una gran concentración de datos. La
mayor utilidad de la moda, se presenta al usarla con muestras relativamente grandes, donde la
influencia de un dato individual no distorsiona el análisis.
Estas tres medidas de tendencia central (La media aritmética, Mediana y Moda) son las más
importantes y las más usuales. ¿Cuando utilizamos una u otra?
• La media es la mejor por que utiliza toda la información, es decir, tiene en consideración todos
los valores de la distribución, tiene también como ventaja que es única. Como desventaja más
importante está el hecho de que es muy sensible a la presentación de datos anómalos o atípicos
que hacen que la media se desplace hacia ellos y como consecuencia no es recomendable usar
la media en estos casos. Otra desventaja es que puede no coincidir con uno de los valores de la
variable.
• La mediana utiliza menos información que la media puesto que no depende de los valores de la
variable sino del orden que ocupa. Por este motivo tiene la ventaja de no estar afectada por
65
observaciones extremas. La mediana la utilizaremos cuando la media falle. Otra ventaja frente a
la media es que es un valor de la variable.
• La moda es la que menos información maneja y por tanto la peor. Tiene la ventaja de que
puede calcularse incluso para datos cualitativos. Otra desventaja es que no es única.
MO ≈ 3Me - 2 x
G = n x1 x2 ·····xn
Ejemplo.
Un caso de aplicación del promedio geométrico, es el de cálculo de interés en un depósito a plazo.
Suponga (en un caso hipotético en que las tasas no necesariamente son las que habitualmente se
transan en los bancos) que una persona desea depositar Bs. 1.000.000 durante un mes a una tasa
de 2%.
Esto significa que al término del mes, el banco le entrega Bs. 1.020.000.
Al siguiente mes, toma el capital inicial más los intereses y los deposita por otro mes. Esta vez el
banco ofrece una tasa de 3%. Al término del segundo mes recibe Bs. 1.050.600.
Finalmente, deposita este nuevo capital por un tercer mes, ahora al 4%, obteniendo al final Bs.
1.092.624.
¿A qué tasa mensual debería ponerse el capital inicial para obtener el mismo capital final al cabo de los tres meses?
66
Esta pregunta quiere dilucidar cuál sería la tasa fija que el banco debiese haber aplicado en cada
uno de los tres meses en que el capital estuvo depositado (con los intereses variables - 2%, 3%,
4% - que vimos).
Entonces, la tasa mensual estaría dada por la raíz cúbica de 1.092624, cuyo valor es 1.029968.
Es decir, se habría necesitado una tasa mensual de 2.9968%. Cantidad levemente inferior al 3%
que se obtendría si, erróneamente, se hubiese promediado 2%, 3% y 4%.
Para ver claramente cómo interviene el promedio geométrico en este ejemplo, escribamos las
tasas de interés como un factor multiplicativo del capital al cual se aplican. De este modo, las
sucesivas tasas son: 1.02, 1.03, 1.04.
Media armónica (H): La media armónica, que representaremos por H, para un conjunto de
datos x1 , x2 ,..., xn −1 , xn , se define como el recíproco de la media aritmética de los recíprocos de
los valores.
1
1 1 1
+ + .... +
x x2 xn
H= 1
n
y reacomodando la fórmula se tiene:
n n
H= = n
1 1 1 1
+ + .... +
x1 x2 xn ∑x
i =1 i
67
Relaciones entre lo promedios:
• La relación existente entre la media, la media geométrica, y la media armónica sería:
H≤G≤ x
• La media geométrica de dos cantidades cualesquiera, es igual a la media geométrica de la
media aritmética y la armónica de ambas cantidades, es decir,
G = x .H
G2
x=
H
G2
H=
x
Las medidas de posición no central, son indicadores usados para señalar qué porcentaje de datos
dentro de una distribución son menores que dicho indicador.
Suponga que de un conjunto de valores que representan los promedios de notas de estudiantes de
la carrera de contaduría, nos interesa saber cuál es la nota tal que el 80% de los estudiantes tienen
promedio inferior que dicha nota. Si dibujamos la ojiva que corresponde a la distribución de los
datos, podemos ubicar aproximadamente el valor buscado (vea la figura Nº 34). Podemos
observar que el valor buscado es menor que 5 pero es difícil determinar el valor exacto.
68
Para determinar con mayor precisión el valor buscado en el ejemplo anterior necesitamos calcular
lo que llamaremos el percentil 80.
Las medidas de Posición no central más importantes son: Los Cuartiles, Los Deciles, y
Los Percentiles.
Todas las medidas de posición no central son casos particulares de los percentiles.
• Q1 = P25
• Q2 = P50 = Me
• Q3 = P75
• D1 = P10
• D2 = P20
• D5 = P50 = Me
• D8 = P80
69
Procedimiento para calcular el percentil k, (Pk):
1. Ordenar los datos de menor a mayor. Digamos que la muestra ordenada la
llamamos x(1) , x(2) ,..., x( n −1) , x( n ) . En donde los números entre paréntesis
indican la posición en que queda ubicado el dato después de ordenarlos.
2. Calcular la posición en donde se ubica el Pk
k .(n + 1)
pos =
100
3. Denotamos por J a la parte entera de pos y por C la parte decimal. Por ejemplo si
pos = 12.75 entonces J = 12 y C = 0.75
(
4. Se calcula el Percentil K, como: Pk = x( J ) + C . x( J +1) − x( J ) )
Ejemplo: Los gastos mensuales de 20 familias del Estado Sucre se muestran a continuación:
0,8 0,9 1,2 0,9 1,5 1,7 1,5 1,0 1,0 0,8
1,7 1,9 2,3 0,7 1,5 1,2 1,8 2,3 2,0 0,6 (millones de Bs.)
Calcular:
a) Los Cuartiles
b) El 6to Decil
c) Se puede decir que el 70% de las familias gastan más de Bs. _______ al mes. Complete
(11) (12) (13) (14) (15) (16) (17) (18) (19) (20)
1,5 1,5 1,5 1,7 1,7 1,8 1,9 2,0 2,3 2,3
Entre paréntesis ponemos la posición que ocupa el valor dentro de la muestra ordenada.
70
50.(20 + 1)
Así pos = = 10,5 ⇒ J = 10 y C = 0,5 . Entonces:
100
Q2 = P50 = x(10) + 0, 5. ( x(11) − x(10) ) =
= 1, 2 + 0, 5. (1, 5 − 1, 2 ) = 1, 2 + 0,15 = 1, 35
Es decir, que el 50% de las familias gastan menos de Bs. 1.350.000
b) Para calcular el 6to decil, que es equivalente al percentil 60, calculamos primero la posición:
60.(20 + 1)
pos = = 12, 6 ⇒ J = 12 y C = 0, 6 . Entonces el P60 es:
100
P60 = x(12) + 0, 6. ( x(13) − x(12) ) =
= 1, 5 + 0, 6. (1, 5 − 1, 5 ) = 1, 5
Podemos decir que el 60% de las familias gastan al mes a lo sumo Bs. 1.500.000.
c) Se puede decir que el 70% de las familias gastan más de Bs. _______ al mes.
Para completar esa oración tenemos que calcular el percentil 30 (ya que el percentil 30 es el valor
para el cual hay un 70% de datos mayores que él)
Observamos en la figura de abajo que es precisamente el P30 el que deja el 70% de los valores a
su derecha, es decir, mayores que el P30.
Calculamos la posición:
30.(20 + 1)
pos = = 6, 3 ⇒ J = 6 y C = 0,3 . Por lo tanto al calcular, P30:
100
71
P30 = x(6) + 0, 3. ( x(7 ) − x(6) ) =
= 0,9 + 0, 6. (1, 0 − 0, 9 ) = 0, 96
Así, podemos decir que el 70% de las familias gastan más de Bs. 960.000 al mes.
Nota.
No hay sólo un criterio para calcular percentiles en muestras. De hecho, importantes programas
de computación estadística entregan resultados diferentes debido a que usan criterios similares,
pero no iguales. No debe causar sorpresa, entonces, encontrar estas diferencias originadas por la
falta de un procedimiento universalmente aceptado.
En este manual se han corregido las fórmulas y procedimientos para que los resultados coincidan
con los del software de estadística MINITAB.
MEDIDAS DE DISPERSIÓN
Las medidas de dispersión permiten calcular la representatividad de una medida de posición, para
lo cual será preciso cuantificar la distancia de los diferentes valores de la distribución respecto a
dicha medida. A tal distancia es a lo que, en términos estadísticos, denominaremos variabilidad o
dispersi6n de la distribución. Las medidas de dispersión tienen como finalidad estudiar hasta que
punto, para una determinada distribución de datos, las medidas de tendencia central o de posición
son representativas como síntesis de toda la información de la distribución. Medir la
representatividad de una medida de posición equivale a cuantificar la separación de los valores de
la distribución respecto a dicha medida.
La dispersión es el grado en que los datos numéricos tienden a extenderse alrededor de un valor medio.
Por ejemplo, a los analistas financieros les interesa la dispersión de las ganancias de una empresa, las
utilidades con una fuerte dispersión indican un riesgo mayor parar los accionistas que las utilidades que
permanecen relativamente estables.
1- Las medidas de dispersión absolutas: son aquellas que vienen expresadas en las mismas
medidas que identifican a la serie de datos.
72
2- Las medidas de dispersión relativas: son relaciones entre medidas de dispersión absolutas
y medidas de tendencia central. Entendiéndose por relativas las que no dependen de las
unidades de medida.
Rango (R)
Rango (R):
El rango es la medida de dispersión más sencilla de calcular y se interpreta como la amplitud o
ancho del intervalo en que varían los datos.
R = Max − Min
Se calcula la diferencia entre el mayor de los valores de la muestra y el menor de los datos. Si el
rango es muy alto en comparación a las medidas de tendencia central, entonces la variabilidad será
grande y en caso contrario la dispersión de los datos es menos acentuada.
Varianza (S2):
La varianza es el promedio de los cuadrados de las desviaciones de los datos con respecto a la
media aritmética.
De todas las medidas de dispersión la varianza y su raíz cuadrada (la desviación estándar) son las
más importantes, porque para datos continuos y de distribución normal, es la medida que mejor
aproxima el valor del parámetro de la población o varianza poblacional.
2
n
_
∑
i =1
x i − x
s =
2
n −1
73
n 2
∑ xi − n ⋅ x
2
2
n _
n 2
∑ ∑ xi − n ⋅ x
2
x
i − x
s = s 2 = i =1 = i =1
n −1 n −1
Ejemplo: Los salarios anuales (en dólares) de los jefes de ventas de una empresa pequeña son:
34.500 30.700 32.900 36.000 34.100 33.800 32.500
Calcular el Rango, la varianza y la desviación estándar.
Recordamos del ejemplo de cálculo de la media que esta es igual a x = 33.500 dolares . Si ahora le
restamos a cada uno de los datos la media, lo elevamos al cuadrado y sumamos estos resultados,
2
n
_
obtenemos ∑ xi − x = 16.900.000, como se muestra en la tabla.
i =1
74
xi ( xi − x ) ( xi − x )2
34.500 1.000 1.000.000
30.700 -2.800 7.840.000
32.900 -600 360.000
36.000 2.500 6.250.000
34.100 600 360.000
33.800 300 90.000
32.500 -1.000 1.000.000
Suma 234.500 0 16.900.000
2
n
_
∑ x
i − x
Por lo tanto s 2 = i =1 = 16.900.000 = 2.816.666, 6667
n −1 6
Y al calcular la raíz cuadrada de este valor, obtenemos la desviación estándar:
s = 2.816.666, 6667 = 1.678, 29
Aunque la desviación estándar da un valor que pareciera ser alto, en realidad no lo es, debido a
que en comparación a la magnitud de los valores de la muestra, este valor es relativamente
pequeño.
Entre las medidas de dispersión absolutas referentes a promedios podríamos haber definido
también la desviación cuadráticas respecto a la mediana y a la moda, que de manera análoga miden
el grado de variabilidad de los datos y marcan la representatividad de los promedios con los que se
relacionan.
75
Nos permite determinar con mayor grado de precisión dónde se sitúan los valores de una
distribución de frecuencia en relación con la media.
Las unidades de la desviación típica se expresan en las mismas unidades de los datos.
Puede sufrir un cambio desproporcionado por la existencia de valores extremos en el
conjunto.
Error Estándar ( S x ):
El error estándar, también llamado error típico de la media ( S x ), es igual a la raíz cuadrada del
cociente entre la varianza de la muestra y el número de valores existentes en la muestra (n), o sea:
s2
Sx =
n
Coeficiente de Variación de Pearson (Cv):
El coeficiente de variación expresa la variación como una fracción de la media, y es una
medida adimensional, es decir, no depende de las unidades en que se presenten los datos.
Generalmente se multiplica por 100 y se interpreta como un porcentaje. Se calcula como:
s
CV = _
⋅100%
x
El coeficiente de variación es una medida relativa de dispersión que nos permite hacer
comparaciones de diferentes grupos con diferentes unidades de medida o diferentes variables y
obtener mejores conclusiones.
Ejemplo: Calcular el coeficiente de variación para el ejemplo de los salarios de los jefes de ventas.
Observaciones:
76
MEDIDAS DE FORMA: ASIMETRÍA Y CURTOSIS
Una vez iniciado el análisis estadístico de sinterización de la información, para lo cual hemos
estudiado las medidas de centralización, de posición y dispersión de la distribución de una
variable, necesitamos conocer más sobre el comportamiento de la misma. No podemos basar
nuestras conclusiones únicamente en expresiones que vengan dadas en términos de medidas de
centro, posición y dispersión. Si bien intentamos globalizar el comportamiento del colectivo que
sea objeto de nuestro estudio, para lo cual las medidas de tendencia central son nuestro mejor
instrumento, no debemos proceder a una interpretación que implique un comportamiento de
todos los elementos del colectivo uniformemente constante e igual a la medida de tendencia
central en cuestión con un error dado por la correspondiente medida de dispersión. Este error o
disparidad se hace más ostensible al analizar la representación gráfica de la distribución. Pues
bien, las medidas de forma de una distribución se basan en su representación grafica, sin llegar a
realizar la misma.
MEDIDAS DE ASIMETRÍA
Las medidas de asimetría tienen como finalidad el elaborar un indicador que permita establecer el
grado de simetría (o asimetría) que presenta una distribución, sin necesidad de llevar a cabo su
representación gráfica.
A continuación se definen las medidas de asimetría más comunes, entre las que destacan las
siguientes:
77
Lo más sencillo sería tomar como medida de asimetría el promedio de estas desviaciones,
elevadas a la potencia impar más simple (que es tres), es decir, tomaríamos como medida de
asimetría el momento de orden tres centrado en la media. Pero, de hacer esto, esta medida vendría
expresada en las mismas unidades que las de la variable pero elevadas al cubo, por lo que no es
invariante ante un cambio de escala. Para conseguir un indicador adimensional, debemos dividir la
expresión anterior por una cantidad que venga en sus mismas unidades de medida. Esta cantidad
es el cubo de la desviación típica, obteniéndose así el coeficiente de asimetría de R. A. Fisher, cuya
expresión es:
n _ 3
∑ xi − x
⋅ i =1 3
n
AF =
( n − 1)( n − 2 ) s
Si AF=0 la distribución es simétrica, si AF >0 la distribución es asimétrica positiva (a derecha), y si
AF < 0 la distribución es asimétrica negativa (a izquierda). La distribución es asimétrica a derecha
o positiva cuando la suma de las desviaciones positivas de sus valores respecto de la media es
mayor que la suma de las desviaciones con signo negativo (la grafica de la distribución tiene mas
densidad a la derecha de la media). En caso contrario, la distribución es asimétrica a la izquierda o
negativa.
78
Coeficiente de asimetría de Bowley: Está basado en la posición de los cuartiles y la
mediana.
Q3 + Q1 − 2 Me
Ab =
Q3 + Q1
MEDIDAS DE CURTOSIS
Las medidas de curtosis estudian la distribución de los datos en la zona central de la misma. La
mayor o menor concentración de datos alrededor de la media y en la zona central de la
distribución dará lugar a una distribución más o menos puntiaguda. Por esta razón a las medidas
de curtosis se les llama también de apuntamiento o concentración central. Las medidas de curtosis
se aplican a distribuciones campaniformes, es decir, unimodales simétricas o con ligera asimetría
Para estudiar la curtosis de una distribución es necesario definir previamente una distribución
tipo, que vamos a tomar como modelo de referencia. Esta distribución es la Normal, que
corresponde a fenómenos muy corrientes en la naturaleza, y cuya representación grafica es una
campana de Gauss.
( x − µ )2
1 −
f ( x) = e 2σ 2
σ 2π
Donde µ representa la media de la población y σ la desviación estándar poblacional. El área total
debajo de la curva de la normal hasta el eje x es igual a 1.
Tomando la normal como referencia, diremos que una distribución puede ser más apuntada que
la normal (es decir, leptocurtica) o menos apuntada (es decir, platicúrtica).
79
A la distribución normal, desde el punto de vista de la curtosis, se le llama mesocúrtica.
Una medida de curtosis en una distribución señala el grado de presencia de observaciones muy alejadas
de la media, tomando como medida la desviación típica. Por consiguiente, una distribución con gran
curtosis será aquella en la que hay observaciones situadas a una distancia de la media igual a varias veces
la desviación típica. Cuantas más observaciones alejadas de esa forma haya y cuanto más alejadas estén,
mayor será la curtosis. Una variable en donde no haya observaciones cuya distancia a la media sea de
varias veces la desviación típica, o las haya en un grado mínimo, tendrá una curtosis pequeña.
Para entender correctamente el concepto de curtosis, es importante no confundir “curtosis alta” con
“dispersión alta”. Una distribución con una cantidad importante de valores muy alejados de la media
puede tener, por eso mismo, una dispersión elevada, pero no necesariamente una curtosis alta. Para que
se dé una curtosis elevada tiene que ocurrir que esas grandes desviaciones respecto a la media, sean
grandes en comparación a la desviación típica. De esa manera, puede verse que la cantidad de curtosis
no está relacionada en absoluto con la dispersión de la distribución, sino con la forma de distribuirse
esta dispersión.
80
¿Para qué es útil? La curtosis nos informa sobre la existencia (o no) de observaciones mucho más
alejadas a la media que la mayoría de ellas. En una distribución con curtosis alta (leptocúrtica) pueden
encontrarse valores “excepcionalmente” alejados de la media; en una con curtosis baja es imposible o
muy infrecuente que eso se dé. Una curtosis elevada va, en cierta forma, asociada al concepto de
“riesgo”: podrían registrarse valores de la variable muy diferentes a los habituales, y, por tanto, se haría
difícil una predicción segura.
Una desventaja del coeficiente de curtosis es que requiere un nivel de cálculo superior en comparación
a las otras medidas descriptivas. Por lo general cuando el cálculo no se hace por medio de
computadoras, se acumulan muchos errores de redondeo y el valor de K resulta medianamente
afectado por la acumulación de estos errores de redondeo.
Haciendo el cociente entre dos medidas de dispersión basadas en percentiles tenemos un coeficiente de
curtosis. Uno de los (relativamente) más usados es:
P97,5 − P2,5
Cp =
P75 − P25
Ejemplo: Los siguientes valores corresponden a las ventas semanales en millones de Bolívares
de una pequeña empresa. Se seleccionaron al azar 20 semanas en los datos históricos del año 2006
y el resultado fue el siguiente:
6 6 8 9 10 10 10 10 10 10 11 12 12
12 12 12 14 15 15 16
81
Comenzamos por organizar los datos en un arreglo y calcular algunas cantidades que
necesitaremos luego para encontrar los coeficientes de forma pedidos.
∑(x − x )
2
Suma 220 0 140 -6 2576 i
140
s2 = i =1
= = 7,3684
n −1 19
y por lo tanto, s = 7, 3684 = 2, 7145 .
n _ 3
∑ i x − x −6
⋅ i =1 3 =
n 20
AF = ⋅ = −0, 02 que está muy cerca de
( n − 1)( n − 2 ) s (19 )(18) 2, 71453
cero, por lo tanto esta medida indica que la distribución es simétrica.
82
3( X − Me) 3(11 − 10,5)
AP = = = 0,55 valor que también está cerca de cero, por lo tanto esta
S 2, 7145
medida indica que la distribución es simétrica.
25.(20 + 1)
Para Q1 la posición es pos = = 5, 25 ⇒ J =5 y C = 0, 25 , entonces
100
Q1 = P25 = x(5) + 0, 25. ( x(6) − x(5) ) =
= 10 + 0, 25. (10 − 10 ) = 10
75.(20 + 1)
Para Q3, pos = = 15, 75 ⇒ J = 15 y C = 0, 75 . Entonces:
100
Q3 = P75 = x(15) + 0, 75. ( x(16) − x(15) ) =
= 12 + 0, 75. (12 − 12 ) = 12
Q3 + Q1 − 2Me 12 + 10 − 2 ⋅10, 5 1
Ab = = = = 0, 05 Valor que se encuentra cercano a cero, por
Q3 + Q1 12 + 10 22
lo tanto este método también nos indica que la distribución es simétrica.
d) Para calcular el coeficiente de curtosis, utilizamos el total de la última columna de la tabla que
construimos y el valor que obtuvimos de s.
n
_ 4
n ( n + 1) ∑ xi − x
3(n − 1)2 20 ( 21) 2576 3(19) 2
K = ⋅ i =1 4 − = ⋅ 4
− =
(n − 1)(n − 2)(n − 3) s (n − 2)(n − 3) (19)(18)(17) 2, 7145 (18)(17)
= {3, 4274} − 3, 5392 = −0,11
Este resultado esta muy cerca de cero y por lo tanto nos indica que la distribución es mesocúrtica.
e) Para poder calcular el coeficiente de curtosis Cp, necesitamos los percentiles: P2,5 y P97,5, ya que el
P75 y P25 fueron calculados en el inciso c).
83
2,5.(20 + 1)
P2,5 : buscamos la posición pos = = 0, 525 ⇒ J = 0 y C = 0,525 , observe que la
100
posición J es cero, en estos casos no existe el x(0) , por lo tanto, tomamos el P2,5 = 6 (el menor de los
datos) .
97,5.(20 + 1)
P97,5 : Buscamos pos = = 20, 475 ⇒ J = 20 y C = 0, 475 . Observe que la
100
posición J es 20 (que resulta ser igual a la última posición en el arreglo ordenado de los datos),
en estos casos no existe el x( J +1) = x(21) , debemos tomar x(21) = x(20) = 16 (mayor de los datos).
Entonces:
P97,5 = x( 20) + 0, 475. ( x(21) − x(20) ) =
= 16 + 0, 475. (16 − 16 ) = 16
P97,5 − P2,5
16 − 6
Cp = =
= 5 . Este resultado es mayor que 2.91 (valor normal), por lo tanto nos
P75 − P25 12 − 10
indica que la distribución es leptocúrtica
Para tomar esa decisión, realizamos un histograma y sobre escribimos una distribución normal para
compararla. Utilizamos el software MINITAB para obtener el siguiente gráfico:
Histogram of ventas
Observamos en la figura Nº
Normal 36, que las barras centrales
Mean 11 están muy por encima de los
6 StDev
N
2,714
20
valores normales (curva azul)
5 y además existen valores muy
alejados del centro que
4 también tienen una
Frequency
frecuencia superior a la
3
normal. Por lo tanto esta
distribución es leptocúrtica.
2
No obstante cuando el
1 conjunto de datos es muy
pequeño (menor de 30) es
0 muy difícil tomar decisiones
6 8 10 12 14 16
ventas de las medidas de forma
(asimetría y curtosis).
84
Para comparar los cálculos realizados por los procedimientos descritos en esta unidad y los
obtenidos por el programa estadístico MINITAB, presentamos a continuación las distintas
medidas estadísticas descriptivas calculadas con MINITAB:
MINITAB:
Descriptive Statistics: ventas
Observamos que las medidas que hemos calculado de forma manual y por medio de las fórmulas
antes expuestas, ofrecen un resultado idéntico a los arrojados por el software estadístico
MINITAB.
Con el propósito de ofrecer otros medios tecnológicos de cómo calcular las estadísticas
descriptivas de un conjunto de datos numéricos, se ofrece el siguiente procedimiento en Excel.
2. Es posible que no tenga instalado el componente de análisis de datos (ya que no se instala
por defecto en Excel). Esto lo puede solucionar agregando ese complemento por medio
de la opción ruta “herramientas\complementos\herramientas para análisis” y dandole clic
a aceptar como se indica resaltado en rojo en la figura Nº 37.
85
Figura Nº 37: Copiado de datos en columna A Figura Nº 38: Comando Análisis de Datos
y Procedimiento para agregar la herramienta
análisis de datos.
4. Al hacer clic en Análisis de datos en el paso anterior, se abre una nueva ventana con todas
las opciones de procedimientos estadísticos que ofrece Excel. Ahí seleccionamos la
opción Estadística descriptiva como se indica en la figura Nº 39.
86
5. Luego de hacer clic en aceptar en el figura anterior, se abre una nueva y última ventana de
opciones, en donde se debe seleccionar todo el conjunto de datos que se quiere analizar
(ver parte sombreada, que en el ejemplo ocupa desde la casilla A2 hasta la casilla A21) y
marcar la opción “resumen de estadísticas” como se señala en la figura Nº 40.
6. Como resultado de hacer clic en la ventana anterior, se obtienen los resultados completos
de las estadísticas descriptivas calculadas por Excel. El resultado para el ejemplo de las
ventas semanales se muestra en la figura Nº 41.
Se observa que los resultados son idénticos a los obtenidos de manera manual.
En algunos casos la información que tenemos de ciertas variables o procesos, viene presentada
en forma resumida y agrupada en rangos de valores previamente seleccionados. En esos casos los
procedimientos antes descritos no funcionan porque dependen de los valores particulares de cada
dato en la serie o de la muestra. Es preciso entonces desarrollar técnicas alternativas que nos
permitan obtener medidas numéricas descriptivas de los datos cuando estos están agrupados en
tablas de intervalos de clases.
87
MEDIDAS DESCRIPTIVAS PARA DATOS
AGRUPADOS:
Si los datos se encuentran agrupados, bien sea de acuerdo a la frecuencia de ocurrencia de los
mismos o en tablas de intervalos de clases, los procedimientos para calcular las diferentes medidas
descriptivas se explicarán por medio de unos ejemplos que desarrollaremos a continuación.
Ejemplo: Los siguientes valores corresponden a las ventas semanales en millones de Bolívares
de una pequeña empresa. Se seleccionaron al azar 20 semanas en los datos históricos del año 2006
y el resultado fue el siguiente:
xi fi Media Aritmética:
6 2 Para calcular la media aritmética sumamos el resultado de multiplicar cada valor de
8 1
la muestra por su correspondiente frecuencia y luego dividimos ese total por n.
9 1
10 6
x =
∑ xi ⋅ fi
11 1 n
12 5
14 1
15 2
16 1
En el ejemplo,
xi fi xi ⋅ f i
x=
∑x ⋅ f
i i220
== 11 Que es el mismo valor que obtuvimos en el
6 2 12 n 20
8 1 8
procedimiento de los datos sin agrupar.
9 1 9
10 6 60
11 1 11
12 5 60
14 1 14
15 2 30
16 1 16
Suma 20 220
Mediana:
Para calcular la mediana, en datos agrupados con su respectiva frecuencia, calculamos la
n +1
frecuencia acumulada (FA) y ubicamos la 1era FA que sea mayor que . El valor xi que
2
corresponda con esa fila es la Mediana.
88
n + 1 21
En el ejemplo, como n=20 (recuerde que n = ∑ fi ). Entonces = = 10,5 .
2 2
xi fi FA La mediana estará en la mitad de los valores que están entre la posición 10
6 2 2 y 11. Así que buscamos la 1era FA que sea mayor o igual que 10,5. En este
8 1 3 caso como la posición 10 (FA=10) la tiene xi = 10 y la posición 11, la tiene
9 1 4
10 6 10 el valor xi = 11 (nota: es casualidad que la posición 10 la tenga el valor
11 1 11
12 5 16 xi = 10 y la posición 11 el valor xi = 11 , en general la posición y el valor
14 1 17 no tienen porque ser iguales). La mediana está en la mitad entre xi = 10 y
15 2 19
16 1 20 xi = 11 , es decir que la mediana es Me= 10,5.
Suma 20 No siempre hay que buscar el valor medio entre los datos centrales.
Veamos otro ejemplo para calcular la mediana.
Moda:
Para calcular la moda en datos agrupados por su respectiva frecuencia, simplemente ubicamos la fi
(frecuencia absoluta) que sea mayor que las demás. El valor xi que corresponda con esa fila es la Moda.
Si existen varias filas con el mismo valor máximo de fi , entonces existen varias modas. Cada una
correspondiente a las filas de máxima frecuencia.
En el ejemplo de las ventas semanales en millones de Bolívares de una pequeña empresa, la moda es
igual a 10 y en ejemplo de las cantidades de hijos de las familias la moda es igual a 2.
Varianza (S2):
Para calcular la varianza en datos agrupados por su respectiva frecuencia, aplicamos la fórmula
1 k
S2 = ∑
n − 1 i =1
( xi − x )2 f i
89
Ejemplo: Los siguientes valores corresponden a las ventas semanales en millones de Bolívares
de una pequeña empresa:
xi fi ( xi − x ) ( xi − x )2 ( xi − x ) 2 ⋅ f i Como ya tenemos el valor de x = 11 , restamos a
6 2 -5 25 50 cada xi ese valor y obtenemos la columna 3 de la
8 1 -3 9 9 tabla. Luego elevamos al cuadrado cada uno de esos
9 1 -2 4 4 valores y así obtenemos la columna 4 de la tabla.
10 6 -1 1 6 Multiplicamos los resultados de la 4ta columna por
11 1 0 0 0 sus correspondientes frecuencias que están en la 2da
12 5 1 1 5 columna y así obtenemos la última columna.
14 1 3 9 9 Finalmente totalizamos esta última columna que
15 2 4 16 32 corresponde con la parte superior de la fórmula de la
16 1 5 25 25 varianza. Al sustituir en la fórmula tenemos:
140
k
∑ (x − x )
i
2
fi
140
S =
2 i =1
= = 7,3684
n −1 19
xi fi FA 25.(50 + 1) 1275
El P25, se ubica en pos = = = 12, 75 . Buscamos la 1era FA
0 4 4 100 100
1 13 17 que sea mayor que 12,75. En este caso es la FA=17, por lo tanto P25 = Q1 = 1.
2 20 37
3 10 47 75.(50 + 1) 3825
El P75, se ubica en pos = = = 38, 25 . Buscamos la 1era FA
4 2 49 100 100
5 1 50 que sea mayor que 38,25. Que es la FA=47, por lo tanto P75 = Q3 = 3.
total 50
90
Coeficiente de asimetría de Fisher:
Para calcular el coeficiente de asimetría de Fisher en datos agrupados por su respectiva frecuencia,
aplicamos la fórmula:
k _ 3
∑ xi − x ⋅ f i
i =1
⋅
n
AF =
( n − 1)( n − 2 ) s 3
Ejemplo: Los siguientes valores corresponden a las ventas semanales en millones de Bolívares
de una pequeña empresa:
xi fi ( xi − x ) ( xi − x )3 ( xi − x )3 ⋅ fi Como ya tenemos el valor de x = 11 , restamos a
6 2 -5 -125 -250 cada xi ese valor y obtenemos la columna 3 de la
8 1 -3 -27 -27 tabla. Luego elevamos a la tres cada uno de esos
9 1 -2 -8 -8 valores y así obtenemos la columna 4 de la tabla.
10 6 -1 -1 -6 Multiplicamos los resultados de la 4ta columna por
11 1 0 0 0 sus correspondientes frecuencias que están en la 2da
12 5 1 1 5 columna y así obtenemos la última columna.
14 1 3 27 27 Finalmente totalizamos esta última columna que
15 2 4 64 128 corresponde con la parte superior de la fórmula del
16 1 5 125 125 coeficiente de asimetría de Fisher. Al sustituir en la
-6 fórmula tenemos:
20 −6
AF = ⋅ 3
= −0, 02
(19 )(18) ( 2, 7145 )
Ejemplo: Los siguientes valores corresponden a las ventas semanales en millones de Bolívares
de una pequeña empresa:
91
xi fi ( xi − x ) ( xi − x )4 ( xi − x ) 4 ⋅ f i Como ya tenemos el valor de x = 11 , restamos a
6 2 -5 625 1250 cada xi ese valor y obtenemos la columna 3 de la
8 1 -3 81 81 tabla. Luego elevamos a la cuatro cada uno de esos
9 1 -2 16 16 valores y así obtenemos la columna 4 de la tabla.
10 6 -1 1 6 Multiplicamos los resultados de la 4ta columna por
11 1 0 0 0 sus correspondientes frecuencias que están en la 2da
12 5 1 1 5 columna y así obtenemos la última columna.
14 1 3 81 81 Finalmente totalizamos esta última columna que
15 2 4 256 512 corresponde con la parte superior de la fórmula del
16 1 5 625 625 coeficiente de curtosis. Al sustituir en la fórmula
2576 tenemos:
Las demás estadísticas descriptivas (como el coeficiente de asimetría de Pearson) se calculan con las
mismas fórmulas de datos no agrupados.
Media Aritmética:
Para calcular la media aritmética sumamos el resultado de multiplicar cada marca de clase de cada
intervalo por su correspondiente frecuencia y luego dividimos ese total por n.
x=
∑m ⋅ f
i i
92
Mediana:
Para calcular la mediana, en datos agrupados en intervalos de clase, calculamos la frecuencia
n +1
acumulada (FA) y ubicamos la 1era FA que sea mayor que . Llamamos a la clase que cumpla
2
con esa condición, clase medianal.
n +1 Donde:
− FAant
Me = LI m + 2 ⋅ am LIm es el límite inferior de la clase medianal
fm
FAant es la FREC. Acumulada anterior a la clase medianal
fm es la frecuencia absoluta de la clase medianal
am es el ancho de clase de la clase medianal
Moda:
Para calcular la moda, en datos agrupados en intervalos de clase, ubicamos la frecuencia absoluta
máxima. La clase que tiene la frecuencia máxima se llama clase modal y entre los límites inferior y
superior de dicha clase se encuentra el valor de a moda. Para determinarlo utilizamos la fórmula:
∆1 Donde:
Mo = LI mo + ⋅ amo LImo es el límite inferior de la clase modal
∆1 + ∆ 2
∆1 es la diferencia entre la frecuencia de la clase modal y la
clase anterior a esta
∆2 es la diferencia entre la frecuencia de la clase modal y la
clase posterior a esta
amo es el ancho de clase de la clase medianal
Percentil:
Para calcular el percentil k (Pk), en datos agrupados en intervalos de clase, calculamos la
k (n + 1)
frecuencia acumulada (FA) y ubicamos la 1era FA que sea mayor que . En la clase que
100
cumpla con esa condición se encontrará el Pk, para determinar su valor se aplica la fórmula:
k (n + 1) Donde todas las medidas están referidas a la clase donde se
− FAant
Pk = LI + 100 ⋅a ubica el percentil según el procedimiento anterior:
f LI es el límite inferior de la clase
FAant es la FREC. Acumulada anterior a la clase
f es la frecuencia absoluta de la clase
a es el ancho de clase
93
Varianza (S2):
Para datos agrupados en intervalos de clase, se aplica la siguiente fórmula:
k
∑ ( (m − x )
i =1
i
2
⋅ fi )
s =
2
n −1
k _ 3
∑ mi − x ⋅ fi
i =1
⋅
n
AF =
( n − 1)( n − 2 ) s 3
k
_ 4
n ( n + 1)
∑ mi − x ⋅ fi
i =1
− 3( n − 1)
2
K = ⋅
(n − 1)(n − 2)(n − 3) s4 (n − 2)(n − 3)
Para ilustrar el procedimiento de cálculo de estas últimas medidas descriptivas en datos agrupados
en intervalos de clases, vamos a plantear el siguiente ejemplo.
Ejemplo: Se encuestó a 100 familias del Estado Sucre sobre el monto mensual destinado a
compra de alimentos. Para homogeneizar la muestra se seleccionaron sólo familias con 4 o 5
94
miembros. El resultado del monto mensual destinado al consumo de alimentos se agrupó en la
siguiente tabla.
Gasto en Número
Millones de de
Bolívares Familias
1,5 2,5 17
2,5 3,5 43
3,5 4,5 15
4,5 5,5 11
5,5 6,5 8
6,5 7,5 4
7,5 8,5 2
100
En base a la tabla anterior se realizan los cálculos que se indican en el siguiente cuadro:
1 2 3 4 5 6 7 8 9
LI LS fi mi mi*fi mi − x ( mi − x ) . f i ( mi − x ) . f i ( mi − x ) 4 . f i
2 3
Observe que hemos dispuesto unos números indicativos a cada columna, esto sólo lo hemos
hecho para poder referirnos a las columnas y poder explicar mejor el procedimiento.
Las columnas 1, 2 y 3 son los datos primarios que se dan en la tabla original del ejemplo.
Sumando las columnas 1 y 2 y luego dividiendo el resultado entre 2 obtenemos la 4ta columna
que corresponde a los valores de las marcas de clase mi.
x=
∑ mi . f i = 370 = 3,7
n 100
Es decir que el gasto promedio mensual dedicado a la compra de alimentos de las familias del
Estado Sucre es de 3,7 millones de bolívares.
Para el cálculo de la varianza y la desviación estándar, se procede a calcular la 6ta columna como
cada valor de la columna 4 menos la media 3,7.
95
Luego elevamos al cuadrado cada valor de la columna 6 y lo multiplicamos por su respectiva
frecuencia dada en la columna 3, obteniéndose así los valores de la columna 7, que sumados
representa el numerador de la fórmula de la varianza. Es decir, que la varianza queda entonces:
k
∑ ( (m − x )
i =1
i
2
⋅ fi ) 213
s =
2
= = 2,15
n −1 99
Por lo que la desviación estándar es igual a la raíz cuadrada de la varianza, y tenemos así que
s=1,47.
Recuerde que el coeficiente de variación viene dado por la división de la desviación estándar entre
la media aritmética, es decir que en este caso Cv = (1,47/3,7)x100% = 39,73% de variabilidad
porcentual. Pero hay que tener mucho cuidado al interpretar la desviación estándar en datos que
no están centrados, es decir que tienen un sesgo, como es el caso del ejemplo. En estos casos el
valor de la desviación estándar está muy influenciado por los valores extremos de la cola de la
distribución.
k _ 3
∑ i
m − x ⋅ fi
i =1 = 100 x 326,4 = 32.640 = 1,06
⋅
n
AF = 99 x98
( n − 1)( n − 2 ) s 3
(1,47 )3 30.818,63
96
k
_ 4
n ( n + 1)
∑ i
i =1
m − x ⋅ fi
− 3( n − 1)
2
K = ⋅
(n − 1)(n − 2)(n − 3) s4 (n − 2)(n − 3)
100 x101 1565,85 3x99 2
= x 4
− = 3,6 − 3,09 = 0,51
99 x98 x97 (1,47 ) 98 x97
Este valor de K = 0,51 es mayor que cero, lo que indica una acumulación de valores, es decir que
la distribución es leptocurtica (puntiaguda). Tiene muchos valores concentrados alrededor de la
moda y muy pocos alejados de la misma. Esta interpretación la hemos hecho a efectos prácticos
pero teóricamente tiene ciertas fallas como comentamos en el párrafo siguiente.
Aquí debemos aclarar que el concepto de la curtosis se aplica sólo a distribuciones simétricas y en
este ejemplo, la distribución es sesgada, por lo que la cantidad de la curtosis hay que interpretarla
con mucho cuidado porque los datos no están concentrados alrededor del centro como una
distribución normal.
Para ello calculamos las frecuencias acumuladas (FA) de la tabla original de los datos como se
muestra en la siguiente tabla.
97
Cálculo de la mediana: Buscamos la primera FA que sea mayor que (n+1)/2, es decir, que sea
mayor que 50,5 (marcada en rojo). Así en la segunda clase estará el valor de la mediana y se
denota como la clase medianal. Así para la fórmula: LIm = 2,5, fm=43 y am=3,5-2,5 = 1
Gasto en Número de
Millones de Familias n +1
Bolívares FA − FAant
Me = LI m + 2 ⋅ am
1,5 2,5 17 17 fm
2,5 3,5 43 60
3,5 4,5 15 75 50,5 − 17
= 2,5 + x1 = 3,3
4,5 5,5 11 86 43
5,5 6,5 8 94
6,5 7,5 4 98 Lo que nos dice que el 50% de las familias del
Estado Sucre, tienen gastos mensuales en
7,5 8,5 2 100 alimentos que superan los 3,3 millones de
Totales 100 bolívares.
Sustituyendo en la fórmula:
∆1 26
Mo = LI mo + ⋅ amo = 2,5 + x1 = 3
∆1 + ∆ 2 26 + 28
Es decir que 3 millones de bolívares es el gasto más común entre las familias del estado.
Cálculo del 1er cuartil Q1: El primer cuartil es igual al percentil 25, por lo que usamos la fórmula
para los percentiles con k=25.
k ( n + 1)
− FAant
25,25 − 17
Pk = LI + 100 ⋅ a = 2,5 + x1 = 2,5 + 0,19 = 2,69
f 43
98
El Q1 = 2,69 por lo que el 25% de las familias tienen gastos mensuales en alimentos de a lo sumo
2,69 millones de bolívares.
Cálculo del 3er cuartil Q3: El tercer cuartil es igual al percentil 75, por lo que usamos la fórmula
para los percentiles con k=75.
Buscamos en la tabla la primera FA que sea mayor que 75,75; que resulta ser la correspondiente a
la 4ta clase (fíjese que en 3era clase tiene FA=75 pero debemos buscar la que sea mayor estricto).
Los valores de la fórmula se refieren a la 4ta clase y son LI = 4,5; FAant = 75, f = 11 y a = 1.
k ( n + 1)
− FAant
75,75 − 75
Pk = LI + 100 ⋅ a = 4,5 + x1 = 4,5 + 0,07 = 4,57
f 11
El Q3 = 4,57 por lo que el 75% de las familias tienen gastos mensuales en alimentos de a lo sumo
4,57 millones de bolívares.
También podemos decir que el 25% (100% -75%) de las familias tienen gastos por encima de 4,57
millones de bolívares mensuales en alimentos.
Cálculo del P90 (percentil 90): usamos la fórmula para los percentiles con k=90.
Buscamos en la tabla la primera FA que sea mayor que 90,9; que resulta ser la correspondiente a la
5ta clase. Los valores de la fórmula se refieren a la 5ta clase y son LI = 5,5; FAant = 86, f = 8
y a = 1.
k ( n + 1)
− FAant
90,9 − 86
Pk = LI + 100 ⋅ a = 5,5 + x1 = 5,5 + 0,61 = 6,11
f 8
El P90 = 6,11 por lo que el 90% de las familias tienen gastos mensuales en alimentos de a lo
sumo 6,11 millones de bolívares.
También podemos decir que el 10% (100% -90%) de las familias tienen gastos por encima de 6,11
millones de bolívares mensuales en alimentos.
99
Cálculo de algunas medidas descriptivas por métodos gráficos:
Si una variable pudiese asumir muchos valores, la representación de la proporción del total, menor
o igual que un valor, tendría una forma creciente parecida a la siguiente:
Si en este conjunto de valores se quiere encontrar el percentil 20, la solución gráfica es muy simple
100
Como puede verse, el valor de la variable bajo el cual se encuentra un 20% de los valores, es algo
mayor que 2. Digamos 2,1.
En forma aproximada se podría conocer todos los percentiles usando este tipo de gráfico u ojivas.
101
Cuestionario del Capítulo III:
1era Parte: Verdadero o Falso. Justifique las respuestas falsas
i. Para calcular la mediana se deben conocer todos los valores de la muestra
ii. Cuando la distribución es sesgada (hacia la derecha o hacia la izquierda) es preferible
utilizar la mediana en vez de la media aritmética como medida de centro
iii. Las medidas de tendencia central se utilizan para cuantificar cuán dispersos están los datos
iv. Una medida de la agudeza o apuntamiento de la distribución es el coeficiente de asimetría
de Pearson
v. Cuando los datos están agrupados en intervalos de clases, la media aritmética de los datos
Parte Práctica:
1. En el Departamento de Personal de una fábrica se ha realizado una investigación
estadística en
relación a los salarios en miles de Bolívares percibidos por los trabajadores diariamente. Los
resultados de la misma arrojaron los siguientes valores:
30 40 33 30 34 31 39 38 38 40 39 37 39 32 30 35 40 38 40 36
30 32 35 38 34 38 37 35 35 37 33 37 36 32 36 37 34 36 33 31
35 30 33 39 32 30 39 37 37 34 31 36 38 31 38 36 39 36 35
A partir de dicha información, se pide:
102
a) Calcule la media, moda, mediana y la desviación estándar
b) Agrupe los datos en una tabla de intervalos de clases utilizando el método de Sturges y
luego calcule de nuevo la media, moda, mediana y la desviación estándar. ¿A qué se deben las
diferencias?
2. Para una determinada empresa, los precios de los artículos producidos en un determinado
ejercicio vienen dados por la siguiente distribución:
4. Homero Willis, capitán de un barco pesquero de Salter Path (North Carolina) tiene la creencia
de que la pesca mínima para recuperar la inversión debe ser de 5000 libras por viaje. A
continuación tenemos los datos de una muestra de la pesca de 40 salidas al mar que el barco de
Homero ha hecho recientemente:
6500 6700 3400 3600 2000 5500 6400 6100 3400 8600
7000 5600 4500 8000 5000 4500 6500 7200 4100 7800
4600 8100 6500 9000 4200 4000 5600 7100 4200 7200
4800 7000 7500 6000 5400 3500 3300 8500 8400 4000
a. Calcule la media aritmética, la mediana y la moda
b. Calcule la desviación estándar y el coeficiente de variación
c. ¿Qué pescas del barco de Willis superan el 20%?
103
a) Calcule la Mediana
100%
b) Calcule aprox. Los cuartiles
90% c) Construya la distribución de los
80% datos para calcular la media aritmética
70% y la desviación estándar
60% d) Calcule el coeficiente de
50% Asimetría de Fisher
40%
e) Calcule el coeficiente de
Asimetría de Pearson
30%
f) Calcule el coeficiente de Curtosis
20%
g) Determine el percentil 80 por
10% medio de la Ojiva y por medio de la
0% distribución de los datos en intervalos
1 1,4 1,8 2,2 2,6 3 3,4 3,8 4,2 de clase. Son iguales?
6. Suponga que se administra un test de aptitud a todos los aspirantes a puestos oficiales de una
región. Se elige al azar una muestra de 50 aspirantes y estos son los resultados:
77 44 49 33 38 33 76 55 68 39
29 41 45 32 83 58 73 47 40 26
34 47 66 53 55 58 49 45 61 41
54 50 51 66 80 73 57 61 56 50
38 45 51 44 41 68 45 93 43 12
7. Una empresa constructora tiene 2 secciones A y B. Las distribuciones de ingresos diarios de sus
empleados son los siguientes:
Sección A Sección B
Ingresos ($) Frecuencia Ingresos ($) Frecuencia
[80-100) 30 [60-90) 10
[100-120) 80 [90-120) 20
[120-140) 40 [120-150) 50
[140-160) 10 [150-180) 20
[160-180) 4 [180-210) 15
[180-200) 1 [210-240) 10
[240-270) 4
a) Calcule la media aritmética para ambas secciones y diga en dónde hay mayores ingresos
104
b) Haga lo mismo con la mediana y la moda. Cuál de las medidas de tendencia central
recomienda utilizar en este caso?
c) Calcule la desviación estándar y el coeficiente de variación para ambas secciones. Cuál es
menos dispersa y que significa eso con respecto a la interpretación de la media
aritmética?
d) Calcule los coeficientes de asimetría y comente sobre estos para ambas secciones
e) Construya un diagrama de caja para cada sección pero en un mismo eje y compare los
resultados.
8. Las siguientes medidas corresponden a las alturas de 50 niños.
1,56 1,59 1,63 1,62 1,65 1,61 1,59 1,51 1,62 1,62
1,53 1,49 1,57 1,54 1,53 1,59 1,58 1,57 1,47 1,64
1,55 1,59 1,53 1,56 1,53 1,47 1,57 1,60 1,54 1,56
1,50 1,62 1,59 1,62 1,54 1,68 1,52 1,62 1,59 1,49
1,65 1,53 1,59 1,56 1,54 1,58 1,52 1,63 1,56 1,62
a) Calcule la media aritmética, la mediana y la moda
b) Calcule la desviación estándar y el coeficiente de variación
c) Calcule los coeficientes de asimetría y comente sobre estos
d) Calcule el coeficiente de curtosis y comente sobre el grado de apuntamiento
e) Construya un diagrama de caja y comente sobre él
f) El 85% de los gastos promedios mensuales son mayores de
______________Bs.
9. Los siguientes datos representan los gastos promedios mensuales de 80 familias seleccionadas al
azar en la ciudad. Los datos están dados en millones de Bolívares.
0.8 0.8 0.6 1.0 1.0 1.3 0.6 0.9 0.6 1.3 0.6 0.8 0.7 1.2 1.1 0.7
0.7 0.7 0.5 0.9 1.1 1.5 0.7 1.0 0.5 1.5 0.7 0.7 0.6 1.3 1.2 0.6
0.7 0.6 0.6 0.8 0.5 1.5 0.6 1.1 0.6 1.5 0.6 0.6 0.5 1.0 0.5 0.6
0.6 0.5 0.7 0.9 1.0 1.4 0.6 1.2 0.7 1.4 0.6 0.5 0.6 1.5 0.6 0.5
0.5 0.6 0.7 1.2 1.2 1.0 0.8 1.1 0.7 1.0 0.8 0.6 0.7 1.4 0.6 0.8
105
11. En dos empresas se dan las siguientes distribuciones de salarios mensuales para sus
trabajadores (en Miles de Bolívares):
EMPRESA A EMPRESA B
Salarios N° empleados Salarios N° empleados
900 10 1000 10
1000 15 1100 15
1100 40 1200 40
1200 25 1300 25
1300 10 1400 10
En función a tales distribuciones, responda a las siguientes preguntas:
a) Calcule los salarios medios.
b) ¿Cuál de las dos tiene menor dispersión? ¿Para qué empresa resulta más representativo el
salario
medio?
c) ¿Cuál de las dos empresas se encuentra con una distribución de los salarios más
equitativa?
13. Los operarios de una determinada sección de una empresa recibieron durante el pasado
año un salario de 12.000 (por mil Bolívares) fijos, más un adicional de 8 (mil Bs.) por hora extra
trabajada. Para tal ejercicio, se conoce que la distribución del número de horas extras realizadas
por tales empleados fue la siguiente:
106
14. La tabla adjunta muestra el salario mensual de los 720 trabajadores de una empresa para el
pasado año:
Salarios (en miles de Bs.) 720 830 950 1.100 1.200 1.350
N° trabajadores 300 200 100 60 40 20
15. Dos empresas del mismo grupo y pertenecientes al mismo sector productivo, pero ubicadas
en regiones distintas, han manifestado a la dirección general de la compañía su descontento por
las retribuciones salariales que están percibiendo. La empresa localizada en la región 2 manifiesta
que su salario medio es inferior al de la que está en la región 1, argumentando además que la
dispersión en sus salarios es menor, a pesar de que el sueldo máximo que se pueda percibir en
esta empresa supere al sueldo máximo de la empresa ubicada en la región 1. Además, argumentan
que la productividad media por empleado para el conjunto de la empresa supera a la de la
región 1, siendo igual dicha productividad por empleado para cada una de las categorías en que
se considera dividida la empresa. Conocemos la siguiente información acerca de las dos empresas
en conflicto:
Empresa ubicada en Región 1 Empresa ubicada en Región 2
Categoría Salario N° Productividad Salario N° Productividad
Laboral Mensual Empleados por mes y Mensual Empleados por mes y
(103 Bs) empleado (103 Bs) empleado
107
cifras
alcanzadas, confirme o deniegue los argumentos dados por la empresa de la región 2.
b) Determine para la empresa ubicada en la región 1 el salario cobrado por un mayor
número de trabajadores
17. A partir de los datos sobre el paro registrado en la comunidad autónoma de Andalucía en
1997 que aparecen en la siguiente tabla, responda a las cuestionen que se relacionan a
continuación.
108
Rango de edad (años) N° personas (miles)
(18,20] 35.100
(20,25] 71.100
(25,55] 304.900
(55,65] 32.400
a) ¿A qué edad el número de parados es mayor?
b) Calcula la dispersión relativa de la edad de los parados.
c) El 90 % de los parados tiene por lo menos una edad de ____?
d) Se pretende establecer una política laboral que potencie la contratación de los
parados en
función de su edad. Para ello, se establece una subvención en dinero (en pesetas)
para las
contrataciones que se realicen, según la cual, el dinero que recibiría la empresa sería
igual al
producto entre la edad del trabajador y la constante 369.230. No obstante, y en
función de las disponibilidades presupuestarias, no se podría subvencionar cualquier
número de contrataciones, por lo que se proponen dos tipos de políticas de subvenciones
alternativas:
i) La subvención sólo se aplicaría a las 5.000 primeras contrataciones que se realicen en
cada
rango de edad, ii) La subvención sólo se aplicaría al 25 % de las primeras
contrataciones que se realicen en cada rango de edad.
¿Cuál sería la subvención media otorgada si se aplicase la primera política de subvenciones y
si se aplicase la segunda?
109
tipo
de hipótesis para poder llegar a calcular tal cifra, indicando la misma.
c) ¿Cuál es el número medio de conexiones establecidas por un usuario? ¿Considera tal
media
como representativa? Razone su respuesta.
d) Si se quisiera primar al 20 % de los clientes que realizan un mayor número de
conexiones
rebajando el precio pagado por aquellos, ¿a partir de qué número de conexiones al
mes se
establecería el precio más reducido?
e) A fin de incentivar el hábito de conexión a Internet, se ha planteado una oferta para el
próximo
mes mediante la cual cualquier conexión se facturará a 75 Bs. De los estudios realizados
por la compañía derivados del número de contrataciones realizadas, del historial de
conexiones efectuadas, y de su experiencia en otros países, se prevé un crecimiento del 90 %
en las conexiones realizadas en julio respecto de las computadas para el mes de mayo,
manteniéndose la estructura de la distribución de frecuencias de ese mes. Desde estas
previsiones, ¿cuál sería la nueva media de
conexiones? ¿Cuáles serían los ingresos totales de la compañía por este concepto? Razone
sus
respuestas.
19. En una empresa dedicada al envío a domicilio de comida preparada, se han recogido, durante
las últimas semanas, datos de los pedidos, tomando nota de sus correspondientes precios,
obteniéndose la siguiente distribución:
110
20. Una empresa proveedora de servicios de acceso a Internet tiene una cartera de 1900 clientes en
una zona geográfica. Las edades de estos clientes están recogidas en la siguiente tabla, en donde
figuran los porcentajes acumulados referentes a cada intervalo de edad:
Edad %A
(18,25] 17
(25,35] 45
(35,50] 77
(50,70] 100
21. Las ventas mensuales (en 102 litros) de una conocida marca de refrescos en los diversos
establecimientos en que se vende en una determinada zona geográfica, se recogen en una
variable estadística, cuya tabla de frecuencias se especifica a continuación:
Ventas N° establecimientos
(20 , 22] 24
(22 , 25] 30
(25 , 30] 35
(30 , ?] 22
a) Se sabe que la media aritmética de las ventas, calculada a través de las correspondientes
marcas
de clase, se situó, para esta distribución, en los 2650 litros. ¿ Cuánto vale el último límite
superior de la tabla?
b) A partir de la información suministrada en la parte (a). Cuantifique el grado de dispersión
relativa.
c) Construya un diagrama de caja o Boxplot y comente sobre la simetría de la distribución
d) Se conoce que, por cada grado más de temperatura media diaria, se incrementaría un 5
% el consumo de estos refrescos. ¿Cómo afectaría tal subida a la media, dispersión
relativa?
111
22. En una zona de una ciudad se ha efectuado un estudio estadístico sobre la variable
"número de automóviles por vivienda ocupada". Los datos del estudio se han recogido en la
siguiente tabla:
Automóviles 0 1 2 4
N° de viviendas 5 10 5 2
Con esta información, analice las siguientes cuestiones:
a) ¿Qué número medio de automóviles por vivienda hay en esa zona? ¿Considera esta
media
representativa? Razone su respuesta.
b) Represente gráficamente el diagrama acumulativo de frecuencias y señale en el mismo
la
posición exacta de la mediana de la variable.
c) ¿Considera que el número de automóviles está repartido de forma uniforme entre
las
viviendas? Cuantifique su respuesta y explique su significado.
d) Cuantifique la curtosis de esta distribución de frecuencias y explique su significado para
este
caso.
23. La distribución de frecuencia siguiente, representa los pesos en kilogramos de una muestra de
paquetes transportados por una compañía aérea:
Pesos ( Kg) fi
[10-11) 1
[11-12) 4
[12-13) 6
[13-14) 8
[14-15) 12
[15-16) 11
[16-17) 8
[17-18) 7
[18-19) 6
[19-20) 2
a) Calcule la media aritmética, la mediana y la moda
b) Calcule la desviación estándar y el coeficiente de variación
c) Calcule los coeficientes de asimetría y comente sobre estos
d) Calcule el coeficiente de curtosis y comente sobre el grado de apuntamiento
e) Construya un diagrama de caja y comente sobre él
f) El 70% de los paquetes pesan más de ______________Bs.
g) El 40% de los paquetes pesan a lo sumo ___________Bs
h) Calcule el intervalo de 89% que según el teorema de Chebyshev contiene los
valores centrales de la distribución
112
24. En las siguientes tablas se registran los sueldos quincenales (en miles) de 50 obreros de dos
fábricas.
Fábrica A Fábrica B
Sueldo % Sueldo %
113
Capítulo IV
“Los planes corresponden al hombre,
las probabilidades a Dios.”
Proverbio chino
TEORIA DE PROBABILIDAD
En los capítulos anteriores el enfoque consistía en describir las propiedades principales de una
muestra por métodos numéricos y gráficos, es decir, hemos estado haciendo lo que llamamos
estadística descriptiva; en algunos casos se está interesado en conocer el comportamiento futuro
de cierto proceso o experimento, por ejemplo queremos saber cuál es la posibilidad de que una
semilla después de ser plantada germine, es claro que en ese escenario la incertidumbre juega un
papel fundamental, no sabemos a priori si la semilla germinará, pero en base a experiencias
anteriores podemos asignarle una probabilidad de que germine. Este es el caso de la estadística
inferencial o inductiva, está totalmente relacionada con los conceptos de incertidumbre y de
probabilidad.
Economía y ciencias actuariales en el estudio de los riesgos que existen al vender una
póliza de seguro.
En la vida cotidiana cuando escuchamos la predicción del estado del tiempo tomamos
nuestras precauciones.
En las industrias de productos electrónicos se basan en el tiempo de vida promedio de los
componentes del artefacto para ofrecerle al cliente un período de garantía.
Introducción a la teoría de probabilidad
En general la probabilidad es la posibilidad de que algo pase. Las probabilidades se expresan
como fracciones o números que están entre 0 y 1. Tener una probabilidad de cero de un evento
significa que ese evento nunca va a suceder y tener una probabilidad de uno de un evento significa
que ese evento siempre sucede.
Conceptos Relacionados
Experimento Aleatorio
Un experimento es un proceso que lleva a la ocurrencia o resulta en una observación.
114
Todo experimento debe ser susceptible de repeticiones conservando las mismas condiciones con
las cuales se realizó su antecesor. Esto es, el investigador debe fijar esas condiciones, bajo las
cuales se realizarán las sucesivas repeticiones del experimento y conservarlas en cada una de las
réplicas, de tal manera que sus inferencias resulten lo más fiables posible. Sin embargo en los
experimentos aleatorios, aun así no siempre se obtienen los mismos resultados, pues a veces
participan factores incontrolables que aparentemente no obedecen a ninguna causa natural, ni
intervención humana intencionada y que denominamos Azar o casualidad.
Experimento determinístico es aquel en el cual, bajo las mismas condiciones experimentales, las
repeticiones del experimento absolutamente todas, siempre producen el mismo resultado.
Como ejemplo, tenemos que un objeto de cualquier masa partiendo de un estado inicial de
reposo, y dejado caer al vacío desde una torre de altura h, llega siempre al suelo con la misma
velocidad: v = 2 gh .
El experimento Aleatorio, conservando las mismas condiciones experimentales, los resultados
no se pueden predecir, con exactitud, para ninguna repetición.
Sí, por ejemplo lanzamos una moneda al aire para observar de cual lado cae, no podemos
pronosticar con certeza, si se presenta sello o se presenta cara. Tenemos entonces presente el
componente del azar y por consiguiente un experimento aleatorio. No ocurriría igual si la moneda
estuviese diseñada igual por ambos lados y por consiguiente sería un experimento determinístico.
Otros ejemplos de experimentos aleatorios son:
a.- Se lanza una moneda cinco veces y se cuenta cuantas veces salió cara
b.- Medir la resistencia a la tensión de una cabilla.
c.- Se mide el tiempo de vida útil de una bombilla
7.1.2 Eventos.
Cualquier subconjunto del espacio muestral se le denomina suceso o evento aleatorio y lo
denotaremos con “E”, o cualquier letra A, B, C, D. Cada uno de los elementos del espacio
muestral se denomina evento elemental “e”.
Operaciones sobre Eventos:
115
• Sucesos complementarios o contrarios. Dos sucesos son complementarios cuando son
mutuamente excluyentes y su unión conforma: el espacio muestral.
o Si A y B son complementarios entonces debe ocurrir que A ∩ B = Ø y que A
UB=S
• Si E es un evento seguro, entonces E=S
Ejemplos:
En el experimento lanzar un dado S ={1,2,3,4,5,6}:
- “sale un número par” es A={2,4,6}
- “sale un número mayor que 3” es B={4,5,6}
- “sale un número impar” es C={1,3,5}
- “A y B” = A ∩ B ={4,6}
- “A o B”= A U B = {2,4,5,6}
- “A y C” es imposible luego A y C son sucesos incompatibles.
Propiedades de los Eventos
En general, los sucesos o eventos, tienen las mismas propiedades de los conjuntos.
Leyes de Morgan
Si representamos por A el evento complemento de A. En algunos libros se denota el
complemento de A como Ac.
116
• El complemento de la unión de dos sucesos es la intersección de sus complementos:
( A U B) = A I B
• El complemento de la intersección de dos sucesos es la unión de sus complementos:
( A I B) = A U B
Ejemplo:
Experimento: Lanzamos una moneda para observar, si cae del lado de cara o del lado de sello.
• Espacio muestral
• Eventos elementales E1 = {c } , E2 = {s }
• Evento seguro
• Evento imposible
• E1 y E2 son eventos excluyentes.
Ejemplo:
Lanzar un par de dados, marcados c/u con los números 1,2,3,4,5 y 6
Espacio muestral
117
E1: La diferencia absoluta entre sus componentes sea igual a 0
Definición de Probabilidad
Los eventos aleatorios no son predecibles con absoluta certeza, no obstante podemos medir el
grado de confianza con que se hace un pronóstico, sobre la ocurrencia o no de un determinado
suceso.
Clasificación
Existen tres maneras básicas de clasificar la probabilidad. Estas tres formas representan
planteamientos conceptuales bastante diferentes para el estudio de la teoría de la probabilidad; de
hecho, los expertos no se ponen de acuerdo sobre cuál planteamiento es el más apropiado para
utilizar. Empecemos definiendo el planteamiento:
a. Clásico
b. Frecuentísta
c. Subjetivo
Para aplicar esta definición se supone que los sucesos elementales son equiprobables. Esto es que
cada posible evento elemental e tenga la misma posibilidad de ocurrir que cualquier otro evento
elemental del espacio muestral.
La probabilidad clásica también se le conoce como probabilidad a priori, debido a que las
probabilidades pueden ser calculadas antes de efectuar el experimento. Si un experimento tiene
una cantidad finita de posibles resultados, y cada uno de los resultados es equiprobable, entonces
118
se pueden calcular las probabilidades a priori antes de realizar el experimento. Piense en lanzar un
dado normal de seis caras, ¿Cuál es la probabilidad de que salga un número mayor que cuatro?
En este caso S = {1, 2, 3, 4, 5, 6} , el evento A = {"sale mayor que 4"} = {5, 6}
consta de 2 elementos, y el espacio muestral S tiene 6 elementos, por lo tanto la
2 1
P( A ) = = .
6 3
Este planteamiento clásico es muy útil cuando calculamos probabilidades asociadas a objetos
como monedas, dados, bolas, canicas, cartas, etc., pero tiene serios problemas cuando tratamos de
aplicarlos a situaciones de toma de decisiones en áreas socio-humanísticas como la gerencia,
administración y hasta en la economía. El problema radica en que la teoría clásica se desestima la
probabilidad de que ocurran eventos como por ejemplo que al lanzar la moneda esta caiga de
canto, o que al realizar el experimento ocurra un terremoto y afecte el resultado. Claramente estas
situaciones son poco probables pero no son imposibles. Sin embargo estas situaciones poco
probables no existen en el planteamiento clásico. Además la teoría clásica supone una especie de
simetría en el mundo al indicar que los eventos elementales en un espacio muestral son
equiprobables, en el mundo real las situaciones pueden ser distintas y esto genera la necesidad de
plantearse otros conceptos de probabilidad.
Teóricamente está sustentada en una ley, La Ley de los grandes números, que indica que la
frecuencia relativa de un suceso tiende a estabilizarse en torno a un número, a medida que el
número de pruebas del experimento crece indefinidamente. Este número lo llamaremos
probabilidad de un suceso.
Por medio de un computador se puede simular la frecuencia de salidas “cara” cuando lanzamos
una moneda repetidamente 300 veces, el resultado se muestra en la gráfica. Asintóticamente la
frecuencia relativa de que salga cara es igual a 0.5.
119
1
0.5
0.25
0
0 50 100 150 200 250 300
Número de Lanzamientos
c. Teoría Subjetiva
Las probabilidades subjetivas están basadas en la creencia de las personas que efectúan la
estimación de la probabilidad. El individuo de acuerdo a la información que tenga disponible le
asigna una probabilidad a un evento. Esta evidencia puede presentarse por la frecuencia relativa
histórica de un evento o por la creencia personal (conocimiento de experto) meditada.
120
Las asignaciones de probabilidad subjetiva se presentan con más frecuencia cuando los eventos se
dan sólo una vez o un número reducido de veces. Por ejemplo si usted tiene la tarea
encomendada de elegir un nuevo personal para cargo de gerente de ventas de una empresa y tiene
a su disposición sólo tres candidatos que desde todo punto de vista tienen credenciales
equivalentes, buena apariencia, alto nivel de actividad, bastante confianza en sí mismos. ¿Cuáles
son las probabilidades de que los candidatos se relacionen exitosamente con los clientes? El
responder a esta pregunta requiere que usted asigne una probabilidad subjetiva al potencial de
cada uno de los candidatos que solicitan el puesto.
Como casi todas las decisiones sociales y administrativas de alto nivel se refieren a situaciones
específicas y únicas, más que a una larga serie de situaciones idénticas, los responsables de tomar
las decisiones en este nivel hacen uso considerable de la probabilidad subjetiva.
121
Diagramas de Venn para Eventos incompatibles, compatibles, complementarios y contenidos uno
en el otro.
Ejemplos:
En el ejemplo del lanzamiento de dos dados si el evento A consiste en que la suma sea mayor que
5 pero menor que 10.
122
Por otro la probabilidad de que ocurra A o B, se calcula:
Ejemplo
Si A y B son dos sucesos tales que:
Ejemplo:
Una experiencia aleatoria consiste en preguntar a tres personas distintas, elegidas al azar, si son
partidarias o no de consumir un determinado producto.
a) Escribe el espacio muestral asociado a dicho experimento, utilizando la letra "s" para las
respuestas afirmativas y "n" para las negativas.
b) ¿Qué elementos del espacio muestral anterior constituyen el suceso " al menos dos de las
personas son partidarias de consumir el producto"?
c) Describe el suceso contrario de "más de una persona es partidaria de consumir el producto"
123
Halle usted mismo P(A) y P( B ).
NOCIONES DE CONTEO
7.3.1 Teorema de la probabilidad completa o teorema de la O
Si un suceso A puede ocurrir de n maneras y otro suceso B puede ocurrir m maneras, entonces el
suceso A ó B (Sucede el evento A ó sucede el evento B) puede ocurrir de n+m formas, siempre y
cuando los eventos no puedan suceder simultáneamente.
Ejemplo:
En el lanzamiento de un dado, de cuantas maneras se puede obtener un número inferior a 2 o
mayor que 4?
A: (número inferior a 2) sucede solo de una manera.
B : (número superior a 4), sucede de dos maneras
A ó B (número inferior a 2 o superior a 4) sucede de 1+2=3 maneras.
124
Ejemplo: Una máquina automática llena bolsas de caraotas. La mayoría de las
bolsas tienen el peso correcto, pero debido a las pequeñas variaciones en los
tamaños de los frijoles, algunas bolsas pueden tener un peso ligeramente mayor
o menor. Una revisión de 4000 paquetes llenados el mes pasado reveló:
Peso Evento Número de Probabilidad
Paquetes de ocurrencia
Peso más bajo A 100 0.025
Peso correcto B 3.600 0.90
Peso más alto C 300 0.075
4.000 1.00
¿Cuál es la probabilidad de que un paquete determinado tenga un peso no correcto (más bajo o
más alto)?
P ( A o B ) = P ( A U B ) = P ( A ) + P ( B ) = 0.025 + 0.075 = 0.1
Observe que los eventos son mutuamente excluyentes, es decir, los paquetes no pueden al mismo
tiempo tener más peso que el correcto y menos peso que el correcto.
1! = 1
2! = 2 1 = 2
3! = 3 2 1 = 6
4! = 4 3 2 1 = 24
5! = 5 4 3 2 1 = 120
6! = 6 5 4 3 2 1 = 720.
. . . . . .
125
y en general, n!(n – 1)(n – 2) 3 2 1. Del mismo modo, para que varias fórmulas sean más
aplicables generalmente, determinamos que por definición 0! = 1.
Ejemplo:
Cuántas palabras diferentes se pueden formar con las letras n, l, o, e; así no tengan sentido?
nloe, nleo, nelo, neol, nole noel, lnoe, lneo, leno, leon, lone, loen, elon, elno, enlo, enol, eoln, eonl,
olne, olen, oeln, oenl, onle, onel.
Ejemplo:
¿De cuántas maneras distintas se pueden asignar a diez profesores las diez secciones de un curso
de economía?
Sustituyendo n = 10,
P = 10! = 3,628,800
10 10
obtenemos
Variaciones
A cada uno de los arreglos de r elementos obtenidos de un grupo de n elementos , cuya
diferenciación mutua se deba a los elementos ó el orden de colocación, se le denomina variación.
El número total de variaciones se representa por:
Ejemplo:
Cuántos números de tres cifras se pueden construir con los dígitos 1,2,3,4,5,6,7,8,9,0 si ninguno se
puede repetir
Combinaciones
A cada uno de los arreglos de r elementos obtenidos de un grupo de n elementos , cuya
diferenciación mutua se deba a los elementos sin importar el orden de colocación de ellos, se le
denomina combinación. El número total de combinaciones se representa por:
Ejemplo:
De cuántas maneras se puede escoger un comité o equipo de 4 hombres de un grupo de 8?
126
Ejemplo (parte 1):
De entre 10 empleados se debe seleccionar 3 para viajar a tres plantas: A, B y C, fuera de la
ciudad. Cada empleado irá a una planta. Como las plantas están en distintas ciudades, es
importante el orden de asignación de los empleados a las plantas. ¿De cuántos modos se puede
hacer la selección?
Este es un ejemplo de variaciones debido a que importa el orden de selección,
Ejemplo:
¿Cuántas palabras diferentes, aun sin significado, se pueden formar con las letras de la palabra
amorosos?
Ejemplo:
¿Cuantos números de cuatro cifras existen?
127
Combinaciones con repetición:
Para calcular el número de combinaciones con repetición se aplica la siguiente fórmula:
Ejemplo:
C'10,4 son las combinaciones de 10 elementos con repetición, agrupándolos en subgrupos de 4, en
los que 2, 3 o los 4 elementos podrían estar repetidos:
EJERCICIOS PROPUESTOS
1. ¿De cuántas maneras se pueden colocar dos anillos diferentes en la misma mano, de modo que
no estén en el mismo dedo?
2. Al lanzar cinco dados de distintos colores ¿cuántos resultados podemos obtener?
3. Con los números 1,2,3,4,5 y 6:
3.1 ¿Cuántos números distintos de siete cifras podríamos formar?
3.2 ¿Podremos numerar a los 3224564 habitantes de una ciudad con esos números?
4. Se lanzan al aire uno tras otro cinco dados equilibrados de seis caras. ¿Cuál es el número de
casos posibles?
5. ¿Cuántos números de seis cifras existen que estén formados por cuatro números dos y por dos
números tres?
6. Lola tiene 25 bolitas (10 rojas, 8 azules y 7 blancas) para hacerse un collar. Engarzando las 25
bolitas en un hilo, ¿cuántos collares distintos podrá realizar?
7. ¿Cuántas palabras distintas, con o sin sentido, podremos formar con las letras de la palabra
educación? ¿y con la palabra vacaciones?
8. Un grupo de amigos formado por Raúl, Sonia, Ricardo y Carmen organizan una fiesta,
acuerdan que dos de ellos se encargarán de comprar la comida y las bebidas ¿De cuántas formas
posibles puede estar compuesta la pareja encargada de dicha misión?
9. Una fábrica de helados dispone de cinco sabores distintos (vainilla, chocolate, nata, fresa y
cola) y quiere hacer helados de dos sabores ¿Cuántos tipos de helado podrán fabricar?
10. Un grupo de amigos y amigas se encuentran y se dan un beso para saludarse. Si se han dado
en total 21 besos, ¿cuántas personas había?
11. En una carrera de 500 metros participan doce corredores ¿De cuántas maneras pueden
adjudicarse las medallas de oro, plata, bronce?
12. ¿De cuántas formas pueden cubrirse los cargos de presidente, vicepresidente, secretario y
tesorero de un club deportivo sabiendo que hay 14 candidatos?
128
En un concurso de televisión, se dispone de 20 coches, para premiar al concursante, de las marcas
y colores que se indican en la siguiente tabla:
Rojo Azul Totales
SEAT Cordoba 2 8 10
SEAT Toledo 7 3 10
Totales 9 11 20
Los coches están colocados aleatoriamente, tras 20 puertas, de forma que el concursante no ve el
coche que hay detrás de cada puerta.
El concursante elige un número, entre 1 y 20, y si acierta el modelo y el color del coche que hay
en la puerta elegida, gana, en caso contrario pierde.
El concurso lo podemos considerar como un experimento aleatorio. Cada resultado es el coche
elegido.
Para describir fácilmente todo el proceso vamos a considerar:
Suceso C : El coche es un Seat Cordoba
Suceso T : El coche es un Seat Toledo
Suceso R : El coche es de color rojo
Suceso A : El coche es de color azul
Así el suceso: "Seat Toledo de color rojo" lo representamos por: T ∩ R y la probabilidad de este
suceso, sigue de la tabla :
Rojo Azul Totales
Seat Cordoba 2 8 10
Seat Toledo 7 3 10
Totales 9 11 20
P( T ∩ R ) = 7/20
P(T)=10/20 = 1/2
¿Qué ocurre si, una vez que el concursante ha elegido puerta, el presentador, le da la pista de que
el coche que hay tras la puerta es rojo?. Tendremos que cambiar la probabilidad al suceso T y al
suceso C. A la probabilidad del suceso T cuando se sabe que ha ocurrido R, le llamamos
probabilidad condicionada de T, sabiendo que ha ocurrido R y escribimos:
129
P(T/R)
Para asignar las nuevas probabilidades hemos de ser consecuentes con las propiedades que debe
cumplir toda asignación de probabilidades. El nuevo espacio muestral es el señalado en rojo en la
tabla siguiente. Por tanto asignamos así las probabilidades:
Rojo Azul Totales
SEAT Cordoba 2 8 10
SEAT Toledo 7 3 10
Totales 9 11 20
Consideremos ahora el siguiente experimento : Dos urnas, A y B ,la urna A, contiene 3 bolas
verdes y 2 bolas rojas, la urna B contiene 2 bolas verdes y 3 bolas rojas.
Cada flecha del diagrama se denomina rama del árbol; a cada rama, asignamos la probabilidad que
le corresponde. Un recorrido, desde el comienzo del experimento hasta el final, se llama un
camino.
130
Si sabemos que ha ocurrido el suceso A, tenemos que volver a asignar probabilidades a los
distintos caminos; todos los caminos que comienzan por el suceso B, tendrán probabilidad 0 y los
que empiezan por el suceso A:
Hay que aceptar por tanto las mismas relaciones entre probabilidades a las que habíamos llegado
en el experimento anterior:
A B
a b c
b b+c b
p(A ∩ B) = p(B) = p(A/B) =
a+b+c a+b+c b+c
131
Generalizando: p(A ∩ B ∩ C) = p(A) p(B/A) p(C/A ∩ B)
Ejemplo:
Durante un estudio sobre accidentes automovilísticos, se encontró que 60% de los accidentes
suceden de noche, 52% están relacionados con conductores alcoholizados y 37% se presentan de
noche y además con conductores ebrios.
a) ¿Cuál es la probabilidad de que un accidente esté relacionado con un conductor
ebrio, dado que sucedió de noche?
b) ¿Cuál es la probabilidad de que un accidente haya ocurrido de noche si se sabe que
el conductor estaba ebrio?
• Denotemos A y B los siguientes eventos:
• A=El accidente sucede de noche
• B=El accidente está relacionado con un conductor alcoholizado
• P(A)= 0.60
• P(B) = 0.52
• P(A∩B) = 0.37
P ( A I B ) 0.37
a) P ( B | A ) = = = 0.62
P( A ) 0.60
P ( A I B ) 0.37
b) P ( A | B ) = = = 0.71
P( B ) 0.52
Note que no necesariamente P(A|B) = P(B|A)
Sucesos independientes: dos sucesos A y B se dice que son independientes si P(A) = P(A|B) .
En caso contrario, p(A) ≠ p(A|B), se dice que son dependientes.
Ejemplo: si al extraer dos cartas de una baraja lo hacemos con devolución tendremos dos sucesos
independientes, p(A ∩ B) = p(A) p(B) pero si lo hacemos sin devolución ahora si son
dependientes p(A ∩ B) = p(A) p(B|A).
Para que dos sucesos sean independientes tienen que verificar al menos una de las siguientes
condiciones:
P (B/A) = P (B) es decir, que la probabilidad de que se de el suceso B,
condicionada a que previamente se haya dado el suceso A, es exactamente igual a
la probabilidad de B.
P (A/B) = P (A) es decir, que la probabilidad de que se de el suceso A,
condicionada a que previamente se haya dado el suceso B, es exactamente igual a
la probabilidad de A.
P (A ∩ B) = P (A) * P (B) es decir, que la probabilidad de que se de el suceso
conjunto A y B es exactamente igual a la probabilidad del suceso A multiplicada
por la probabilidad del suceso B.
132
Si el suceso A es independiente del suceso B, entonces el suceso B también es independiente del
suceso A.
Ejercicio:
El propietario de una tienda de música sabe que el 30% de sus clientes pide ayuda a los empleados
y que el 20% hace una compra antes de abandonar el local. Además sabe que el 15% de los
clientes pide ayuda y hace una compra.
Responde a las siguientes preguntas y justifica tus respuestas en términos de probabilidades de los
sucesos relevantes.
a) ¿Cuál es la probabilidad de que un cliente haga al menos una de estas dos cosas? Resp.
0.35
b) ¿Son los dos sucesos mutuamente excluyentes? Resp. No
c) ¿Son los dos sucesos colectivamente exhaustivos? Resp. No
d) ¿Son los dos sucesos independientes estadísticamente? Resp. No
Existen tres tipos de probabilidades que se pueden encontrar cuando estamos tomando
en cuenta más de un evento, digamos eventos A y B:
133
otro evento B.
Conjunta es la probabilidad de que los dos eventos se presenten, es P( A I B )
decir que A y B ocurran juntos.
Condicional es la probabilidad de que un segundo evento A se P( A B )
presente si se conoce que ya ha ocurrido el evento B.
Una tabla de distribución de frecuencias conjuntas o cruzadas es aquella en donde se disponen los
resultados de dos variables, los resultados de una variable se colocan en columnas y los de la otra
en renglones.
Ejemplo:
A 100 empleados de una empresa se les hizo un examen de aprovechamiento para medir la
destreza en una tarea. Cuarenta de los empleados eran hombres. Sesenta de los empleados
pasaron el examen porque alcanzaron una calificación mayor que cierto nivel predeterminado de
aprovechamiento. La clasificación entre hombres y mujeres fue la siguiente:
Hombres (H) Mujeres (M)
Aprobaron el Examen (A) 24 36
No Aprobaron el Examen (NA) 16 24
Suponga que se selecciona al azar un empleado de los 100 que hicieron el examen:
a) Calcular la probabilidad de que el empleado haya pasado el examen
b) Calcular la probabilidad de que el empleado sea hombre dado que aprobó el
examen
c) Calcular la probabilidad de que sea mujer y haya aprobado el examen
d) ¿Son independientes los eventos A=”Aprobó el examen” y H=”Es hombre”?
e) ¿Son independientes los eventos A=”Aprobó el examen” y M=”Es mujer”?
Calculamos la tabla conjunta de probabilidades con respecto al total de los 100 empleados
134
(e) ¿Son independientes los eventos A=”Aprobó el examen” y M=”Es mujer”? Primero
calculemos P(A∩M)=0.36, y como P(A)= 0.60 y P(M)=0.60 de los cálculos de
marginales, tenemos que P(A∩M)= P(A).P(M), es decir, que A y M son
independientes.
1. A1 ∪ A2 ∪ A3 ∪ ...... ∪ An = S
Teorema de la probabilidad total: sea un sistema completo de sucesos y sea un suceso B tal que
p(B/Ai) son conocidas , entonces :
p(B) = p(B ∩ A1) + p(B ∩ A2) + .........= p(B ∩ A i ) ∑
A1 A2 A3 A4
B
B B
P ( Ai ) P ( B | Ai )
P( Ai / B ) =
P ( A1 ) P ( B | A1 ) + P ( A2 ) P ( B | A2 ) + .... + P ( An ) P ( B | An )
135
Ejemplo
Se va ha realizar el siguiente experimento , se tira una moneda , si sale cara se saca una bola de una
urna en la que hay 4 bolas negras , 3 rojas y 3 amarillas , si sale sello se saca una bola de otra urna
en la que hay 5 bolas negras , 2 rojas y 3 amarillas.
a.- Calcular la probabilidad de que la bola extraída sea Negra.
b.- Calcular la probabilidad de que halla salido Cara, dado que la bola que se extrajo era Negra
Definamos los siguientes eventos:
C=”Sale Cara”
S=”Sale Sello”
N=”La bola es Negra”
R=”La bola es Roja”
A=”La bola es Amarilla”
El espacio muestral se puede describir de la siguiente manera:
NNNN
RRR
C ---------------------- AAA
S ---------------------- NNNNN
RR
AAA
El Arbol de probabilidades en este caso es:
a. Si vamos extrayendo tornillos, uno tras otro, hasta localizar los dos defectuosos, ¿cuál es la
probabilidad de necesitar exactamente tres extracciones para localizarlos?.
b. Si extraemos dos tornillos, y el segundo ha resultado ser defectuoso, ¿cuál es la
probabilidad de que el primero también lo haya sido?.
136
137
Ejemplo
El 10% de las personas de una población padecen una enfermedad. Para detectarla se hace una
prueba que da positivo el 95% de las veces que se hace a alguien que padece la enfermedad. El 1%
de los pacientes sanos también da positivo en la prueba.
Es decir:
P ( padecer ) = 0,1
(
P padecer positivo = ) P ( padecer y positivo)
P( positivo)
=
Ejemplo:
En la economía de un país hay 4 sectores (Transporte, Comercios, Salud y Educación) B1, B2, B3 y
B4. Sea el suceso S “estar en paro”. La probabilidad de que una persona esté en paro en cada uno
de los sectores será:
P( S B1 ) = 0,05 P( S B2 ) = 0,01 P( S B3 ) = 0,02 P( S B4 ) = 0,1
De los trabajadores de esa economía la mitad pertenecen a B1 y el resto se reparten por igual entre
los otros tres, es decir:
P( B1 ) = 0,5 P( B2 ) = 0,16 P( B3 ) = 0,16 P( B4 ) = 0,16
La probabilidad de estar en paro de una persona escogida al azar será:
138
4
P( S ) = ∑ P(S Bi )P( Bi ) =
i =1
P ( Bi ) P( S | Bi )
P( Bi |S ) =
P ( B1 ) P( S | B1 ) + P( B2 ) P ( S | B2 ) + .... + P ( Bn ) P ( S | Bn )
Así ¿Cuál es la probabilidad de que una persona que esté en paro pertenezca al sector 1, es decir,
(
P B1 S ? )
0, 05 × 0, 5 0.025
P ( B1 S ) = = = 0, 5458
0, 05 × 0, 5 + 0, 01 × 0,16 + 0, 02 × 0,16 + 0,1 × 0,16 0.0458
139
Cuestionario del Capítulo IV:
PROBABILIDADES:
1. Colgate de Venezuela envió por accidente tres cepillos dentales eléctricos defectuosos a
una farmacia, junto con 17 cepillos buenos.
a. Cuál es la probabilidad de que los dos primeros cepillos que se vendan en la
farmacia estén defectuosos
b. Cuál es la probabilidad de que por lo menos uno de los tres primeros cepillos que
se vendan esté defectuoso
2. Sean A y B dos sucesos tales que: P(AUB)= ¾, P ( A) = 2 , P ( A ∩ B ) = 1 . Hallar P(A),
3 4
P(B) y P ( A ∩ B )
3. La probabilidad de que las acciones de una empresa financiera coticen al alza es 0.8,
mientras que esa probabilidad para una empresa del sector nuevas tecnologías es 0.4. A su
vez, la probabilidad de que las dos coticen al alza es 0.3.Obtenga las siguientes
probabilidades: a) que coticen al alza al menos una de las dos empresas; b) que ninguna de
las dos cotice al alza; c) que solo cotice una al alza.
4. La probabilidad de que un estudiante A apruebe un examen de Estadística es de 0.8; la de
otro estudiante B es 0.4; y la probabilidad de que aprueben los dos es de 0.3. Calcule la
probabilidad de los siguientes sucesos:
a. Al menos uno de los dos aprueba el examen.
b. Ninguno aprueba el examen.
c. Sólo uno aprueba el examen.
5. Una empresa vende sus productos en tres ciudades. Los porcentajes de venta son: 50% en
A, 30% en B y 20% en C. La probabilidad de que se produzca un impagado es,
respectivamente, 0,01 en A, 0,02 en B y 0,08 en C. Habiéndose dado un impagado, ¿de
qué ciudad es más probable que proceda?
6. Una entidad bancaria califica a sus clientes, a la hora de conceder préstamos, en dos
grupos: clientes "preferentes" y clientes "no preferentes". En su Memoria de 2005
aparecen los siguientes datos:
- El 30% de los préstamos fueron fallidos (no se pagaron a tiempo).
- El 25% de los préstamos fallidos fueron concedidos a clientes "preferentes".
- El 55% de los préstamos no fallidos fueron concedidos a clientes "preferentes".
Calcule:
a) Probabilidad de que un préstamo concedido a un cliente "preferente" resulte fallido.
b) Probabilidad de que un préstamo concedido a un cliente "no preferente" no sea fallido.
7. Sobre la población activa de un municipio tenemos los siguientes datos: el 30% son
obreros no calificados, el 60% son obreros especialistas y el resto son técnicos medios o
superiores. Actualmente, el paro abarca al 40% de los no cualificados y al 20% de los
especialistas, constituyendo los obreros no cualificados el 48% del total de los parados.
Determine el porcentaje de paro que existe entre los técnicos.
8. Para analizar el volumen de fraude en las declaraciones de IVA, un grupo de investigación
realiza el siguiente experimento. Sobre una amplia muestra de empresas se les preguntan
dos cuestiones: A) ¿Termina su RIF en número par?, B) ¿Ha cometido algún tipo de
fraude en la declaración de IVA?. Para evitar la falta de respuesta motivada por la
140
naturaleza de la segunda pregunta, a los que tienen que responder se les hace la siguiente
propuesta: lance una moneda al aire, de forma que si sale cara responda la pregunta A y si
sale sello responda la pregunta B. En ningún caso la empresa encuestada indica qué
pregunta ha contestado. Después de realizado el experimento, resulta que el 37% de los
entrevistados dan como respuesta sí. En estas condiciones: ¿cuál es la probabilidad de una
persona a la que se le preguntó B diga sí?
9. Una empresa de venta por correo considera tres posibles errores al enviarse un pedido:
A: el artículo enviado no es el solicitado
B: el artículo se extravía
C: el artículo sufre desperfectos en el transporte
Supóngase que el suceso A independiente de los sucesos B y C y que los sucesos B y C
son mutuamente excluyentes. Las probabilidades de los sucesos individuales son
P(A)=0.02, P(B)=0.01y P(C)=0.04. Calcule la probabilidad de que uno de estos errores
ocurra para al menos un pedido escogido al azar.
10. Si P(A1) = 0.20, P(A2) = 0.40, P(B∗A1) = 0.25 , P(B∗A2) = 0.05 y P(B∗A3) = 0.10.
Encuentre P(B) y P(A3∗B)
11. Determine la probabilidad de que fallen los dos motores de un pequeño aeroplano, dado
que cada motor tiene una probabilidad de 0.05 de fallar y que un motor tiene el triple de
probabilidad de fallar si es el único que está en funcionamiento.
12. El departamento de crédito de una empresa, reportó que 55% de sus ventas se pagan en
efectivo, 25% con cheque y 20% con cargos a tarjetas de crédito. Veinte por ciento de las
compras en efectivo, 60% de las que se pagan con cheque y 90% de las que se pagan con
tarjetas de crédito son por cantidades mayores de 200mil Bolívares. Un cliente realiza una
compra por más de 200mil Bolívares. Cuál es la probabilidad de este cliente haya pagado
con tarjeta de crédito? ¿Cuál es la probabilidad de este cliente haya pagado en efectivo?
13. El 10% de las personas de una población padecen una enfermedad. Para detectarla se hace
una prueba que da positivo el 95% de las veces que se hace a alguien que padece la
enfermedad. Pero el 1% de los pacientes sanos también da positivo en la prueba.
a. Obtener la probabilidad de que la prueba clasifique a una persona como enferma.
b. ¿Cuál es la probabilidad de que una persona esté realmente enferma si la prueba ha
dado positiva?
14. La probabilidad de que una empresa venda un producto defectuoso cuando la producción
se somete a un proceso diario de control de calidad es 0,005. La probabilidad de que un
día no haya control de calidad es 0,05 y la probabilidad de que esa empresa venda un
producto defectuoso es 0,02. Determinar:
a. La probabilidad de que se venda un producto defectuoso y que haya control de
calidad.
b. La probabilidad de que habiéndose vendido un producto defectuoso haya habido
control de calidad.
c. La probabilidad de que habiéndose vendido un producto defectuoso no haya
habido control de calidad.
d. La probabilidad de que habiéndose vendido un producto no defectuoso haya
habido control de calidad.
e. La probabilidad de que habiéndose vendido un producto no defectuoso no haya
habido control de calidad.
f. La probabilidad de que no habiendo control de calidad se venda un producto
defectuoso.
141
g. La probabilidad de que no habiendo control de calidad se venda un producto no
defectuoso.
15. De una caja que contiene pelotas numeradas del 1 al 6 se eligen dos, de forma
consecutiva, sin reemplazo. Hallar:
a. La probabilidad de que en la segunda extracción salga un 5
b. La probabilidad de que salga un 2 en la 1ra extracción y un 5 en la 2da
c. Supongamos ahora, que después de anotar el resultado de la primera extracción, se
devuelve la pelota a la caja y se saca nuevamente una pelota. Hallar la probabilidad
de los dos casos anteriores.
16. Supóngase que nos interesa la conclusión de la obra de construcción de una autopista, la
cual puede demorarse por una huelga. Además suponga que las probabilidades son de 0,60
de que habrá una huelga, del 85% de que el trabajo se concluirá a tiempo si no hay huelga
y de 0,35 de que el trabajo se terminará a tiempo si ocurre la huelga; si nos encontramos
con que la obra se terminó a tiempo. ¿Cuál es la probabilidad de que pese a ello hubiese
estallado una huelga?
17. En un estante hay 7 libros de estadística y 3 de administración. De los libros de
estadística, tres están empastados de amarillo y el resto de rojo; mientras que de los libros
de administración, uno está empastado en amarillo y dos en rojo. Suponiendo que del
estante se elige un libro al azar, ¿cuál es la probabilidad de que sea estadística y rojo? ¿cuál
es la probabilidad de que sea estadística si se sabe que es de color rojo?
18. Antes de que un producto determinado sea lanzado al mercado se recogen las reacciones
de un grupo de personas a las que se les permite probar el producto previamente.
Posteriormente a las ventas del producto se les asigna el calificativo de altas, moderadas o
bajas de acuerdo a las normas del mercado. Los resultados se muestran en la siguiente
tabla:
Reacciones Favorables Neutral Desfavorables
Ventas
Altas 173 101 61
Moderadas 88 211 70
Bajas 42 113 141
a) ¿Cuál es la probabilidad de que las ventas sean altas?
b) ¿Cuál es la probabilidad de que las reacciones sean favorables?
c) Si la reacción del grupo es favorable?. ¿Cuál es la probabilidad de que las ventas
sean altas?
d) Si las ventas son bajas ¿Cual es la probabilidad de que las opiniones hayan sido
desfavorables?
e) ¿Cuál es la probabilidad de que las opiniones sean favorables y las ventas sean
altas?
f) ¿Cuál es la probabilidad de que las ventas sean favorables o desfavorables?.
¿Son esos sucesos mutuamente excluyentes? Justifique
g) ¿Son los sucesos “Opiniones desfavorables” y “Ventas Bajas” independientes?
Justifique.
19. Una empresa que se dedica a al enlatado de atún utiliza a tal efecto tres máquinas A, B y
C. De ellas sabe, por controles de calidad previos, que la primera deposita menos cantidad
de la establecida en un 2% de las latas, la segunda en 1% y la tercera en un 3%. El 40% del
enlatado lo realiza la máquina A y el 35% la B. Si se selecciona al azar una lata, determinar
la probabilidad: a) de que proceda de A si tiene menos cantidad de la establecida; b) de
142
que no proceda de A si tiene la cantidad correcta. c) de que tenga menos cantidad de la
establecida.
20. Un banco está considerando cambiar su política de otorgamiento de créditos para reducir
el número d clientes que finalmente no pagan sus cuentas. El gerente sugiere que en el
futuro le sea cancelado el crédito a cualquier cliente que se demore un mes o más en sus
pagos en dos ocasiones distintas. La sugerencia del gerente se basa en el hecho de que, en
el pasado, el 90% de todos los clientes que finalmente no pagaron sus cuentas se habían
demorado en sus pagos por lo menos en dos ocasiones. Supongamos que, tras una
auditoria, se encuentra que el 2% de todos los clientes que adquieren un crédito
finalmente no pagan sus cuentas, y que de aquellos que finalmente si las pagan, el 45% se
han demorado al menos en dos ocasiones. Determine la probabilidad de que un cliente,
que ya se demoró por lo menos en dos ocasiones, finalmente no pague su cuenta y, con la
información obtenida, analice la política que ha sugerido el gerente.
21. Un analista de coyuntura económica quiere realizar predicciones a corto plazo sobre la
evolución de la economía. Para ello utiliza como indicador adelantado la venta total de
vehículos. Por experiencia pasada sabe que cuando la economía crece durante un periodo
a un ritmo superior al del periodo anterior (escenario A) la probabilidad de que las ventas
de vehículos sea alto es 0,90. Si ese crecimiento es igual al del periodo anterior (escenario
B) la probabilidad anterior es 0,50. Finalmente, si el crecimiento está por debajo al
observado en el periodo anterior (escenario C), entonces aquella probabilidad se reduce al
0,20. Además se sabe que los pronósticos respecto del comportamiento de la economía
asignan al escenario A una probabilidad del 0,20 y al B del 0,60. Determinar: a) La
probabilidad de que se de el escenario A y que las ventas de vehículos sea alta. b) La
probabilidad de que las ventas de vehículos sea alta. c) Si las ventas de vehículos es alta,
¿cuál es la probabilidad de los distintos escenarios?.
143
Capítulo V
DISTRIBUCIONES DE PROBABILIDAD
144
.- Cantidad de personas que van a una entidad bancaria por día
.- Número de facturas dañadas en un período de un mes
.- Artículos defectuosos por día en una línea de producción en una fábrica
.- Cantidad de alumnos aprobados en un examen
Variable Aleatoria: es toda ley que asocia a cada elemento del espacio muestral un número real.
Esto permite sustituir los resultados de una prueba o experimento por números y los sucesos por
partes del conjunto de los números reales.
Ejemplos:
En el experimento aleatorio de lanzar tres monedas y anotar el resultado. El espacio
muestral es S = {CCC, CCS, CSC, SCC, CSS, SCS, SSC, CCC}. Supongamos que a cada
suceso le asignamos un número, el número de caras obtenidas. Esta ley o función que
acabamos de construir la llamamos variable aleatoria (que en ese caso resulta discreta).
Consideremos el experimento que consiste en elegir al azar un tomate de una plantación y
medimos su peso. La ley que asocia a cada tomate su peso es una variable aleatoria (ahora
en este caso es continua).
145
No hay que confundir la variable aleatoria con sus posibles valores. Por ejemplo:
- La variable aleatoria, X, el número de caras al lanzar 6 veces una moneda (cuyos posibles
valores son: 0, 1, 2…6)
Así que generalmente estaremos denotando las variables aleatorias por letras mayúsculas: X, Y, Z,
T, y sus posibles valores por letras minúsculas x, y, z, t.
Sea X una variable aleatoria discreta. Su distribución viene dada por los valores que puede tomar,
x1, x2, x3, …, xk, y las probabilidades de que aparezcan p1, p2, p3, …, pk. Estas cantidades
pi = P{x = xi } reciben el nombre de función de probabilidad.
Ejemplo: Sea la variable aleatoria X = Número de caras que se obtienen al lanzar tres veces una
moneda
Posibles valores de X: 0, 1, 2 y 3
El espacio muestral que se obtiene al lanzar 3 veces moneda y anotar el resultado es:
S={CCC,CCS,CSC,SCC,SSC,SCS,CSS,SSS}
La variable aleatoria X:
- Toma valor 0 cuando ocurre el suceso {SSS}
- Toma valor 1 cuando ocurre el suceso {SSC,SCS,CSS}
- Toma valor 2 cuando {CCS,CSC,SCC}
- Toma valor 3 cuando {CCC}
146
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0 1 2 3
Nota: el ancho de las barras no significa nada en este caso, sólo se usan para
destacar las probabilidades. Sólo importa la altura de las barras que corresponden
a las probabilidades.
Ejemplo: continuando el ejemplo del número de caras al lanzar tres veces una moneda
P{x ≤ 0} = P{x = 0} = 0,125
P{x ≤ 1} = P{x = 0} + P{x = 1} = 0,125 + 0,375 = 0,5
P{x ≤ 2} = P{x = 0} + P{x = 1} + P{x = 2} = 0,5 + 0,375 = 0,875
147
P{x ≤ 3} = P{x = 0} + P{x = 1} + P{x = 2} + P{x = 3} = 0,875 + 0,125 = 1
0.8
0.6
0.4
0.2
0.0
0 1 2 3
Nota: el ancho de las barras no significa nada en este caso, sólo se usan para destacar las probabilidades. Sólo importa la altura de
las barras que corresponden a las probabilidades acumuladas.
Media o Esperanza, n
Valor Esperado
E( X ) = µ = ∑ x .P ( X = x )
i =1
i i
Varianza n
n
Var ( X ) = σ = 2
i =1
∑
( x i − µ ) . pi =
2
∑ ( x . p ) − µ
i =1
2
i i
2
Desviación Típica o n
n
Estándar σ = σ2 = ∑i =1
( x i − µ )2 . p i =
∑ ( x . p ) − µ
i =1
2
i i
2
148
El valor esperado o esperanza de una variable aleatoria es uno de los conceptos más importantes
en el estudio de las distribuciones de probabilidad. El valor esperado es un número que indica que
en períodos largos de observación, es decir, si repetimos el experimento muchas veces, el valor
que más observaremos estará cercano al valor esperado.
Ejemplo: en una bolsa hay bolas numeradas: nueve bolas con un 1, cinco con un 2 y seis con un
3. Sacamos una bola y vemos que número tiene.
xi 1 2 3
pi 9/20 5/20 6/20
La desviación típica es una medida de dispersión que depende de las unidades de medida de la
variable. Para evitar este inconveniente podemos emplear el coeficiente de variación. El
coeficiente de variación de una variable aleatoria X será:
σx
CVx =
mx
Ejercicio: Una compañía ha vendido 205 boletos para un avión de 200 plazas.
Sea x la variable aleatoria que expresa el número de viajeros que va al aeropuerto para viajar en el
avión. Su distribución es:
xi 198 199 200 201 202 203 204 205
pi 0,05 0,09 0,15 0,20 0,23 0,17 0,09 0,02
a) Hallar la probabilidad de que todos los viajeros que van al aeropuerto tengan plaza.
P{x ≤ 200} = P{x = 198} + P{x = 199} + P{x = 200} =
= 0,05 + 0,09 + 0,15 = 0,29
149
b) Obtener la probabilidad de que se quede sin plaza alguno de los viajeros que va al
aeropuerto.
P{x > 200} = P{x = 201} + P{x = 202}+...+ P{x = 205} =
= 0,2 + 0,23 + 0,17 + 0,09 + 0,02 = 0,71
P{x > 200} = 1 − P{x ≤ 200} = 1 − 0,29 = 0,71
c) Calcular el nº esperado de viajeros que acude al aeropuerto.
k
mx = ∑ xi pi = 198 × 0,05 + 199 × 0,09 + 200 × 0,15 + 201 × 0,2 +
i =1
∑p i= 1
i = 0,23 + 0,322 + 0,177 + ...+ 0,010 = 1
b) Hallar la probabilidad de que el nº de personas que viven en un hogar sea menor o igual
que cuatro.
P( x ≤ 4) = P( x = 1) + P( x = 2) + P( x = 3) + P( x = 4) =
= 0,23 + 0,322 + 0,177 + 0,155 = 0,884
c) Calcular la probabilidad de que al menos dos personas vivan en una vivienda.
P( x ≥ 2) = P( x = 2) + P( x = 3) + ...`+ P( x ≥ 8) =
= 1 − P( x < 2) = 1 − 0,23 = 0,77
d) Obtener el nº medio de personas que habitan en una vivienda.
mx = 1 × 0,23 + 2 × 0,322 + 3 × 0,177 + ...+ 7 × 0,015 + 8 × 0,01 = 2,689
150
El valor esperado de una constante C es igual a C, E(C) = C. Esta se desprende de la
propiedad anterior, pero vale la pena recalcarla.
Si X e Y son independientes, E(X.Y) = E(X). E(Y)
Existe una desigualdad muy conocida del matemático ruso Chebyshev que nos brinda la
oportunidad de entender mejor cómo la varianza mide el grado de variabilidad con respecto al
valor esperado de la variable aleatoria.
Sea X una variable aleatoria con E(X) = µ y sea c un número cualquiera. Entonces, si E(X-c)2
existe y ε es cualquier número positivo, tenemos
1
P ( X − c ≥ ε ) ≤ 2 E( X − c )2
ε
La expresión también se puede tener de las siguientes maneras:
1. Al considerar el evento complementario obtenemos:
1
P ( X − c < ε ) ≥ 1 − 2 E( X − c )2
ε
2. Al elegir c = µ obtenemos
Var ( X )
P( X −µ ≥ε)≤
ε
2
Ejemplo:
La producción diaria de motores eléctricos en una fábrica es de 120 promedio con una desviación
estándar de 10.
a) ¿Qué fracción de días serán de un nivel de producción entre 100 y 140?
b) Calcular el intervalo más corto que con certeza contenga por lo menos 90% de los niveles
de producción diaria.
(a) El intervalo de 100 a 140 es de µ - 2σ a µ + 2σ siendo µ=120 , σ=10 y por tanto k=2
Utilizando el teorema de Chebyshev,
151
1
P ( X − µ ≥ kσ ) ≤
k2
1
P ( X − µ ≤ kσ ) ≤ 1 −
k2
1 1
P (100 ≤ X ≤ 140 ) ≤ 1 − 2
= 1 − = 0.75 , es decir, el 75% de los días la producción total estará
2 4
entre 100 y 140.
1
(b) Para calcular k, se debe hacer que (1 − ) = 0.9 , luego despejando k:
k2
1
= 0.1
k2
k 2 = 10 ⇒ k = 10 = 3.16
Entonces el intervalo será desde µ - kσ a µ + kσ, que sustituyendo k=3.16, µ = 120 y σ=10, se
obtiene que el intervalo buscado es:
120 – 3.16(10) a 120 + 3.16(10) que es desde 88.4 hasta 151.6
en este rango de valores debe estar por lo menos el 90% de los niveles diarios de producción.
Distribución Binomial
Supongamos que un experimento aleatorio tiene las siguientes
Distribución Binomial características:
Características •
En cada prueba del experimento sólo son posibles dos
resultados: el suceso A (éxito) y su contrario A (fracaso).
• El resultado obtenido en cada prueba es independiente de los resultados obtenidos
anteriormente.
• La probabilidad del suceso A es constante, la representamos por p, y no varía de una
prueba a otra. La probabilidad de A es 1- p y la representamos por q.
• El experimento consta de un número n de pruebas.
Todo experimento que tenga estas características diremos que sigue el modelo de la distribución
Binomial. A la variable X que expresa el número de éxitos obtenidos en el total de las n
pruebas, la llamaremos variable aleatoria binomial. Notación: X : Bin( n , p )
La variable binomial es una variable aleatoria discreta, sólo puede tomar los valores 0, 1, 2, 3, 4, ...,
n suponiendo que se han realizado n pruebas. Como hay que considerar todas las maneras
posibles de obtener k-éxitos y (n-k) fracasos debemos calcular éstas por combinaciones (número
combinatorio n sobre k).
152
La distribución Binomial se suele representar por Bin(n,p) siendo n y p los parámetros de
dicha distribución.
Como el cálculo de estas probabilidades puede resultar algo tedioso se han construido tablas para
algunos valores de n y p que nos facilitan el trabajo. (ver la tabla de probabilidades binomiales)
Parámetros de la
Distribución
Binomial
El cálculo de las F(x) = p( X ≤ x) puede resultar laborioso, por ello se han construido tablas para
algunos valores de n y p que nos facilitan el trabajo.
153
x P( X = k )
0 0.000488
1 0.005371
2 0.026855
3 0.080566
4 0.161133
5 0.225586
6 0.225586
7 0.161133
8 0.080566
9 0.026855
10 0.005371
11 0.000488
Total 0.999998 ≈ 1
Observe que la distribución es simétrica (esto sólo ocurre si p=0.5). Además que por errores de
redondeo no suma exactamente 1.
¿Cuántas caras se obtienen por término medio? E(X) = n.p = 11 (0.5) = 5.5
Ejemplo:
Una máquina fabrica una determinada pieza y se sabe que produce un 7 por 1000 de piezas
defectuosas. Hallar la probabilidad de que al examinar 50 piezas sólo haya una defectuosa.
154
Ejemplo:
La probabilidad de éxito de una determinada vacuna es 0,72. Calcula la probabilidad de a que una
vez administrada a 15 pacientes:
Ejemplo:
La probabilidad de que el carburador de un coche salga de fábrica defectuoso es del 4 por 100.
Hallar:
a) El número de carburadores defectuosos esperados en un lote de 1000
b) La varianza y la desviación típica.
Solución :
155
TABLA DE DISTRIBUCIÓN BINOMIAL
156
Ajuste de una distribución Binomial a una observada.
Cuando se realiza una investigación estadística y se agrupan los datos obtenidos en una
distribución de frecuencias, los datos siguen en mayor o menor grado una de las distribuciones
teóricas (Binomial, Poisson, Geométrica, Multinomial, Normal, T-Student, etc.); por lo que se
hace necesario verificar el grado de aproximación de la distribución observada a la teórica.
Para realizar esta comparación es necesario calcular las frecuencias teóricas y comparar luego con
las observadas. Si las diferencias son pequeñas se dice que el ajuste es bueno y que los datos tienen
una distribución tal como lo describe el modelo teórico. Esta comparación se realizará más
adelante, con de los test de hipótesis de bondad de ajuste o prueba Chi-cuadrado. Vamos a
presentar una forma de obtener este ajuste de manera muy superficial.
Cuando el ajuste se realiza con una distribución Binomial, el problema consiste en el cálculo del
parámetro p de la distribución binomial. Una forma de resolver este problema es igualar el
x
promedio aritmético x con su estimado n.p , de donde se obtiene que p = . De esta manera se
n
pueden calcular las probabilidades de la binomial(n,p).
Luego se multiplican las probabilidades obtenidas por el total de frecuencias observadas ( ∑f i ),
esto nos da las frecuencias esperadas que luego se comparan con las observadas y se decide si el
ajuste es adecuado o no.
Ejemplo:
Se han tomado al azar 300 mujeres con no más de 6 hijos y se han agrupado en la siguiente
distribución de frecuencias:
Número Número de
de Hijos Mujeres
(x) (fi)
0 20
1 40
2 70
3 80
4 50
5 30
6 10
157
x 2.76667
2. Calculamos ahora p = = = 0.46111 , así que q =1-0.46111=0.53889
n 6
6. Por lo tanto se decide que la distribución observada no se ajusta a una distribución binomial.
158
Apariencia general de una 1. Cuando p es pequeña, la distribución es sesgada hacia la
derecha
distribución binomial:
2. Cuando p es 0.5 la distribución es simétrica
3. Cuando p es grande la distribución es sesgada hacia la
izquierda.
Distribución Poisson
La distribución de Poisson es de gran utilidad cuando tenemos variables distribuidas a través del
tiempo o del espacio. Es el caso del número de llamadas que entran a una central telefónica en
una unidad de tiempo, la cantidad de personas que atiende un cajero en una hora, la cantidad de
gotas de lluvia que caen en un terreno, las llegadas de automóviles en una caseta de peaje, los
artículos defectuosos que hay en un lote de producción. Todos estos ejemplos se pueden
describir como procesos aleatorios discretos que toman valores como 0,1,2,3,4,5,…De hecho si se
restringe el período de observación, digamos que contamos la cantidad de vehículos que pasan
por una esquina en un período de 10 minutos, los valores serán de igual forma números enteros:
0,1,2,3,….k.
La distribución Poisson debe su nombre a Siméon Denis Poisson (1781-1840), un francés que
desarrollo la distribución a partir de sus estudios que realizó en los últimos años de su vida.
159
El número de clientes que llegan a una caseta de pago de flete en una carretera es un ejemplo de
un proceso poisson y lo utilizaremos para caracterizarlo, otros procesos que tengan las mismas
características serán también procesos Poisson:
1. El promedio (media) del número de vehículos que llegan a la caseta en un período de
tiempo fijo (suponga por ejemplo en un período de una hora pico), se puede estimar por
medio de datos que se tengan de otras horas picos de días anteriores.
2. Si dividimos la hora pico en períodos (intervalos) de un segundo cada uno,
encontraremos que las siguientes afirmaciones son verdaderas:
a. La probabilidad de que exactamente un vehículo llegue a la caseta por segundo es
muy pequeña y es constante para cada intervalo de un segundo.
b. La probabilidad de que dos o más vehículos lleguen en un intervalo de un
segundo es tan pequeña que le podemos asignar el valor cero.
c. El número de vehículos que llegue en un intervalo de tiempo es independiente de
la ubicación del periodo de tiempo en la hora pico.
d. El número de llegadas de cualquier intervalo de tiempo es independiente del
número de llegadas de otro periodo de tiempo.
Al generalizar el proceso anterior debemos tomar en cuenta que los procesos poisson se
caracterizan generalmente por procesos de llegadas o de colas en donde se cuenta la ocurrencia
de un evento (que tiene probabilidad específica muy pequeña de ocurrir) en un periodo de
tiempo o en un espacio determinado.
Donde:
160
El número "e" es 2,71828 aproximadamente
" λ " = Lambda es el parámetro de la distribución y representa la tasa de ocurrencia del evento
observado, es el promedio de ocurrencias durante un intervalo especifico.
" k " es el número de éxitos en la unidad de tiempo o de espacio considerado
Parámetros y Características de
una Variable X distribuida Poisson
con parámetro λ
X : Poissson( λ )
Valor λ
Esperado:
Media
Varianza λ
Desviación λ
Estándar
Ejemplo:
Un cajero de un banco atiende en promedio 7 personas por hora, cual es la probabilidad de que
un una hora determinada:
Denotemos por X al número de clientes que atiende el cajero en un periodo de una hora.
X : Poisson(7)
a) Probabilidad de que atienda menos de 5 personas =
P(X<5) = P(X=0) + P(X=1)+…+P(X=4)=
0 1 2 3 4
−7 7 −7 7 −7 7 −7 7 −7 7
e +e +e +e +e =
0! 1! 2! 3! 4!
70 71 72 73 74
e −7 + + + + =
0 ! 1! 2 ! 3! 4 !
70 71 72 73 74
−7
e + + + + =
0 ! 1! 2 ! 3! 4 !
1 7 49 343 2401
0.00091188 + + + + =
1 1 2 6 24
161
0.00091188 ( 189.70833333) = 0.17299
P(X<5) = 0.17299
También podemos buscar P(X<5) = P( X ≤ 4) directamente en la tabla de la Distribución
Acumulativa de Poisson, se busca con λ = 7 en la fila de x=4 y obtenemos directamente P(X<5)
= 0.1730.
162
TABLA DE DISTRIBUCIÓN ACUMULATIVA POISSON
En la tabla se encuentran las probabilidades acumuladas de una variable que se distribuye Poisson
con parámetro λ.
x
−λ λ k
F ( x ) = P( X ≤ x ) =∑ e
k =0
k!
163
Continuación de la tabla de probabilidades de una distribución Poisson (λ)
164
Continuación de la tabla de probabilidades de una distribución Poisson (λ)
165
Ejemplo:
La probabilidad de que un niño nazca pelirrojo es de 0,012. ¿Cuál es la probabilidad de que entre
800 recién nacidos haya 5 pelirrojos?
Luego,
P (x = 5) = 4,602
Por lo tanto, la probabilidad de que haya 5 pelirrojos entre 800 recién nacidos es del 4,6%.
Ejemplo
Durante la segunda guerra mundial cayeron sobre Londres 537 bombas voladoras. El área
afectada fué dividida en 576 sectores iguales. Sea Nk el número real de sectores en los cuales
cayeron k bombas. Suponiendo que las bombas cayeron al azar, el número esperado de bombas
por sector es 537/576= 0.932. La probabilidad que caigan k bombas en un sector, según la
−
aproximación Poisson, es Pk= e 0.932 (0.932)k / k! La tabla abajo muestra la comparación entre
real y teórico:
k 0 1 2 3 4 ≥5
Nk 229 211 93 35 7 1
576 Pk 226 211 99 31 7 2
k
n k n −k −np ( np )
k p q ≈e
k!
Por lo tanto podemos aproximar la binomial por la poisson, calculando la media de la distribución
poisson, λ = n . p y sustituyéndola en la ecuación de la distribución de probabilidades.
Ejemplo:
En un hospital hay 20 aparatos de diálisis de riñón y que la probabilidad de que cualquiera de ellos
no funcione bien durante un día es de 0.02. ¿Cuál es la probabilidad de que exactamente tres
máquinas dejen de funcionar el mismo día?
166
Planteamiento Poisson Planteamiento Binomial
( np )k .e − np n
P( X = k ) = P ( X = k ) = p k (1 − p )n −k
k! k
[(20)(0.02)]3 .e −( 20)( 0.02) 20
P ( X = 3) = P ( X = 3) = 0.02 3 (0.98)17 = 0.0065
3! 3
(0.064)(0.67032)
P ( X = 3) = = 0.00715
6
Opcional
Distribución Hipergeométrica
La distribución binomial se utiliza en los casos en donde la probabilidad de observar un éxito sea
constante y no varia entre una observación y otra del experimento, en la práctica a veces se realiza
un muestreo sin re-emplazamiento lo que hace que la probabilidad de observar una característica
(éxito) en una población finita varíe de una observación a otra. En estos casos se utiliza la
distribución hipergeométrica.
Son experimentos donde, al igual que en la distribución binomial, en cada ensayo hay tan sólo dos
posibles resultados: o sale blanca o no sale. Pero se diferencia de la distribución binomial en que
los distintos ensayos son dependientes entre sí:
Si en una urna con 5 bolas blancas y 3 negras en un primer ensayo saco una bola blanca, en el
segundo ensayo hay una bola blanca menos por lo que las probabilidades son diferentes (hay
dependencia entre los distintos ensayos).
167
Ejemplo: en una urna hay 7 bolas blancas y 5 negras. Se sacan 4 bolas ¿Cuál es la probabilidad de
que 3 sean blancas?
Entonces:
N = 12; N1 = 7; N2 = 5; k = 3; n = 4
Si aplicamos el modelo:
7 5
3 1
P ( X = 3) = =
175
= 0.35
12 495
4
Ejemplo: en una fiesta hay 20 personas: 14 casadas y 6 solteras. Se eligen 3 personas al azar ¿Cuál
es la probabilidad de que las 3 sean solteras?
6 14
3 0
P ( X = 3) = = 0.0175
20
3
Generalmente se aplica la distribución hipergeométrica cuando:
1. Se selecciona una muestra de tamaño n de una población finita de N elementos
(sin re-emplazo)
2. El tamaño de la muestra n es más de 5% del tamaño de la población N
3. Se quiere determinar la probabilidad de un número k de éxitos o de fracasos.
Por ejemplo: Supongamos que vamos a realizar un experimento aleatorio que consiste en
seleccionar una persona y apuntar su peso. Podemos crear una variable aleatoria cuyos valores
sean el número de kilogramos que pesa la persona observada. En este caso, el rango de valores
posibles se extiende entre los límites naturales, pero la continuidad de esta variable aleatoria radica
en el carácter continuo de lo que medimos, el peso, es decir, en el hecho de que entre dos valores
posibles se podrían obtener infinitos valores intermedios, también posibles si utilizáramos
aparatos con suficiente precisión. Estos "infinitos" en el interior del rango de la variable es lo que
diferencia a las variables continuas de las discretas.
168
asociada) porque la variable continua toma infinitos valores y la probabilidad asociada a cada valor
es nula. Recuerde que al ser la variable aleatoria continua el espacio donde esta definida no es
contable y por lo tanto carece de sentido hablar de P(X=xi)
Decimos que una variable aleatoria X es continua, si existe una función f, llamada función de
densidad de probabilidad (fdp) de X, que satisface las siguientes condiciones:
f(x) P(a≤X≤b)
Si X es una variable aleatoria continua con valores en un intervalo [a, b], entonces F(x) será la
probabilidad de que la variable X tome valores entre a y x. F(x)=P(a X x).
Es decir, la función de distribución F(x) es una primitiva de la función de densidad f(x), o dicho
de otra forma, la función de densidad es la derivada de la función de distribución.
Indica la probabilidad de que la variable aleatoria continua X sea menor o igual que un valor dado,
es decir, proporciona la probabilidad acumulada hasta un determinado valor de la variable.
169
PARÁMETROS DE UNA VARIABLE ALEATORIA CONTINUA
Por analogía con las definiciones de estos conceptos para variables aleatorias discretas, se definen
la esperanza matemática o media µ , la varianza σ2 y la desviación típica σ de una variable
aleatoria continua de la siguiente forma :
Distribución Normal
Ya se había definido la distribución normal en la página 79 cuando se tomaba de referencia para
el cálculo de la curtosis, recuerde que la curtosis es una medida de apuntamiento o concentración
de la distribución y se calcula al comparar el coeficiente de curtosis de 4to momento entre la
distribución normal (que es igual a 0 en la fórmula de K) contra el valor obtenido en la
distribución de la variable que se estudia.
La mayoría de las distribuciones más importantes son normales, por eso en la práctica se puede
decir que la distribución normal es la más relevante entre todas la distribuciones. Por ejemplo la
distribución de los pesos de los individuos de cualquier especie, la estatura de una población, la
longitud de los tornillos que salen de una fábrica, el peso de las latas en un proceso de
producción industrial, entre otras.
No todas las distribuciones son normales por ejemplo si clasificamos según el nivel de renta a los
ciudadanos venezolanos son muy pocos los que poseen niveles de rentas altas y en cambio son
muchos los que poseen niveles de rentas bajas, por tanto la distribución no sería simétrica y en
consecuencia no se adapta al modelo normal.
Muchas variables aleatorias continuas presentan una función de densidad cuya gráfica tiene forma
de campana.
170
En otras ocasiones, al considerar distribuciones binomiales, tipo B(n,p), para un mismo valor
de p y valores de n cada vez mayores, se ve que sus polígonos de frecuencias se aproximan a
una curva en "forma de campana".
Función de densidad : una variable continua X sigue una distribución normal de media µ y
desviación típica σ , y se designa por N( µ , σ ) , si cumple que
2
1 x −µ
1 −
2 σ
f(x) = e
σ 2π
La distribución normal queda definida por dos parámetros, su media y su desviación típica y la
representamos así
171
Para calcular los máximos y mínimos deberíamos hacer:
2
1 x −µ
1 −
2 σ
f(x) = e
σ 2π
x −µ
f '(x) = - f(x) , puesto que f(x) nunca puede valer 0 entonces , si x = µ f ' (x) = 0
σ
por lo que será un posible máximo o mínimo .
1 x −µ
2
Conviene observar que cuando la desviación típica es elevada aumenta la dispersión y se hace
menos puntiaguda la función ya que disminuye la altura del máximo. Por el contrario para valores
pequeños de σ obtenemos una gráfica menos abierta y más alta.
172
FUNCIÓN DE DISTRIBUCIÓN
Cuando µ = 0 y σ =1 , N(0,1) se dice que tenemos una distribución normal reducida , estándar o
tipificada.
173
a la variable Z se la denomina variable tipificada de X, y a la curva de su función de densidad curva
normal tipificada.
174
175
TABLA DE DISTRIBUCIÓN
NORMAL TIPIFICADA (0,1)
176
Ejemplo: si tenemos N(2,4) y queremos calcular p(x<7) entonces :
x − 2 7−2
p(x<7) = p < = p( z < -5/4 ) = Ф(-5/4)=0.1056
4 4
Utilización conjunta de µ y σ :
En (µ ± σ) está el 68'26% de los datos ya que :
µ−σ−µ µ+σ−µ
p( µ - σ <X< µ + σ ) = p <Z< = p(-1< Z < 1) = 0.6826
σ σ
Análogamente se puede comprobar que en (µ ± 2σ) está el 95'4% de los datos y en (µ ± 3σ) está
el 99'7%.
Ejemplo: El C.I. de los 5600 alumnos de una provincia se distribuyen N(112,6) . Calcular
aproximadamente cuántos de ellos tienen :
a) más de 112 .................2800 alumnos.................la mitad de los alumnos
b) entre 106 y 118 ..........3823 alumnos .................este es el caso : (µ ± σ)
c) entre 106 y 112 ...........1911 alumnos
d) menos de 100 ..............128 alumnos
e) más de 130 ..................7 alumnos
f) entre 118 y 124 ............761 alumnos
( ojo hay que multiplicar % obtenido en la tabla por 5600/100 , que sale de una regla de tres )
Debemos tener en cuenta que cuanto mayor sea el valor de n, y cuanto más próximo sea p a 0.5,
tanto mejor será la aproximación realizada. Es decir, basta con que se verifique
gracias a esta aproximación es fácil hallar probabilidades binomiales, que para valores grandes
de n resulten muy laboriosos de calcular.
177
Hay que tener en cuenta que para realizar correctamente esta transformación de una variable
discreta (binomial) en una variable continua (normal) es necesario hacer una corrección de
continuidad.
178
Ejemplo: Se ha comprobado que la probabilidad de tener un individuo los ojo marrones es 0.6.
Sea X la variable aleatoria que representa el nº de individuos que tienen los ojos marrones de un
grupo de 1100. Calcular P(X>680) y P(X=680)
680 − (110)0.6
P(X>680) = 1 - P(X<680) = 1 - P(Y< ) = 1 - P(Y<1.23) = 0.1093
(1100)(0.6)(0.4)
P(X = 680) = P(679.5<X<680.5) se debe hacer así puesto que en una variable continua no tiene
sentido calcular probabilidades de valores puntuales.
El Teorema Central del Límite en lenguaje cotidiano dice que si tenemos un grupo numeroso
de variables independientes y todas ellas siguen el mismo modelo de distribución (cualquiera que
éste sea), la suma de ellas se distribuye según una distribución normal.
Ejemplo: la variable "tirar una moneda al aire" sigue la distribución de Bernoulli. Si lanzamos la
moneda al aire 50 veces, la suma de estas 50 variables (cada una independiente entre si) se
distribuye según una distribución normal.
Este teorema se aplica tanto a suma de variables discretas como de variables continuas.
Los parámetros de la distribución normal son:
Media: n * µ (media de la variable individual multiplicada por el número de variables
independientes)
179
Varianza: n * σ2 (varianza de la variable individual multiplicada por el número de variables
individuales)
Ejemplo:
Se lanza una moneda al aire 100 veces, si sale cara le damos el valor 1 y si sale cruz el valor 0.
Cada lanzamiento es una variable independiente que se distribuye según el modelo de Bernouilli,
con media 0,5 y varianza 0,25.
Calcular la probabilidad de que en estos 100 lanzamientos salgan más de 60 caras.
La variable suma de estas 100 variables independientes se distribuye, por tanto, según una
distribución normal.
Media = 100 * 0,5 = 50
Varianza = 100 * 0,25 = 25
Para ver la probabilidad de que salgan más de 60 caras calculamos la variable normal tipificada
equivalente:
180
Cuestionario del Capítulo V:
# de valores 1 2 3 4 5
# de analistas 4 2 3 5 6
a. Determinar la función de probabilidad para la variable aleatoria del número de
valores asignados a los analistas esta mañana.
b. Determinar la media y la varianza para la misma variable.
5. La tabla siguiente muestra la función de distribución acumulativa de la variable
aleatoria X
x 1 2 3 4
F(x) 1/8 3/8 3/4 1
181
Determinar:
a. La función de probabilidad.
b. P(1≤ X ≤ 3) Sol: 3/4
c. P(X ≥ 2) Sol: 7/8
d. P(X < 3) Sol: 3/8
e. P(X > 4) Sol: 7/8
Mes E F M A M J J A S O N D
M E D I O
Camión 4 5 2 3 2 1 3 5 4 7 0 1
Avión 5 6 0 2 1 3 4 2 4 7 4 0
182
Venta de Refresco Helado
Clima
Frío 40 20
Cálido 55 80
El vendedor, con base a su experiencia, sabe que en esta época del año la probabilidad
de que haga un clima cálido es de un 60%. Determine cuál de los dos bienes debe
vender.
11. Un inversionista dispone de cierta cantidad de dinero para invertir de inmediato. Tiene
3 alternativas de inversión: A, B, C. En la siguiente tabla se representan las utilidades
estimadas de cada cartera de acuerdo a las condiciones de la economía:
Evento A B C
Economía en declive 500$ -2000$ -7000$
No hay cambios 1000$ 2000$ -1000$
Economía en expansión 2000$ 5000$ 20000$
Con base a su experiencia, el inversionista asigna las siguientes probabilidades a cada
una de las condiciones de la economía:
Probabilidad de economía en declive: 30%
Probabilidad de que no ocurran cambios: 50%
Probabilidad de expansión económica: 20%
a. Determinar la mejor elección de cartera para el inversionista.
BINOMIAL:
12. Sea X binomial con n = 10 y p = 0.4. Calcular las probabilidades siguientes:
a. P[X ≤ 4].
b. P[X < 4].
c. P[X = 6].
d. P[X ≥ 5].
e. P[X > 6].
f. P[3 ≤ X ≤ 6].
g. P[4 ≤ X ≤ 7].
h. P[3 ≤ X < 6].
i. P[4 < X ≤ 7]
13. Sea X binomial con n = 30 y p = 0.23. Calcular las probabilidades siguientes:
a. P[X ≤ 4]. b. P[X < 4]. c. P[X = 4]. d. P[2 <X ≥ 5].
14. Un examen consta de 15 preguntas cada una de las cuales tiene 4 posibles respuestas. Una
persona sin conocimientos del tema responde las preguntas al azar.
a. ¿Cuál es la probabilidad de que acierte la respuesta si contesta sólo una pregunta?
b. ¿Cuál es la probabilidad de que conteste acertadamente a más de la mitad de las
preguntas?
c. Hallar la probabilidad de que dicha persona no conteste bien a ninguna de las 15
preguntas. Calcular la probabilidad de que acierte alguna.
d. Obtener la probabilidad de que responda bien a todas las preguntas.
15. En una distribución binomial, sea X el número de éxitos obtenidos en diez ensayos donde
la probabilidad de éxito en cada uno es de 0.8. Demostrar que la probabilidad de lograr de
manera exacta seis éxitos es igual a la probabilidad de tener cuatro fracasos.
183
16. Un vendedor de seguros sabe que la oportunidad de vender una póliza es mayor mientras
más contactos realice con clientes potenciales. Si la probabilidad de que una persona
compre una póliza de seguro después de la visita, es constante e igual a 0.25, y si el
conjunto de visitas constituye un conjunto independiente de ensayos, ¿cuántos
compradores potenciales debe visitar el vendedor para que la probabilidad de vender por
lo menos una póliza sea de 0.80?
17. La probabilidad de que un estudiante que ingresa a la Universidad se gradúe es de 0,4.
Hallar la probabilidad de que entre 15 estudiantes elegidos al azar:
a) Ninguno se gradúe.
b) Sólo Cuatro se gradúen.
c) Al menos cinco se gradúen.
d) A lo sumo cuatro se gradúen.
18. Suponga que el 8% de los artículos que produce una máquina automática son defectuosos.
Si se toma al azar una muestra de 20 defina la variable que le permita calcular las
probabilidades siguientes:
a) Que en la muestra haya 2 artículos defectuosos.
b) Que en la muestra haya como máximo 3 artículos defectuosos.
c) Que en la muestra haya 18 artículos defectuosos como mínimo.
d) Que en la muestra haya entre 2 y 5 artículos defectuosos.
19. Una compañía de petróleos dispone de diez tanques distribuidos a lo largo de una extensa
área del Golfo de México. Los oficiales creen que, en condiciones normales, cada tanque
tiene sólo un 1% de posibilidades de tener una pérdida de petróleo en todo el año. Sea X
el número de tanques que han experimentado pérdidas durante el año.
a) Fundamentar que X es binomial.
b) Encontrar la expresión para la función de probabilidad.
c) ¿Qué probabilidad hay de que haya más de 7 tanques con pérdidas?
d) Hallar E[X], Var [X] y σ.
e) Si los tanques están muy próximos y se produce alguna eventualidad (tal
como un huracán o un terremoto), ¿es correcto suponer que X es binomial?
Razonar la respuesta.
20. Suponga que 60% de toda la gente prefiere Pepsi Cola en vez de Coca Cola. Se
seleccionan al azar 18 personas que toman refrescos para un estudio.
e. De las 18, cuantas cree que prefieran Pepsi cola
f. Cuál es la probabilidad de que 10 de las personas prefieran Pepsi cola?
g. Cuál es la probabilidad de que al menos 6 personas prefieran Pepsi Cola?
h. Cuál es la probabilidad de que a lo sumo 4 personas prefieran Pepsi Cola?
21. Se considera que un proceso de producción está bajo control estadístico si la fracción
defectuosa de la producción es menor o igual a 0.10. Para determinar si el proceso está
fuera de control se han sugerido dos planes;
i. Se juzga el proceso fuera de control si se encuentran cinco o más unidades
defectuosas en una muestra de 25
ii. Se juzga el proceso fuera de control si se encuentran dos o más unidades
defectuosas en una muestra de 10
Evalúe la eficiencia de los dos planes con respecto a:
a. Deducir falsamente que el proceso está fuera de control
b. Descubrir un proceso que está produciendo 20% de unidades defectuosas
22. Suponga que una compañía de seguros vendió pólizas de seguros de vida a 5000
hombres de 42 años de edad. Si los estudios actuariales indican que la probabilidad de
184
que un hombre de 42 años muera en un determinado año es 0,001. ¿Cuál es la
probabilidad de que la compañía pague 4 indemnizaciones en un determinado año?.
Sol: 0,1755200 (Por binomial) 0,1745 (Por aproximación de Poisson)
23. En la siguiente distribución normal con µ=250 y con σ2=900, calcular las siguientes
probabilidades.
a) P(280 ≤ x ≤ 310) b) P(x ≤ 330) c) P(x > 330) d) P(x < 210)
e) P(x > 220) f) P(220 ≤ x ≤ 240) g) P(205 < x≤ 240) h) P(205 < x < 290)
24. Si X es una variable aleatoria que tiene una distribución normal con media 700 y con
varianza igual a 324, calcular las siguientes probabilidades.
a) P(x ≤ 750) b) P(x ≤ 430) c) P(x > 530) d) P(x > 770)
e) P(660 ≤x ≤ 740) f) P(500 ≤ x ≤ 640) g) P(720 < x ≤ 800)
25. Se sabe que el dinero que se gastan al mes los estudiantes de determinada universidad en
pasajes sigue una distribución normal de media 38.000 Bolívares y desviación típica 5.000
Bolívares.
i. ¿Cuál es la probabilidad de que un estudiante elegido aleatoriamente gaste menos
de 40.000 Bolívares en pasaje al mes?
j. ¿Cuál es la probabilidad de que un estudiante elegido aleatoriamente gaste más de
36.000 Bolívares en pasaje al mes?
k. Dibujar un gráfico que ilustre que las probabilidades en los apartados (a) y (b) son
iguales.
l. ¿Cuál es la probabilidad de que un estudiante elegido aleatoriamente gaste entre
30.000 y 40.000 Bolívares en pasaje al mes?
m. Se quiere encontrar un rango de Bolívares que represente el gasto en pasaje
mensual para el cual se incluyan el 80% de los estudiantes de esta universidad.
Explicar por qué pueden encontrarse infinitos rangos que cumplan esta condición,
y encontrar el rango más corto posible.
26. La vida útil de un neumático de determinada marca sigue una distribución normal con
media 35.000 kilómetros y desviación típica 4.000 kilómetros.
n. ¿Qué proporción de estos neumáticos tiene un tiempo de vida superior a 38.000
kilómetros?
o. ¿Qué proporción de estos neumáticos tiene un tiempo de vida inferior a 32.000
kilómetros?
p. ¿Qué proporción de estos neumáticos tiene un tiempo de vida entre 32.000 y
38.000 kilómetros?
q. Dibujar un gráfico con la función de densidad de los tiempos de vida, ilustrando
i. Por qué las respuestas de las preguntas (a) y (b) son iguales
ii. Por qué las respuestas de las preguntas (a), (b) y (c) suman uno.
27. Una compañía produce un compuesto químico y está preocupada por su contenido de
impurezas. Se estima que el peso de las impurezas por lote se distribuye según una normal
con media 12,2 gramos y desviación típica 2,8 gramos. Se elige un lote al azar.
a) ¿Cuál es la probabilidad de que contenga menos de 10 gramos de impurezas?
b) ¿Cuál es la probabilidad de que contenga más de 15 gramos de impurezas?
185
c) ¿Cuál es la probabilidad de que contenga entre 12 y 15 gramos de impurezas?
¿Es posible, sin hacer los cálculos, deducir cuál de las respuestas a las preguntas (a) y (b)
será mayor?, ¿cómo?
28. Si x es una variable con distribución N(4.3;1.2) hallar el valor de a tal que: i)
P( x < a ) = 0,7389 ii) P( x > a ) = 0,2981
29. Cierto tipo de batería dura un promedio de 3 años, con una desviación típica de 0.5 años.
Suponiendo que la duración de las baterías es una variable normal:
a) ¿Qué porcentaje de baterías se espera que duren entre 2.5 y 4.8 años?
b) Si una batería lleva funcionando 2 años. ¿Cuál es la probabilidad de que dure menos de
4.5 años?
30. En cierto negocio de construcción el salario medio mensual es de 386.000 Bolívares y la
desviación estándar es de 10.800 Bolívares. Si se supone que los salarios tienen una
distribución Normal ¿Qué porcentaje de los obreros percibe salarios entre 380.000 y
385.000Bolívares?
31. El gerente de producción de una fábrica de bombillas, estima que la vida útil del producto
está distribuida normalmente, con una media de 5.000 horas. Si además, el gerente
considera que hay una probabilidad de 0.75 de que la bombilla dure entre 4.432 y 5.568
horas. De cuánto es la desviación estándar?
186
Capítulo VI
Números índices
Definición
Un número índice es una cifra relativa, expresada generalmente en porcentajes, que sirve como
un indicador diseñado para describir los cambios de una variable con respecto a un valor de la
misma, la cual es tomada como punto de referencia y se denomina base. Generalmente los
números índices se utilizan para describir la evolución de una variable en el tiempo.
La selección del período base, adquiere una gran importancia dado que los resultados obtenidos
tendrán un sentido conceptual respecto de dicho período. Es por ello que debe contar con ciertas
características de normalidad. Durante el período de referencia la variable cuya evolución pretenda
reflejarse no debe presentar valores de excepción por algún motivo, como puede ser la puesta en
marcha de medidas de política económica de carácter coyuntural, fenómenos climáticos poco
frecuentes (sequías, inundaciones), acontecimientos políticos especiales, entre otros factores que
pudieran afectar el valor de la variable en ese período.
Otra condición es que la ubicación temporal no debe estar muy alejada en el tiempo (con respecto
a la actualidad), porque generalmente las series económicas presentan variaciones en el tiempo
con tendencia creciente y a lo largo del tiempo se puede no notar el efecto o variación de los
valores, además de que generalmente ocurren cambios en patrones de consumo a medida que
pasa el tiempo.
Las cantidades se miden en magnitudes físicas y pueden expresarse simplemente por el número de
artículos producidos o por un número preciso de unidades escalares de longitud, de volumen o de
peso. Es imperativo que la unidad física utilizada sea identificable, ya que de otra forma la noción
de precio no tiene sentido. El precio es la cantidad de dinero pagada por cada unidad de producto
187
(bien o servicio); por eso es indispensable especificar de qué unidad física se trata. La afirmación
de que “el precio del trigo es de 4000 Bolívares” no aporta absolutamente ninguna información a
menos que se sepa que se está hablando de onzas de trigo, o de libras, o de kilos, o de toneladas.
Los indicadores de cantidad, sólo tienen sentido en el caso de un producto único y homogéneo;
cuando se trata de varios productos, expresados en unidades físicas diferentes, es imposible sumar
las cantidades, porque las unidades respectivas no son conmensurables. Por la misma razón, no
tiene sentido ni utilidad sumar precios. En cambio, los valores –es decir, el resultado de
multiplicar los precios por las cantidades- sí son aditivos y constituyen la base de todas las
operaciones de agregación económica.
Importa establecer una clara distinción entre precios y valores. Un valor es el producto
(matemático) resultante de la multiplicación de un precio por una cantidad. Un precio puede
considerarse como el valor de una sola unidad de un producto dado, de donde se desprende que
el único caso en que valor y precio son sinónimos es el caso especial de una sola unidad de un
bien.
En esta guía vamos a utilizar una notación bastante común en los textos que hablan de números
índices, esta será I 0t , en donde t indica el período para el cual se calcula el índice y 0 es el período
base.
• I 0t = 100 para el período base
• I 0t < 100 si el valor de la variable para el período t es menor que el correspondiente del
año base
• I 0t > 100 si el valor de la variable para el período t es mayor que el correspondiente del
año base
El índice simple se obtiene dividiendo cada precio (cantidad o valor) de un período por un
precio (cantidad o valor) de un período fijo, considerado base, y luego multiplicando por 100% si
se quiere el índice en porcentaje.
Índices Simples
Precio Cantidad Valor
p q v p .q
Ip0t = t x100 Iq0t = t x100 Iv0t = t x100 = t t x100
p0 q0 v0 p0 .q0
Ejemplo
Para un determinado bien, se dispone de la siguiente información sobre cantidad, precio y valor.
Si la cantidad está expresada por ejemplo en términos de toneladas, el precio será precio por cada
tonelada. Si la cantidad está expresada en términos de horas, el precio será por cada hora. El valor,
como fue señalado, será el producto del precio por cantidad.
188
PERIODO CANTIDAD(q) PRECIO(p) VALOR(p*q)
0 125 2 250
1 181 2.5 452.5
2 205 2.8 574
3 115 2.9 333.5
El cálculo de índices de cantidad, precio y valor, tomando como período de referencia (período
base) el período 0, dará los siguientes resultados:
PERIODO INDICE DE INDICE DE INDICE
CANTIDAD PRECIO DE VALOR
0 100.0 100.0 100.0
1 144.8 125.0 181.0
2 164.0 140.0 229.6
3 92.0 145.0 133.4
Cálculo: todos los índices se calcularon tomando como referencia el período 0 (período base). En
ese sentido los valores de los índices resultan de:
Periodo 1 2 3
Índices de Cantidad: (181 / 125) x 100 (205 / 125) x100 (115 / 125 ) x 100
Índices de Precios: (2.5 / 2) x 100 (2.8 / 2) x 100 (2.9 /2 ) x 100
Índices de Valor: (452.5 / 250) x 100 (574 / 250) x 100 (333.5 / 250) x 100
Como se aprecia, se obtuvieron tres indicadores: uno hace referencia a la evolución en cantidad
del bien, otro a la evolución en precio y otro a la evolución en valor.
El índice compuesto simple (sin ponderar), se conocen también como índices de Sauerbeck;
se obtiene comparando la suma de los precios (cantidades o valores) de un conjunto de bienes o
servicios y dividiendo ese total entre la suma correspondiente al período base (se multiplica por
100% si se quiere el índice en porcentaje).
Los índices compuestos simples, estudian la evolución en el tiempo de una magnitud que tiene
varios componentes y a los cuales se asigna la misma importancia o peso relativo (siendo esta
última hipótesis nada realista en la práctica).
Por su naturaleza son de poco uso en el mundo de la economía.
189
Ejemplo: Calcular el índice compuesto de precios del conjunto de 5 artículos presentados en la
tabla siguiente.
Precios (Bs)
unidad de 07
Artículo medida 2006 2007 Ip06
A Kg. 1200 1500 125,00
B Lt 750 1300 173,33
C Und. 60 400 666,67
D Mtr 450 300 66,67
E Kg. 2500 6000 240,00
Total 6966 11507 1271,67
Note que si una persona compara 6966 Bs. (la suma total de los precios del 2006) con el total de
11507 Bs. del año 2007, y calcula un índice simple de esa manera, obtendría
11507
x100 = 165,19 . Que al interpretarlo estaría proponiendo un aumento de sólo el 65,19% de
6966
los precios. Este procedimiento es erróneo porque no refleja los aumentos individuales de cada
artículo, por ejemplo, el artículo C aumenta en un 566,67%, hecho que no recoge el
procedimiento simple. Todos los artículos aumentaron en más de 125% excepto uno sólo que
aumentó en 66,67%, es por esto que en vez de calcular el índice simple, se realiza el cálculo del
índice compuesto como se muestra a continuación.
Cada valor en la última columna de la tabla se cálculo como un índice simple, por ejemplo para el
p 1300
artículo B, Ip06 07
= 07 x100 = x100 = 173,33
p06 750
Por lo tanto el índice compuesto de precios, se calcula dividiendo la suma de los índices simples
de todos los artículos entre la cantidad de artículos:
k pt
∑ j x100
0
j =1 p j 125,00 + 173,33 + 666,67 + 66,67 + 240,00 1271,67
Ip0 =
t
= = = 254,33
k 5 5
Este procedimiento no tiene en cuenta el peso relativo de cada uno de los componentes a la hora
de obtener el índice. Es decir, se calculan sin ponderar los distintos bienes o productos que se
están considerando. Además, el método de la media aritmética simple presenta un inconveniente
añadido, pues suma magnitudes que pueden ser muy heterogéneas, como en el ejemplo que
estamos tratando.
190
A continuación hablaremos de los algunos métodos para obtener índices compuestos
ponderados. A diferencia de los métodos anteriores, en este caso se trata de promediar la
información inicial haciendo uso de ciertas ponderaciones. Estas deben reflejar la importancia de
los precios y las cantidades de cada uno de los bienes que entran en la definición del índice
compuesto.
Estudian la evolución en el tiempo de una magnitud que tiene varios componentes y a los cuales
se asigna un determinado coeficiente de ponderación wi. Son los que realmente se emplean en el
análisis de la evolución de fenómenos complejos de naturaleza económica (IPC, IPI, etc.)
∑I t
i0 .wi
Iw =
t
0
i =1
k
x100
∑w i =1
i
Índices de Precios
Este método se emplea generalmente para el cálculo de números índices de precios en donde se
ponderan los precios de acuerdo a las cantidades consumidas de los correspondientes artículos
(formando así valores). De acuerdo a como se escojan los pesos se tienen los métodos de
Laspeyres, Paasche o Fisher. Reescribiendo la fórmula anterior en función de los precios, se
obtiene:
k
pit0
∑
i =1 pi00
.wi
Iw0t = k
x100
∑w i =1
i
k
pit0 k
∑i =1 p/ i00
. p/ i 0 .qi 0 ∑p t
i0 .qi 0
P = x100 =
t i =1
L0 k k
x100
∑pi =1
i0 .qi 0 ∑p
i =1
i0 .qi 0
191
El índice de Laspeyres puede interpretarse como la relación existente entre el valor que se obtiene
al comparar, a los precios actuales, la misma cantidad de artículos del precio base y el valor de
tales artículos en el año base.
k
pit0 k
∑
i =1 p/ i00
. p/ i 0 .qit ∑p t
i0 .qit
P = x100 =
t i =1
P0 k k
x100
∑p
i =1
i0 .qit ∑p
i =1
i0 .qit
∑p t
i0 .( qi 0 + qit )
P =
t i =1
E0 k
x100
∑p
i =1
i0 .( qi 0 + qit )
Ejemplo: Considere los precios y las cantidades de 5 artículos (A,B,C,D,E) para los años 2006 y 2007.
2006 2007
unidad de
Artículo medida Precios (Bs) Cantidades Precios(Bs) Cantidades
A Kg. 1200 20 1500 30
B Lt 750 15 1300 18
C Und. 60 5 400 8
D Mtr 450 5 300 10
E Kg. 2500 2 6000 6
192
Calcule el índice de precios de:
a) Laspeyres
b) Paasche
c) Fisher
d) Edgeworth
e) Sidgwick-Drobisch
07
∑p 07
i0 .qi 06
65.000
P
L 06 = i =1
k
x100 = = 151,87
42.800
∑pi =1
i 06 .qi 06
06 07
07
∑p t
i0 .qit
110.600
PP 06 = i =1
k
x100 = x100 = 159,18
69.480
∑p
i =1
i0 .qit
193
d) Procedimiento para el cálculo del índice de Edgeworth: Primero sumamos las columnas de las
cantidades del período base con la del período actual, luego multiplicamos esa columna por la
columna de precios del período actual y al sumar obtenemos el numerador de la fórmula y
análogamente al multiplicar por la columna de los precios del período base y sumar el total para
todos los artículos se obtiene el denominador.
06 07
07
∑p t
i0 .(qi 0 + qit )
175.600
PE 06 = i =1
k
x100 = x100 = 156,40
112.280
∑p
i =1
i0 .(qi 0 + qit )
e) Para Sidgwick-Drobisch: Se suman los índices de Laspeyres y Paasche y luego se divide por
dos el resultado.
07 07
07 P + PP 06 151,87 + 159,18
P
S 06 = L 06 = = 155,53
2 2
Observamos que aunque todos los índices pretenden dar un indicador que explique los cambios
de precios para el período 2007 en los artículos A, B, C, D y E como un agregado y en
comparación al período 2006; todos dan resultados diferentes, con un mínimo de 51,87% de
aumento (Laspeyres) hasta un 59,18% de aumento (Paasche), los demás índices con posiciones
medias entre esos dos valores.
De todos los índices compuestos que se han definido, los de Laspeyres son los que requieren
menos información, pues las ponderaciones son siempre fijas, las del período base, mientras que
para los de Paasche las mismas varían en cada período. Pero esa ventaja que presentan los
primeros puede llegar a ser un inconveniente, pues, con el transcurso del tiempo, esas
ponderaciones iniciales pueden llegar a quedarse obsoletas, lo que obliga a realizar una renovación
de las mismas.
194
Índices de cantidades compuestos ponderados
Se calculan de manera similar a los índices de precios, pero en este caso se consideran los precios
como los precios wi en las fórmulas. Por lo que podemos calcular con un procedimiento análogo
al aplicado a los índices de precios compuestos ponderados, los respectivos índices de cantidades
de Laspeyres (QL), Paasche (QP), Fisher(QF), Edgeworth (QE) y Sidgwick-Drobisch (QS), sólo
debemos intercambiar el método de pesaje escogiendo los precios ahora como los pesos para cada
cantidad.
Cambio de Base
En los enlaces de series de números índices que tienen distinta base, nos apoyamos en la
propiedad de inversión que dice que el producto de dos índices invertidos en períodos es igual a 1,
esto es que I 0t .I t0 = 1 . Cabe destacar que ni el índice de Laspeyres, ni el de Paasche, que son los
más utilizados en la cotidianidad la cumplen, pero que se actúa en la práctica como si se
cumpliera, ante la necesidad de efectuar dichos enlaces.
Sea una serie de números índices cuyo período base es 0, denotados por: I 01 , I 02 ,..., I 0n .
Puede interesar cambiar la base 0 si está muy alejada en el período t de comparación. Para ello no
es necesario efectuar un profundo estudio para determinar nuevos coeficientes de ponderación
(en el caso de índices complejos) sino únicamente apoyarnos en la propiedades de inversión y
circular que nos permiten obtener el coeficiente técnico que transforma la serie dada en una nueva
con un periodo base distinto h.
Para el período h, existirá un índice I 0h (viejo), que servirá de apoyo para el cálculo del nuevo
índice I ht de la siguiente manera:
I 0t
I ht = x100
I 0h
El índice de los precios del consumo (IPC), es calculado mensualmente por el banco central de
Venezuela y por el actual Instituto Nacional de Estadísticas (INE). Mide las variaciones generales
en los precios del consumo a partir de una canasta de bienes y servicios representativa del
consumo promedio de los hogares. Por lo tanto, debe tenerse en cuenta que el IPC es un
indicador de la variación de los precios de un hogar promedio fundamentalmente de la zona
metropolitana, aunque en la actualidad se calcula por separado el índice para la zona de los andes
y hay proyectos de cálculos para otras zonas del país. Los artículos que conforman la canasta de
bienes en que se basa el IPC, no se corresponden con los bienes y servicios consumidos
efectivamente por ningún hogar en particular, sino que resultan del promedio de consumo de
todos los hogares del estrato seleccionado.
195
Fuente: Tomado del boletín “El termómetro de la inflación” del Banco Central de Venezuela, (2000)
Fuente: Tomado del boletín “El termómetro de la inflación” del Banco Central de Venezuela, (2000)
196
Evolución del IPC (base 1997=100)
Indice Var%
800,0 80,0
700,0 70,0
600,0 60,0
500,0 50,0
400,0 40,0
300,0 30,0
200,0 20,0
100,0 10,0
0,0 0,0
1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
Indice 3,8 5,3 7,1 9,4 13,0 20,9 33,3 66,6 100,0 135,8 167,8 195,0 219,4 268,6 352,1 428,7 497,1 565,0 667,7
Var% 62,6 31,5 27,3 28,0 38,4 54,9 45,8 73,5 32,4 26,5 18,4 12,7 11,6 27,6 24,3 17,7 13,5 15,8 17,5
Fuente: Datos del BCV y cálculos propios. Se estimó el valor para noviembre y diciembre
de 2007 utilizando el promedio de la variación porcentual mensual de los últimos 18 años.
Se observa un crecimiento lineal del IPC con dos cambios notables de pendiente, uno en el año
1995 en donde de observa un incremento de la velocidad de crecimiento y otro en el año 2002 en
donde se observa otro aumento pronunciado en el crecimiento del IPC. Sin embargo el
porcentaje acumulado desde el año 2000 hasta el año 2007 es de 140.7% lo que quiere decir que
los bienes y servicios generales tomados en cuenta en el cálculo del índice han aumentado su
precio en más de 140.7%, es decir que algo que costaba 50.000Bs en el año 2000 se espera que
cueste 120.350 Bs ó 120,35 BsF para principios del año 2008. Este análisis solo se debe aplicar a
los productos de la canasta que se toma en cuenta para el cálculo del IPC y que hayan tenido un
aumento parecido al promedio y no para otros productos, ya que generalmente hay artículos que
aumentan mucho más que el promedio y otros que aumentan menos.
También se observa que el porcentaje acumulado de la variación mensual del IPC, tiene un
comportamiento promedio de 17.6% desde el 2000 hasta la actualidad. Esto quiere decir que cada
año los precios tienen un incremento promedio de un 17.6%.
El IPC y la inflación
197
El IPC no es la inflación, sino que mide la inflación. En efecto, la evolución de los precios
registradas en el IPC constituye la medición de la variación general de precios o sea la inflación.
Variable de ajuste
La variación del IPC en determinado período es usualmente utilizado como medidas de ajuste en
determinados contratos como por ejemplo los alquileres.
En otro orden ciertos instrumentos de depósito bancarios toman en cuanta la variación del IPC
para el cálculo de la rentabilidad.
198
Cuestionario del Capítulo VI:
2) Con la siguiente información sobre los índices de precios para el período 1994-1998
3) El gobernador del estado, ha estudiado el consumo de agua por habitante durante los últimos
5 años, dividiendo la ciudad en dos zonas A y B, obteniendo:
Consumo de agua por habitante y año en las zonas A y B
Año 2003 2004 2005 2006 2007
Consumo zona A 345 367 354 389 325
Consumo zona B 321 331 315 318 310
En millones de litros cúbicos
Establece una serie de números índice para estudiar la variación del consumo referida al año
2003, teniendo en cuenta que la zona A, alberga al 56% de los ciudadanos y la B al 46%
4) Los registros de una empresa dedicada a la producción de acero, relativos a sus principales
materias primas, son los que se muestran en la siguiente tabla:
199
7) Con los datos del ejercicio 6) calcule los índices de cantidades compuesta ponderadas por los
métodos de Laspeyres, Paasche, Fisher, Edgeworth y de Sidgwick-Drobisch
8) Conocidos los precios y las cantidades de los artículos correspondientes a los años 2000-2007,
determine con base en el año 2000, los siguientes índices complejos:
• Los índices de precios mediante los métodos de Laspeyres, Paasche, Fisher,
Edgeworth y de Sidgwick-Drobisch
• Los índices de cantidades mediante los métodos de Laspeyres, Paasche, Fisher,
Edgeworth y de Sidgwick-Drobisch
200
BIBLIOGRAFIA
201