Guia Estadistica I v4

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 204

UNIVERSIDAD DE ORIENTE

NÚCLEO DE SUCRE
ESCUELA DE ADMINISTRACIÓN Y CONTADURÍA

Estadística I: Guía de Estudio

TRABAJO PRESENTADO COMO REQUISITO PARCIAL PARA OPTAR POR LA


CATEGORÍA DE ASISTENTE

PROFESOR

MSc. JOSÉ FÉLIX APONTE MÁRQUEZ

NOVIEMBRE 2007
PROF. JOSÉ FÉLIX APONTE MÁRQUEZ

1
Índice

i
Introducción
El objetivo principal de esta monografía es proporcionar a los participantes de un curso de estadística
básica, una detallada guía de las técnicas y teorías más relevantes en el área de estadística aplicada a las
ciencias sociales, administrativas, económicas y gerenciales. Como bien se especifica en el título de la
monografía, se trata de una guía, por tanto se espera que el participante se involucre lo suficiente con las
técnicas aquí presentadas para que se logre la construcción del conocimiento.

No se hará énfasis en el cálculo matemático riguroso ni en demostraciones de los teoremas, puesto que
el propósito es ofrecer un punto de vista práctico pero sin menoscabo de las teorías básicas que
soportan a las aplicaciones.

Se han incorporado algunas herramientas tecnológicas que facilitan en gran medida el cálculo de las
medidas numéricas descriptivas y gráficas estadísticas. Se ofrecen algunas ideas de cómo construir a
partir de herramientas de amplio uso en la actualidad, como las hojas de cálculo de Microsoft Excel y
algunos programas estadísticos como gstat que es de libre distribución y que puede ser descargado
desde la página web http://www.gstat.org/. Adicionalmente al trabajar con datos numéricos
agrupados, se muestra la utilización de un programa estadístico llamado Esta+ v3.1.3 que tiene
copyright por Alejandro Vergara Massa (http://www.terra.es/personal8/estaplus), este programa
puede ser distribuido gratuitamente pero no es fuente abierta, es decir, no se puede modificar y hay que
hacer referencia al autor del mismo.

En la actualidad la estadística ha tenido un auge que se debe en gran medida al desarrollo desmesurado
de nuevas tecnologías y a los estudios de los investigadores en diversas áreas como la medicina,
mercadeo, industrias, control de procesos, entre otros que al crear la necesidad de analizar datos
(generalmente multivariantes) contribuyen a que los estadísticos desarrollemos nuevos métodos
adecuados para su análisis.

El motivo principal de escribir un texto en Estadística I, es que en muy pocos libros de lengua española
se presenta un enfoque orientado al cálculo de las medidas descriptivas paso a paso y además que
ofrezca en su contraparte el cálculo de las mismas pero con un aprovechamiento de las tecnologías
disponible ya en manos de la mayoría de los estudiantes universitarios.

Es importante destacar que algunos ejercicios engloban un análisis descriptivo completo y que se
pueden utilizar para observar la relación que existe entre las distintas medidas descriptivas y en esto se
diferencia en gran medida de otros textos, que sólo se enfocan en el cálculo por separado de estas
medidas y no se muestra el análisis en conjunto de todas las medidas descriptivas. Este tipo de
ejercicios generalmente se presentan al final de cada unidad, para que el estudiante una vez haya
revisado toda la unidad, tenga la oportunidad de vincular los conceptos y procedimientos de manera
más realista y completa.

El contenido de la guía se adapta a un curso de estadística descriptiva de un semestre y que guarda


relación con el contenido programático de la asignatura de Estadística I de la carrera de Licenciatura en
Administración y Licenciatura en Contaduría de la Universidad de Oriente, pero que se puede aplicar a
cualquier carrera del área de ciencias sociales o gerencial.

Es justo señalar que aunque el contenido del presente texto esté inspirado en la asignatura de
Estadística I de la carrera de Licenciatura en Administración y Licenciatura en Contaduría de la
Universidad de Oriente, la organización del mismo no es exactamente igual a la planteada en el

1
programa de dicha asignatura, debido a que se fusionaron algunas unidades para darle mayor fluidez al
texto y para hacerlo más ameno en la lectura.

La guía se organiza en siete capítulos que se enumeran a continuación, con una indicación del número
de horas que se podría aplicar en un régimen semestral que abarque todo el texto:

• CAPÍTULO I: Introducción a la Estadística e Investigación Estadística. (5 horas).

• CAPÍTULO II: Organización y Presentación de Datos. (20 horas)

• CAPÍTULO III: Medidas de Descriptivas [Tendencia Central, Dispersión, Asimetría y Curtosis]. (20 horas)

• CAPÍTULO IV: Introducción a la Probabilidad. ( 10 horas )

• CAPÍTULO V: Introducción a las Distribuciones de Probabilidades. ( 10 horas )

• CAPÍTULO VI: Nociones Elementales de los Números Índices. ( 5 horas )

En el CAPÍTULO I, se desarrollan los conceptos básicos relacionados con la Estadística y se realiza


una breve discusión sobre las diferentes escalas de medición en que se pueden presentar los datos.
Finalmente se enumeran los pasos que se deben seguir al realizar una investigación estadística.

En el CAPÍTULO II, se discuten las diferentes formas de organizar la información estadística y se


explica la construcción de tablas de frecuencias y tablas de intervalos de clase. También se plantea la
presentación de los datos en forma gráfica como una alternativa de las tablas, en este punto se muestran
los procedimientos para la construcción de las gráficas tanto de manera manual como con la ayuda de
software básico como el Excel de Microsoft Office.

En el CAPÍTULO III, se resumen las herramientas de la estadística descriptiva, haciendo énfasis en el


cálculo de medidas de tendencia central, dispersión, asimetría y apuntamiento o curtosis. Este capítulo
es el de mayor importancia práctica, ya que en éste se discuten las herramientas principales del análisis
de datos univariantes a nivel descriptivo.

En el CAPITULO IV, se realiza una descripción básica, pero sin menoscabar los detalles importantes
del cálculo de probabilidades. En este capítulo se introduce el concepto de variable aleatoria y sus
propiedades probabilísticas, con lo cual se crea la base de la teoría de la estadística inferencial.

En el CAPITULO V, se presentan las distribuciones probabilísticas de mayor importancia en el campo


de aplicaciones de la estadística básica. Se discuten las distribuciones de variables discretas y las
distribuciones de variables continuas desde lo general hasta lo particular. Se comienza con una
definición formal y general de lo que es una distribución (discreta y continua) de probabilidades y luego
a manera de caso particular se exponen los casos de la distribución Binomial, de Poisson y Normal.

En el último, CAPITULO VI, se realiza un pequeño resumen de los diferentes tipos de números
índices que existen y se explica la construcción de los mismos para los casos de índices de precios, de
cantidades y de valor. Se toma como caso particular el índice de precios al consumidor (IPC) y se detalla
la construcción del mismo y sus aplicaciones en el campo de la economía aplicada.

2
Capítulo I

ESTADÍSTICA E INVESTIGACIÓN ESTADÍSTICA.

La noción de Estadística, se derivó originalmente del vocablo


Definición de “Estado”, porque ha sido función tradicional de los gobiernos centrales
estadística llevar registros de población, nacimientos, defunciones, vocaciones,
cosechas, impuestos y muchas clases de datos numéricos.

Hoy día se ha diversificado el concepto de Estadística a tal punto que existen varias definiciones
de autores reconocidos del área. El New Collegiate Dictionary de Webster y muchos autores
como Ciro Martínez Bencardino [6], definen la Estadística como “una rama de las matemáticas
que trata de la recopilación, el análisis, la interpretación y la presentación de una gran cantidad de
datos". Por otra parte, Kendall y Stuart [3] afirman que “La Estadística es la rama del método
científico que trata de los datos reunidos al contar o medir las propiedades de alguna población”.
Fraser [1], al comentar al respecto dice que “La Estadística trata con métodos para obtener
conclusiones a partir de los resultados de los experimentos o procesos”. Freund [2] entre otros,
considera a la estadística como algo que abarca “el conocimiento relacionado con el tomar
decisiones en situaciones de incertidumbre”. Mood, Graybill y Boes [5] definen la estadística
como la “tecnología del método científico” y añaden que trata con “el diseño de experimentos e
investigaciones y la inferencia estadística”.

Una revisión superficial de estos conceptos, nos revela una carencia impresionante de
uniformidad, sin embargo todas tienen en común que se trata del análisis de datos a partir de un
diseño experimental.

Entonces se puede decir que la Estadística es la ciencia que permite acercarnos a la realidad de los
procesos por medio del análisis de los datos que se recolectan a partir de un diseño estructurado y
controlado, y que por medio de este análisis podemos obtener aseveraciones netamente confiables
que permiten al investigador ofrecer una opinión objetiva de la realidad o del problema estudiado.

La función principal de la estadística es elaborar principios y métodos


Naturaleza, objeto que nos ayuden a tomar decisiones frente a la incertidumbre. En realidad,
e importancia de muchos autores, como Freund [2] definen la estadística actualmente
como un método de toma de decisiones frente a la incertidumbre.
la estadística
La estadística ha llegado a ser un instrumento cotidiano de todo tipo de
profesionales que se ponen en contacto con datos reales. Tales personas necesitan tener alguna
familiaridad con principios estadísticos, tanto teóricos como prácticos, para poder evaluar los informes
numéricos y evitar malos usos comunes de la estadística y falacias en el razonamiento estadístico.

En las últimas décadas la estadística ha alcanzado un alto grado de desarrollo, hasta el punto de
incursionar en la totalidad de las ciencias; inclusive, en la lingüística se aplican técnicas estadísticas para
esclarecer la paternidad de un escrito o los caracteres más relevantes de un idioma.

La estadística se aplica en ciencias administrativas y económicas, entre otras, en las siguientes áreas:

3
 Producción: En la producción masiva de un artículo se hace necesario detectar y eliminar
alteraciones sistemáticas de la calidad para ello se aplican métodos de control de la calidad que
es una de las ramas de aplicación de la estadística moderna. También se aplican técnicas de
modelos estadísticos para predecir volúmenes de ventas en función de algunos factores o
variables del sistema productivo.

 Finanzas y Economía: En la estimación del valor que tomará en el futuro a corto, mediano
o largo plazo una variable que influya en el control financiero o económico, se utilizan técnicas
de pronóstico estadístico, y esta rama de la estadística se conoce como la econometría.
También es posible contrastar teorías de modelos económicos en función de los datos reales
encontrados en los mercados financieros.

 Contabilidad: De gran importancia en las auditorias, ya que mediante la aplicación de ciertos


métodos de muestreo estadístico se seleccionan, por ejemplo, un lote de facturas al azar y se
realiza la auditoria con ese lote en vez de hacerlo con todas que podrían significar una pérdida
importante de tiempo y recursos.

 Mercados: Las encuestas estadísticas y las técnicas de segmentación de mercado, son


indispensables para determinar la reacción de los nuevos consumidores y del éxito de un
producto nuevo en el mercado. En esta área se aplican las técnicas estadísticas de manera
cotidiana.

La estadística tiene su fundamento en la recopilación y análisis de datos,


Conceptos nombraremos al mecanismo o característica que produce a estos datos,
básicos Variable. Básicamente el propósito de estudiar estos datos consiste en:
describirlos, encontrar relaciones, demostrar hipótesis o hacer
relacionados. pronósticos sobre la población de donde provienen. Es decir que se
trabaja sobre un conjunto de datos (que llamaremos muestra) que se
extraen de una característica o variable de una población. A continuación una breve definición
de estos conceptos.

Población
La población es un conjunto finito o infinito de medidas (numéricas o no) que se realizan sobre
elementos, personas u objetos, y que presentan características comunes para extraer información de una
investigación. El término población se usa para denotar el conjunto de elementos del cual se extrae la
muestra. Se puede clasificar en:

• Población Finita:
Es aquella que está formada por un número limitado de elementos. Por ejemplo, la
población de estudiantes de administración en cierta universidad en un tiempo
determinado.

• Población Infinita:
Es aquella cuyo número de elementos no es contable en su totalidad. Por ejemplo,
la población del monto total (con impuesto incluido) de cada factura en las
empresas del país en el mes de diciembre de determinado año.

4
Es común que aunque ciertas poblaciones tengan en teoría un número finito de
elementos, se consideren y manejen como poblaciones infinitas, esto bien sea
porque su tamaño es muy grande o porque es muy difícil contabilizar el tamaño de
la misma. Al respecto hay que decir que aunque una población de tamaño muy
grande, matemáticamente no sea una población infinita, los cálculos estadísticos del
tamaño muestral y el manejo de los datos a posteriori, en cuanto a resultados
prácticos, no presentan diferencias si la consideramos infinita o finita.

Comentario adicional sobre la población estadística

Al estudiar poblaciones, hay que distinguir entre unidades experimentales (elementos, personas u
objetos) bajo estudio de un determinado problema o investigación y el marco muestral. Note que al
estudiar, por ejemplo, la edad promedio de los estudiantes de la universidad, las unidades muestrales
son los estudiantes como tal (ya que sobre ellos se puede medir la variable estudiada: Edad), y la
población propiamente dicha viene formada por la característica estudiada en esas unidades muestrales.
En este ejemplo, al listado de las edades de todos los estudiantes de la universidad, se denomina
marco muestral.

El marco muestral es entonces un listado, mapa o base de datos, que tenga la información de las
unidades muestrales que se quieren estudiar, por lo tanto debe estar completo y presentar la
información clara y sin ambigüedades, ya que de ello depende el éxito de la selección de la muestra
estadística de la población objeto.

Muestra
La Muestra es una parte o un subconjunto de la población. Para que la muestra tenga validez desde el
punto de vista estadístico debe ser seleccionada de manera aleatoria (al azar sin ninguna forma
intencional o subjetiva) y un requisito esencial es que debe ser representativa de la población objeto de
estudio.

Definir cuándo una muestra es representativa es sumamente complicado y aquí es donde está el secreto
de una buena investigación que pretenda extrapolar los resultados de la muestra hasta los otros
elementos que no fueron seleccionados. Una muestra es representativa si capaz de representar con
exactitud las preferencias o características del total de la población.

Ejemplo de una muestra no representativa y sus efectos:

En 1963 una empresa norteamericana pronosticó que Franklin Roosvelt perdería


las elecciones con Alfred Landon, según porque Roosvelt sólo obtendría el 30% de
los votos. Sin embargo Roosvelt ganó con el 98% de los votos!!. El fracaso para esa
empresa fue rotundo.

El error estuvo en la selección de la muestra. Ellos hicieron una encuesta telefónica


a los suscriptores de una revista llamada Digest. En 1963 las personas que tenían
una línea telefónica y estaban suscritos a una revista no eran representativos
de la población de electores de EU, por ende no podía hacerse un pronóstico
confiable de una información sesgada.

5
Diferencia entre población y muestra:
Generalmente se estudian las características de una muestra
que es seleccionada de una población, por lo tanto los
términos población y muestra están relacionados. Sin
embargo una población es el todo y una muestra es una
fracción o parte del todo. Cuando las poblaciones y las
muestras sean finitas, denotaremos por N el tamaño
poblacional y por n el tamaño muestral.

Población Muestra

Ejemplo (Muestra y Población): Supongamos que se


seleccionaron 30 estudiantes aleatoriamente para establecer el
promedio de notas los 4.500 estudiantes activos de cierta escuela
de una universidad.
¿Cuál es la población y la muestra?
La población objeto consiste en todos los promedios de notas de
los estudiantes de esa escuela en la universidad (todas las carreras
de dicha escuela, todos los semestres o años, pero sólo de los
estudiantes activos de esa escuela) y la muestra en este caso son los
30 estudiantes que se seleccionaron. La variable a estudiar es el
peso de los estudiantes. Por lo tanto, N = 4.500 y n = 30.

¿Cómo se seleccionan los 30 estudiantes? ¿Serán representativos de la población?. Estas preguntas


se responden en la medida que se avance en la teoría de muestreo que será el próximo punto a
desarrollar.

Muestreo. Importancia de la Muestra.

El Muestreo no es más que la acción de seleccionar una muestra de una población dada.

Para que los resultados obtenidos de los datos muestrales se puedan extender a la población, es
decir, que se pueda hacer una inferencia con niveles aceptables mínimos de error, la muestra debe
ser representativa.

La representatividad se logra, primero seleccionando con un mecanismo aleatorio a las unidades


muestrales y segundo, aplicando el tipo de muestreo adecuado en la selección de los elementos de
la población que luego conformarán la muestra. No obstante, tales métodos sólo nos garantizan
una representatividad muy probable pero no completamente segura (siempre hay un margen de
error que se trata de controlar por medio de un nivel de significancia).

Cualidades de una buena muestra:


Para que una muestra tenga validez estadística, debe cumplir con los siguientes requisitos:
a) Ser representativas o reflejo general del conjunto o población estudiada, reproduciendo lo
más exactamente posible las características de la misma.
b) Que su tamaño sea estadísticamente proporcionado a la variable de la población.
c) Que el error muestral se mantenga dentro de los límites adoptados como permitidos.

6
Fases para la selección de una muestra (plan de muestreo):

La tarea de determinación de una muestra se inserta dentro de las diferentes etapas de una
investigación estadística, de ahí que es importante tomar en consideración los siguientes puntos
para la selección de la muestra:
 Tener en cuenta los objetivos y finalidad de la investigación
 Determinar y delimitar la población objetivo (Construir el Marco Muestral)
 Determinar el tipo de variables o características a observar
 Nivel de confianza adoptado (Generalmente se estila utilizar entre un 90 y un 99%, siendo
el más utilizado el 95% de confianza, queda a criterio del investigador)
 Error de estimación permitido
 Recursos humanos y técnicos disponibles
 Medios Financieros o presupuesto
 Métodos y técnicas a utilizar. Sobre todo la técnica de muestreo
 Nivel de la investigación (Exploratoria, Descriptiva, Correlacional o Explicativa)
 Medios o herramientas usados para la medición de las variables
 Métodos para medir la representatividad, validez y fiabilidad de la muestra

Tipos o técnicas de muestreo:

 Muestreo no probabilístico: no se usa un mecanismo aleatorio para seleccionar la


muestra, sino el criterio del investigador. Este tipo de muestreo suele presentar grandes
sesgos y es poco fiable, de hecho no se puede establecer un nivel de confianza. Se puede
ver en dos tipos de muestreos: muestreo intencional u opinático y muestreo errático.
o Intencional u opinático: El encargado de seleccionar la muestra procura que
sea representativa, debe tener conocimiento de la población de estudio, está
influenciado por las preferencias o tendencias de quién guía el estudio. Se puede
ver en dos modalidades:
 Por cuotas: Se utiliza principalmente para realizar sondeos de opinión
pública o estudios de mercados. Consiste en establecer cuotas para las
distintas categorías presentes el la población objeto. Pretende ser
representativa del total, reflejando las diferentes categorías que se dan en
la población. Su mayor ventaja está en su simplicidad de aplicación, lo
que permite el ahorro de tiempo y dinero. Su desventaja radica en el
sesgo que puede introducir la opinión de los elementos seleccionados por
una inadecuada selección de la muestra.
 Razonadas o intencionadas: El investigador debe conocer muy a
fondo las características de la población y escoge a los elementos que
bajo su razonamiento son los más adecuados para realizar el estudio.
o Errático: Se toman los casos que se tienen a mano o que circunstancialmente y
sin norma se seleccionan de manera arbitraria. En este caso se logra
representatividad sólo cuando la población es homogénea en la característica
estudiada.
 Muestreo probabilístico: cuando la selección de los elementos muestrales se realiza
aleatoriamente o con mecanismos al azar. Con este tipo de muestreo se garantiza la
representatividad de la muestra y además se puede controlar el margen de error o nivel

7
de confianza de la muestra tomada. Entre las modalidades básicas del muestreo
probabilístico, tenemos:
o Muestreo aleatorio simple (es el más sencillo pero a su vez el más importante,
y que es la base para las otras modalidades de muestreo probabilísticos). En el
muestreo aleatorio simple, cada elemento de la población tiene la misma
probabilidad de ser elegido, y cada muestra de cualquier tamaño debe tener la
misma posibilidad de ser seleccionada para su estudio. Se puede utilizar una tabla
de números aleatorios para seleccionar los elementos de la población que pasaran
a ser parte de la muestra, también se pueden utilizar métodos menos rigurosos
como la selección al azar por papeletas que tienen el nombre de cada elemento
metidas en una bolsa, o utilizando una calculadora que genere n números
aleatorios (que serían las identificaciones de los que se seleccionarán para la
muestra), los números se restringen a que estén entre 1 (primer elemento del
marco muestral) y N (último elemento).
o Muestreo sistemático: Para construirla, primero debemos tener ordenados y
etiquetados los elementos de la población, digamos desde el 1 hasta el N, en una
lista. Se elige un individuo al azar (punto de partida) y a continuación a intervalos
constantes de tamaño k, se eligen todos los demás hasta completar la muestra. Si
se llega al final de la lista, se sigue saltando desde la última posición hasta la
primera, es decir, el marco muestral se debe pensar como una lista circular sin
fin, empatando el final con el principio.
o Muestreo estratificado: se aplica cuando nos interesa que la muestra tenga la
misma composición a la de la población la cual se encuentra divida en clases o
estrato. Si por ejemplo en la población el 20% son mujeres y el 80% hombres, se
mantendrá la misma proporción en la muestra. Es muy eficaz cuando la
población dentro de cada estrato es homogénea, ya que se reduce la variabilidad
total de la característica observada. Una ventaja adicional es que permite
presentar resultados y hacer inferencia para cada estrato por separado. Dentro de
cada estrato se debe aplicar muestreo aleatorio simple para seleccionar la sub-
muestra de ese estrato.

Existen otros tipos de muestreo probabilísticos como el muestreo por conglomerados y


muestreo polietápico, los anteriores son los más básicos. Si el lector está interesado en ahondar
sobre las técnicas de muestreo y temas como el tamaño de la muestra a seleccionar, puede
remitirse al texto de Scheaffer, Mendenhall y Ott, Elementos de Muestreo [8] y al libro de
Cochran, Técnicas de Muestreo [9].

¿Por qué estudiar una muestra y no la población completa?

Existen una cantidad de factores que determinan por qué una muestra representativa es más
apropiada para analizar la población que la misma población. A saber:

a) Costos: realizar un estudio estadístico conlleva a una observación de la o las variables en


los elemento de la población. Cada observación o medición tiene asociado un costo, por
ejemplo: transporte, viáticos, gastos administrativos, entre otros. Al estudiar poblaciones
grandes se elevan los costos hasta cantidades que superan el presupuesto de la
investigación. Es claro que mientras menos elementos tenga la muestra menos costoso
será la investigación.

8
b) Tiempo: generalmente un estudio tiene sentido sólo en un período de tiempo
determinado, por ejemplo si queremos predecir el resultado de una elección presidencial y
se está a sólo 3 semanas de las elecciones, no nos daría tiempo preguntarle a toda la
población sobre su intención de voto. Sería conveniente tomar una muestra de la
población y trabajar con los resultados muestrales para proyectar los resultados de las
elecciones.
c) Imposibilidad Técnica: si por ejemplo queremos estimar el peso promedio de los peces
en las costas venezolanas, sería técnicamente imposible capturarlos todos para poder
pesarlos.
d) Naturaleza destructiva de algunas pruebas: en algunas pruebas para medir variables de
elementos se utiliza un mecanismo que conlleva a la destrucción del elemento observado.
Por ejemplo, en una fábrica de cauchos se desea estimar la cantidad de kilómetros
promedio que rinden antes de presentar fallas (deformación, roturas, pérdida de aires,
etc.), se somete a una prueba en máquinas especiales de fricción, peso y golpes simulando
la conducción tal como si fuera en el asfalto con un carro, se mide la cantidad de
kilómetros hasta donde presente una falla. En este caso se destruye el elemento observado
y no sería para nada atractivo para la fábrica someter todos los cauchos a estas pruebas.
e) Mayor control sobre las fuentes de error: generalmente hay más posibilidades de
cometer errores de observación o de trascripción cuando se hacen en una población
grande. Con las muestras hay más posibilidad de controlar este tipo de errores por ser
cantidades manejables y propensas a revisiones exhaustivas.

La Estadística se puede clasificar en dos ramas, de acuerdo al alcance y tipo


División de la de estudio que se realiza sobre la población de interés, estas dos ramas son:
estadística: Estadística Descriptiva o Deductiva y Estadística Inferencial o Inductiva.
Estadística • Estadística Descriptiva o Deductiva:
Descriptiva y Es la rama de la estadística que se encarga de la recolección, ordenación,
Estadística tabulación y representación gráfica de los datos y el análisis de los mismos,
Inferencial buscando resumir características que describan a la muestra. Se emplea para
obtener información básica de variables estudiadas en base a una muestra de
datos, pero que no sobrepasan el conjunto de conocimiento que proporcionan esos datos, es decir, las
conclusiones a las que se llega en estadística descriptiva están limitadas al alcance de la muestra, no se
pueden extrapolar (con un nivel de confianza establecido) esas conclusiones a las poblaciones.

• Estadística Inferencial o Inductiva:


Es la rama de la estadística que se basa en métodos y técnicas desarrolladas para obtener conclusiones
sobre la población utilizando la información suministrada por una muestra de datos seleccionados de la
misma población. Entre las técnicas más importantes de la estadística inferencial están los intervalos de
confianza, las pruebas de hipótesis, la evaluación de modelos, las predicciones de valores, entre muchas
otras, pero todas ellas están fuera del alcance de esta guía.

Variable: Es toda característica, o cualidad, de un elemento integrante de la


Otros población, susceptible de ser observada.
conceptos Parámetro: Es una característica que tiene el mismo valor dentro de una
población. Es un valor constante, característico de la población estudiada.
básicos Medir: Es comparar una variable con otra de su misma especie, considerada

9
como referencia o patrón. Ya sea usando instrumentos, o bien, por medio de los sentidos.
Valor o Dato: Es el resultado al medir una variable o variable en un elemento de la población.
Datos: El conjunto de valores de una variable para cada uno de los elementos de la muestra.

Tipos de Variables:
Las variables corresponden a ciertos rasgos, cualidades o propiedades observables de los
elementos de la población o muestra bajo estudio. Algunas características son mensurables y se
describen numéricamente, por tal motivo se llaman cuantitativas (por ejemplo: estatura, peso,
ingreso, producción, ventas y costos). Otros se expresan mediante palabras por no ser
mensurables pero si cuantificadas y se denominan cualitativas o atributos (por ejemplo:
profesión, estado civil, género, marcas, calidad, entre otras).

Clasificación de las variables cuantitativas


• Cuantitativas discretas. Aquellas a las que se les puede asociar un número entero, es decir,
aquellas que por su naturaleza no admiten un fraccionamiento de la unidad, por ejemplo
número de hermanos, páginas de un libro, número de facturas dañadas durante la semana,
estudiantes que asisten a una clase.
• Cuantitativas continuas. Aquellas que no necesariamente se pueden expresar mediante un
número entero, es decir, aquellas que por su naturaleza admiten que entre dos valores
cualesquiera de la variable se pueda tomar cualquier otro valor intermedio, por ejemplo: peso
de un paquete, tiempo que demora un carro de carreras en los pits, ingreso mensual de las
familias, el valor de cierre de cierta acción en la bolsa.

Variables Cualitativas o Categóricas


Los atributos son aquellos caracteres que para su definición precisan de palabras, es decir, no le
podemos asignar un número. Por ejemplo: género de la persona, profesión, nivel de estudios,
estado civil, color de cabello, apreciación sobre el sabor de una bebida particular, entre algunas
que podemos citar.

A su vez las podemos clasificar en:


• Ordenables u Ordinales: Aquellas que sugieren una ordenación, por ejemplo la graduación
militar, el nivel de estudios, el estrato social.
• No ordenables o Atributos: Aquellas que sólo admiten una mera ordenación alfabética,
pero no establece orden por su naturaleza, por ejemplo el color de pelo, sexo, estado civil.

Las variables las podemos clasificar entonces como sigue:

Variable

Cuantitativa Cualitativa

Discreta Continua Ordinal Atributo

Figura Nº 1: Clasificación de las Variables

10
La diferencia entre variables cuantitativas y cualitativas está en la relación que tienen con el patrón
o estándar, contra el cual son comparadas al ser medidas. Si esta relación puede ser expresada con
números, debido a una proporcionalidad, entonces la variable es cuantitativa.

Por ejemplo, si la altura de una persona es de 1,7 m, eso significa que es 1,7 veces más largo que el
metro patrón depositado en París, o sea una proporción numérica real, y por eso la variable altura es
cuantitativa y continua. En general, todas las variables físicas basadas en el Sistema Internacional
de Unidades (metro, kilo, segundo, litro, etc.) son ejemplos clásicos de variables cuantitativas
continuas.

En cambio, una variable es cualitativa cuando su relación con el patrón no es una proporción
numérica. El género, el color, el olor, son ejemplos de este tipo de variables. Se pueden codificar
con números a los resultados, cuando se miden esas variables, pero eso no quiere decir que la
relación sea numérica. Por ejemplo, si se conviene en codificar (con fines de facilitar la
trascripción de los datos) con un “2” al sexo masculino y con un “1” al femenino, eso no quiere
decir que un hombre valga por dos mujeres.

Las variables cuantitativas se clasifican en continuas o discretas. Se diferencian entre sí, porque en
la primera la relación numérica con el patrón puede ser cualquiera, mientras que en la segunda hay
algunos valores prohibidos. Entonces una variable continua se expresa mediante números reales.
En una variable continua hay infinitos puntos posibles dentro de un intervalo cualquiera de la
misma, en el dominio de los números reales. En cambio, cuando la variable tiene algunos valores
que son posibles y otros que no, entonces se trata de una discreta (se expresan por lo general con
los números enteros positivos). Por ejemplo, las de recuento o enumeración: como el número de
hijos, la cantidad de empleados, el número de artículos defectuosos, el número de alumnos en un
aula y otras. Allí se usan valores enteros para contar los resultados; no tendría sentido medir, por
ejemplo, 12,75 alumnos en un aula.

Las variables cualitativas se clasifican en atributos u ordinales. Se diferencian entre sí en que los
atributos son las cualidades del objeto de la medición, observables sin emplear instrumentos.
Como las organolépticas (color, sabor, olor, textura y nivel de ruido) donde se usan los sentidos
para medir. En cambio, las ordinales implican medir el orden de los resultados obtenidos, para
luego clasificarlos. Como el resultado de una carrera de autos o un concurso de belleza. Debe
destacarse que una variable de tipo continua, puede usarse como variable ordinal y aún de
atributos, pero estableciendo rangos de valores o convenciones utilizadas por los investigadores,
pero es conveniente tener en cuenta, desde el punto de vista de la cantidad de información, que la
riqueza contenida en la variable continua se va perdiendo al volverla cualitativa, mediante algún
tipo de convención. Por ejemplo, para clasificar a un varón recién nacido como “robusto”
verificamos que pese más de 4 kg al nacer; todo aquel que pesó menos será clasificado en la otra
categoría como “no robusto”. Naturalmente, que al dicotomizar1 una variable se pierde información
y eso atenta contra la calidad de las estadísticas obtenidas con esos datos. El hecho de saber que
un recién nacido es “robusto” no indica cuál fue su peso al nacer, lo único que se sabe es que pesó
más de 4 kg.

1 Transformar una variable al tipo dicotómica, es decir, que tenga sólo dos opciones de valor.

11
Las variables de atributos se clasifican en dicotómicas o politómicas. La diferencia se basa en si el
atributo puede adoptar dos o más valores diferentes. Dicotómicas son aquellas que pueden tener
sólo dos valores posibles, como: el género (masculino o femenino), el factor sanguíneo Rh (+/-),
la ausencia o no de defectos en un artículo (defectuoso o no defectuoso). Por su parte, las
Politómicas son aquellas variables que pueden tener más de dos resultados posibles, como: el estado
civil, tipo de empleado (administrativo, directivo, obrero), marcas de autos en el mercado y otras.

Una variable compuesta es aquella que relaciona dos o más variables simples. Por ejemplo, en
administración se usan para casos como: ventas mensuales (Cantidades de cada artículo
multiplicada por el precio de cada artículo), ganancia diaria (ingresos menos costos diarios). La
idea de variables compuestas está asociada a mediciones multidimensionales; para estudiar sus
resultados se suele emplear el análisis estadístico multivariado que no será abordado en esta guia.

Se entenderá por medición al proceso de asignar el valor a una variable de


Escala de un elemento en observación. Este proceso utiliza diversas escalas:
Medición nominal, ordinal, de intervalo y de razón.

Las variables de las escalas nominal y ordinal se denominan también categóricas, por otra parte las
variables de escala de intervalo o de razón se denominan variables numéricas. Con los valores de
las variables categóricas no tiene sentido o no se puede efectuar operaciones aritméticas. Con las
variables numéricas sí.

La escala nominal sólo permite asignar un nombre al elemento medido. Esto la convierte en la
menos informativa de las escalas de medición.
Los siguientes son ejemplos de variables con este tipo de escala:
Nacionalidad.
Estado Civil
Uso de anteojos.

A veces por razones de simplicidad a la hora de presentar los datos o de pasarlos a una base de
datos se asignan números a las distintos atributos de la escala nominal, por ejemplo, se puede
asignar 1 a los elementos de la muestra que sean género femenino y 2 a los masculinos, a pesar de
que los valores son formalmente numéricos, sólo están siendo usados para identificar a los
individuos medidos. En este caso no significa que un hombre vale el doble que una mujer.

En la escala nominal la única relación que se puede encontrar entre sus elementos en la relación
de igualdad.

La escala ordinal, además de las propiedades de la escala nominal, permite establecer un orden
entre los elementos medidos. Los elementos se clasifican jerárquicamente por la relación mayor o
igual que, no obstante, mayor tiene aquí muchos sentidos, puede ser: más alto, más agradable, etc.
Ejemplos de variables con escala ordinal:
Preferencia a productos de consumo.
Clasificación de películas por una comisión especializada.
El orden de llegada en una carrera
Madurez de una fruta al momento de comprarla.

En la escala ordinal no tienen sentido las operaciones aritméticas entre los elementos.

12
La escala de intervalo, además de todas las propiedades de la escala ordinal, hace que tenga
sentido calcular diferencias entre las mediciones. Los elementos aquí ya son números cardinales.
Existe la unidad de medida y tiene sentido constante en todo el recorrido de la variable. Pero la
escala carece de cero absoluto, es decir, la ausencia de la característica observada no se
corresponde con el cero natural.

Los siguientes son ejemplos de variables con esta escala:


Temperatura de una persona.
Ubicación en una carretera respecto de un punto de referencia (Kilómetro 85).
Sobrepeso respecto de un patrón de comparación.
Nivel de aceite en el motor de un automóvil medido con una vara graduada.

Las operaciones permitidas para la escala de intervalos son la suma y resta, pero no la
multiplicación ni la división.

Finalmente, la escala de razón permite, además de lo de las otras escalas, comparar mediciones
mediante un cociente.
Esta escala se caracteriza también porque tiene una unidad constante y posee el cero absoluto, es
decir, la razón entre dos datos, significa lo mismo en cualquier punto de la escala.

Algunos ejemplos de variables con la escala de razón son los siguientes:


Altura de personas.
Cantidad de litros de agua consumido por una persona en un día.
Velocidad de un auto en la carretera.
El peso de un paquete.

Podríamos hacer el siguiente esquema de diferenciación:

Tabla Nº 1: Esquema sobre las Escalas de Medición


ESCALA ESTABLECE DEFINICIÓN DE OPERACIONE EJEMPLO DE EJEMPLOS
RELACIONES S EMPÍRICAS ESTADÍSTICAS TÍPICOS
APROPIADAS
Nominal - Distinción - Equivalencia Determinación de - Moda Modelos
igualdad - Frecuencias Marcas
- Porcentajes Estado Civil
- Coeficiente de Género
contingencia
Ordinal - Distinción - Equivalencia Determinación de - Mediana Calidad de un
- Orden - Mayor que mayor que - Percentiles producto
- Spearman Rangos en una
empresa

Intervalo - Distinción - Equivalencia Determinación de - Mediana Temperatura.


- Orden - Mayor que igualdad o - Media Aritmética Fechas de
- Distancia - Razón aritmética diferencia de - Desviación calendario.
conocida entre dos intervalos estándar
intervalos - Correlación de
Pearson

13
Razón - Distinción - Equivalencia Determinación de - Media Aritmética Longitud,
- Orden - Mayor que igualdad de las - Media peso,
- Distancia - Razón aritmética razones Geométrica densidad,
- Comparación conocida entre dos - Desviación Ingreso,
intervalos estándar costos,
- Razón conocida - Correlación de utilidad,
entre cualquiera de Pearson tiempo,
dos escalas de - Coeficiente de Fracción de
valores variación defectuosos.
- Medidas de
Asimetría y de
curtosis

Fuente: Elaboración Propia

La estadística y la Investigación Científica


La investigación estadística como aplicación del método científico requiere como factor de suma
importancia de los métodos y procedimientos desarrollados por la estadística, a fin de llegar a
conclusiones válidas, precisas y objetivas.

Investigación Indirecta: Es aquella en donde el investigador se sirve de informaciones de


investigaciones realizadas anteriormente o en base de los conocimientos que tenga el investigador
del fenómeno por experiencias anteriores.

Investigación Directa: El investigador observa directamente los casos o individuos en los cuales
se produce el fenómeno, entrando en contacto con ellos; sus resultados se consideran datos
estadísticos originales, por eso también se le conoce como investigación primaria.

La cantidad de pasos del método científico de una investigación directa


Fases en el puede variar de un autor a otro autor, esto se debe a que cada
planteamiento y investigación es única en el sentido del grado de profundidad a que se
realice. Por ejemplo un investigador puede estar interesado en describir
ejecución de las características más importantes de una población, cuando otro
una investigador puede estar interesado en encontrar relaciones entre las
investigación variables observadas de esa población comparándolas con las mismas
directa. variables de otra población, en esos casos el primer investigador quiere
llegar sólo a un nivel descriptivo y en el otro caso el investigador quiere
hacer comparaciones entre poblaciones que tiene un nivel superior que la investigación
descriptiva.

Es necesario mencionar que los pasos que se van a enumerar se refieren a la investigación directa,
por ser esta la investigación utilizada en la estadística.

I. Planteamiento o formulación del problema


a. Fijación de los objetivos
b. Delimitación del problema
c. Definición de la unidad de muestral
d. Desarrollar un método para la obtención de datos (diseño experimental o
muestral, Diseño de Cuestionario u otro método de observación)
e. Validar y hacer estudio de Fiabilidad del instrumento de recolección de datos

14
II. La Recolección de los datos
III. La ordenación, clasificación, tabulación y descripción de los datos (Estadística
Descriptiva)
IV. Generalización o inferencia final (si la investigación tiene ese nivel, se puede hacer por
medio de pruebas de hipótesis o contrastes de modelos)
V. El análisis critico y sugerencias para la toma de decisiones

1. Formulación del problema específico de la investigación: En este paso se debe definir el


fenómeno que se quiere estudiar y la finalidad de la investigación. Es natural que sea la
definición del fenómeno la primera a realizar, ya que se debe saber que es lo que se trata
de conocer antes de comenzar a investigarlo. Para lograr una definición exacta de lo que
se quiere conocer es necesario tener conocimiento suficiente de la materia.
a. Fijación de los objetivos: toda investigación estadística tiene que estar vinculada
con los objetivos de la investigación propiamente dicha. En base a los objetivos se
debe planificar el método estadístico a aplicar, es decir, los objetivos determinan
los tipos de análisis que se emplearan. Con el o los objetivos se plantea si el
estudio es descriptivo, es comparativo de hipótesis, es de encontrar relaciones, si
trata de encontrar un modelo explicativo o si se busca predecir algún
comportamiento o valor de una variable.
b. Delimitación del problema: consiste en plantear, de manera precisa, clara y
concreta; cuál es el tema objeto de la investigación, cómo se da la situación o
contexto dentro del que está enmarcado el tema o problema y cuál es el enfoque
que se le va a dar a su tratamiento. Generalmente en esta fase se determina la
población objeto de estudio.
c. Definición de la unidad de observación y de la unidad de medida: se establece cuál
o cuales son los elementos de la población que serán estudiados y que
características, variables o atributos serán observados sobre esos elementos.
d. Desarrollar un método para la obtención de datos: en esta fase se necesita mucho
del esfuerzo creativo y constructivo del investigador, ya sea para estudiar los
antecedentes o experiencias similares que se han hecho sobre el tema, para
determinar las posibilidades y recursos con que se cuenta o para la recolección de
datos nuevos. Se debe aplicar técnicas de muestreo para determinar el tamaño de
la muestra y el mecanismo para seleccionarla. Adicionalmente se deben establecer
los límites máximos permitidos de error de estimación y el grado de confiabilidad
con que se van a realizar las mediciones. Se debe hacer un esquema de trabajo que
indique a cuántos y cuáles elementos específicos de la población se va a observar y
se debe establecer el instrumento que va a servir para hacer las observaciones
(medidas directas con instrumentos especiales, encuestas, entrevistas, entre otras)

2. Recolección de datos: este paso constituye el momento crucial de la investigación, en


dicho paso nos proveeremos de los datos necesarios para llegar a conclusiones sobre el
fenómeno investigado; el investigador acude a las fuentes directas de información, donde
pueda obtener la información requerida.

3. La ordenación, clasificación, tabulación y descripción (Estadística Descriptiva): una vez


recolectados los datos, estos se presentan en su forma primaria sin ninguna organización,

15
lo que hace difícil el análisis de ellos, es por ello que se hace necesario clasificar los datos,
clasificación que se realiza mediante la revisión, el agrupamiento y la tabulación de los
datos.
Después de haber dado una clasificación lógica a los datos, se encuentra en condición de
ser analizados desde el punto de vista estadístico. En este paso donde el estadístico, tiene
su mayor función, pues, se van a calcular todas las medidas de los métodos descriptivos
(promedios, porcentajes, frecuencias, desviación estándar, gráficas, etc.). En función del
análisis y la interpretación que se le de al resto de los datos, se trata de validar y
comprobar su articulación dentro del tema y los objetivos planteados.
La fase final de este paso tiene un carácter que podemos llamar de publicitario, ya que se
busca la manera de presentar los resultados al público no conocedor o experto de las
técnicas estadísticas. Se trata de que los resultados sean entendidos por la mayor cantidad
de personas aunque sean de distintas áreas del conocimiento. Para esto se utilizan medios
gráficos, textuales y tabulares.
El análisis descriptivo de los datos, como un proceso de fabricación, comienza con
materias primas, que incluye datos numéricos o categóricos; los productos terminados son
cualquier información útil que podemos refinar partiendo de los datos brutos.

4. Generalización o inferencia final (si la investigación tiene ese nivel)


En base a las hipótesis planteadas en la fase de la formulación del problema, se procede a
aplicar las técnicas de estadística inferencial, como pruebas de hipótesis estadísticas,
comparaciones entre medidas observadas, establecimiento de intervalos de confianza,
planteamiento y comparación de modelos explicativos o métodos de predicción
estadística.

5. El análisis crítico y toma de decisiones


Se reúnen las conclusiones que se obtuvieron el en análisis descriptivo de los datos y se
complementan con las pruebas o generalizaciones realizadas con las técnicas de
estadística inductiva o inferencial. Se establecen las conclusiones del análisis estadístico y
se toma decisiones en base a los resultados ya obtenidos o se realizan observaciones
objetivas que ayuden a otras personas a tomar sus decisiones con un manejo adecuado de
un margen de error o nivel de confianza.

16
Cuestionario del Capítulo:
1) ¿Por qué se considera importante la estadística?
2) Enuncie las ramas en las que se divide la estadística y establezca su campo de acción.
3) ¿Por qué es importante la revisión bibliográfica en el desarrollo de una investigación estadística?
4) Defina: Población, Muestra, Censo y Muestreo.
5) ¿Por qué usualmente se recurre al análisis a través de muestras y no de poblaciones?
6) ¿Cuál es el nivel de medición de las siguientes variables?
a) Nº de hijos que tiene un matrimonio
b) Nº de nacimientos anuales en municipios del estado
c) Temperatura en grados centígrado
d) Tiempo de vida de un bombillo
e) Estado Civil de un grupo de personas
f) Nivel de agrado de un producto alimenticio nuevo (Mucho, Medianamente, Poco,
Nada)
g) Nota definitiva en una asignatura (0,1,2,3,4,5,6,7,8,9,10)
h) Religión que profesan los alumnos de cierta universidad
i) Valoración de un líder político (gusta mucho-aborrece mucho)
j) Gasto promedio semanal de familias del estado
k) Estatura de un grupo de personas
l) Preferencia por cierta marca de refresco
m) Horas que se dedica a estudiar a la semana
n) Evaluación de los estudiantes hacia un profesor utilizando como respuestas (muy malo,
malo, regular, bueno, muy bueno)
o) Clasificación de los estudiantes de acuerdo a la carrera que estudia
p) Clasificación de los estudiantes de acuerdo al semestre que cursa
q) Clasificación de los estudiantes de acuerdo a la carrera que estudia pero con la ayuda de
los códigos: 1, 2, 3,4,5,6,7,8,9,10,11,12 un número para cada carrera
7) Identificar de qué tipo son las variables anteriores según sus valores (Cuantitativa Discreta,
Cuantitativa Continua o Cualitativa)
8) Proponer 3 variables cualitativas y 3 variables cuantitativas que no sean las listadas
anteriormente
9) Se ha hecho un estudio para determinar la preferencia de la marca ACE por parte de las amas
de casa de Venezuela. Entre las 50 amas de casa entrevistadas, 30 dijeron que preferían esta
marca.
a) ¿Qué constituye la muestra?
b) ¿Qué constituye la población?
c) ¿Cuál es el porcentaje, dentro de la muestra, de las amas de casa que prefieren la marca
del detergente?
10) Se desea hacer un estudio sobre malos tratos a las mujeres en el seno familiar en Caracas.
a) Cuál es la población objeto de estudio?
b) Proponga variables para estudiar el problema que sean de los distintos tipos estudiados
en clase (por lo menos cinco).

17
11) De los siguientes enunciados ¿cuál probablemente usa la estadística descriptiva y cuál la
estadística inferencial?
a) Un médico general estudia la relación entre el consumo de cigarrillo y las enfermedades
del corazón.
b) Un economista registra el crecimiento de la población en un área determinada.
c) Un economista por medio de un análisis entre variables realiza un pronóstico del índice
de precios del año siguiente
d) Se desea establecer el promedio de bateo de un equipo de béisbol determinado.
e) Un profesor de expresión oral emplea diferentes métodos con cada uno de sus 2
cursos. Al final del curso compara las calificaciones con el fin de establecer cuál
método es más efectivo.
f) Realizar una revisión de un conjunto de bombillos de un lote más grande con el fin de
determinar el porcentaje de defectuosos en total del lote grande de acuerdo al resultado
de la revisión del conjunto pequeño de bombillos.
g) Realizar una encuesta sobre la opinión del trasporte de la universidad. Resumir los
resultados y analizarlos por medio de tablas, gráficas y porcentajes.
12) ¿Es posible, que en algún caso particular, la muestra tenga un tamaño mayor que la población?
13) La escala nominal en qué se diferencia de la escala ordinal?
14) La escala de intervalo en qué se diferencia de la escala de razón?
15) Clasifique las siguientes variables en continua o discreta:
a) Ingreso de los profesores de educación media
b) Número de facturas dañadas en una tienda en un mes
c) Total de venta al mes en una farmacia
d) Cantidad de bombillas que se dañan en un empresa por mes
e) Cantidad de gasolina consumida por un vehículo en una semana
f) Tiempo que tarda una persona en una cola en el banco
16) Identifique la población, la muestra y la variable de interés en los siguientes enunciados:
a) Se quiere determinar el gasto en alimentos promedio mensual de las familias
venezolanas. Se tiene un listado de 800 familias de todas partes del País con sus
respectivos gastos en alimento.
b) Un fabricante de cigarrillos realiza una encuesta sobre 1500 adultos fumadores en la
ciudad de Caracas y obtuvo que el 40% de los encuestados preferían su marca.
c) Se les pregunta a todos los profesores de la universidad sobre la opinión de alargar el
semestre y se obtuvo que el 80% no está de acuerdo.
d) Cada día se selecciona al azar 50 latas de un producto para realizar un control de
calidad y en base a éste se determina si el lote completo del día se envía a la venta o no.
17) ¿Qué ventajas ofrece el muestreo probabilístico sobre el no probabilístico?
18) Encuentre una tabla de números aleatorios y utilícela para seleccionar una muestra aleatoria
simple de 20 estudiantes de la sección del curso de estadística.
19) Diseñe una encuesta para estudiar (a su criterio pero investigue los antecedentes de cada tema):
a) Qué factores inciden en el rendimiento académico de los estudiantes de la universidad
b) Cual es la percepción entre los usuarios de telefonía celular, sobre la calidad del servicio
de su proveedor de telefonía celular
c) En qué invierten las familias que residen en el estado sus ingresos mensuales.

18
Bibliografía del Capítulo I:

1. Fraser, D. A. Statistics, an introduction, Nueva York, Wiley, 1958


2. Freund, J.E. y Walpole, R. E. Mathematical Statistics, 4ta Ed. Englewood Cliffs, Nueva
Jersey, Prentice Hall, 1987
3. Kendall, M.G. y Stuart, A. The Advanced Theory of Statistics, 4ta ed. Vol. 1, Nueva York,
Hafner Press, 1977
4. Mendenhall, W. Introduction to Probability and Statistics, 7ma ed. Duxbury Press, 1987
5. Mood, A. M. ; Graybill, F.A. y Boes, D. Introduction to the Theory of Statistics, 3era ed.
Nueva York, Mc Graw Hill, 1974
6. Ander-Egg, Ezequiel. Técnicas de Investigación Social, 24ª ed. Buenos Aires, Editorial
LUMEN, 1995
7. Martínez Bencardino, Ciro. Estadística y Muestreo, 11ª ed. Bogota, ECOE Ediciones,
2003
8. Scheaffer, R. L.; Mendenhall, W. y Ott L. Elementos de Muestreo, México, Grupo
Editorial Iberoamérica, 1987.
9. Cochran, W. G., Técnicas de Muestreo, México, Compañía Editorial Continental, 1985.

19
Capítulo II

ORGANIZACIÓN Y PRESENTACIÓN DE DATOS

Organización de los Datos:


La organización de los datos constituye la primera etapa de su tratamiento, claro está que después
de la obtención de los mismos; facilita los cálculos posteriores y evita posibles confusiones sobre
todo porque es posible que en esta etapa se asigne cierta codificación para facilitar el vaciado a
una base de datos.

Una posible forma de organizar los datos es ordenarlos de menor a mayor (o de mayor a menor)
cuando estos posean algún criterio de organización (numérico, alfabético o jerárquico).
Realmente la ordenación de datos tiene más bien una raíz histórica; con el desarrollo y
masificación de los programas de manejo de datos deja de tener importancia desde el punto de
vista computacional, pero desde la perspectiva de la enseñanza de la estadística en aulas, tiene un
gran valor conceptual.

Si queremos organizar un conjunto de valores correspondientes a la medición de una variable,


podemos hacerlo de tres formas posibles:
1) Tipo I: en series simples
2) Tipo II: en series de frecuencias
3) Tipo III: en series de clases y frecuencias.

El modo de organización va a depender de los siguientes factores:


a) El tipo de variable que se quiere organizar (cualitativa o cuantitativa)
b) El tamaño de la muestra
c) Las veces que se repitan cada uno de los valores de la variable en la muestra.

Antes de explicar cada una de las formas de organización, definimos frecuencia como el número
de veces que se repite un valor determinado en la muestra; y una clase es un intervalo de valores
que puede tomar la variable, se utilizan las clases para resumir el rango total de valores que puede
tomar la variable en sub-intervalos que cubren en totalidad todos los posibles valores. Así que la
frecuencia de una clase es el total de los datos medidos que caen en el rango de valores
indicados por la clase respectiva.

Tipo I: Serie Simple. Cuando se tienen un número pequeño de observaciones, casi todas
distintas, estas se darán por extensión simple.

Ejemplo: El número de hijos de 10 familias son: 0, 0, 1, 1, 2, 2, 2, 2, 3, 4. Como podemos


observar, el número de hijos más frecuente es de 2 hijos con una frecuencia igual a 4,
luego son igualmente frecuente las familias con un hijo y las familias sin hijos, ambas con
una frecuencia de 2 y por último existe una familia con 3 hijos y otra más con 4 hijos.

Este tipo de organización se utiliza sólo cuando la muestra consta de un número muy pequeño de
elementos y cuando los valores sean distintos.

20
Tipo II: Series de Frecuencias. Cuando se tiene un gran número de observaciones pero muy
pocas distintas, se organizan en una tabla de frecuencias.

Ejemplo: El número de periódicos de El Nacional vendidos por día en un kiosco varía


entre 10 y 20 como se observa en una muestra de 28 días tomados al azar en un año.
Valor Frecuencia
10 3
12 5
13 5
15 8
16 4
18 2
20 1
Total 28
Indica que el valor 10 se repite 3 veces, el valor 12 se repite 5 veces, ……

Tipo III: Serie de Clases y Frecuencias. Cuando haya muchas observaciones y la mayoría de
ellas distintas, se pueden ordenar agrupándolas en intervalos o clases y contando cuántas
observaciones caen en cada intervalo.

Ejemplo: El tiempo (en minutos) que demora un cliente en una cola antes de ser atendido
en cierta entidad bancaria se resume en la siguiente tabla:
Clase Frecuencia
(2, 5] 6
(5, 8] 14
(8, 11] 30
(11, 14] 16
(14, 17] 3
(17, 20] 1
Total 70
Nos dice en el intervalo (2, 5] hay 6 observaciones,
en el intervalo (5, 8] hay 14 observaciones, …..

En el campo social, la mayoría de los estudios involucra la medición de varias variables,


generalmente obtenidos por medio de una encuesta. Analizar los resultados de una encuesta
requiere organizar los datos en lo que se llaman bases de datos.

Los valores que toman las variables en los sujetos de nuestro estudio deben
Base de Datos almacenarse en forma desagregada en una base de datos. En la actualidad este
proceso se realiza en soporte informático (generalmente en excel) para su
posterior análisis con alguno de los diferentes paquetes estadísticos. Una base de datos es una estructura
en filas y columnas, de forma que en las filas se colocan los individuos u observaciones y en las
columnas las variables. En las celdas que quedan delimitadas se anotan los valores de las variables para
cada individuo, es decir, los datos. En general, sea cual sea el tipo de datos de los que dispongamos,
siempre es posible asignar números a los distintos resultados; así en el caso de una variable cualitativa
como es el sexo, se pueden asignar números a las dos categorías de esa variable, por ejemplo, 1 al

21
resultado "hombre" y 2 al resultado "mujer", lo que por supuesto no significa que demos más categoría
a un género que al otro, este procedimiento se realiza para facilitar el vaciado de datos.

Por ejemplo, si realizamos una pequeña encuesta a 20 estudiantes seleccionados al azar de la


carrera de contaduría en la universidad, la cual consta de los siguientes 5 ítems:
1) Edad:_____ Años 4) Fuma: Si___ No ___
2) Género: M __ F__ 5) Gasto promedio al mes: ____________Bs
3) Promedio de Notas:_____ Puntos (sobre 10)

Se establecen los códigos que se utilizarán para resumir las respuestas de cada ítem, en este
caso utilizaremos los mismos códigos o valores propuesto en el cuadro anterior.

Los resultados de la encuesta se pueden organizar, primero enumerando cada encuesta


con un número correlativo desde 1 hasta n, la ventaja de identificar las encuestas, consiste
en que facilita a posteriori la revisión de las mismas, ya que sabemos que la encuesta
etiquetada por el número “i” corresponde a los valores en la base de datos de la fila
número “i”. Luego se transcriben las respuestas de cada una de las encuestas en su
correspondiente fila, formando así una tabla (base de datos) como la mostrada abajo.

Tabla Nº 2: Ejemplo de Base de Datos


Id Gasto Mensual
Edad Sexo Promedio Fuma (en miles de Bolívares)
1 18 F 7,5 N 230
2 20 M 5,1 S 300
3 18 F 7,2 N 310
4 19 F 7,9 S 350
5 22 M 5,3 S 340
6 24 F 8,4 N 240
7 18 M 4,6 N 220
8 19 F 5,6 N 210
9 20 F 6,4 N 200
10 20 F 6,5 S 300
11 21 M 6,1 S 340
12 23 M 6,3 S 370
13 19 F 5,0 N 340
14 20 F 5,2 N 280
15 20 F 8,5 S 270
16 24 M 5,4 S 250
17 21 M 5,0 N 250
18 20 F 9,1 N 320
19 21 F 4,8 N 380
20 20 F 7,0 N 300

Y pueden ser escritas en Excel para su posterior análisis como se muestra en la figura Nº 2.

22
Figura Nº 2: Datos de la Base de Datos trascritas a Excel

Presentación de los Datos:


Después de que se organizan y transcriben los datos viene la fase de resumen y presentación de
los mismos. Existen básicamente tres maneras de presentar los resultados o un resumen de los
datos, a saber:
• Textual
• Por Tablas
• Por Gráficas

Textual: Consiste en la explicación escrita de la información. Sólo es recomendable cuando se trabaja


con pocas cifras o ítems. En cambio, cuando se trabaja con un conjunto numeroso de datos, ésta forma
de presentación es poco clara e ineficiente, debiendo recurrirse a otros métodos como las tablas o
gráficas.

Tiene ciertas ventajas, como la de poder expresar con palabras la importancia de ciertas cantidades, así
como la de efectuar y destacar comparaciones que se crean necesarias hacer. También debe señalarse
que es fundamental combinada con otro tipo de presentación, es decir que un tabla o una gráfica debe
ir acompañada con una presentación textual para resumir y resaltar resultados que se crean esenciales
para el lector de las mismas.

Ejemplo: De acuerdo a la encuesta aplicada se obtuvo que el 80% de los estudiantes no están de
acuerdo con que se cobre el servicio de transporte que presta la universidad.

Tablas o Cuadros estadísticos: Este método suele usarse con mayor frecuencia que el anterior.
Consiste en el arreglo sistemático de las cifras de una matriz identificando filas y columnas, o sea ,
utilizando una tabla de doble entrada. Para su construcción existen ciertas normas básicas que permiten
que el cuadro cumpla con su objetivo que es presentar la información ordenadamente, facilitando su
interpretación y análisis.

23
De acuerdo con el propósito para el que se construyen los cuadros estadísticos, pueden clasificarse en:
a) Cuadros generales o de referencia: son los usados como fuente de información, no tienen un
propósito determinado sino que simplemente proporciona información detallada. Es el tipo de
cuadro que presentan las publicaciones de organismos generalmente gubernamentales, que
recogen información primaria. Como ejemplo podemos señalar el cuadro XXX que representa
la base de datos del ejemplo XX.
b) Cuadros de resumen: Son aquellos que tienen un propósito específico y donde se muestran
resumidos los datos utilizando algún criterio. Generalmente son de menor tamaño respecto a
los anteriores, son breves y claros y van acompañados de algún texto correspondiente a una
investigación particular; incluyen datos relacionados entre sí y eventualmente algún tipo de
elaboración propia del autor.

Partes de los Puede darse la siguiente clasificación general de las partes principales de un cuadro:
Numeración, Título, Encabezados, Columna Matriz o Conceptos, Cuerpo, Fuente y
Cuadros Notas al Pie. Todas ellas son importantes y contribuyen conjuntamente a que el
cuadro que se presente sea claro y de fácil interpretación.

Brevemente se expondrá qué significan y cómo se confeccionan cada una de ellas:

Numeración: Es un índice correlativo que se utiliza para poder hacer referencia al contenido del
cuadro. Se pueden utilizar varios formatos como por ejemplo: Tabla Nº 1, Tabla Nº 2, …. O Tabla Nº
2.1, Tabla 2.2, en donde el primer índice hace referencia al capítulo y el segundo índice a la tabla en ese
capítulo. La numeración de las tablas se debe ubicar en la parte superior antes del Título.

Título: Debe ir en la parte superior del cuadro y expresar en forma clara y precisa el contenido del
cuadro, para lo cual resulta útil tener en cuenta, al redactarlo, las siguientes cuestiones: ¿Qué? datos se
están presentando, ¿Dónde? o sea qué área geográfica corresponden esos datos, ¿Cómo? están
clasificados los datos y por último ¿Cuándo? o sea, a qué período (meses, años, etc.) corresponde la
información.

Encabezados: son los títulos que corresponden a cada columna componente del cuadro y se colocan
en la parte superior de las mismas. El primer encabezado corresponde a la columna matriz o concepto,
los siguientes corresponden a las columnas de datos. En algunos casos se presentan encabezados y sub-
encabezados.

Columna Matriz o Conceptos: Es la primera columna que se presenta en un cuadro, en la cual se


colocan los conceptos que identifican cada fila de un cuadro; éstos conceptos corresponden a una
determinada clasificación cuya naturaleza se señala en el encabezado correspondiente a esta columna.

Cuerpo: Es la parte del cuadro en la que se presenta el conjunto de datos estadísticos, cuyo arreglo en
filas y columnas se hará de acuerdo a las clasificaciones que se presentan en la Columna Matriz y en los
Encabezados .

Fuente: Es el lugar de donde se obtuvo la información y se indica al pie del cuadro. Si los datos fueron
recopilados por el mismo investigador se colocará “elaboración propia”, en caso que los datos fueron
proporcionados por otro organismo o se obtuvieron de publicaciones deberá colocarse el origen de los
mismos, indicando autor, título de la publicación, número de serie, página, edición, fecha de

24
publicación, etc., según corresponda. Si la información se obtuvo directamente (personalmente) se
colocará: Fuente: “Elaboración Propia”, pero en ningún caso debe faltar esta parte del cuadro.

La indicación correcta de la fuente de información de un cuadro permitirá al lector evaluar la


confiabilidad de las cifras presentadas, y obtener información adicional en la fuente original, si así lo
deseara.

Notas al pie: Es una parte opcional, tiene por objeto aclarar ciertos aspectos generales, relativos a todo
el cuadro, que no han sido señalados en el título; por ejemplo: la unidad de medida correspondiente a
los datos presentados en el cuadro y explicaciones relativas a algún dato particular, o a alguna fila o
columna en especial. Generalmente se colocan entre paréntesis o con letras de menor tamaño que las
utilizadas para el título. Las notas al pie van debajo del cuerpo del cuadro y antes que la fuente.

Observaciones Generales para la presentación tabular:

- Tanto en la Columna Matriz como en los Encabezados, teniendo en cuenta la naturaleza de


los datos estadísticos que se presentan, es posible ordenar las clasificaciones de acuerdo a dos
arreglos: alfabético o por magnitud. Las clasificaciones posibles son: cronológica, geográfica,
cualitativa y cuantitativa y la elección de una u otra será de forma tal que facilite el análisis y las
comparaciones por parte del lector.

- Cuando es necesario presentar la información en valor relativo utilizando porcentajes, debe


indicarse: relativo a qué es el porcentaje (si respecto del total, con respecto al total de la fila, si es
de aumento o acumulado, etc.) y a qué cifra le corresponde el 100%.

- Si la precisión que presentan las cifras es innecesaria a los fines del cuadro, deberán ser
redondeadas siguiendo el método tradicional: si la última cifra significativa es mayor que 5, se la
elimina y se agrega una unidad a la cifra anterior; en caso contrario, simplemente se la elimina.
Incluso, si éstas cifras son números grandes, puede llevarse el dato a miles o millones, en cuyo
caso deberá indicarse, dicha unidad utilizada, en las notas de pie.

- Si algún dato se desconoce o no está disponible se debe colocarse el símbolo: NA (aclarando


en la nota de pie su significado).

- Por último, hemos de recomendar simplicidad de la presentación de los cuadros, para lo cual,
tratar el menor número posible de temas por tabla; elegir un tamaño y forma adecuadas al
informe que se presenta; no trazar más rayas que las necesarias para dividir columnas o filas,
siendo esenciales aquéllas que separan encabezados, la columna matriz y los totales.

Ventajas de la presentación tabular:

- Tener las cifras ordenadas en columnas y filas facilita las comparaciones entre sí. Sin embargo
, debe tenerse en cuenta que es más fácil comparar cifras ubicadas en columnas que en filas, y
que las comparaciones entre columnas adyacentes es más factible de hacer que entre columnas
separadas, esto último debe tenerse presente sobre todo cuando existen sub-encabezados.

- Permite destacar cifras particulares. Si hay cifras que por alguna razón deben destacarse del
resto de la información, deberán colocarse en aquéllas posiciones de la tabla adecuadas para tal
fin o resaltarla utilizando letras negritas o algún otro método.

25
Gráficos estadísticos: Tiene por objeto presentar a los datos estadísticos por medio de figuras: líneas,
áreas, volúmenes, etc.

Este método suele reemplazar o complementar a los cuadros estadísticos, que sólo presentan cifras y
que en general resultan inexpresivas; en cambio, un gráfico ayuda a visualizar rápidamente una situación
cualquiera describiéndola, debido a su claridad, facilidad de comprensión y retención de los resultados.
Un gráfico destaca ciertos hechos esenciales de los fenómenos observados y sirve como un medio de
control, ya que hace particularmente visible toda variación anormal y toda discontinuidad crítica en la
marcha del fenómeno en observación.

Desventajas de la Presentación en Gráficas:

- En un gráfico no se puede presentar una gran cantidad de información como lo permite hacer
un cuadro, ya que puede resultar confuso si en un mismo gráfico se pretende comparar muchas
distribuciones.

- Un gráfico desprecia necesariamente ciertos detalles y no puede pretender la misma precisión


que los cuadros, que permiten la lectura exacta de las cifras presentadas.

- En general, la confección de un gráfico lleva más tiempo que la elaboración de un cuadro.

Partes de las Las partes componentes de un gráfico coinciden en cierto modo con las de un
cuadro: podemos indicarlas en el siguiente orden: Numeración, Título, Diagrama,
Gráficas Escalas y Ejes, Fuente y Notas al Pie. Valen las mismas indicaciones que las hechas
para cuadros, salvo respecto a la numeración y el Título, los cuales debe ir colocado
en la parte inferior del diagrama, comenzando por la enumeración y seguido del Título. El diagrama
correspondería al cuerpo del cuadro, puede presentar distintas formas y su objeto es presentar la
información a través de un gráfico. La escala es una de las componentes de un gráfico con la que hay
que tener especial cuidado. Los gráficos se harán con referencia al sistema de ejes coordenados
cartesianos ortogonales tomando en el eje de las abscisas (X) las clasificaciones cuantitativas o
cronológicas y en el de las ordenadas (Y) se representarán las magnitudes que corresponden, para lo
cual se necesita tomar como unidad de medida aquélla cantidad que origina una escala cuyo límite
inferior esté por debajo del menor valor observado y su límite superior cubra al mayor valor observado;
la escala en el eje vertical se marca a partir del origen del sistema (al cual le corresponde el cero); si las
magnitudes tienen un rango alejado del origen, será necesario cortar el eje.

Existen una gran cantidad de gráficas y diagramas estadísticos, entre los de mayor uso se encuentran los
siguientes:

Tabla Nº 3: Gráficas Estadísticas de uso común.


NOMBRE DEFINICIÓN OBSERVACIONES
Gráficas De Son gráficos que utilizan dos ejes, uno vertical en donde se dispone Son muy comunes en gráficas de series
Líneas de los valores de la variable que se está representando y en el eje cronológicas y se pueden utilizar varias
horizontal la información que explica la evolución o cambios de la líneas en una misma gráfica para
variable. comparar varias series de datos de la
misma variable.
Diagramas De Es un gráfico para variables cualitativas en donde en un eje se El ancho de las barras debe ser el
Barras disponen los valores que toma la variable y en el otro, barras del mismo y la distancia entre cada barra
mismo ancho y de largo igual a la frecuencia de cada categoría. debe ser de la mitad del ancho de las
mismas.

26
Gráficas De Es una gráfica para variables cualitativas y donde se utilizan figuras Se debe identificar cada sección del
Áreas como círculos o triángulos que luego se dividen en fracciones de área gráfico con una etiqueta del nombre de
proporcional al porcentaje de frecuencia de las distintas categorías la categoría y el porcentaje que le
que puede tomar la variable cualitativa representada. corresponde.
Pictogramas Son diagramas que se hacen por medio de dibujos, que tengan No se debe exagerar en las figuras
relación con el fenómeno que se quiere representar. Los dibujos escogidas, recuerde que lo importante es
deben ser proporcionales en área al valor que tratan de representar. trasmitir visualmente las diferencias en
También se puede utilizar una figura repetida varias veces, en este las dimensiones de los distintos valores
caso se asigna un valor fijo a cada figura. tomados en el fenómeno observado.
Diagrama De Permite mostrar apropiadamente a pequeños conjuntos de datos Sólo se utilizan para variables que toman
puntos y tiene la gran ventaja de ser fácilmente construido a mano. pocos valores distintos y cuyas
En este tipo de gráfico, la abscisa representa los valores de la variable frecuencias no son elevadas.
estudiada y en la ordenada se dibuja una cantidad de puntos igual a la
frecuencia de aparición de un valor en el conjunto de datos
estudiado.
Diagramas de Es una gráfica de representación de la distribución de una variable
Frecuencia discreta. En el eje horizontal se encuentran los valores que toma la
Absoluta variable, sobre las cuales se levantan líneas de altura igual a la
frecuencia de cada valor de la variable.
Diagramas de Es una gráfica de representación de la distribución acumulada de una
Frecuencia variable discreta. En el eje horizontal se encuentran los valores que
Acumulada toma la variable, sobre las cuales se levantan líneas de altura igual a la
frecuencia acumulada de cada valor de la variable.
Histogramas Es un gráfico en forma de barras de una variable continua que Si los intervalos de clase no son del
se ha discretizado en intervalos, de forma que la altura de las mismo ancho se debe corregir las alturas
barras en cada intervalo es proporcional a su frecuencia de las barras calculándola como la
correspondiente. Las barras se dibujan unidas para trasmitir la frecuencia de la clase dividida entre el
idea de continuidad de la variable. ancho de la clase.
Polígonos de Es una gráfica similar al histograma. Sobre cada marca de clase de
Frecuencias cada intervalo en el eje horizontal se dibuja un punto de altura igual a
la frecuencia observada de dicha clase, luego se unen los puntos
marcados por medio de una línea formando así el polígono que debe
unirse al eje horizontal en el primer límite inferior de la distribución y
en el último límite superior.
Polígonos de Sobre cada límite superior de cada intervalo de clase en el eje
Frecuencias horizontal se dibuja un punto de altura igual a la frecuencia
Acumulada acumulada observada de dicha clase, luego se unen los puntos
marcados por medio de una línea formando así el polígono que debe
unirse al eje horizontal en el primer límite inferior de la distribución.
Cuando se utilizan los porcentajes acumulados en vez de las
frecuencias acumuladas el gráfico se denomina ojiva.
Gráfica de Es una gráfica que se utiliza para comparar dos variables numéricas
Dispersión con la idea de encontrar relaciones entre las mismas. En el eje
horizontal se construye una escala para la variable independiente y en
el eje vertical una para la variable dependiente. Se grafican los puntos
como pares ordenados (x,y) en el sistema de coordenadas resultante.
Diagrama de Caja Es un diagrama que se utiliza para representar una variable continua
o Boxplot junto con las características de ubicación como los cuartiles y la
mediana. Su estructura está formada por una caja, figura rectangular,
y dos segmentos horizontales situados a ambos lados de ésta. Los
bordes de la caja representan los cuartiles 1º y 3º, respectivamente, y
la mediana corresponde a la línea central.

La organización y presentación de los datos depende, como ya se comentó al principio del capítulo, del
tipo de datos que se está trabajando y de los objetivos de la investigación, entre múltiples factores que
inciden en la elección de la herramienta adecuada para presentar los resultados. A continuación se
muestra una guía de cómo organizar y presentar los datos de acuerdo a si son cualitativos o
cuantitativos.

27
Generalmente al tener que describir una variable categórica se
Tablas y Gráficas puede escoger entre una tabla de frecuencias y/o porcentajes y
Adecuadas para una gráfica como el diagrama de barras o el diagrama de torta.
Para detallar el procedimiento de organización y presentación de
Datos Cualitativos un conjunto de datos cualitativos, véase el siguiente ejemplo.

Ejemplo: Para crear nuevos planes y productos de líneas de crédito, se resumen todos los
créditos aprobados en el Banco Azul durante el año 2006. Estos créditos se clasifican en Micro
Crédito, Crédito Habitacional, Crédito Automotriz y Otros tipos de créditos. Se contabiliza la
ocurrencia de cada uno de estos tipos de créditos y se presentan en una tabla como la siguiente:

Tablas de Frecuencias y Porcentajes

Tabla Nº 4: Clasificación de los


créditos otorgados por Banco
Azul durante el año 2006
Tipo de Crédito Número de Porcentaje
Créditos
Micro Crédito 82 30%
Habitacional 54 20%
Automotriz 126 47%
Otros 8 3%
Total 270 100%

Fuente: Elaboración propia, datos ficticios Figura Nº 3: Datos de la Tabla Nº 4 escritos


en Excel.

Podemos copiar la tabla Nº 4 en una hoja del programa Excel, como se muestra en la figura Nº 3,
para construir las gráficas adecuadas.

Diagramas de Barras
Son gráficas que generalmente se utilizan para describir un variable cualitativa y que se construyen
utilizando barras del mismo ancho y de largo igual a la frecuencia correspondiente a cada categoría de la
variable. Entre los gráficos de barras, se encuentran los de barras absolutas simples, barras porcentuales
simples, barras absolutas subdivididas, barras porcentuales subdivididas, el de barras compuestas, el de
barra única y del de barras direccionales.

El siguiente es un gráfico de barras absolutas simples. Las barras son absolutas porque representan
cantidades netas y no porcentajes, y son simples ya que cada barra indica una procedencia. Por otro
lado, hay que notar que las barras son horizontales porque la variable clasificatoria (tipo de crédito) es
cualitativa.

Después de que se copian los datos en Excel, se selecciona el área de la columna matriz y los datos que
se van a graficar como se muestra en el recuadro resaltado de la figura Nº 4. Luego se selecciona el
asistente de gráficos señalado por el paso “2” en la figura Nº 4. Se abre un menú, en el cual

28
seleccionamos la opción de “Barras” como se muestra en el paso “3” y por último se hace clic en
finalizar. Este procedimiento produce el diagrama de barras que se muestra en la figura Nº 5.

1 3

Figura Nº 4: Diagrama secuencial de cómo construir un gráfico de barras en Excel

Otros
Tipo de Crédito

Automotriz

Habitacional

Micro Crédito

0 20 40 60 80 100 120 140


Número de Créditos

Figura Nº 5: Diagrama de Barras que explica la frecuencia durante el año 2006 de los créditos
otorgados en el Banco Azul de acuerdo al tipo de crédito

Los gráficos de barras subdivididas muestran mayor cantidad de datos que el anterior diagrama de
barras simple. En el diagrama de barras subdivididas, cada barra se particiona de acuerdo a valores de
otra variable que queremos reflejar en la misma gráfica. Generalmente los diagramas de barras
subdivididas se utilizan para representar de manera gráfica los resultados contenidos en una tabla de dos
vías (dos variables cruzadas, generalmente categóricas).

Para ejemplificar este tipo de gráficas, tomaremos el ejercicio Nº 2.40, página 68, del libro de Berenson,
Levine y Krehbiel [1], que dice así:

29
La victoria de Bill Clinton en las elecciones presidenciales de 1996 se atribuyó a
ciertas mejoras en las condiciones económicas y el bajo nivel de desempleo. Si
suponemos que se aplicó una encuesta a 800 adultos, poco después de la
elección, y se obtuvo la siguiente clasificación cruzada de las condiciones
financieras y nivel educativo:

Nivel Educativo
Condiciones Preparatoria Estudios Profesionales Total
Financieras o Inferior Universitarios Graduados
Empeoraron 91 39 18 148
No Cambiaron 104 73 31 208
Mejoraron 235 48 161 444
Total 430 160 210 800
El procedimiento en Excel para hacer el gráfico de barras subdivididas es el siguiente:

1. Copiar la tabla de los datos sin incluir los totales marginales (ni de las columnas ni de las filas),
en una hoja de Excel y luego dejarla seleccionada (queda sombreada)
2. Hacer clic en el asistente de gráficos y en la ventana que se abre
3. Escoger la opción de barras horizontales
4. Indicar que se quiere la opción de barras subdivididas
5. Apretar el botón de finalizar
Observe la figura Nº 6 que señala cada uno de los pasos antes descritos, es posible que luego tenga que
hacer clic en el botón derecho del Mouse sobre la gráfica resultante para ajustar los nombres de las
categorías, leyenda y formato general del gráfico.

Figura Nº 6: Pasos en Excel para construir un diagrama de barras subdivididas

30
El resultado de la operación en Excel es el gráfico mostrado en la figura Nº 7, en donde se observa
además de que el tamaño de la barra es más grande para las personas que opinan que las condiciones
financieras mejoraron, indicando de esta manera que la mayoría de las 800 personas tienen esa
percepción positiva, también podemos dilucidar la composición de acuerdo al nivel educativo de esas
personas. Por lo tanto es un gráfico más rico en información.

Mejoraron

Preparatoria o Inferior
No Cambiaron Estudios Universitarios
Profesionales Graduados

Empeoraron

0 50 100 150 200 250 300 350 400 450 500

Figura Nº 7: Diagrama de barras subdivididas para el ejemplo de la opinión de las condiciones


financieras de Estados Unidos, después de la elección de Bill Clinton en 1996, considerando a su vez el
nivel educativo de las 800 personas encuestadas

De la misma manera, es posible confeccionar gráficos de barras subdivididas verticales cuando la


variable clasificatoria es cronológica o cuantitativa.

Diagrama de Torta o Circular


Es el gráfico de sectores más común, se construye dividiendo un círculo en partes que representan el
porcentaje de ocurrencia de cada categoría. El círculo completo representa el 100% y como el círculo
consiste de una barrida de 360º, se puede decir que el 100% corresponde a un sector de ángulo igual a
360º. Un 50% corresponde a un sector de 180º que no es más que la mitad de la “torta” o círculo. Así
cualquier porcentaje Z se corresponde con un ángulo de 360ºxZ/100.

La ventaja de los gráficos circulares es su fácil interpretación, por su forma de mostrar los datos de
manera precisa y clara.

Ejemplo de diagrama circular: Continuando con los datos del ejemplo de la página 29 y tabla Nº 4, que
trata sobre las modalidades de créditos aprobados en una cartera de clientes de cierto banco para el año
2006. Podemos construir un gráfico circular para la variable categórica Tipo de Crédito que toma como
valores las categorías: Micro crédito, Habitacional, Automotriz y Otros.

El procedimiento consiste en copiar la tabla Nº 4 en una hoja de Excel, seleccionar la parte de la tabla
que contiene las frecuencias de cada categoría y el encabezado de la tabla (no seleccionar ni el total ni
los porcentajes por categorías ya que Excel calcula estos valores), luego seleccionar el asistente de

31
gráficos e indicar que se quiere un gráfico circular tal como lo muestra la figura Nº 8, por último hacer
clic en el botón finalizar y se obtiene un gráfico como el de la figura Nº 9.

Figura Nº 8: Procedimiento en Excel para construir un diagrama circular con los datos de la tabla Nº 4

Otros
3%
Micro
Crédito
30%

Automotriz
47%

Habitacional
20%

Figura Nº 9: Diagrama Circular que explica el porcentaje de acuerdo al tipo de crédito aprobado
durante el año 2006 en el Banco Azul (Véase tabla Nº 4)

Entre otros tipos de gráficos encontramos los pictogramas.

En los pictogramas cada dibujo o figura indica una cierta cantidad de unidades que debe estar bien
definida en la parte inferior o en la parte derecha de la gráfica. Aunque no se puede variar el tamaño del

32
dibujo figura, sí se puede cortar proporcionalmente a la frecuencia de unidades que se quiera
representar.

En la figura Nº 10, se muestra un ejemplo de un pictograma que refleja la producción de automóviles


para el año 1999 de cierto país productor. Se observa que se puede comparar la producción por marcas
de automóviles para el año 1999. En el caso de Fiat se produjeron 40.000 unidades y en el caso de Ford
la producción fue de 3.500 unidades.

Figura Nº 10: Ejemplo de un pictograma

Tablas y Gráficas Adecuadas para


Datos Cuantitativos Discretos

Tablas de Frecuencias y Porcentajes


De la tabla Nº 2, que corresponde al ejemplo de una base de datos, podemos tomar la columna
correspondiente a los datos de las edades, que corresponde a los siguientes valores:
18 22 20 19 21
20 24 20 20 20
18 18 21 20 21
19 19 23 24 20
Si agrupamos las diferentes edades con su correspondiente frecuencia, obtenemos una tabla como
la siguiente
Tabla Nº 5: Tabla de frecuencias de la variable edad

Edad Frecuencia
18 3
19 3
20 7
21 3
22 1
23 1
24 2
Total 20

33
Diagrama de Puntos: Es una Diagrama de Frecuencia Absoluta: Es la
representación sencilla de la distribución de representación en un sistema cartesiano de una
una variable discreta. En el eje horizontal se distribución absoluta de una variable discreta. En
reflejan los distintos valores que puede tomar el eje de las abscisas se marcan los valores que
la variable y sobre cada uno de estos valores toma la variable y sobre cada marca se levanta una
se dibujan puntos uno sobre otro, tantos barra de altura igual a la frecuencia respectiva.
como la frecuencia en la muestra de cada También se puede representar en el eje de las
valor de la variable. ordenadas la frecuencia relativa o el porcentaje de
Para el ejemplo de las edades y con la ayuda ocurrencia de los valores que toma la variable,
de la tabla Nº 5, se construye el siguiente esto depende de lo que se quiera resaltar.
gráfico. 8

Frecuencia Absoluta
6

0
18 19 20 21 22 23 24
Edades en Años

Figura Nº 11: Ejemplo de un diagrama de Figura Nº 12: Ejemplo de un diagrama de barras


puntos para la variable discreta edad. para la variable discreta edad.

Podemos definir la frecuencia relativa en Tabla Nº 6: Tabla de frecuencia absoluta, relativa


datos discretos como la frecuencia de cada y acumulada de la variable edad
valor de la variable dividido entre el total de
observaciones en la muestra. Fr=f/n. Esta
indica la proporción (o porcentaje si Edad Frecuencia Frecuencia Frecuencia
multiplicamos la frecuencia relativa por cien Relativa Acumulada
%) que representa el valor particular de la 18 3 0,15 3
variable dentro del total de los valores 19 3 0,15 6
observados. 20 7 0,35 13
La frecuencia absoluta acumulada indica 21 3 0,15 16
la cantidad de valores que hay desde el 22 1 0,05 17
menor valor que puede tomar la variable 23 1 0,05 18
hasta la cantidad considerada. 24 2 0,10 20
Análogamente se puede definir la frecuencia Total 20 1
relativa acumulada o el porcentaje acumulado
de una variable discreta.
Se puede verificar el cálculo de las diferentes
frecuencias a partir de la tabla Nº 5, y como
resultado se obtiene la tabla Nº 6 que se
muestra a la derecha.

34
Diagrama de Frecuencia Acumulada
Es una representación de la distribución acumulativa de una variable discreta, en donde se marcan
en el eje de las abscisas los valores que toma la variable y sobre cada marca se dibuja una línea
horizontal de altura igual a la frecuencia acumulada respectiva; se va formando un gráfico tipo
escalera y la información básica para su construcción es la columna de la frecuencia acumulada de
la tabla de frecuencias de la variable discreta representada.

Con ayuda de la tabla Nº 6, se construye la siguiente gráfica que representa la distribución


acumulada de la variable edad. Note que a la izquierda de la menor marca (menor valor en el eje
de las abscisas) se dibuja una línea de altura igual a cero y que a partir de la última marca se dibuja
una línea de altura igual a n.

Figura Nº 13: Ejemplo de un diagrama de frecuencia acumulada para la variable discreta edad.

Este tipo de gráfica también se puede hacer con la información de la frecuencia relativa acumulada o
con el porcentaje acumulado y en general la forma será idéntica y lo que se modifica es la interpretación
de los resultados.

Cuando los datos son de naturaleza continua, los métodos de


Tablas y Gráficas organización y presentación son muy específicos. Si el conjunto
Adecuadas para de datos es grande, la observación directa de los mismos en la
base de datos no permite resumir y caracterizar el fenómeno
Datos Cuantitativos observado; ya que el ser humano no tiene la capacidad de captar
Continuos características y mucho menos resumirlas, cuando la lista de
valores es muy larga. Por lo tanto se recurre al agrupamiento de
la variable en intervalos más pequeños que llamaremos intervalos de clase, lo cual facilita la
interpretación de la distribución de la variable observada.

Definiciones previas:
Clase: Es un rango de valores que determina un intervalo con un límite inferior llamado LI y un
límite superior llamado LS. Una tabla consta de c clases, por lo tanto hace falta un subíndice en
los límites inferiores y superiores para poder referirnos al límite inferior de la clase i, LI i o al límite
superior de la clase i LS i . Con i variando desde 1 hasta c.

35
Marca de Clase (mi): Cada clase tiene una marca que se define como el punto medio del
intervalo de clase. Es decir que la marca del intervalo de clase i, mi, se determina como:
LI + LS i
mi = i . La marca de clase es el valor representativo del intervalo y se utilizará mas
2
adelante como la aproximación de todos los valores de la variable que pertenecen a la clase
correspondiente, por esta razón las tablas deben construirse de tal manera que la mayoría de los
datos queden cerca de las marcas de clase.
Ancho de Clase (ai): Se define como la diferencia entre el límite superior y el límite inferior de la
clase. Es común que las tablas tengan todas las clases del mismo ancho, aunque esta no es una
condición imprescindible.
Frecuencia Absoluta ( fi ): La frecuencia absoluta de la clase i, es el número de valores de la
muestra que caen en el rango de valores que determinan a dicha clase. La suma de todas las
frecuencias absolutas es igual a la cantidad total de datos en la muestra estudiada, es decir,
∑ fi = n .
i

Frecuencia Relativa ( fri ): La frecuencia relativa de la clase i es el cociente de la frecuencia


absoluta de la clase entre el número total de elementos observados en total (n). Se puede calcular
f
por medio de la fórmula: fri = i . La frecuencia relativa fri indica la proporción de elementos
n
que caen en la clase i.
Porcentaje de la clase i (%i): La frecuencia relativa de la clase i multiplicada por n, es igual al
porcentaje de elementos que caen en el rango de valores determinados por la clase i.
Frecuencia Absoluta Acumulada (FAi): Indica la cantidad de valores o datos que se encuentran
acumulados hasta el límite superior indicado por la clase i.
Frecuencia Relativa Acumulada (FRAi): Indica la proporción de valores o datos que se
encuentran acumulados hasta el límite superior indicado en la clase i.
Porcentaje Acumulado (%ai): Representa el porcentaje de valores o datos que se encuentran
acumulados hasta el límite superior indicado en la clase i.

Marca Frecuencia Frec. Relativa Frec. Abs. acum. Frec. Relativa acum.
Clase m f fr F FRA
[LI1, LS1] m1 f1 fr1=f1/n FA1=f1 FRA1=fr1
[LI 2 , LS 2 ] m2 f2 fr2=f2/n FA2= f1+f2 FRA2= fr1+fr2
[LI3, LS3] m3 f3 fr3=f3/n FA3=f1+f2+f3 FRA3=fr1+fr2+fr3
. . . . . .
. . . . . .
[LIc, LS c] mc fc frc=fc/n FAc= f1+f2+… +fc =n FRAc= fr1+… +frc =1
TOTALES n 1

Tabla Nº 7: Tabla de intervalos de clases y frecuencias con sus respectivas fórmulas de cálculo.

36
¿Cómo construir una tabla Suponga que se tiene una muestra de valores observados de una
de intervalos de clases a variable continua, digamos x1 , x 2 ,..., x n .
partir de una muestra de A continuación se enumerará paso a paso un procedimiento
datos continuos? que explica cómo construir las tablas de intervalo de clases:

1er paso: Determinar el menor de los valores que llamaremos Min y el mayor de los valores que
lo denotaremos Max. Es recomendable (aunque no estrictamente necesario) que ordene la
muestra de los datos para facilitar los cálculos y conteos que se harán más adelante.
2do paso: Determinar el rango, R=Max – Min
3er paso: Establecer el número de clases que tendrá la tabla, para esto existen tres métodos:
a) Estimar el número de clases por medio de la fórmula de
Sturges que dice que c = 1+ 3.32 log n . Este valor se debe
aproximar al entero superior inmediato.
b) Calcular el número de clases como c = n . Este valor se debe
aproximar al entero superior inmediato. Este método no es
muy recomendable si n es muy grande ya que podría dar
valores muy por encima de 15 y la tabla podría quedar
excesivamente larga.
c) Establecer c como un número arbitrario entre 5 y 15.

R
4to paso: Estimar el ancho de los intervalos de clase. a = . El valor resultante se aproxima por
c
exceso de acuerdo a la mínima unidad de variación de los datos. Por ejemplo, si los datos varían
de 10 en 10 y a resultó en la fórmula anterior igual a 13,3 entonces debemos llevar de 13,3 a 20
(próximo valor de acuerdo a las unidades de 10 en 10).
5to paso: Recalcular el rango. R * = a.c . Luego llamamos E la diferencia entre el rango nuevo y el
rango original. E = R * − R
6to paso: Calculamos E y lo redondeamos por exceso de acuerdo a la mínima unidad de
2
variación de los datos, llamemos a esa cantidad d. Luego el 1er límite inferior de la tabla se calcula
como: LI 1 = Min − d . Los demás límites se obtienen al sumar sucesivamente el valor del ancho de
la clase a.

Ejemplo: Los siguientes datos representan los gastos promedios mensuales de 80 familias
seleccionadas al azar en la ciudad. Los datos están dados en millones de Bolívares.

0.8 0.8 0.6 1.0 1.0 1.3 0.6 0.9 0.6 1.3 0.6 0.8 0.7 1.2 1.1 0.7
0.7 0.7 0.4 0.9 1.1 1.5 0.7 1.0 0.5 1.5 0.7 0.7 0.6 1.3 1.2 0.6
0.7 0.6 0.6 0.8 0.5 1.5 0.6 1.1 0.6 1.7 0.6 0.6 0.5 1.0 0.5 0.6
0.6 0.5 0.7 0.9 1.0 1.4 0.6 1.2 0.7 1.4 0.6 0.5 0.6 1.7 0.6 0.5
0.4 0.6 0.7 1.2 1.2 1.0 0.8 1.1 0.7 1.0 0.8 0.6 0.7 1.4 0.6 0.8

Organice los datos en una tabla de intervalos de clase utilizando el método de Sturges.

1er paso: n=80; Min=0.4 y Max= 1.7

37
2do paso: R=Max-Min= 1.7-0.4 =1.3

3er paso: Calculamos el número de clases, c = 1 + 3.32 log n = 1 + 3.32 log 80 = 7.32 → c = 8
R 1.3
4to paso: Determinamos el ancho de las clases, a = = = 0.16 → a = 0.2
c 8
5to paso: Recalculamos el rango, R * = a.c = 0.2 x8 = 1.6 . Luego E = R * − R = 1.6 − 1.3 = 0.3

6to paso: Dividimos E entre 2, y obtenemos así E = 0.15 → d = 0.2 , por lo tanto el 1er límite
2
inferior de la tabla debe ser LI 1 = Min − d = 0.4 − 0.2 = 0.2 . Como el ancho de clase es a=0.2,
entonces el 1er límite superior será igual a LS1=LI1+ 0.2 = 0.4

La columna principal de la tabla queda entonces, comenzando con la clase Nº 1 desde el valor de
0.2 hasta 0.4 inclusive y luego la clase Nº 2 que consta de los valores mayores a 0.4 hasta 0.6, así
sucesivamente se van conformando las 8 clases de la tabla que se muestra completa abajo.

Clase Clases

1 0.2 - 0.4
2 0.4 - 0.6
3 0.6 - 0.8
4 0.8 - 1.0
5 1.0 - 1.2
6 1.2 - 1.4
7 1.4 - 1.6
8 1.6 - 1.8

El paso siguiente consiste en contar cuántos valores caen en cada uno de los intervalos de clase.
En este paso hay que considerar que por convención se ha decidido que los valores a contabilizar
deben ser estrictamente mayores que el límite inferior y todos los comprendidos hasta menor o
igual que el límite superior.

Clase Clases fi

1 0.2 - 0.4 2
2 0.4 - 0.6 28 ← Indica que hay 28 valores en la muestra que son mayores que 0.4 pero menores o iguales que 0.6
3 0.6 - 0.8 20
4 0.8 - 1.0 10
5 1.0 - 1.2 9
6 1.2 - 1.4 6
7 1.4 - 1.6 3
8 1.6 - 1.8 2
Totales 80 ← Observe que la suma de las frecuencias es igual al n

38
Podemos completar la tabla calculando las demás frecuencias y porcentajes, de acuerdo a las
fórmulas presentadas en la tabla Nº 7.

Frecuencia Frecuencia Frecuencia Frecuencia Porcentaje Porcentaje


Clase
Clases Absoluta Acumulada Relativa Relativa % Acumulado

f FA fr Acumulada %a
FRA
1 0.2 - 0.4 2 2 0.025 0.025 2.5% 2.5%
2 0.4 - 0.6 28 30 0.350 0.375 35% 37.5%
3 0.6 - 0.8 20 50 0.250 0.625 25% 62.5%
4 0.8 - 1.0 10 60 0.125 0.750 12.5% 75%
5 1.0 - 1.2 9 69 0.112 0.862 11.2% 86.2%
6 1.2 - 1.4 6 75 0.075 0.937 7.5% 93.7%
7 1.4 - 1.6 3 78 0.038 0.975 3.8% 97.5%
8 1.6 - 1.8 2 80 0.025 1.000 2.5% 100%
Totales 80 1.000 100%

Tabla Nº 8: Tabla de intervalos de clases y frecuencias del ejemplo del gasto promedio mensual
de las familias del estado.

Existe un grupo de gráficas que se construyen a partir de la información de la tabla de intervalos


de clases y frecuencias, tabla Nº 8, entre las más conocidas están los histogramas, los polígonos de
frecuencia y las ojivas (un caso particular de un polígono acumulativo).

Histograma: Es un gráfico en forma de barras de una variable continua que se ha discretizado en


intervalos (los intervalos de clases), de forma que la altura de las barras en cada intervalo es
proporcional a su frecuencia correspondiente. Las barras se dibujan unidas para trasmitir la idea
de continuidad de la variable.

Si los intervalos de clase no son del mismo ancho se debe corregir las alturas hi de las barras
calculándola como la frecuencia de la clase dividida entre el ancho de la clase, hi = fi/a.

Figura Nº 14: Ejemplo de un histograma que representa la distribución de la variable continua “gasto
familiar en el estado”

Polígonos de Frecuencia:
Es una gráfica similar al histograma. Se construye dibujando sobre cada marca de clase de cada
intervalo en el eje horizontal, un punto de altura igual a la frecuencia observada de dicha clase,
luego se unen los puntos marcados por medio de una línea formando así el polígono que debe
unirse al eje horizontal en el primer límite inferior de la distribución y en el último límite superior.

39
Figura Nº 15: Ejemplo de un polígono de frecuencia, construido sobre el histograma para resaltar la
idea de que son gráficos análogos.

Polígonos de Frecuencia Acumulada:


Sobre cada límite superior de cada intervalo de clase en el eje horizontal se dibuja un punto de
altura igual a la frecuencia acumulada observada de dicha clase, luego se unen los puntos
marcados por medio de una línea formando así el polígono que debe unirse al eje horizontal en el
primer límite inferior de la distribución. Cuando se utilizan los porcentajes acumulados en vez de
las frecuencias acumuladas el gráfico se denomina ojiva.

85 Caso particular de polígono acumulativo


80
75
“Ojiva”
70
65 100%
Frecuencia Acumulada

60 90%
55
Porcentaje Acumulado

50
80%
45 70%
40
60%
35
30 50%
25 40%
20
30%
15
10 20%
5 10%
0
0%
0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8
0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8
Gasto promedio mensual Gasto Promedio M ensual

Figura Nº 16: Ejemplo de un polígono de Figura Nº 17: Ejemplo de una ojiva, construida
frecuencia acumulada a partir de los datos de la tabla Nº 8

Gráficos lineales:

Ejemplo: Graficar las ventas mensuales de la empresa AAA para el año 2006.

Podemos escribir las ventas para cada mes en un libro de Excel como mostramos en las figura Nº 18.
Luego marcamos el área de los datos que queremos graficar y hacemos clic en el asistente para gráfico.
Al hacer clic aparecerá un menú (ver figura Nº 19) en donde se escoge la opción gráfico de línea y luego
escogemos la opción finalizar. Excel generará (ver figura Nº 20) un gráfico que podemos modificar en

40
cuanto a tamaño y opciones de Título, Leyendas, entre otras opciones que se activarán al hacer clic con
el botón derecho del Mouse sobre el gráfico resultante.

Figura Nº 18: Datos de las ventas mensuales insertados en Excel

Figura Nº 19: Creación de una gráfica de línea en Excel

41
35

30

Ventas en Millones de Bolívares


25

20

15

10

0
Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic

Figura Nº 20: Evolución de las ventas mensuales de la empresa durante el año 2006 (Gráfica de Línea
creada en Excel)

Fuente: Elaboración propia con datos artificiales

Este gráfico permite observar la variación de un fenómeno a través del tiempo, o la tendencia del
fenómeno. Es muy usado para representar la evolución de series de datos correspondientes a ingresos y
egresos.

Es de anotar que por medio de gráficos tendenciosos se pueden deformar o resaltar situaciones o
estados, que presentados en un gráfico apropiado, mostrarían un comportamiento normal.

Generalmente una información es distorsionada por algunas de las siguientes causas:

 La relación entre los ejes no es la más apropiada (ver figuras No.21 y No.22).

Figura º 21: Gráfico con desproporcionalidad en los ejes, el eje horizontal es muy pequeño

42
Figura º 22: Gráfico con desproporcionalidad en los ejes, el eje vertical es muy pequeño

 Gráficos con escalas desproporcionadas, o mala elección del punto de origen (ver gráfico
No.3).

Figura º 23: Gráfico con mala escala en el eje vertical, note que las distancias entre cada
marca no son iguales aun cuando es de 5 en 5. Además el origen no es el adecuado.

Como se puede observar, el gráfico de la figura No.21 “realza” el decrecimiento de la variable,


mientras que el No.22 intenta mostrar una estabilización o decrecimiento parsimonioso. Los dos
dibujos son incorrectos debido a que no conservan una proporción adecuada entre sus ejes. Sin
embargo, el gráfico de la figura No. 23 tiene una buena proporción entre los ejes. Pero, la
distorsión se debe a la mala numeración en el eje vertical, la escala es inadecuada para resaltar el
decrecimiento de la variable dibujada en los dos últimos periodos.
Todas las situaciones de las figuras 21, 22 y 23, son erróneas o tendenciosas y se deben
corregir asignando escalas apropiadas a los ejes y además utilizando la siguiente regla de
proporcionalidad entre los ejes:

Donde: Lx: Longitud del eje horizontal


Ly: Longitud del eje vertical

Es decir que “La longitud del eje vertical es igual a tres cuartos de la longitud del eje
horizontal”.

43
Diagrama de tallo y hojas:

• El diagrama de tallo y hojas consiste de una serie de filas horizontales de números. El


número utilizado para designar una fila es su tallo, el resto de números de la fila se
denominan hojas.

• Ejemplo: En un estudio sobre el crecimiento de los varones, se obtuvieron estas


observaciones sobre X, el perímetro en centímetros de la cabeza de un niño al nacer.
33.1 34.6 34.2 36.1 34.2 35.6
34.5 35.8 34.5 34.2 34.3 35.2
33.7 36.0 34.2 34.7 34.6 34.3
33.4 34.9 33.8 33.6 35.2 34.6
33.7 34.8 33.9 34.7 35.1 34.2
36.5 34.1 34.0 35.1 35.3

33 1 4
33 7 7 8 9 6
34 1 2 2 0 2 2 3 3 2
34 5 6 9 8 5 7 7 6 6
35 1 2 1 3 2
35 8 6
36 0 1
36 5

La facilidad de graficación presente en los computadores personales de hoy día, ha permitido


ampliar fuertemente la capacidad de representar datos con mejores características estéticas.
Lo anterior en sí, constituye una cualidad muy ventajosa. Sin embargo, en peligroso dejarse llevar
sólo por consideraciones estéticas al momento de graficar una información.
Es así que muchas veces se tiende a usar gráficos circulares en perspectiva, con un dibujo que
representa a un disco inclinado en tres dimensiones, de modo que su cara superior se ve como
una elipse.
Si bien tiene un aspecto visual agradable, no es recomendable usarlo, pues desde el punto de vista
de la representación de la información contenida en la muestra, se produce una distorsión.

44
A modo de ejemplo, construyamos un gráfico circular en perspectiva.

Figura º 24: Gráfico circular en perspectiva 3D. No adecuado.

Como puede verse en la figura Nº 24, el 6.26% 'No Interesado' tiene aquí una cobertura visual
algo mayor que en un gráfico circular plano (sin la perspectiva 3D). Dibújelo y convénzase de este
comentario.

Pero, si se cambia la orientación del dibujo central, como se indica en la figura Nº 25, se tiene
una representación en que los casos 'No Interesado' se ven disminuidos.

Figura º 25: Gráfico circular en perspectiva 3D. No adecuado.

Estas variaciones de la representación causadas por un giro del gráfico, no están presente en el
caso del círculo en posición normal y, por lo tanto, este último es más fidedigno como resumen
informativo visual.

45
Como conclusión, a pesar de su simplicidad, los gráficos circulares deben ser construidos
teniendo especial cuidado en resguardar su capacidad de representar sin distorsiones la
información original.

Gráfico de Caja o Boxplot:


El gráfico de caja es una representación que describe la información contenida en una muestra
basándose en cinco estadísticas:
Valor máximo (Máx.)
Tercer cuartil (Q3)
Mediana (m)
Primer cuartil (Q1)
Valor mínimo (Mín.)

Figura º 26: Gráfico Caja o Boxplot

Como puede observarse, las estadísticas calculadas para construir este gráfico, dividen el recorrido
de los valores observados en cuatro partes. Cada una de éstas contiene aproximadamente el 25%
del total de las observaciones.

La interpretación del gráfico está basada en la comparación de las longitudes de los cuatro
tramos. Debe tenerse presente que cada uno de los tramos tiene la misma cantidad de elementos,
por lo tanto los tramos de menor longitud representan una mayor densidad. Es decir, los tramos
más cortos representan una mayor aglomeración de elementos muestrales.

La ventaja de esta representación reside en que permite resumir datos en forma simple,
entregando una visión global de la muestra con pocos elementos. A pesar de la simplicidad de este
gráfico, requiere de algún cuidado en su análisis para poder interpretar la información que entrega.

Es conveniente realizar abundante ejercitación que incluya comparaciones con otras formas de
representación, tales como histogramas por ejemplo.

46
Cuestionario del Capítulo:
1. ¿Cuál es el objetivo de un gráfico?
2. Describa los componentes de una gráfica.
3. ¿Cuáles son las principales causas de distorsión de la información de un gráfico?
4. ¿Cuál debe de ser la proporción entre los ejes del plano cartesiano para la construcción de
un gráfico?
5. La tabla muestra una distribución de frecuencias de la duración de 400 bombillas de 60W.
Duración (horas) Número de tubos
[300-400) 14
[400-500) 46
[500-600) 58
[600-700) 76
[700-800) 68
[800-900) 62
[900-1000) 48
[1000-1100) 22
[1100-1200) 6

Completar la tabla para luego determinar:

a. Límite superior de la quinta clase.


b. Límite inferior de la octava clase.
c. Marca de clase de la séptima clase.
d. Tamaño del intervalo de clase.
e. Frecuencia de la cuarta clase.
f. Frecuencia relativa de la sexta clase.
g. Porcentaje de tubos cuya duración es menor a las 600 horas.
h. Porcentaje de tubos cuya duración es mayor o igual a 900 horas.
i. Porcentaje de tubos cuya duración es al menos de 500 horas pero menor de 1000
horas.
j. Construir un histograma y un polígono de frecuencias.
k. Construir un histograma y un polígono de frecuencias relativas.
l. Construir una ojiva porcentual.
m. Estimar el porcentaje de tubos con duraciones de menos de 560 horas.
n. Estimar el porcentaje de tubos con duraciones de 970 o más horas.
o. Estimar el porcentaje de tubos con duraciones entre 620 y 890 horas.

6. El gerente de personal de una compañía registró el número de días que sus 50 empleados
habían faltado al trabajo por enfermedad.
10 35 12 8 44 6 15 20 5 7
5 11 17 8 4 7 25 9 2 10
12 12 3 10 9 3 5 16 31 9
0 4 7 11 3 18 2 10 6 22
2 9 8 29 6 4 7 10 0 1

47
a) Identificar la variable y su clasificación.
b) Construir una tabla de frecuencia apropiada a estos datos.
c) Construir un gráfico apropiado para ayudar al gerente a tomar decisiones

7. La siguiente tabla muestra los diámetros en pulgadas de nuestra muestra de 60 tornillos


fabricados por una compañía.
0,738 0,729 0,743 0,740 0,736 0,741 0,735 0,731 0,726 0,737
0,728 0,737 0,736 0,735 0,724 0,733 0,742 0,736 0,739 0,735
0,745 0,736 0,742 0,740 0,728 0,738 0,725 0,733 0,734 0,732
0,733 0,730 0,732 0,730 0,739 0,734 0,738 0,739 0,727 0,735
0,735 0,732 0,735 0,727 0,734 0,732 0,736 0,741 0,736 0,744
0,732 0,737 0,731 0,746 0,735 0,735 0,729 0,734 0,730 0,740

Construir una tabla de distribución de frecuencias de los diámetros y grafique:


a. Un histograma.
b. Un polígono de frecuencias relativas.
c. Una ojiva.

Determinar en base a la ojiva antes construida:


d. El porcentaje de cojinetes de bolas que tienen diámetros superiores a 0,732
pulgadas
e. El porcentaje de cojinetes de bolas que tienen diámetros no superiores a 0,736
pulgadas
f. El porcentaje de cojinetes de bolas que tienen diámetros entre 0,730 y 0,738
pulgadas.

8. A continuación, se ofrece una distribución de frecuencia del peso (en Kg) de 120
personas que utilizaron un elevador cierto día.
Clase fi
[45-55) 10
[55-65) 35
[65-75) 55
[75-85) 15
[85-95) 5

a. Construya un histograma con esos datos.


b. Construya un poligono de frecuencias relativas
c. Construya una ojiva
d. ¿Qué porcentaje de las personas que usaron el ascensor tenían más de 70 kg?
e. ¿Qué porcentaje de las personas tenían peso entre 60 y 70Kg?
f. Encuentre el peso, tal que el 50% de las personas que usaron el ascensor, pesan
más que dicho peso? (ese valor se conoce como la mediana)

9. Nora Velarde, asesora de una pequeña empresa de corretaje, intenta diseñar programas de
inversión que fuesen atractivos para jubilados. Ella sabe que si un inversionista potencial
pudiera obtener un cierto nivel de intereses, estaría dispuesto a invertir su capital, pero
debajo de un cierto nivel de intereses, no estaría dispuesto a hacerlo. De un grupo de 50

48
sujetos, Nora obtuvo los datos siguientes con respecto a los diferentes niveles de réditos
requeridos por cada individuo para que pueda invertir 1000 dólares:
Punto de diferencia ($) fi
[70 – 75) 2
[75 – 80) 5
[80 – 85) 10
[85 – 90) 14
[90 – 95) 11
[95 – 100) 3
[100 – 105) 3
[105 – 110) 2
a. Construya un histograma y coméntelo brevemente.
b. Grafique una ojiva.
c. Qué porcentaje de las personas estarían dispuestas a invertir si los niveles de réditos
son menores de 83 puntos de diferencias en $?
d. Qué porcentaje de las personas estarían dispuestas a invertir si los niveles de réditos
están entre 82 y 92 puntos de diferencias en $?

10. Se estudiaron las ventas promedio diarias de 75 establecimientos de la ciudad y se


construyó la siguiente ojiva.

100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
1 1,4 1,8 2,2 2,6 3 3,4 3,8 4,2

(ventas diarias en millones de Bolívares)

a. Cuántos establecimientos (aprox.) tienen ventas diarias superiores a los 2.4mm de


Bolívares?
b. ¿Qué porcentaje de los establecimientos tienen ventas entre 2.6 y 3 mm de Bs?
c. El 60% de los establecimientos tienen ventas mayores de _______mm de Bs
d. El 70% de los establecimientos tienen ventas mayores de _______mm de Bs
e. El 50% de los establecimientos tienen ventas menores de _______mm de Bs
f. El 30% de los establecimientos tienen ventas menores de _______mm de Bs
g. Sólo ___ establecimientos tienen ventas diarias mayores de 3.4mm de Bs

49
11. En un reporte de mercadeo se informa que, con base en las ventas de 2007, las 5 marcas
de refrescos que más se vendieron fueron Coca Cola, Big Cola , Frescolita, Pepsi Cola y
Chinoto. La lista siguiente proviene de una muestra de 50 compras de esas marcas:
Coca Cola Frescolita Chinoto Coca Cola Pepsi Cola
Big Cola Big Cola Coca Cola Big Cola Coca Cola
Pepsi Cola Pepsi Cola Big Cola Coca Cola Coca Cola
Big Cola Pepsi Cola Coca Cola Big Cola Coca Cola
Coca Cola Coca Cola Coca Cola Coca Cola Pepsi Cola
Coca Cola Frescolita Chinoto Chinoto Coca Cola
Chinoto Pepsi Cola Pepsi Cola Pepsi Cola Coca Cola
Frescolita Coca Cola Frescolita Pepsi Cola Frescolita
Pepsi Cola Coca Cola Coca Cola Pepsi Cola Pepsi Cola
Big Cola Coca Cola Big Cola Pepsi Cola Chinoto
a) Construir la tabla de distribución de frecuencias.
b) Construir una gráfica de barras y un diagrama de torta.
c) ¿Qué porcentaje de las ventas tienen Pepsi Cola y Coca Cola?.

12. Los datos que se muestran a continuación, son los cargos (en dólares) por los servicios de
electricidad, agua y gas durante el mes de julio del 2000 para una muestra de 50
apartamentos de 3 habitaciones en Caracas:
96 171 202 178 147 102 153 197 127 82
157 185 90 116 172 111 148 213 130 165
141 149 206 175 123 128 144 168 109 167
95 163 150 154 130 143 187 166 139 149
108 119 183 151 114 135 191 137 129 158
Elaborar:
a. Una tabla de distribución de frecuencias.
b. Un histograma y un polígono de frecuencias.
c. Un histograma porcentual.
d. Una ojiva.
Determinar:

e. El porcentaje de apartamentos cuyo gasto no llega a 139 dólares.


f. El porcentaje de apartamentos cuyo gasto es mayor o igual a 158 dólares.
g. El porcentaje de apartamentos cuyo gasto es al menos de 120 dólares, pero menor de
196 dólares.
h. El porcentaje de apartamentos con gastos menores de 135 dólares.
i. El porcentaje de apartamentos con gastos de 186 dólares o más.
j. El porcentaje de apartamentos con gastos entre 140 y 184 dólares.

13. Construya un diagrama de barra para explicar la distribución por el tipo de sangre y un
diagrama de torta para el color de cabello
Color de cabello frecuencia Tipo de sangre frecuencia
Negro 11 AB 4
Castaño 24 O 12
Pelirrojo 6 A 35
Rubio 18 B 16

50
14. En la tabla de frecuencia que se da a continuación faltan datos, complétela.

Valores fi FA fr FRA
0 2
1 5
2 9
3 14 0.7
4 0.2
5
Totales

15. En la tabla de frecuencia que se da a continuación faltan datos, complétela.

Clases mi fi FA fr FRA
20 - 24 0.1
24 - 28 0.25
- 32 11 0.55
32 - 0.85
- 40 1.00
Total
a) Qué tipo de datos están representados en la tabla?
b) Construya un polígono de frecuencias relativas
c) Construya un histograma
16. Las siguientes medidas corresponden a las alturas de 50 niños.
1,56 1,59 1,63 1,62 1,65 1,61 1,59 1,51 1,62 1,62
1,53 1,49 1,57 1,54 1,53 1,59 1,58 1,57 1,47 1,64
1,55 1,59 1,53 1,56 1,53 1,47 1,57 1,60 1,54 1,56
1,50 1,62 1,59 1,62 1,54 1,68 1,52 1,62 1,59 1,49
1,65 1,53 1,59 1,56 1,54 1,58 1,52 1,63 1,56 1,62
a) Construir una distribución de frecuencias absolutas y relativas.
b) Obtener las correspondientes distribuciones de frecuencias acumuladas.
c) Representar las distribuciones anteriores mediante histogramas.
d) Dibujar los correspondientes polígonos de frecuencias.
e) Hallar a partir del polígono de frecuencias acumuladas la proporción de
observaciones entre 1,59 y 1,62 ambas inclusive.
f) ¿Qué conclusiones puede extraerse?

17. Se seleccionaron al azar 60 hombres con edades comprendidas entre 18 y 40 años. Se les
preguntó la marca de su cerveza venezolana preferida. Los resultados fueron los
siguientes:
Polar No Toma No Toma Brahma Regional Regional Regional Regional Regional Regional Polar Brahma
Regional Polar Brahma Polar Regional No Toma Polar Brahma No Toma Regional Polar Brahma
Regional Regional Brahma Polar Regional No Toma Polar Brahma No Toma Regional Polar Brahma
Regional Regional Brahma Polar Regional No Toma Regional Regional No Toma No Toma Regional No Toma
No Toma Brahma Polar Polar Regional No Toma Regional Brahma Brahma No Toma No Toma No Toma
a) Organice los datos en una tabla adecuada
b) Presente dos gráficas para explicar mejor el conjunto de datos
c) Qué análisis o descripción puede hacer de los datos?

51
18. A continuación se presenta un diagrama de torta obtenido para una distribución según la
marca de los primeros 220 vehículos que pasaron por la entrada de la universidad.

Jeep
Otros Construya una tabla en donde se indique la frecuencia
5%
Fiat
5% de cada marca además de su porcentaje
9%

Toyota
40%

Chevrolet
18%

Ford
23%

19. Considere el siguiente gráfico que corresponde a las ganancias mensuales promedio de
ciertos vendedores informales de la ciudad (datos en millones de Bolívares). Conteste las
siguientes preguntas:

18

16 a. Qué nombre recibe este tipo


de gráfico? Ponga nombre a los
14
ejes y un título al gráfico
12 b. De cuántos datos está
10 conformada la serie o muestra?
8 c. Calcule los límites inferiores y
superiores de cada clase, tome
6
en cuenta que en la gráfica se
4 muestran las marcas de clases.
2 d. Construya la tabla de
0
frecuencias (completa) que
0,5 0,8 1,1 1,4 1,7 2 2,3 corresponde con este gráfico

e. Qué porcentaje de los vendedores tienen ganancias mensuales de a lo sumo 1,55 millones
de Bolívares?
f. Construya un polígono de porcentajes
g. Construya una ojiva
h. En base a la ojiva, ¿Qué porcentaje de vendedores tienen ganancias mensuales de por lo
menos 1,2 millones de Bolívares?
i. En base a la ojiva, ¿Qué porcentaje de vendedores tienen ganancias mensuales entre 0,8 y
1,3 millones de Bolívares?
j. En base a la ojiva, ¿Qué porcentaje de vendedores tienen ganancias mensuales menores
de 1,4 millones de Bolívares?

52
20. Considere el siguiente gráfico que corresponde a las ventas diarias promedio de 40 abastos
de la ciudad (datos en millones de Bolívares). Conteste las siguientes preguntas:
0,4
a. ¿Qué nombre recibe este
0,35 tipo de gráfico? Ponga
0,3 nombre a los ejes y un
título adecuado al gráfico
0,25 b. ¿Los intervalos de clase
0,2 tienen el mismo ancho?
c. ¿Cuántos datos tiene la
0,15
clase de mayor
0,1 frecuencia?
d. Construya la tabla de
0,05
frecuencias (completa)
0 que corresponde con este
0,6 0,8 1 1,2 1,4 1,6 1,8 2 2,2 2,4 2,6 2,8 3 3,2 3,4 gráfico

e. Construya un histograma
f. Construya una ojiva
g. En base a la ojiva, ¿Qué porcentaje de ventas diarias son de por lo menos 1,4 millones
de Bolívares?
h. En base a la ojiva, ¿Qué porcentaje de las ventas diarias están entre 1 y 2 millones de
Bolívares?
i. En base a la ojiva, ¿Qué porcentaje de las ventas diarias promedios son menores de
1,5 millones de Bolívares?

21. Considere el siguiente gráfico que corresponde a los promedios de nota acumulada de 50
estudiantes de la universidad (escala del 0 al 10). Conteste las siguientes preguntas:

100%
a. ¿Qué nombre recibe este
tipo de gráfico? Ponga
90%
nombre a los ejes y un
80%
título al gráfico
70% b. ¿Los intervalos de clase
60% tienen el mismo ancho?
50% c. ¿Qué porcentaje de los
40%
estudiantes tienen
30%
promedio de por lo
menos 5 puntos?
20%
d. ¿Qué porcentaje de los
10% estudiantes tienen
0% promedio entre 5 y 8
0 1,25 2,5 3,75 5 6,25 7,5 8,75 10 puntos?

e. ¿Qué porcentaje de los estudiantes tienen promedio de a lo sumo 6 puntos?


f. ¿Cuántos de los estudiantes tienen promedio menor de 5 puntos?
g. Construya la tabla de frecuencias (completa) que corresponde con este gráfico

53
h. Construya un histograma

22. Se realizó una pequeña encuesta a una muestra de 50 obreras de un ente gubernamental
del estado Sucre. Entre los datos que se recolectaron esta la edad en años, el estado civil,
el número de hijos, los años de experiencia en el ente, el nivel de escolaridad ( 0 = no
estudió nunca, 1= hasta el 1er año de primaria, 2= hasta el 2do año de primaria, . . .),
Miles/Día= Gasto en Transporte Diario de la Familia en cientos de Bs., Gastos Educac.
= Gasto mensual en concepto de educación de la familia en miles de Bolívares, ausencias
= Dias que se ausenta del trabajo por trimestre, Calificación=Calificación del supervisor
con respecto a su desempeño laboral (1= Muy Mal, 2=Mediocre, 3=Regular, 4=Bueno,
5= Excelente).

Considerando la siguiente tabla que contiene los resultados de la encuesta.

a. Clasifique cada una de las variables de acuerdo a si son categóricas o cuantitativas


y además diga en qué nivel de medición se encuentran.
b. Para cada una de las variables realice un estudio gráfico adecuado
c. Construya una tabla adecuada de resumen de cada una de las variables
d. Ahora construya tablas cruzadas de dos a dos variables y trate de decidir si
encuentra relaciones entre ellas o si más no pareciera existir alguna relación que las
vincule.
e. Investigue en qué consiste un gráfico de dispersión y cómo se construye. Luego
construya por lo menos tres gráficos de dispersión
f. Construya una ojiva para la variable de gasto en transporte de la familia y
coméntelo.
g. Los días de ausencia al trabajo tienen una relación con la calificación que hizo el
supervisor? Para determinar esto construya un gráfico de dispersión entre esas dos
variables.
h. Realice una trascripción de la base de datos de esta encuesta en Excel y repita los
gráficos, tablas y análisis anteriores.

54
BASE DE DATOS PARA EL EJERCICIO Nº 22

55
Capítulo III

MEDIDAS NUMERICAS DESCRIPTIVAS:


Tendencia Central, Dispersión, Asimetría y Curtosis
Otra manera de resumir un conjunto de datos cuantitativos se basa en sintetizar las características
relevantes de la muestra en valores o estadísticos descriptivos que nos permiten tener una idea
sobre varios aspectos importantes de la distribución, como lo son: la ubicación de la distribución
de los datos en su escala de medición, el nivel de dispersión o variabilidad de los datos, la forma
en cuanto a la simetría y la forma en cuanto al grado de acumulación o apuntamiento de la
distribución.

Podemos clasificar las medidas descriptivas en cuatro grupos de acuerdo con la característica que
cuantifica en la distribución.
Central: Se utilizan para ubicar Media Aritmética ( x ),
la posición del centro de la Mediana (Me) , Moda (Mo),
distribución. Media Geométrica (G), Media
Armónica (H)
Medidas de No-Central: Permiten ubicar Cuartiles (Q1, Q3), Deciles
Posición cualquier lugar del (D1, D2, D3, …., D10),
posicionamiento de la Percentiles (P1, P2,…, P100)
distribución

Medidas Medidas de Cuantifican el nivel de Rango (R) , Desviación


Descriptivas Dispersión variabilidad que tienen los datos. Estándar (S), Varianza (S2),
Coeficiente de variación (Cv)

Medidas de Se usan para determinar el grado Coeficiente de Asimetría de


Sesgo de asimetría que tiene la Pearson (Ap), Coeficiente de
distribución de los datos. Asimetría de Bowley (Ab)

Medidas de Permiten determinar el nivel de Coeficiente de Curtosis (K)


Curtosis acumulación o apuntamiento de
la distribución.

La mayor parte de los conjuntos de datos muestra una tendencia bien determinada a agruparse o
aglomerarse alrededor de cierto punto central. Así que para cualquier conjunto de datos,
generalmente se puede seleccionar algún valor típico o promedio, para describir todo el conjunto.
A este valor típico o promedio se le denomina medida de tendencia central. En la figura Nº 27,

56
se muestran dos distribuciones con el mismo nivel de dispersión y con valores distintos de
posición central.

Figura Nº 27: Comparación de dos distribuciones con diferentes medidas de posición central.

Las medidas de posición no central, permiten ubicar un valor cualquiera en la distribución, para
el cual un cierto porcentaje de los datos se encuentra por debajo de dicho valor. Vemos en la
figura Nº 28 que el 75% de los valores son menores de el percentil 75 o tercer cuartel que en la
figura es la cantidad de 1.0. Podemos ubicar otros percentiles con cualquier porcentaje dado entre
1% y 100%.

Figura Nº 28: Ejemplo de una medida de posición no central, el tercer cuartil (Q3), representado en el
gráfico por un punto.

57
Las medidas de dispersión se utilizan para establecer el grado de variabilidad que tienen los
datos. Si los datos están muy condensados alrededor de una valor, la distribución tiene poca
dispersión como vemos en la figura 29(A) y si por el contrario los valores se encuentran muy
separados se dice que la distribución tiene una dispersión alta (figura 29 (B)).

Figura Nº 29: Distribuciones con diferentes grados de dispersión

Las medidas de asimetría nos indican si la distribución se distribuye equitativamente alrededor


de un valor (simétrica) o no (asimétrica).
También el orden de las
medidas de tendencia central
nos pueden indicar el grado de
simetría. En la figura Nº 30,
vemos que la gráfica del
centro es simétrica y los
valores de la media, la
mediana y la moda coinciden
en el centro.
Figura Nº 30: Distribuciones con diferentes grados de simetría

En las distribuciones asimétricas hacia la izquierda la media es menor que la mediana y esta a su
vez es menor que la moda. De manera inversa ocurre en las distribuciones asimétricas hacia la
derecha como podemos observar en la figura Nº 30.

58
Por otro lado las medidas de curtosis, permiten distinguir el grado de apuntamiento o
acumulación que tiene la distribución de los datos. Si los datos están muy concentrados alrededor
de un valor se llama leptocurtica, si los valores están normalmente distribuidos alrededor del
centro de la distribución se llama mesocurtica y si por el contrario está muy poco concentrada
alrededor del centro se llama platicurtica. En la figura Nº 31 vemos un ejemplo de los tipos de
clasificación de una distribución de acuerdo a la curtosis.

Figura Nº 31: Distribuciones con diferentes niveles de curtosis

Observación: Trabajaremos primero con las medidas descriptivas numéricas para las
distribuciones de datos sin agrupar y al final del capítulo revisaremos el caso en donde los
datos se presentan agrupados.

Medidas de posición Central


La reducción estadística que se consigue mediante la tabulación en intervalos de clases o en la
graficación, en la mayoría de los casos, no resulta suficiente si lo que se persigue es que el "exceso" de
información no nos impida ver lo que hay detrás de ella. Por tal razón, esa reducción hay que llevarla
hasta el extremo de quedarnos con un solo dato que a su vez sea representativo de todo el
conjunto. A ese único dato se le conoce de forma genérica como promedio. Con la obtención de
promedios lo que se consigue es determinar cual es el nivel medio de la variable y, además, facilita
las comparaciones entre variables. A los promedios se les conoce también como medidas de tendencia
central. El número de promedios que pueden definirse es muy elevado, si bien los más habituales son
la media aritmética, la media geométrica, la mediana, la moda, la media cuadrática, la media
armónica, etc.

59
Las medidas de Posición central tienen como función, ubicar el centro de la distribución.
Observamos en la figura 4.6, que el centro de la distribución A está alrededor de 25 unidades y el
centro de la distribución B está alrededor de 60. Precisamente se desea que los valores de
tendencia central resulten en valores cercanos a los que se indicaron para las distribuciones antes
mencionadas.

Figura Nº 32: Distribuciones con diferentes centros.

Media Aritmética ( x )
Media Aritmética Ponderada ( x p )

Medidas de Posición Central Mediana (Me)


Moda (Mo)
Media Geométrica (G)
Media Armónica (H)

Media aritmética ( x ): Se define como la suma de todos los valores de la distribución


dividida por el número total de datos.
La media de un conjunto de observaciones numéricas se calcula sumando todos los valores y
dividiéndolo por el total de observaciones, es decir:
Dado un conjunto de datos que consta de n observaciones: x1 , x2 ,..., xn −1 , xn , la media se
representa como x y se calcula:
n

x + x + ... + xn −1 + xn ∑x i
x= 1 2 = i =1
n n

Ejemplo:
Los salarios anuales (en dólares) de los jefes de ventas de una empresa pequeña son:
34.500 30.700 32.900 36.000 34.100 33.800 32.500

60
El salario medio de la plantilla de jefes de ventas será:
7

x + x + x3 + x4 + x5 + x6 + x7 ∑x i
x= 1 2 = i =1
7 7

es decir,
34.500 + 30.700 + 32.900 + 36.000 + 34.100 + 33.800 + 32.500
x=
7
= 33.500 dolares

La media es una medida de centralización que formaliza la idea intuitiva de centro de las
observaciones.

CARACTERÍSTICAS:
1. La media aritmética es la medida de tendencia central más utilizada y por lo tanto es de
fácil explicación ya que la mayoría de las personas han utilizado el término promedio para
referirse a la media aritmética.
2. Siempre se puede calcular la media aritmética y esta es un valor único.
3. La media aritmética en condiciones normales (nos referimos a condiciones normales a que
no existen valores atípicos en la muestra) es la que mejor aproxima el centro de la
distribución.
4. En los casos en donde existan datos atípicos o datos extremos en la muestra no es
recomendable utilizar la media aritmética puesto que esta se ve muy afectada por los datos
atípicos. Esto significa que en distribuciones que no sean simétricas no se recomiende
utilizar la media aritmética como medida de centro.

Media aritmética ponderada ( x p ): Caso particular de la media aritmética, que aparece


cuando se otorga a cada valor de la variable x i una ponderación o peso w i . En este caso no
todos los valores de la distribución intervienen con el mismo peso en el cálculo de la media. La
cuantía de dichos pesos define la importancia de cada valor de la distribución en el cálculo de la
media.
El cálculo es parecido al de la media aritmética, sólo que cada valor de la muestra va multiplicado
por su correspondiente peso o ponderación y la división

n
∑ w i *xi w 1*x1 + w 2 *x 2 + w 3*x 3 + ... + w n *x n
x p = i=1n =
w1 + w 2 + w 3 + ... + w n
∑ wi
i =1

61
Ejemplo:
Si un examen final de curso se valora como 3 veces los exámenes parciales y un estudiante
tiene una nota de examen final de 85 y notas de exámenes parciales de 70 y 90, calcular su
nota final.

En este caso hay tres datos que corresponden a las notas 70, 90 y 85, y establecemos las
ponderaciones de cada dato como 1, 1, y 3, respectivamente. Note que las ponderaciones
iguales a 1 no modifican las notas de los parciales pero la ponderación del examen final es
de 3 ya que este vale tres veces más que los parciales.

El cálculo quedaría como sigue:

1*70 + 1*90 + 3*85


xp = = 83 puntos.
1+1+ 3

Mediana (Me): Se define como mediana el valor de la distribución, supuesta esta ordenada
de menor a mayor, que deja a su izquierda y a su derecha la misma cantidad de observaciones, es
decir, el valor de la variable que divide a la distribución en dos partes iguales.
Esta medida de tendencia central se basa en la ordenación de los datos. Por lo que para cu cálculo
primero debemos ordenar los datos en orden creciente.

Observaciones ordenadas de menor a mayor: x(1) , x(2) ,..., x( n −1) , x( n )


Ejemplo:
x1 = 5, x2 = 3, x3 = 6, x4 = 2
x(1) = 2, x( 2 ) = 3, x( 3) = 5, x( 4 ) = 6

Me = x n +1  Si el tamaño de la muestra n es impar


 
 2 

Mediana
x n  + x n 
Si el tamaño de la muestra n es par
   +1
 2 2 
Me =
2

Ejemplo 1:
Puntuaciones obtenidas por 10 alumnos en un examen:
5,3 2,8 3,4 7,2 8,3 1,7 6,2 9,3 3,2 5,9
las ordenamos de menor a mayor:
1,7 2,8 3,2 3,4 5,3 5,9 6,2 7,2 8,3 9,3

62
Como n =10 es par entonces:
x n  + x n
 
2

 +1
2 
x( 5) + x( 6 ) 5,3 + 5, 9
Me = = = = 5, 6
2 2 2
Ejemplo 2:
Los salarios anuales (en dólares) de los jefes de ventas de una empresa pequeña son:
34.500 30.700 32.900 36.000 34.100 33.800 32.500
Los ordenamos de menor a mayor:
30.700 32.500 32.900 33.800 34.100 34.500 36.000

Como n=7 es impar entonces:


Me = x n +1  = x(4) = 33.800
 
 2 

Recordemos que para este conjunto de salarios teníamos: x = 33.500

En este caso Me y x son muy parecidos por lo que para hacernos una idea del centro de las
observaciones no habrá mucha diferencia entre usar como medida de posición la media o la
mediana.

¿Ocurre siempre así? Veamos un ejemplo:


Las edades de 4 personas son:
19 20 20 41
Al calcular la media aritmética, tenemos que:
19 + 20 + 20 + 41
x= = 25
4
Y al calcular la mediana:
x n  + x n
 
2

 +1
2 
x( 2 ) + x( 3) 20 + 20
Me = = = = 20
2 2 2

En este caso ambas medidas son muy diferentes ¿por qué?

La mediana es más estable ante la existencia de datos atípicos (como el 41 en el ejemplo de las
edades), se dice que es más robusta que la media.

Ejemplo: Si volvemos al ejemplo de las puntuaciones obtenidas por 10 alumnos en un examen:


5,3 2,8 3,4 7,2 8,3 1,7 6,2 9,3 3,2 5,9

63
Tenemos que: x = 5,3 y Me= 5,6, valores que están muy cercanos y que en este caso
ambos miden con suficiente precisión el centro de la distribución de los datos.

Supongamos que cometemos un error al escribirlos y ponemos 83 en vez de 8,3, tendremos:


5,3 2,8 3,4 7,2 83 1,7 6,2 9,3 3,2 5,9
que ordenados de menor a mayor serán:
1,7 2,8 3,2 3,4 5,3 5,9 6,2 7,2 9,3 83

Entonces:
x n  + x n
 
2

 +1
2 
x( 5) + x( 6 ) 5,3 + 5,9
Me = = = = 5, 6 y por otro lado la media aritmética
2 2 2

5,3 + 2,8 + 3,4 + 7,2 + 83 + 1,7 + 6,2 + 9,3 + 3,2 + 5,9


x= = 12,8
10

Observamos en el ejemplo anterior que la media es muy susceptible a las observaciones extremas
y que la mediana es más robusta en la presencia de datos atípicos.

¿QUÉ EMPLEAMOS LA MEDIA O LA MEDIANA? EN DISTRIBUCIONES SIMÉTRICAS Y SIN


ATÍPICOS PODEMOS USAR LA MEDIA, PERO EN OTROS CASOS ES PREFERIBLE LA MEDIANA.
Ejemplo: Ingresos de las familias → Asimétrica a la derecha (mayor cantidad de familias con
ingresos menores y dispersas familias con ingresos muy altos)
- Mediana: nivel de ingreso superado por la mitad de las familias
- Media: al verse influida por las familias muy ricas nos daría una visión
muy optimista del ingreso de las familias.

Moda (Mo): La moda es el valor de la variable que más veces se repite. A veces aparecen
distribuciones de variables con más de una moda (bimodales, trimodales, etc), e incluso pueden
existir conjuntos de datos que al no repetirse ninguno no tiene una moda.

Por ejemplo, en la serie {14, 15, 17, 17, 21, 21, 21, 33, 36, 40}, la moda es 21.

La moda es una medida muy natural para describir un conjunto de datos; su concepto se adquiere
fácilmente: es la altura más corriente, es la velocidad más común, etc. Además tiene la ventaja de
que no se ve afectada por la presencia de valores altos o bajos.

64
La principal limitación está en el hecho de que requiere un número suficiente de observaciones
para que se manifieste o se defina claramente. Por esto es poco utilizada en series de datos no
agrupados.

Otros inconvenientes son que puede darse el caso de que una determinada serie no tenga moda o
que tenga varias modas.
Por ejemplo :
L, K, M, O, N (no hay moda)
5, 6, 10, 5, 8, 6, 7, 4 (2 modas 5 y 6)

La Moda debe usarse con cuidado. Su objetivo es identificar zonas donde se producen
aglomeraciones de datos, sin embargo, podría ser que por el solo hecho de haber una observación
extra en un punto aislado, éste pudiese aparecer como una moda.

Este inconveniente es especialmente delicado cuando hay pocas observaciones en la muestra, tal
como es el caso que se observa en el gráfico siguiente.

Figura Nº 33: Diagrama de puntos de la estatura de 23 alumnas en cm.

Como puede apreciarse en la figura Nº 33, cuatro alumnas tienen una estatura de 165 cm. Si no se
pone atención al resto de las observaciones, se podría reportar este valor como la moda principal,
lo que tiende a confundir ya que alrededor 159 cm. hay una gran concentración de datos. La
mayor utilidad de la moda, se presenta al usarla con muestras relativamente grandes, donde la
influencia de un dato individual no distorsiona el análisis.

Estas tres medidas de tendencia central (La media aritmética, Mediana y Moda) son las más
importantes y las más usuales. ¿Cuando utilizamos una u otra?

• La media es la mejor por que utiliza toda la información, es decir, tiene en consideración todos
los valores de la distribución, tiene también como ventaja que es única. Como desventaja más
importante está el hecho de que es muy sensible a la presentación de datos anómalos o atípicos
que hacen que la media se desplace hacia ellos y como consecuencia no es recomendable usar
la media en estos casos. Otra desventaja es que puede no coincidir con uno de los valores de la
variable.

• La mediana utiliza menos información que la media puesto que no depende de los valores de la
variable sino del orden que ocupa. Por este motivo tiene la ventaja de no estar afectada por

65
observaciones extremas. La mediana la utilizaremos cuando la media falle. Otra ventaja frente a
la media es que es un valor de la variable.

• La moda es la que menos información maneja y por tanto la peor. Tiene la ventaja de que
puede calcularse incluso para datos cualitativos. Otra desventaja es que no es única.

Si la distribución es simétrica y campaniforme , x , Me y Mo coinciden de manera


aproximada . En el caso de distribuciones campaniformes pero y un poco asimétrica, la mediana
está con frecuencia entre la media y la moda (algo más cerca de la media). La siguiente relación
nos permite calcular una de estas medidas de centralización en función de las otras:

MO ≈ 3Me - 2 x

Media geométrica (G): La media geométrica de un conjunto de datos, x1 , x2 ,..., xn −1 , xn . Se


define como la raíz n-ésima del producto de los n valores de la muestra.

G = n x1 x2 ·····xn

El empleo más frecuente de la media geométrica es el de promediar variables tales como


porcentajes, tasas, números índices. etc., es decir, en los casos en los que se supone que la variable
presenta variaciones acumulativas. Cuando la muestra tiene al menos un x i = 0 entonces G se
anula, y si la variable toma valores negativos se pueden presentar una gama de casos particulares
en los que tampoco queda determinada debido al problema de las raíces de índice par de números
negativos.

Ejemplo.
Un caso de aplicación del promedio geométrico, es el de cálculo de interés en un depósito a plazo.

Suponga (en un caso hipotético en que las tasas no necesariamente son las que habitualmente se
transan en los bancos) que una persona desea depositar Bs. 1.000.000 durante un mes a una tasa
de 2%.

Esto significa que al término del mes, el banco le entrega Bs. 1.020.000.
Al siguiente mes, toma el capital inicial más los intereses y los deposita por otro mes. Esta vez el
banco ofrece una tasa de 3%. Al término del segundo mes recibe Bs. 1.050.600.
Finalmente, deposita este nuevo capital por un tercer mes, ahora al 4%, obteniendo al final Bs.
1.092.624.

¿A qué tasa mensual debería ponerse el capital inicial para obtener el mismo capital final al cabo de los tres meses?

66
Esta pregunta quiere dilucidar cuál sería la tasa fija que el banco debiese haber aplicado en cada
uno de los tres meses en que el capital estuvo depositado (con los intereses variables - 2%, 3%,
4% - que vimos).

El capital total finalmente obtenido, puede expresarse como:


1000000*1.02*1.03*1.04 = 1000000*1.092624
Esto significa que la tasa total aplicada es de 9.2624%

Entonces, la tasa mensual estaría dada por la raíz cúbica de 1.092624, cuyo valor es 1.029968.
Es decir, se habría necesitado una tasa mensual de 2.9968%. Cantidad levemente inferior al 3%
que se obtendría si, erróneamente, se hubiese promediado 2%, 3% y 4%.

Para ver claramente cómo interviene el promedio geométrico en este ejemplo, escribamos las
tasas de interés como un factor multiplicativo del capital al cual se aplican. De este modo, las
sucesivas tasas son: 1.02, 1.03, 1.04.

El promedio geométrico de estos números es:


G= 3 1.02 *1.03 * 1.04 = 1.029968

Media armónica (H): La media armónica, que representaremos por H, para un conjunto de
datos x1 , x2 ,..., xn −1 , xn , se define como el recíproco de la media aritmética de los recíprocos de
los valores.
1
1 1 1
+ + .... +
x x2 xn
H= 1
n
y reacomodando la fórmula se tiene:
n n
H= = n
1 1 1 1
+ + .... +
x1 x2 xn ∑x
i =1 i

Ejemplo: la media armónica de 3, 2, 6 es:


3 3 3*36
H= = = =3
1 1 1 12 + 18 + 6 36
+ +
3 2 6 36
Obsérvese que la inversa de la media armónica es la media aritmética de los inversos de los
valores de la variable. No es aconsejable en distribuciones de variables con valores pequeños. Se
suele utilizar para promediar variables tales como productividades, velocidades, tiempos,
rendimientos, cambios, etc.

67
Relaciones entre lo promedios:
• La relación existente entre la media, la media geométrica, y la media armónica sería:
H≤G≤ x
• La media geométrica de dos cantidades cualesquiera, es igual a la media geométrica de la
media aritmética y la armónica de ambas cantidades, es decir,

G = x .H
G2
x=
H
G2
H=
x

Medidas de posición No Central

Las medidas de posición no central, son indicadores usados para señalar qué porcentaje de datos
dentro de una distribución son menores que dicho indicador.

Suponga que de un conjunto de valores que representan los promedios de notas de estudiantes de
la carrera de contaduría, nos interesa saber cuál es la nota tal que el 80% de los estudiantes tienen
promedio inferior que dicha nota. Si dibujamos la ojiva que corresponde a la distribución de los
datos, podemos ubicar aproximadamente el valor buscado (vea la figura Nº 34). Podemos
observar que el valor buscado es menor que 5 pero es difícil determinar el valor exacto.

Figura º 34: Polígono Acumulativo de proporción

68
Para determinar con mayor precisión el valor buscado en el ejemplo anterior necesitamos calcular
lo que llamaremos el percentil 80.

Las medidas de Posición no central más importantes son: Los Cuartiles, Los Deciles, y
Los Percentiles.

Cuartiles (Q1, Q2 y Q3):


Así como la mediana divide el conjunto de datos en dos partes iguales, es decir, la mitad de los
valores son inferiores a la mediana y la otra mitad son superiores. Si cada una de estas mitades se
volviera a dividir por la mitad, el conjunto quedaría dividido en cuatro partes y cada parte se
llamara cuartil.

• Q1= Valor de la variable que deja a la izquierda el 25% de la distribución.


• Q2= Valor de la variable que deja a la izquierda el 50% de la distribución = mediana.
• Q3= Valor de la variable que deja a la izquierda el 75% de la distribución.

Deciles (D1, D2, . . . , D9):


Son los valores que dividen a la distribución de los datos en diez partes iguales.
• D1 = Valor de la variable que deja a la izquierda el 10% de la distribución.
• D2 = Valor de la variable que deja a la izquierda el 20% de la distribución.
• Así sucesivamente, D9 = Valor de la variable que deja a la izquierda el 90% de la
distribución.

Percentiles (P1, P2, P3, . . . , P99):


Son los valores que dividen a la distribución en 100 partes iguales.
• P1 = Valor de la variable que deja a la izquierda el 1% de la distribución.
• P2 = Valor de la variable que deja a la izquierda el 2% de la distribución.
• P77 = Valor de la variable que deja a la izquierda el 77% de la distribución.

Todas las medidas de posición no central son casos particulares de los percentiles.
• Q1 = P25
• Q2 = P50 = Me
• Q3 = P75

• D1 = P10
• D2 = P20
• D5 = P50 = Me
• D8 = P80

69
Procedimiento para calcular el percentil k, (Pk):
1. Ordenar los datos de menor a mayor. Digamos que la muestra ordenada la
llamamos x(1) , x(2) ,..., x( n −1) , x( n ) . En donde los números entre paréntesis
indican la posición en que queda ubicado el dato después de ordenarlos.
2. Calcular la posición en donde se ubica el Pk
k .(n + 1)
 pos =
100
3. Denotamos por J a la parte entera de pos y por C la parte decimal. Por ejemplo si
pos = 12.75 entonces J = 12 y C = 0.75
(
4. Se calcula el Percentil K, como: Pk = x( J ) + C . x( J +1) − x( J ) )

Ejemplo: Los gastos mensuales de 20 familias del Estado Sucre se muestran a continuación:
0,8 0,9 1,2 0,9 1,5 1,7 1,5 1,0 1,0 0,8
1,7 1,9 2,3 0,7 1,5 1,2 1,8 2,3 2,0 0,6 (millones de Bs.)

Calcular:
a) Los Cuartiles
b) El 6to Decil
c) Se puede decir que el 70% de las familias gastan más de Bs. _______ al mes. Complete

1ero ordenamos la muestra en orden creciente:


(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)
0,6 0,7 0,8 0,8 0,9 0,9 1,0 1,0 1,2 1,2

(11) (12) (13) (14) (15) (16) (17) (18) (19) (20)
1,5 1,5 1,5 1,7 1,7 1,8 1,9 2,0 2,3 2,3

Entre paréntesis ponemos la posición que ocupa el valor dentro de la muestra ordenada.

a) Para calcular el primer cuartil, Q1:


Notamos que Q1 = P25, es decir que en la fórmula de los Percentiles K=25 para Q1
25.(20 + 1)
Así pos = = 5, 25 ⇒ J = 5 y C = 0, 25 . Entonces:
100
Q1 = P25 = x(5) + 0, 25. ( x(6) − x(5) ) =
= 0,9 + 0, 25. ( 0, 9 − 0, 9 ) = 0, 9
Es decir, que el 25% de las familias gastan menos de Bs. 900.000

Para calcular el primer cuartil, Q2:


Notamos que Q2 = P50, es decir que en la fórmula de los Percentiles K=50 para Q2

70
50.(20 + 1)
Así pos = = 10,5 ⇒ J = 10 y C = 0,5 . Entonces:
100
Q2 = P50 = x(10) + 0, 5. ( x(11) − x(10) ) =
= 1, 2 + 0, 5. (1, 5 − 1, 2 ) = 1, 2 + 0,15 = 1, 35
Es decir, que el 50% de las familias gastan menos de Bs. 1.350.000

Para calcular el primer cuartil, Q3:


Notamos que Q3 = P75, es decir que en la fórmula de los Percentiles K=75 para Q3
75.(20 + 1)
Así pos = = 15, 75 ⇒ J = 15 y C = 0, 75 . Entonces:
100
Q3 = P75 = x(15) + 0, 75. ( x(16) − x(15) ) =
= 1, 7 + 0, 75. (1,8 − 1, 7 ) = 1, 7 + 0, 075 = 1, 775
Es decir, que el 75% de las familias gastan menos de Bs. 1.775.000

b) Para calcular el 6to decil, que es equivalente al percentil 60, calculamos primero la posición:
60.(20 + 1)
pos = = 12, 6 ⇒ J = 12 y C = 0, 6 . Entonces el P60 es:
100
P60 = x(12) + 0, 6. ( x(13) − x(12) ) =
= 1, 5 + 0, 6. (1, 5 − 1, 5 ) = 1, 5
Podemos decir que el 60% de las familias gastan al mes a lo sumo Bs. 1.500.000.

c) Se puede decir que el 70% de las familias gastan más de Bs. _______ al mes.
Para completar esa oración tenemos que calcular el percentil 30 (ya que el percentil 30 es el valor
para el cual hay un 70% de datos mayores que él)

Observamos en la figura de abajo que es precisamente el P30 el que deja el 70% de los valores a
su derecha, es decir, mayores que el P30.

Calculamos la posición:
30.(20 + 1)
pos = = 6, 3 ⇒ J = 6 y C = 0,3 . Por lo tanto al calcular, P30:
100

71
P30 = x(6) + 0, 3. ( x(7 ) − x(6) ) =
= 0,9 + 0, 6. (1, 0 − 0, 9 ) = 0, 96
Así, podemos decir que el 70% de las familias gastan más de Bs. 960.000 al mes.

Nota.
No hay sólo un criterio para calcular percentiles en muestras. De hecho, importantes programas
de computación estadística entregan resultados diferentes debido a que usan criterios similares,
pero no iguales. No debe causar sorpresa, entonces, encontrar estas diferencias originadas por la
falta de un procedimiento universalmente aceptado.
En este manual se han corregido las fórmulas y procedimientos para que los resultados coincidan
con los del software de estadística MINITAB.

MEDIDAS DE DISPERSIÓN

Las medidas de dispersión permiten calcular la representatividad de una medida de posición, para
lo cual será preciso cuantificar la distancia de los diferentes valores de la distribución respecto a
dicha medida. A tal distancia es a lo que, en términos estadísticos, denominaremos variabilidad o
dispersi6n de la distribución. Las medidas de dispersión tienen como finalidad estudiar hasta que
punto, para una determinada distribución de datos, las medidas de tendencia central o de posición
son representativas como síntesis de toda la información de la distribución. Medir la
representatividad de una medida de posición equivale a cuantificar la separación de los valores de
la distribución respecto a dicha medida.

La dispersión es el grado en que los datos numéricos tienden a extenderse alrededor de un valor medio.

La dispersión de la distribución suministra información complementaria que permite juzgar la


confiabilidad de nuestra medida de tendencia central. Si los datos están ampliamente dispersos, la
localización central será menos representativa de los datos en su conjunto de lo que sería en el caso de
datos que se acumulasen más alrededor de la media. Además, si no conviene tener una amplia
dispersión de valores respecto al centro o si esa dispersión implica un riesgo inaceptable, deberemos ser
capaces de reconocerlo y no escoger las distribuciones que presentan la máxima dispersión.

Por ejemplo, a los analistas financieros les interesa la dispersión de las ganancias de una empresa, las
utilidades con una fuerte dispersión indican un riesgo mayor parar los accionistas que las utilidades que
permanecen relativamente estables.

Las medidas de dispersión se dividen en dos grandes grupos:

1- Las medidas de dispersión absolutas: son aquellas que vienen expresadas en las mismas
medidas que identifican a la serie de datos.

72
2- Las medidas de dispersión relativas: son relaciones entre medidas de dispersión absolutas
y medidas de tendencia central. Entendiéndose por relativas las que no dependen de las
unidades de medida.

Rango (R)

Desviación Estándar (S)

Absolutas Varianza (S2)

Medidas de Dispersión Error Estándar ( S x )

Relativa Coeficiente de Variación de Pearson (Cv)

Rango (R):
El rango es la medida de dispersión más sencilla de calcular y se interpreta como la amplitud o
ancho del intervalo en que varían los datos.

R = Max − Min

Se calcula la diferencia entre el mayor de los valores de la muestra y el menor de los datos. Si el
rango es muy alto en comparación a las medidas de tendencia central, entonces la variabilidad será
grande y en caso contrario la dispersión de los datos es menos acentuada.

Varianza (S2):
La varianza es el promedio de los cuadrados de las desviaciones de los datos con respecto a la
media aritmética.

De todas las medidas de dispersión la varianza y su raíz cuadrada (la desviación estándar) son las
más importantes, porque para datos continuos y de distribución normal, es la medida que mejor
aproxima el valor del parámetro de la población o varianza poblacional.

Para calcular la varianza de un conjunto de datos : x1 , x2 , x3 ,...., xn aplicamos la fórmula:

2
n
 _

∑ 
i =1 
x i − x 

s =
2

n −1

73
 n 2
 ∑ xi  − n ⋅ x
2

Que también se puede escribir como: s 2 =  i =1 


n −1

Como propiedades más importantes de la varianza tenemos que:


• Nunca puede ser negativa
• Si a la distribución de datos (es decir, a todos los valores) sumamos una constante la
varianza no varía (un cambio de origen en la variable no afecta a la varianza)
• Al multiplicar los valores de una distribución por una constante M la varianza queda
multiplicada por M 2.
• La varianza resulta en unidades cuadradas de acuerdo a la unidad en que se presentan los
datos. Esto dificulta su interpretación y hace necesario definir la desviación típica o
desviación estándar.

Desviación Estándar (S):


La desviación estándar es la medida de dispersión mas usada en estadística, tanto en aspectos
descriptivos como analíticos. Y es una medida de dispersión de los datos que mantiene la unidad
original. Se define como la raíz cuadrada de la varianza.

2
n _
  n 2
∑  ∑ xi  − n ⋅ x
2
x
 i − x 
s = s 2 = i =1   =  i =1 
n −1 n −1

Ejemplo: Los salarios anuales (en dólares) de los jefes de ventas de una empresa pequeña son:
34.500 30.700 32.900 36.000 34.100 33.800 32.500
Calcular el Rango, la varianza y la desviación estándar.

El mayor de los valores es Máx.=36.000 y el menor es Min=30.700, por lo tanto el Rango es


R=36.000-30.700 = 5.300 Es decir que hay una diferencia de 5.300 $ entre el jefe de
ventas que gana más al año y el que gana menos.

Recordamos del ejemplo de cálculo de la media que esta es igual a x = 33.500 dolares . Si ahora le
restamos a cada uno de los datos la media, lo elevamos al cuadrado y sumamos estos resultados,
2
n
 _

obtenemos ∑  xi − x  = 16.900.000, como se muestra en la tabla.
i =1  

74
xi ( xi − x ) ( xi − x )2
34.500 1.000 1.000.000
30.700 -2.800 7.840.000
32.900 -600 360.000
36.000 2.500 6.250.000
34.100 600 360.000
33.800 300 90.000
32.500 -1.000 1.000.000
Suma 234.500 0 16.900.000

2
n
 _

∑ x
 i − x 
Por lo tanto s 2 = i =1   = 16.900.000 = 2.816.666, 6667
n −1 6
Y al calcular la raíz cuadrada de este valor, obtenemos la desviación estándar:
s = 2.816.666, 6667 = 1.678, 29
Aunque la desviación estándar da un valor que pareciera ser alto, en realidad no lo es, debido a
que en comparación a la magnitud de los valores de la muestra, este valor es relativamente
pequeño.

Entre las medidas de dispersión absolutas referentes a promedios podríamos haber definido
también la desviación cuadráticas respecto a la mediana y a la moda, que de manera análoga miden
el grado de variabilidad de los datos y marcan la representatividad de los promedios con los que se
relacionan.

Algunas propiedades de la desviación típica:


• La desviación típica de una constante es cero.
• Siempre es una cantidad positiva.
• La desviación típica del producto de una constante por una variable es igual al producto
de la constante por la desviación típica de la variable.

Observaciones sobre la desviación típica:


 Entre sus aplicaciones tenemos el teorema de Chebyshev, el cual afirma que para cualquier
 1 
conjunto de datos, al menos  1 − 2  ⋅100% de la observaciones están dentro de k
 k 
desviaciones típicas de la media (K >1). En virtud de esto, si por ejemplo, k = 2 nos daría
0,75. Lo que significa que si formamos un intervalo de 2 desviaciones típicas por debajo
de la media hasta 2 desviaciones típicas por encima de la media, en dicho intervalo se
encontrarán como mínimo el 75% de todas las observaciones. En el 75% de los casos los
valores de la muestra estarán entre x − 2 S y x + 2 S .

75
 Nos permite determinar con mayor grado de precisión dónde se sitúan los valores de una
distribución de frecuencia en relación con la media.
 Las unidades de la desviación típica se expresan en las mismas unidades de los datos.
 Puede sufrir un cambio desproporcionado por la existencia de valores extremos en el
conjunto.
Error Estándar ( S x ):

El error estándar, también llamado error típico de la media ( S x ), es igual a la raíz cuadrada del
cociente entre la varianza de la muestra y el número de valores existentes en la muestra (n), o sea:

s2
Sx =
n
Coeficiente de Variación de Pearson (Cv):
El coeficiente de variación expresa la variación como una fracción de la media, y es una
medida adimensional, es decir, no depende de las unidades en que se presenten los datos.
Generalmente se multiplica por 100 y se interpreta como un porcentaje. Se calcula como:
s
CV = _
⋅100%
x

El coeficiente de variación es una medida relativa de dispersión que nos permite hacer
comparaciones de diferentes grupos con diferentes unidades de medida o diferentes variables y
obtener mejores conclusiones.

Ejemplo: Calcular el coeficiente de variación para el ejemplo de los salarios de los jefes de ventas.

Como ya tenemos calculado x = 33.500 y s = 1.678, 29 , entonces


1.678, 29
CV = ⋅100% = 5, 0% . Es decir, que el nivel
33.500
El Coeficiente de Variación representa el de variabilidad de los salarios de los jefes de ventas es de
número de veces que la desviación típica
un 5%. Podemos interpretar en este caso que los jefes de
contiene a la media aritmética y por lo ventas tienen salarios muy homogéneos y que la media
tanto cuanto mayor es Cv mayor es la aritmética de 33.500 $ es suficientemente representativa
dispersión y menor la representatividad de los salarios anuales de los jefes de ventas.
de la media.

Observaciones:

 El Cv es un estadístico útil para comparar la dispersión de conjuntos de datos que tienen


distintas desviaciones estándar y distintos promedios.
 El Cv pierde su utilidad cuando la media se aproxima a cero.

76
MEDIDAS DE FORMA: ASIMETRÍA Y CURTOSIS
Una vez iniciado el análisis estadístico de sinterización de la información, para lo cual hemos
estudiado las medidas de centralización, de posición y dispersión de la distribución de una
variable, necesitamos conocer más sobre el comportamiento de la misma. No podemos basar
nuestras conclusiones únicamente en expresiones que vengan dadas en términos de medidas de
centro, posición y dispersión. Si bien intentamos globalizar el comportamiento del colectivo que
sea objeto de nuestro estudio, para lo cual las medidas de tendencia central son nuestro mejor
instrumento, no debemos proceder a una interpretación que implique un comportamiento de
todos los elementos del colectivo uniformemente constante e igual a la medida de tendencia
central en cuestión con un error dado por la correspondiente medida de dispersión. Este error o
disparidad se hace más ostensible al analizar la representación gráfica de la distribución. Pues
bien, las medidas de forma de una distribución se basan en su representación grafica, sin llegar a
realizar la misma.

Las medidas de forma se clasifican en medidas de asimetría y medidas de curtosis o


apuntamiento.

MEDIDAS DE ASIMETRÍA

Las medidas de asimetría tienen como finalidad el elaborar un indicador que permita establecer el
grado de simetría (o asimetría) que presenta una distribución, sin necesidad de llevar a cabo su
representación gráfica.

A continuación se definen las medidas de asimetría más comunes, entre las que destacan las
siguientes:

Coeficiente de asimetría de Fisher:


Si la distribución es simétrica, el eje de simetría de su representación grafica será una recta paralela
al eje de ordenadas, que pasa por el punto cuya abscisa es la media aritmética. Por ello, cuando la
distribución es asimétrica, referiremos los valores de la distribución a este promedio. Si una
distribución es simétrica, existe el mismo número de valores a la derecha que a la izquierda de x ,
y por tanto el mismo número de desviaciones con signo positivo que con signo negativo, siendo
la suma de desviaciones positivas igual a la suma de las negativas. Podemos partir pues, de las
desviaciones (xi- x ) elevadas a una potencia impar para no perder los signos de las desviaciones.

77
Lo más sencillo sería tomar como medida de asimetría el promedio de estas desviaciones,
elevadas a la potencia impar más simple (que es tres), es decir, tomaríamos como medida de
asimetría el momento de orden tres centrado en la media. Pero, de hacer esto, esta medida vendría
expresada en las mismas unidades que las de la variable pero elevadas al cubo, por lo que no es
invariante ante un cambio de escala. Para conseguir un indicador adimensional, debemos dividir la
expresión anterior por una cantidad que venga en sus mismas unidades de medida. Esta cantidad
es el cubo de la desviación típica, obteniéndose así el coeficiente de asimetría de R. A. Fisher, cuya
expresión es:
 n  _ 3

 ∑  xi − x  
⋅  i =1  3  
n
AF =
( n − 1)( n − 2 )  s 
 
 
Si AF=0 la distribución es simétrica, si AF >0 la distribución es asimétrica positiva (a derecha), y si
AF < 0 la distribución es asimétrica negativa (a izquierda). La distribución es asimétrica a derecha
o positiva cuando la suma de las desviaciones positivas de sus valores respecto de la media es
mayor que la suma de las desviaciones con signo negativo (la grafica de la distribución tiene mas
densidad a la derecha de la media). En caso contrario, la distribución es asimétrica a la izquierda o
negativa.

Coeficiente de asimetría de Pearson: Karl Pearson propuso para distribuciones


campaniformes, unimodales y moderadamente asimétricas el coeficiente definido como Ap
= ( x - Mo) / σ , donde σ es la desviación estándar de la población. La desviación típica de la
población, generalmente es desconocida y se sustituye por la desviación estándar de la muestra S.
Si Ap = 0 la distribución es simétrica, si Ap > 0 la distribución es asimétrica positiva y si Ap < 0
la distribución es asimétrica negativa. También Pearson comprobó empíricamente para este tipo
de distribuciones que se cumple 3( x - Me) ≈ x - Mo (la mediana siempre se sitúa entre la media y
la moda en las distribuciones moderadamente asimétricas). Por esta razón, algunos autores utilizan
como coeficiente de asimetría de Pearson el valor:
X − Mo 3( X − Me)
AP = ≈
S S

EL COEFICIENTE DE ASIMETRÍA DE PEARSON sólo es aplicable a aquellas


distribuciones que tienen una sola moda y cuya distribución tiene forma de
campana.

78
Coeficiente de asimetría de Bowley: Está basado en la posición de los cuartiles y la
mediana.
Q3 + Q1 − 2 Me
Ab =
Q3 + Q1

Se cumple que si Ab = 0 la distribución es simétrica, si Ab > 0 la distribuci6n es asimétrica


positiva y si Ab < 0 la distribución es asimétrica negativa.

MEDIDAS DE CURTOSIS

Las medidas de curtosis estudian la distribución de los datos en la zona central de la misma. La
mayor o menor concentración de datos alrededor de la media y en la zona central de la
distribución dará lugar a una distribución más o menos puntiaguda. Por esta razón a las medidas
de curtosis se les llama también de apuntamiento o concentración central. Las medidas de curtosis
se aplican a distribuciones campaniformes, es decir, unimodales simétricas o con ligera asimetría
Para estudiar la curtosis de una distribución es necesario definir previamente una distribución
tipo, que vamos a tomar como modelo de referencia. Esta distribución es la Normal, que
corresponde a fenómenos muy corrientes en la naturaleza, y cuya representación grafica es una
campana de Gauss.

Se hace necesario, para la teoría siguiente, conocer la DISTRIBUCIÓN NORMAL, ya que


tiene gran importancia al querer estudiar el apuntamiento o curtosis. Se dice que una distribución
tiene un apuntamiento u otro, siempre en función de esta distribución normal.

La distribución llamada normal, corresponde a fenómenos muy corrientes en la naturaleza y cuya


representación gráfica es una campana de Gauss. Esta campana responde a una función
matemática, que es la función de densidad de la distribución:

( x − µ )2
1 −
f ( x) = e 2σ 2

σ 2π
Donde µ representa la media de la población y σ la desviación estándar poblacional. El área total
debajo de la curva de la normal hasta el eje x es igual a 1.

Tomando la normal como referencia, diremos que una distribución puede ser más apuntada que
la normal (es decir, leptocurtica) o menos apuntada (es decir, platicúrtica).

79
A la distribución normal, desde el punto de vista de la curtosis, se le llama mesocúrtica.

Con la curtosis se estudia la deformación, en sentido vertical, respecto a la normal, de una


distribución.

Leptocúrtica Platicúrtica Mesocúrtica

Figura Nº 35: Diferentes formas de apuntamiento o curtosis de distribuciones simétricas

Coeficiente de Curtosis (K):


La estadística utilizada para cuantificar la curtosis de una distribución viene dada por la siguiente
fórmula:
 n 
_ 4

 n ( )
n + 1  xi − x   3(n − 1)2
K = ∑ −
 (n − 1)(n − 2)(n − 3) i =1  s   (n − 2)(n − 3)
 

• si K > 0 se dice que la distribución es leptocúrtica.


• si K < 0 se dice que la distribución es platicúrtica.
• si K = 0 se dice que la distribución es mesocúrtica o normal.

Una medida de curtosis en una distribución señala el grado de presencia de observaciones muy alejadas
de la media, tomando como medida la desviación típica. Por consiguiente, una distribución con gran
curtosis será aquella en la que hay observaciones situadas a una distancia de la media igual a varias veces
la desviación típica. Cuantas más observaciones alejadas de esa forma haya y cuanto más alejadas estén,
mayor será la curtosis. Una variable en donde no haya observaciones cuya distancia a la media sea de
varias veces la desviación típica, o las haya en un grado mínimo, tendrá una curtosis pequeña.

Para entender correctamente el concepto de curtosis, es importante no confundir “curtosis alta” con
“dispersión alta”. Una distribución con una cantidad importante de valores muy alejados de la media
puede tener, por eso mismo, una dispersión elevada, pero no necesariamente una curtosis alta. Para que
se dé una curtosis elevada tiene que ocurrir que esas grandes desviaciones respecto a la media, sean
grandes en comparación a la desviación típica. De esa manera, puede verse que la cantidad de curtosis
no está relacionada en absoluto con la dispersión de la distribución, sino con la forma de distribuirse
esta dispersión.

80
¿Para qué es útil? La curtosis nos informa sobre la existencia (o no) de observaciones mucho más
alejadas a la media que la mayoría de ellas. En una distribución con curtosis alta (leptocúrtica) pueden
encontrarse valores “excepcionalmente” alejados de la media; en una con curtosis baja es imposible o
muy infrecuente que eso se dé. Una curtosis elevada va, en cierta forma, asociada al concepto de
“riesgo”: podrían registrarse valores de la variable muy diferentes a los habituales, y, por tanto, se haría
difícil una predicción segura.

Una desventaja del coeficiente de curtosis es que requiere un nivel de cálculo superior en comparación
a las otras medidas descriptivas. Por lo general cuando el cálculo no se hace por medio de
computadoras, se acumulan muchos errores de redondeo y el valor de K resulta medianamente
afectado por la acumulación de estos errores de redondeo.

Una alternativa para el coeficiente de curtosis K, es tomar distintas medidas de dispersión y


compararlas, por ejemplo la siguiente se refiere a distintas medidas de dispersión basadas en percentiles.

Coeficiente de curtosis de percentiles (Cp)

Haciendo el cociente entre dos medidas de dispersión basadas en percentiles tenemos un coeficiente de
curtosis. Uno de los (relativamente) más usados es:

P97,5 − P2,5
Cp =
P75 − P25

Obsérvese que el denominador es el Rango Intercuartílico y el numerador es la amplitud del intervalo


centrado del 95% observado. La razón de ser de este coeficiente es que si la distribución es muy
apuntada, la separación entre P2,5 y P97,5 será grande, ya que están cerca de los extremos; en cambio, si
no hay valores muy alejados de la media, P97,5 – P2,5 será pequeño. Como referencia, se considera
"normal" un valor de 2.91.

Ejemplo: Los siguientes valores corresponden a las ventas semanales en millones de Bolívares
de una pequeña empresa. Se seleccionaron al azar 20 semanas en los datos históricos del año 2006
y el resultado fue el siguiente:

6 6 8 9 10 10 10 10 10 10 11 12 12
12 12 12 14 15 15 16

a) Calcular el coeficiente de asimetría de Fisher


b) Calcular el coeficiente de asimetría de Pearson
c) Calcular el coeficiente de asimetría de Bowley
d) Calcular el coeficiente de curtosis K
e) Calcular el coeficiente de curtosis Cp

81
Comenzamos por organizar los datos en un arreglo y calcular algunas cantidades que
necesitaremos luego para encontrar los coeficientes de forma pedidos.

N° ( xi − x ) ( xi − x ) ( xi − x ) Para calcular x , se suman todos


2 3 4
xi xi − x
los xi (columna 2) y dividimos
1 6 -5 25 -125 625
2 6 -5 25 -125 625 entre n.
3 8 -3 9 -27 81
n
4 9 -2 4 -8 16
5 10 -1 1 -1 1 ∑x i
220
6 10 -1 1 -1 1 x= i =1
= = 11
n 20
7 10 -1 1 -1 1
8 10 -1 1 -1 1 Usamos x para calcular los
9 10 -1 1 -1 1 valores de las columnas 3 hasta la
10 10 -1 1 -1 1 columna 5.
11 11 0 0 0 0
12 12 1 1 1 1 Al revisar la columna 3, podemos
13 12 1 1 1 1 verificar una de las características
14 12 1 1 1 1 de la media, es decir, la suma de
15 12 1 1 1 1 las diferencias de cada valor
16 12 1 1 1 1 menos la media es igual a cero.
17 14 3 9 27 81
18 15 4 16 64 256 Para calcular s2, usamos el total
19 15 4 16 64 256 de la columna 4, es decir,
20 16 5 25 125 625 n

∑(x − x )
2
Suma 220 0 140 -6 2576 i
140
s2 = i =1
= = 7,3684
n −1 19
y por lo tanto, s = 7, 3684 = 2, 7145 .

a) Utilizamos los valores de la media y la desviación estándar para calcular el coeficiente de


asimetría de Fisher

 n  _ 3

∑ i x − x    −6 
⋅  i =1  3   =
n 20
AF = ⋅ = −0, 02 que está muy cerca de
( n − 1)( n − 2 )  s  (19 )(18)  2, 71453 
 
 
cero, por lo tanto esta medida indica que la distribución es simétrica.

b) Para calcular el coeficiente de asimetría de Pearson, necesitamos el valor de la mediana Me.


Como n= 20, y la muestra está ordenada, basta con tomar el promedio de los dos valores
centrales de la muestra, es decir, Me= (10+11)/2 = 10,5.

82
3( X − Me) 3(11 − 10,5)
AP = = = 0,55 valor que también está cerca de cero, por lo tanto esta
S 2, 7145
medida indica que la distribución es simétrica.

c) Para calcular el Coeficiente de asimetría de Bowley necesitamos los cuartiles:

25.(20 + 1)
Para Q1 la posición es pos = = 5, 25 ⇒ J =5 y C = 0, 25 , entonces
100
Q1 = P25 = x(5) + 0, 25. ( x(6) − x(5) ) =
= 10 + 0, 25. (10 − 10 ) = 10

75.(20 + 1)
Para Q3, pos = = 15, 75 ⇒ J = 15 y C = 0, 75 . Entonces:
100
Q3 = P75 = x(15) + 0, 75. ( x(16) − x(15) ) =
= 12 + 0, 75. (12 − 12 ) = 12

Al sustituir estos valores en la fórmula del coeficiente de asimetría de Bowley, tenemos:

Q3 + Q1 − 2Me 12 + 10 − 2 ⋅10, 5 1
Ab = = = = 0, 05 Valor que se encuentra cercano a cero, por
Q3 + Q1 12 + 10 22
lo tanto este método también nos indica que la distribución es simétrica.

d) Para calcular el coeficiente de curtosis, utilizamos el total de la última columna de la tabla que
construimos y el valor que obtuvimos de s.

 n
 _ 4


 n ( n + 1) ∑  xi − x  
 3(n − 1)2  20 ( 21) 2576  3(19) 2
K = ⋅ i =1  4   − = ⋅ 4
− =
 (n − 1)(n − 2)(n − 3) s  (n − 2)(n − 3)  (19)(18)(17) 2, 7145  (18)(17)
 
= {3, 4274} − 3, 5392 = −0,11

Este resultado esta muy cerca de cero y por lo tanto nos indica que la distribución es mesocúrtica.

e) Para poder calcular el coeficiente de curtosis Cp, necesitamos los percentiles: P2,5 y P97,5, ya que el
P75 y P25 fueron calculados en el inciso c).

83
2,5.(20 + 1)
P2,5 : buscamos la posición pos = = 0, 525 ⇒ J = 0 y C = 0,525 , observe que la
100
posición J es cero, en estos casos no existe el x(0) , por lo tanto, tomamos el P2,5 = 6 (el menor de los
datos) .

97,5.(20 + 1)
P97,5 : Buscamos pos = = 20, 475 ⇒ J = 20 y C = 0, 475 . Observe que la
100
posición J es 20 (que resulta ser igual a la última posición en el arreglo ordenado de los datos),
en estos casos no existe el x( J +1) = x(21) , debemos tomar x(21) = x(20) = 16 (mayor de los datos).
Entonces:
P97,5 = x( 20) + 0, 475. ( x(21) − x(20) ) =
= 16 + 0, 475. (16 − 16 ) = 16

Ahora tenemos todos los datos para calcular Cp:

P97,5 − P2,5
16 − 6
Cp = =
= 5 . Este resultado es mayor que 2.91 (valor normal), por lo tanto nos
P75 − P25 12 − 10
indica que la distribución es leptocúrtica

¿Cuál de las dos medidas de curtosis es la más acertada en este caso?

Para tomar esa decisión, realizamos un histograma y sobre escribimos una distribución normal para
compararla. Utilizamos el software MINITAB para obtener el siguiente gráfico:

Histogram of ventas
Observamos en la figura Nº
Normal 36, que las barras centrales
Mean 11 están muy por encima de los
6 StDev
N
2,714
20
valores normales (curva azul)
5 y además existen valores muy
alejados del centro que
4 también tienen una
Frequency

frecuencia superior a la
3
normal. Por lo tanto esta
distribución es leptocúrtica.
2
No obstante cuando el
1 conjunto de datos es muy
pequeño (menor de 30) es
0 muy difícil tomar decisiones
6 8 10 12 14 16
ventas de las medidas de forma
(asimetría y curtosis).

Figura Nº 36: Histograma de las ventas semanales.

84
Para comparar los cálculos realizados por los procedimientos descritos en esta unidad y los
obtenidos por el programa estadístico MINITAB, presentamos a continuación las distintas
medidas estadísticas descriptivas calculadas con MINITAB:

MINITAB:
Descriptive Statistics: ventas

Variable Mean SE Mean StDev Variance CoefVar Minimum Q1 Median


ventas 11,000 0,607 2,714 7,368 24,68 6,000 10,000 10,500

Variable Q3 Maximum Range IQR Skewness Kurtosis


ventas 12,000 16,000 10,000 2,000 -0,02 -0,11

Observamos que las medidas que hemos calculado de forma manual y por medio de las fórmulas
antes expuestas, ofrecen un resultado idéntico a los arrojados por el software estadístico
MINITAB.

RESUMEN DE CÁLCULOS MANUALES:


Estadísticas Descriptivas para: ventas
Media = 11
Varianza= 7,3684
Desv. Estándar= 2,7145
Coef. Variación= (2,7145/11)x100% = 24,68%
Mínimo = 6
Máximo = 16
Moda = 10
Q1 = 10
Mediana= 10,5
Q3=12
Coef. Asimetría Fisher = -0,02
Coef. Asimetría Pearson = 0,55
Coef. Asimetría Bowley = 0,05
Coef. Curtosis K = -0,11
Coef. Curtosis Cp= 5

Con el propósito de ofrecer otros medios tecnológicos de cómo calcular las estadísticas
descriptivas de un conjunto de datos numéricos, se ofrece el siguiente procedimiento en Excel.

Estadísticas Descriptivas en Excel


Consideremos los datos del ejemplo anterior (de las ventas semanales). El procedimiento consiste
en:

1. Introducir los datos en una columna de un libro de Excel. Como se muestra en la


columna A de un libro de Excel en la figura Nº 37.

2. Es posible que no tenga instalado el componente de análisis de datos (ya que no se instala
por defecto en Excel). Esto lo puede solucionar agregando ese complemento por medio
de la opción ruta “herramientas\complementos\herramientas para análisis” y dandole clic
a aceptar como se indica resaltado en rojo en la figura Nº 37.

85
Figura Nº 37: Copiado de datos en columna A Figura Nº 38: Comando Análisis de Datos
y Procedimiento para agregar la herramienta
análisis de datos.

3. Después de instalar el componente, se procede a invocar el grupo de herramientas


estadísticas ofrecidas por el complemento análisis de datos, como se muestra en la figura
Nº 38

4. Al hacer clic en Análisis de datos en el paso anterior, se abre una nueva ventana con todas
las opciones de procedimientos estadísticos que ofrece Excel. Ahí seleccionamos la
opción Estadística descriptiva como se indica en la figura Nº 39.

Figura Nº 39: Opción Estadística descriptiva de Excel

86
5. Luego de hacer clic en aceptar en el figura anterior, se abre una nueva y última ventana de
opciones, en donde se debe seleccionar todo el conjunto de datos que se quiere analizar
(ver parte sombreada, que en el ejemplo ocupa desde la casilla A2 hasta la casilla A21) y
marcar la opción “resumen de estadísticas” como se señala en la figura Nº 40.

Figura Nº 40: Entrada de parámetros de la Figura Nº 41: Resultados de Estadísticas


opción Estadística descriptiva de Excel Descriptivas de Excel

6. Como resultado de hacer clic en la ventana anterior, se obtienen los resultados completos
de las estadísticas descriptivas calculadas por Excel. El resultado para el ejemplo de las
ventas semanales se muestra en la figura Nº 41.

Se observa que los resultados son idénticos a los obtenidos de manera manual.

Se ha mostrado entonces la consistencia, exactitud y completitud de los procedimientos descritos


de manera manual y de las respectivas fórmulas asociadas a las medidas de descripción estadística
para variables numéricas y no agrupadas.

En algunos casos la información que tenemos de ciertas variables o procesos, viene presentada
en forma resumida y agrupada en rangos de valores previamente seleccionados. En esos casos los
procedimientos antes descritos no funcionan porque dependen de los valores particulares de cada
dato en la serie o de la muestra. Es preciso entonces desarrollar técnicas alternativas que nos
permitan obtener medidas numéricas descriptivas de los datos cuando estos están agrupados en
tablas de intervalos de clases.

Estas técnicas se presentan a continuación.

87
MEDIDAS DESCRIPTIVAS PARA DATOS
AGRUPADOS:
Si los datos se encuentran agrupados, bien sea de acuerdo a la frecuencia de ocurrencia de los
mismos o en tablas de intervalos de clases, los procedimientos para calcular las diferentes medidas
descriptivas se explicarán por medio de unos ejemplos que desarrollaremos a continuación.

Datos agrupados de acuerdo a la frecuencia u ocurrencia


de cada valor.

Ejemplo: Los siguientes valores corresponden a las ventas semanales en millones de Bolívares
de una pequeña empresa. Se seleccionaron al azar 20 semanas en los datos históricos del año 2006
y el resultado fue el siguiente:
xi fi Media Aritmética:
6 2 Para calcular la media aritmética sumamos el resultado de multiplicar cada valor de
8 1
la muestra por su correspondiente frecuencia y luego dividimos ese total por n.
9 1
10 6
x =
∑ xi ⋅ fi
11 1 n
12 5
14 1
15 2
16 1
En el ejemplo,
xi fi xi ⋅ f i
x=
∑x ⋅ f
i i220
== 11 Que es el mismo valor que obtuvimos en el
6 2 12 n 20
8 1 8
procedimiento de los datos sin agrupar.
9 1 9
10 6 60
11 1 11
12 5 60
14 1 14
15 2 30
16 1 16
Suma 20 220

Mediana:
Para calcular la mediana, en datos agrupados con su respectiva frecuencia, calculamos la
n +1
frecuencia acumulada (FA) y ubicamos la 1era FA que sea mayor que . El valor xi que
2
corresponda con esa fila es la Mediana.

88
n + 1 21
En el ejemplo, como n=20 (recuerde que n = ∑ fi ). Entonces = = 10,5 .
2 2
xi fi FA La mediana estará en la mitad de los valores que están entre la posición 10
6 2 2 y 11. Así que buscamos la 1era FA que sea mayor o igual que 10,5. En este
8 1 3 caso como la posición 10 (FA=10) la tiene xi = 10 y la posición 11, la tiene
9 1 4
10 6 10 el valor xi = 11 (nota: es casualidad que la posición 10 la tenga el valor
11 1 11
12 5 16 xi = 10 y la posición 11 el valor xi = 11 , en general la posición y el valor
14 1 17 no tienen porque ser iguales). La mediana está en la mitad entre xi = 10 y
15 2 19
16 1 20 xi = 11 , es decir que la mediana es Me= 10,5.
Suma 20 No siempre hay que buscar el valor medio entre los datos centrales.
Veamos otro ejemplo para calcular la mediana.

Ejemplo: Los siguientes valores corresponden a la cantidad de hijos de 50 familias


seleccionadas al azar.
xi fi FA n +1
En este caso al calcular =25,5. Si buscamos la 1era FA que es mayor que
0 4 4 2
1 13 17 25,5 es la ubicada en la 3era fila (FA=37), como es mayor que 25,5 por más de
2 20 37 0,5, significa que la mediana es el valor de xi que corresponden con FA=37, es
3 10 47 decir, Me=2.
4 2 49
5 1 50
total 50

Moda:
Para calcular la moda en datos agrupados por su respectiva frecuencia, simplemente ubicamos la fi
(frecuencia absoluta) que sea mayor que las demás. El valor xi que corresponda con esa fila es la Moda.
Si existen varias filas con el mismo valor máximo de fi , entonces existen varias modas. Cada una
correspondiente a las filas de máxima frecuencia.

En el ejemplo de las ventas semanales en millones de Bolívares de una pequeña empresa, la moda es
igual a 10 y en ejemplo de las cantidades de hijos de las familias la moda es igual a 2.

Varianza (S2):
Para calcular la varianza en datos agrupados por su respectiva frecuencia, aplicamos la fórmula

1 k
S2 = ∑
n − 1 i =1
( xi − x )2 f i

89
Ejemplo: Los siguientes valores corresponden a las ventas semanales en millones de Bolívares
de una pequeña empresa:
xi fi ( xi − x ) ( xi − x )2 ( xi − x ) 2 ⋅ f i Como ya tenemos el valor de x = 11 , restamos a
6 2 -5 25 50 cada xi ese valor y obtenemos la columna 3 de la
8 1 -3 9 9 tabla. Luego elevamos al cuadrado cada uno de esos
9 1 -2 4 4 valores y así obtenemos la columna 4 de la tabla.
10 6 -1 1 6 Multiplicamos los resultados de la 4ta columna por
11 1 0 0 0 sus correspondientes frecuencias que están en la 2da
12 5 1 1 5 columna y así obtenemos la última columna.
14 1 3 9 9 Finalmente totalizamos esta última columna que
15 2 4 16 32 corresponde con la parte superior de la fórmula de la
16 1 5 25 25 varianza. Al sustituir en la fórmula tenemos:
140
k

∑ (x − x )
i
2
fi
140
S =
2 i =1
= = 7,3684
n −1 19

Desviación Estándar (S):


Para calcular la desviación estándar, aplicamos el procedimiento anterior para calcular la varianza y
luego s = s 2 .

En el ejemplo anterior s = 7, 3684 = 2, 7145 .

Percentiles (P1, P2, P3, . . . , P99):


Para calcular el percentil k en datos agrupados por su respectiva frecuencia, primero buscamos la
k .(n + 1)
posición pos = . Luego el Pk buscado será igual al valor xi que se encuentre en la fila
100
correspondiente la 1era FA que sea superior al valor de pos calculado.

Por ejemplo, calcular el percentil 25 y el percentil 75 (que corresponden al Q1 y Q3 respectivamente)


en el ejemplo del número de hijos de las familias.

xi fi FA 25.(50 + 1) 1275
El P25, se ubica en pos = = = 12, 75 . Buscamos la 1era FA
0 4 4 100 100
1 13 17 que sea mayor que 12,75. En este caso es la FA=17, por lo tanto P25 = Q1 = 1.
2 20 37
3 10 47 75.(50 + 1) 3825
El P75, se ubica en pos = = = 38, 25 . Buscamos la 1era FA
4 2 49 100 100
5 1 50 que sea mayor que 38,25. Que es la FA=47, por lo tanto P75 = Q3 = 3.
total 50

90
Coeficiente de asimetría de Fisher:
Para calcular el coeficiente de asimetría de Fisher en datos agrupados por su respectiva frecuencia,
aplicamos la fórmula:
 k  _ 3
 
 ∑   xi − x  ⋅ f i  
 i =1   
⋅ 
n
AF = 
( n − 1)( n − 2 )  s 3

 
 

Ejemplo: Los siguientes valores corresponden a las ventas semanales en millones de Bolívares
de una pequeña empresa:
xi fi ( xi − x ) ( xi − x )3 ( xi − x )3 ⋅ fi Como ya tenemos el valor de x = 11 , restamos a
6 2 -5 -125 -250 cada xi ese valor y obtenemos la columna 3 de la
8 1 -3 -27 -27 tabla. Luego elevamos a la tres cada uno de esos
9 1 -2 -8 -8 valores y así obtenemos la columna 4 de la tabla.
10 6 -1 -1 -6 Multiplicamos los resultados de la 4ta columna por
11 1 0 0 0 sus correspondientes frecuencias que están en la 2da
12 5 1 1 5 columna y así obtenemos la última columna.
14 1 3 27 27 Finalmente totalizamos esta última columna que
15 2 4 64 128 corresponde con la parte superior de la fórmula del
16 1 5 125 125 coeficiente de asimetría de Fisher. Al sustituir en la
-6 fórmula tenemos:

20  −6 
AF = ⋅ 3
= −0, 02
(19 )(18)  ( 2, 7145 ) 

Coeficiente de Curtosis (K):


Para calcular el coeficiente de curtosis en datos agrupados por su respectiva frecuencia, aplicamos la
fórmula:
 k 
 _ 4
 

n ( n + 1)
∑ 
 i
i =1  
x − x


 i  
f
   − 3(n − 1)
2
K = ⋅ 
 (n − 1)(n − 2)(n − 3) s4  (n − 2)(n − 3)
 
 

Ejemplo: Los siguientes valores corresponden a las ventas semanales en millones de Bolívares
de una pequeña empresa:

91
xi fi ( xi − x ) ( xi − x )4 ( xi − x ) 4 ⋅ f i Como ya tenemos el valor de x = 11 , restamos a
6 2 -5 625 1250 cada xi ese valor y obtenemos la columna 3 de la
8 1 -3 81 81 tabla. Luego elevamos a la cuatro cada uno de esos
9 1 -2 16 16 valores y así obtenemos la columna 4 de la tabla.
10 6 -1 1 6 Multiplicamos los resultados de la 4ta columna por
11 1 0 0 0 sus correspondientes frecuencias que están en la 2da
12 5 1 1 5 columna y así obtenemos la última columna.
14 1 3 81 81 Finalmente totalizamos esta última columna que
15 2 4 256 512 corresponde con la parte superior de la fórmula del
16 1 5 625 625 coeficiente de curtosis. Al sustituir en la fórmula
2576 tenemos:

 20 ( 21) 2576  3(19) 2


K = ⋅ 4 
− = 3, 43 − 3,54 = −0,11 . Observamos que obtenemos
 (19)(18)(17) ( 2, 7145 )  (18)(17)
los mismos resultados que cuando aplicamos el método en los mismos datos pero sin agruparlos.

Las demás estadísticas descriptivas (como el coeficiente de asimetría de Pearson) se calculan con las
mismas fórmulas de datos no agrupados.

Datos Agrupados en Intervalos de Clases


Cuando los valores se encuentran agrupados en intervalos de clases, las medidas descriptivas no se
pueden obtener de manera exacta, debido a que los valores de cada dato en la serie o en la
muestra no hay forma de obtenerlos. Sin embargo se puede obtener unas estadísticas aproximadas
por medio del uso de la marca de clase como valor representativo de todos los datos que
pertenecen a su respectivo intervalo de clase.

En general la aproximación de las medidas descriptivas en los procedimientos para datos


agrupados en intervalos de clases es muy buena, pero mejora sustancialmente si los valores
originales están cercanos al centro del intervalo de clase (marca de clase).

Media Aritmética:
Para calcular la media aritmética sumamos el resultado de multiplicar cada marca de clase de cada
intervalo por su correspondiente frecuencia y luego dividimos ese total por n.

x=
∑m ⋅ f
i i

92
Mediana:
Para calcular la mediana, en datos agrupados en intervalos de clase, calculamos la frecuencia
n +1
acumulada (FA) y ubicamos la 1era FA que sea mayor que . Llamamos a la clase que cumpla
2
con esa condición, clase medianal.

n +1 Donde:
− FAant
Me = LI m + 2 ⋅ am LIm es el límite inferior de la clase medianal
fm
FAant es la FREC. Acumulada anterior a la clase medianal
fm es la frecuencia absoluta de la clase medianal
am es el ancho de clase de la clase medianal

Moda:
Para calcular la moda, en datos agrupados en intervalos de clase, ubicamos la frecuencia absoluta
máxima. La clase que tiene la frecuencia máxima se llama clase modal y entre los límites inferior y
superior de dicha clase se encuentra el valor de a moda. Para determinarlo utilizamos la fórmula:
∆1 Donde:
Mo = LI mo + ⋅ amo LImo es el límite inferior de la clase modal
∆1 + ∆ 2
∆1 es la diferencia entre la frecuencia de la clase modal y la
clase anterior a esta
∆2 es la diferencia entre la frecuencia de la clase modal y la
clase posterior a esta
amo es el ancho de clase de la clase medianal

Percentil:
Para calcular el percentil k (Pk), en datos agrupados en intervalos de clase, calculamos la
k (n + 1)
frecuencia acumulada (FA) y ubicamos la 1era FA que sea mayor que . En la clase que
100
cumpla con esa condición se encontrará el Pk, para determinar su valor se aplica la fórmula:
k (n + 1) Donde todas las medidas están referidas a la clase donde se
− FAant
Pk = LI + 100 ⋅a ubica el percentil según el procedimiento anterior:
f LI es el límite inferior de la clase
FAant es la FREC. Acumulada anterior a la clase
f es la frecuencia absoluta de la clase
a es el ancho de clase

93
Varianza (S2):
Para datos agrupados en intervalos de clase, se aplica la siguiente fórmula:
k

∑ ( (m − x )
i =1
i
2
⋅ fi )
s =
2

n −1

Desviación Estándar (S):


Para datos agrupados en intervalos de clase, aplicamos primero el procedimiento para calcular la
varianza y luego al resultado le aplicamos la raíz cuadrada. s = s 2 .

Coeficiente de asimetría de Fisher:


Para calcular el coeficiente de asimetría de Fisher en datos agrupados en intervalos de clases, aplicamos
la fórmula:

 k  _ 3
 
 ∑   mi − x  ⋅ fi  
 i =1   
⋅ 
n
AF = 
( n − 1)( n − 2 )  s 3

 
 

Coeficiente de Curtosis (K):


Para calcular el coeficiente de curtosis en datos agrupados en intervalos de clases, aplicamos la fórmula:

 k 
 _ 4
 

n ( n + 1)
∑   mi − x  ⋅ fi  
i =1  
   − 3( n − 1)
2
K = ⋅  
 (n − 1)(n − 2)(n − 3) s4  (n − 2)(n − 3)
 
 

Para ilustrar el procedimiento de cálculo de estas últimas medidas descriptivas en datos agrupados
en intervalos de clases, vamos a plantear el siguiente ejemplo.

Ejemplo: Se encuestó a 100 familias del Estado Sucre sobre el monto mensual destinado a
compra de alimentos. Para homogeneizar la muestra se seleccionaron sólo familias con 4 o 5

94
miembros. El resultado del monto mensual destinado al consumo de alimentos se agrupó en la
siguiente tabla.
Gasto en Número
Millones de de
Bolívares Familias
1,5 2,5 17
2,5 3,5 43
3,5 4,5 15
4,5 5,5 11
5,5 6,5 8
6,5 7,5 4
7,5 8,5 2
100

En base a la tabla anterior se realizan los cálculos que se indican en el siguiente cuadro:

1 2 3 4 5 6 7 8 9
LI LS fi mi mi*fi mi − x ( mi − x ) . f i ( mi − x ) . f i ( mi − x ) 4 . f i
2 3

1,5 2,5 17 2 34 -1,7 49,13 -83,521 141,9857


2,5 3,5 43 3 129 -0,7 21,07 -14,749 10,3243
3,5 4,5 15 4 60 0,3 1,35 0,405 0,1215
4,5 5,5 11 5 55 1,3 18,59 24,167 31,4171
5,5 6,5 8 6 48 2,3 42,32 97,336 223,8728
6,5 7,5 4 7 28 3,3 43,56 143,748 474,3684
7,5 8,5 2 8 16 4,3 36,98 159,014 683,7602
100 370 213 326,4 1565,85

Observe que hemos dispuesto unos números indicativos a cada columna, esto sólo lo hemos
hecho para poder referirnos a las columnas y poder explicar mejor el procedimiento.

Las columnas 1, 2 y 3 son los datos primarios que se dan en la tabla original del ejemplo.
Sumando las columnas 1 y 2 y luego dividiendo el resultado entre 2 obtenemos la 4ta columna
que corresponde a los valores de las marcas de clase mi.

Para obtener la media se multiplican los valores de la columna 4 y 3, y se colocan en la columna


5, luego se toma el total de la columna 5 y se divide entre n (que es el total de la columna 3). En
fórmulas sería:

x=
∑ mi . f i = 370 = 3,7
n 100
Es decir que el gasto promedio mensual dedicado a la compra de alimentos de las familias del
Estado Sucre es de 3,7 millones de bolívares.

Para el cálculo de la varianza y la desviación estándar, se procede a calcular la 6ta columna como
cada valor de la columna 4 menos la media 3,7.

95
Luego elevamos al cuadrado cada valor de la columna 6 y lo multiplicamos por su respectiva
frecuencia dada en la columna 3, obteniéndose así los valores de la columna 7, que sumados
representa el numerador de la fórmula de la varianza. Es decir, que la varianza queda entonces:
k

∑ ( (m − x )
i =1
i
2
⋅ fi ) 213
s =
2
= = 2,15
n −1 99

Por lo que la desviación estándar es igual a la raíz cuadrada de la varianza, y tenemos así que
s=1,47.

Recuerde que el coeficiente de variación viene dado por la división de la desviación estándar entre
la media aritmética, es decir que en este caso Cv = (1,47/3,7)x100% = 39,73% de variabilidad
porcentual. Pero hay que tener mucho cuidado al interpretar la desviación estándar en datos que
no están centrados, es decir que tienen un sesgo, como es el caso del ejemplo. En estos casos el
valor de la desviación estándar está muy influenciado por los valores extremos de la cola de la
distribución.

Para calcular el coeficiente de asimetría de Fisher, se eleva a la 3 los valores de la columna 6 y lo


multiplicamos por su respectiva frecuencia dada en la columna 3, obteniéndose así los valores de
la columna 8, que sumados representa parte del numerador de la fórmula de la asimetría de Fisher,
por lo que:

 k  _ 3
 
 ∑   i
m − x  ⋅ fi  
 i =1     = 100 x 326,4 = 32.640 = 1,06
⋅ 
n
AF =  99 x98
( n − 1)( n − 2 )  s 3
 (1,47 )3 30.818,63
 
 

El valor de AF = 1,06 nos indica un sesgo positivo (como la figura del


lado), es decir que los datos están acumulados en su mayoría hacia los
valores pequeños de la serie y sin embargo existen valores que se
extienden hacia la derecha formando una cola más larga del largo
derecho que del lado izquierdo de la distribución.

Para calcular el coeficiente de curtosis, se eleva a la 4 los valores de la columna 6 y lo


multiplicamos por su respectiva frecuencia dada en la columna 3, obteniéndose así los valores de
la columna 9, que sumados representa parte del numerador de la fórmula de la curtosis, por lo
que:

96
 k 
 _ 4
 

n ( n + 1)
∑   i
i =1 
m − x  ⋅ fi  

   − 3( n − 1)
2
K = ⋅  
 (n − 1)(n − 2)(n − 3) s4  (n − 2)(n − 3)
 
 
 100 x101 1565,85  3x99 2
= x 4 
− = 3,6 − 3,09 = 0,51
 99 x98 x97 (1,47 )  98 x97

Este valor de K = 0,51 es mayor que cero, lo que indica una acumulación de valores, es decir que
la distribución es leptocurtica (puntiaguda). Tiene muchos valores concentrados alrededor de la
moda y muy pocos alejados de la misma. Esta interpretación la hemos hecho a efectos prácticos
pero teóricamente tiene ciertas fallas como comentamos en el párrafo siguiente.

Aquí debemos aclarar que el concepto de la curtosis se aplica sólo a distribuciones simétricas y en
este ejemplo, la distribución es sesgada, por lo que la cantidad de la curtosis hay que interpretarla
con mucho cuidado porque los datos no están concentrados alrededor del centro como una
distribución normal.

De hecho un histograma de los datos respalda el hecho de que la distribución es sesgada y


puntiaguda pero no en el centro sino hacia valores pequeños de la serie de datos.

Procederemos ahora al cálculo de la mediana, la moda, el primer cuartil, el tercer cuartil y el


percentil 90.

Para ello calculamos las frecuencias acumuladas (FA) de la tabla original de los datos como se
muestra en la siguiente tabla.

97
Cálculo de la mediana: Buscamos la primera FA que sea mayor que (n+1)/2, es decir, que sea
mayor que 50,5 (marcada en rojo). Así en la segunda clase estará el valor de la mediana y se
denota como la clase medianal. Así para la fórmula: LIm = 2,5, fm=43 y am=3,5-2,5 = 1

Gasto en Número de
Millones de Familias n +1
Bolívares FA − FAant
Me = LI m + 2 ⋅ am
1,5 2,5 17 17 fm
2,5 3,5 43 60
3,5 4,5 15 75 50,5 − 17
= 2,5 + x1 = 3,3
4,5 5,5 11 86 43
5,5 6,5 8 94
6,5 7,5 4 98 Lo que nos dice que el 50% de las familias del
Estado Sucre, tienen gastos mensuales en
7,5 8,5 2 100 alimentos que superan los 3,3 millones de
Totales 100 bolívares.

Cálculo de la moda: Buscamos la mayor frecuencia absoluta, que casualmente es la frecuencia


absoluta de la 2da clase de la tabla, es decir f = 43. Por lo que la 2da clase es la clase modal y va a
ser la referencia para la fórmula de la moda.
LImo es el límite inferior de la clase modal = 2,5
∆1 es la diferencia entre la frecuencia de la clase modal y la clase anterior a ésta = 43-17 = 26
∆ 2 es la diferencia entre la frecuencia de la clase modal y la clase posterior a ésta = 43-15= 28
amo es el ancho de clase de la clase medianal = 3,5 -2, 5 = 1

Sustituyendo en la fórmula:
∆1 26
Mo = LI mo + ⋅ amo = 2,5 + x1 = 3
∆1 + ∆ 2 26 + 28

Es decir que 3 millones de bolívares es el gasto más común entre las familias del estado.

Cálculo del 1er cuartil Q1: El primer cuartil es igual al percentil 25, por lo que usamos la fórmula
para los percentiles con k=25.

El procedimiento es muy parecido al del cálculo de la mediana, de hecho la mediana es el percentil


50; sólo que hay que buscar la posición en donde debemos buscar el percentil.
Posición = k.(n+1)/100 = 25*101/100=25.25
Buscamos en la tabla la primera FA que sea mayor que 25.25, que resulta ser la correspondiente a
la 2da clase (de nuevo, pero no siempre coincide de esta manera). Los valores de la fórmula se
refieren a la 2da clase y son LI = 2,5; FAant = 17, f = 43 y a = 1.

k ( n + 1)
− FAant
25,25 − 17
Pk = LI + 100 ⋅ a = 2,5 + x1 = 2,5 + 0,19 = 2,69
f 43

98
El Q1 = 2,69 por lo que el 25% de las familias tienen gastos mensuales en alimentos de a lo sumo
2,69 millones de bolívares.

Cálculo del 3er cuartil Q3: El tercer cuartil es igual al percentil 75, por lo que usamos la fórmula
para los percentiles con k=75.

Posición = k.(n+1)/100 = 75*101/100=75,75

Buscamos en la tabla la primera FA que sea mayor que 75,75; que resulta ser la correspondiente a
la 4ta clase (fíjese que en 3era clase tiene FA=75 pero debemos buscar la que sea mayor estricto).
Los valores de la fórmula se refieren a la 4ta clase y son LI = 4,5; FAant = 75, f = 11 y a = 1.

k ( n + 1)
− FAant
75,75 − 75
Pk = LI + 100 ⋅ a = 4,5 + x1 = 4,5 + 0,07 = 4,57
f 11

El Q3 = 4,57 por lo que el 75% de las familias tienen gastos mensuales en alimentos de a lo sumo
4,57 millones de bolívares.

También podemos decir que el 25% (100% -75%) de las familias tienen gastos por encima de 4,57
millones de bolívares mensuales en alimentos.

Cálculo del P90 (percentil 90): usamos la fórmula para los percentiles con k=90.

Posición = k.(n+1)/100 = 90*101/100=90,9

Buscamos en la tabla la primera FA que sea mayor que 90,9; que resulta ser la correspondiente a la
5ta clase. Los valores de la fórmula se refieren a la 5ta clase y son LI = 5,5; FAant = 86, f = 8
y a = 1.

k ( n + 1)
− FAant
90,9 − 86
Pk = LI + 100 ⋅ a = 5,5 + x1 = 5,5 + 0,61 = 6,11
f 8

El P90 = 6,11 por lo que el 90% de las familias tienen gastos mensuales en alimentos de a lo
sumo 6,11 millones de bolívares.

También podemos decir que el 10% (100% -90%) de las familias tienen gastos por encima de 6,11
millones de bolívares mensuales en alimentos.

99
Cálculo de algunas medidas descriptivas por métodos gráficos:

Cálculo de la mediana en el caso continuo: (método gráfico)

Nos vamos a apoyar en un gráfico de un histograma de frecuencias acumuladas.

Método Gráfico para el cálculo de la moda utilizando un histograma de frecuencias.

Si una variable pudiese asumir muchos valores, la representación de la proporción del total, menor
o igual que un valor, tendría una forma creciente parecida a la siguiente:

Si en este conjunto de valores se quiere encontrar el percentil 20, la solución gráfica es muy simple

100
Como puede verse, el valor de la variable bajo el cual se encuentra un 20% de los valores, es algo
mayor que 2. Digamos 2,1.

En forma aproximada se podría conocer todos los percentiles usando este tipo de gráfico u ojivas.

101
Cuestionario del Capítulo III:
1era Parte: Verdadero o Falso. Justifique las respuestas falsas
i. Para calcular la mediana se deben conocer todos los valores de la muestra
ii. Cuando la distribución es sesgada (hacia la derecha o hacia la izquierda) es preferible
utilizar la mediana en vez de la media aritmética como medida de centro
iii. Las medidas de tendencia central se utilizan para cuantificar cuán dispersos están los datos
iv. Una medida de la agudeza o apuntamiento de la distribución es el coeficiente de asimetría
de Pearson
v. Cuando los datos están agrupados en intervalos de clases, la media aritmética de los datos

oroginales se puede obtener de manera exacta por medio de la fórmula x =


∑ mi ⋅ fi
n
vi. El valor que más se repite en un conjunto de datos se llama mediana
vii. El 50% de los datos de una distribución son menores que la mediana
viii. Si los datos están agrupados en una distribución de intervalos de clases, la mediana se
encuentra en la clase que tenga mayor frecuencia
ix. La curtosis de un conjunto de valores está relacionado con el grado de variabilidad de los
datos
x. Si el coeficiente de asimetría de Pearson nunca puede ser negativo
xi. La desviación estándar de un conjunto de datos no puede ser negativa
xii. Una curtosis negativa significa que la distribución es platicurtica

Desarrolle las siguientes cuestiones:


i. Qué importancia tiene la dispersión?
ii. Para qué sirve la curtosis?
iii. Cuándo es preferible utilizar la mediana en vez de la media aritmética?
iv. Cuándo es preferible utilizar el coeficiente de variación de Pearson en vez de la desviación
estándar?
v. Cuándo es preferible utilizar la moda en vez de la media aritmética?
vi. En qué casos se utiliza la media geométrica?
vii. Diga 3 ventajas de utilizar la mediana y 2 desventajas
viii. Diga 3 ventajas de utilizar la media aritmética y 2 desventajas
ix. Diga 3 ventajas de utilizar la moda y 2 desventajas
x. Explique por qué se dice que los cuartiles y los deciles son casos particulares de los
percentiles

Parte Práctica:
1. En el Departamento de Personal de una fábrica se ha realizado una investigación
estadística en
relación a los salarios en miles de Bolívares percibidos por los trabajadores diariamente. Los
resultados de la misma arrojaron los siguientes valores:
30 40 33 30 34 31 39 38 38 40 39 37 39 32 30 35 40 38 40 36
30 32 35 38 34 38 37 35 35 37 33 37 36 32 36 37 34 36 33 31
35 30 33 39 32 30 39 37 37 34 31 36 38 31 38 36 39 36 35
A partir de dicha información, se pide:

102
a) Calcule la media, moda, mediana y la desviación estándar
b) Agrupe los datos en una tabla de intervalos de clases utilizando el método de Sturges y
luego calcule de nuevo la media, moda, mediana y la desviación estándar. ¿A qué se deben las
diferencias?
2. Para una determinada empresa, los precios de los artículos producidos en un determinado
ejercicio vienen dados por la siguiente distribución:

Precios (Bs.) 5-15 15-25 25-35 35-45


)
Frecuencias 15 C 2C 5
A partir de tales cifras, se quiere conocer:
a) El valor de la constante C si se sabe que el precio promedio es de Bs. 25
b) Los valores de mediana, moda, varianza y desviación típica para dicha variable.
c) El tercer cuartil y el percentil de orden 85.

3. La siguiente tabla muestra los diámetros en pulgadas de nuestra muestra de 60 tornillos


fabricados por una compañía.
0,738 0,729 0,743 0,740 0,736 0,741 0,735 0,731 0,726 0,737
0,728 0,737 0,736 0,735 0,724 0,733 0,742 0,736 0,739 0,735
0,745 0,736 0,742 0,740 0,728 0,738 0,725 0,733 0,734 0,732
0,733 0,730 0,732 0,730 0,739 0,734 0,738 0,739 0,727 0,735
0,735 0,732 0,735 0,727 0,734 0,732 0,736 0,741 0,736 0,744
0,732 0,737 0,731 0,746 0,735 0,735 0,729 0,734 0,730 0,740

a) Calcule la media aritmética, la mediana y la moda


b) Calcule la desviación estándar y el coeficiente de variación
c) Qué porcentaje de los diámetros son mayores de 0,736?
d) El 80% de los diámetros son menores de cuántas pulgadas?

4. Homero Willis, capitán de un barco pesquero de Salter Path (North Carolina) tiene la creencia
de que la pesca mínima para recuperar la inversión debe ser de 5000 libras por viaje. A
continuación tenemos los datos de una muestra de la pesca de 40 salidas al mar que el barco de
Homero ha hecho recientemente:
6500 6700 3400 3600 2000 5500 6400 6100 3400 8600
7000 5600 4500 8000 5000 4500 6500 7200 4100 7800
4600 8100 6500 9000 4200 4000 5600 7100 4200 7200
4800 7000 7500 6000 5400 3500 3300 8500 8400 4000
a. Calcule la media aritmética, la mediana y la moda
b. Calcule la desviación estándar y el coeficiente de variación
c. ¿Qué pescas del barco de Willis superan el 20%?

5. Se estudiaron las ventas promedio diarias de 75 establecimientos de la ciudad y se construyó la


siguiente ojiva.

103
a) Calcule la Mediana
100%
b) Calcule aprox. Los cuartiles
90% c) Construya la distribución de los
80% datos para calcular la media aritmética
70% y la desviación estándar
60% d) Calcule el coeficiente de
50% Asimetría de Fisher
40%
e) Calcule el coeficiente de
Asimetría de Pearson
30%
f) Calcule el coeficiente de Curtosis
20%
g) Determine el percentil 80 por
10% medio de la Ojiva y por medio de la
0% distribución de los datos en intervalos
1 1,4 1,8 2,2 2,6 3 3,4 3,8 4,2 de clase. Son iguales?

(ventas diarias en millones de Bolívares)

6. Suponga que se administra un test de aptitud a todos los aspirantes a puestos oficiales de una
región. Se elige al azar una muestra de 50 aspirantes y estos son los resultados:
77 44 49 33 38 33 76 55 68 39
29 41 45 32 83 58 73 47 40 26
34 47 66 53 55 58 49 45 61 41
54 50 51 66 80 73 57 61 56 50
38 45 51 44 41 68 45 93 43 12

a) Calcule la media aritmética, la mediana y la moda


b) Calcule la desviación estándar y el coeficiente de variación
c) Calcule los coeficientes de asimetría y comente sobre estos
d) Calcule el coeficiente de curtosis y comente sobre el grado de apuntamiento
e) Construya un diagrama de caja y comente sobre él

7. Una empresa constructora tiene 2 secciones A y B. Las distribuciones de ingresos diarios de sus
empleados son los siguientes:

Sección A Sección B
Ingresos ($) Frecuencia Ingresos ($) Frecuencia
[80-100) 30 [60-90) 10
[100-120) 80 [90-120) 20
[120-140) 40 [120-150) 50
[140-160) 10 [150-180) 20
[160-180) 4 [180-210) 15
[180-200) 1 [210-240) 10
[240-270) 4

a) Calcule la media aritmética para ambas secciones y diga en dónde hay mayores ingresos

104
b) Haga lo mismo con la mediana y la moda. Cuál de las medidas de tendencia central
recomienda utilizar en este caso?
c) Calcule la desviación estándar y el coeficiente de variación para ambas secciones. Cuál es
menos dispersa y que significa eso con respecto a la interpretación de la media
aritmética?
d) Calcule los coeficientes de asimetría y comente sobre estos para ambas secciones
e) Construya un diagrama de caja para cada sección pero en un mismo eje y compare los
resultados.
8. Las siguientes medidas corresponden a las alturas de 50 niños.
1,56 1,59 1,63 1,62 1,65 1,61 1,59 1,51 1,62 1,62
1,53 1,49 1,57 1,54 1,53 1,59 1,58 1,57 1,47 1,64
1,55 1,59 1,53 1,56 1,53 1,47 1,57 1,60 1,54 1,56
1,50 1,62 1,59 1,62 1,54 1,68 1,52 1,62 1,59 1,49
1,65 1,53 1,59 1,56 1,54 1,58 1,52 1,63 1,56 1,62
a) Calcule la media aritmética, la mediana y la moda
b) Calcule la desviación estándar y el coeficiente de variación
c) Calcule los coeficientes de asimetría y comente sobre estos
d) Calcule el coeficiente de curtosis y comente sobre el grado de apuntamiento
e) Construya un diagrama de caja y comente sobre él
f) El 85% de los gastos promedios mensuales son mayores de
______________Bs.
9. Los siguientes datos representan los gastos promedios mensuales de 80 familias seleccionadas al
azar en la ciudad. Los datos están dados en millones de Bolívares.
0.8 0.8 0.6 1.0 1.0 1.3 0.6 0.9 0.6 1.3 0.6 0.8 0.7 1.2 1.1 0.7
0.7 0.7 0.5 0.9 1.1 1.5 0.7 1.0 0.5 1.5 0.7 0.7 0.6 1.3 1.2 0.6
0.7 0.6 0.6 0.8 0.5 1.5 0.6 1.1 0.6 1.5 0.6 0.6 0.5 1.0 0.5 0.6
0.6 0.5 0.7 0.9 1.0 1.4 0.6 1.2 0.7 1.4 0.6 0.5 0.6 1.5 0.6 0.5
0.5 0.6 0.7 1.2 1.2 1.0 0.8 1.1 0.7 1.0 0.8 0.6 0.7 1.4 0.6 0.8

a) Calcule la media aritmética, la mediana y la moda


b) Calcule la desviación estándar y el coeficiente de variación
c) Calcule los coeficientes de asimetría y comente sobre estos
d) Calcule el coeficiente de curtosis y comente sobre el grado de apuntamiento
e) Construya un diagrama de caja y comente sobre él
f) El 70% de los gastos promedios mensuales son mayores de
______________Bs.
g) Calcule el intervalo de 89% que según el teorema de Chebyshev contiene los
valores centrales de la distribución
10. Una fábrica produce barras de acero utilizando una máquina, cuyas características hacen que
la longitud de éstas no pueda ser mayor de 50 cm. Para una determinada hora de funcionamiento
de dicha máquina, las longitudes de las barras producidas fueron las siguientes:

Longitud Menos de 10 (10,20] (20,25] (25,30] (30,40] Más de 40


N° de barras 5 10 25 35 22 23
a) Determine para esa hora, “si es posible”, los valores de la media, mediana, moda,
varianza, percentil de orden 35, cuarto decil y primer cuartil.
b) ¿Se le ocurre alguna manera de aproximar el valor de la media aritmética? Calcúlela

105
11. En dos empresas se dan las siguientes distribuciones de salarios mensuales para sus
trabajadores (en Miles de Bolívares):

EMPRESA A EMPRESA B
Salarios N° empleados Salarios N° empleados
900 10 1000 10
1000 15 1100 15
1100 40 1200 40
1200 25 1300 25
1300 10 1400 10
En función a tales distribuciones, responda a las siguientes preguntas:
a) Calcule los salarios medios.
b) ¿Cuál de las dos tiene menor dispersión? ¿Para qué empresa resulta más representativo el
salario
medio?
c) ¿Cuál de las dos empresas se encuentra con una distribución de los salarios más
equitativa?

12. De una determinada distribución unidimensional sabemos que el rango de la variable es


60, y que la misma está dividida en seis intervalos de amplitud constante. Conocemos
también que las frecuencias correspondientes a los distintos intervalos (ordenados de
menor a mayor) son, respectivamente, 7, 11, 15, 10, 5 y 2, y que la media aritmética toma un
valor de 35,2. A partir de esta información, se pide:
a) Determine la distribución de frecuencias para dicha variable y represéntela gráficamente.
b) Calcule la moda, mediana, desviación típica y los dos cuartiles que restan para dicha
variable.
c) Determine el grado y tipo de asimetría de la distribución. Estudie el grado de
apuntamiento o curtosis.

13. Los operarios de una determinada sección de una empresa recibieron durante el pasado
año un salario de 12.000 (por mil Bolívares) fijos, más un adicional de 8 (mil Bs.) por hora extra
trabajada. Para tal ejercicio, se conoce que la distribución del número de horas extras realizadas
por tales empleados fue la siguiente:

N° horas extra (100,110] (110,120] (120,130] (130,140] (140,160] (160,180]


N° trabajadores 5 10 30 25 25 5
Desde tal información, determine para tal ejercicio:
a) El salario medio por obrero
b) La desviación estándar de tales salarios
c) Los límites salariales que definen el 50 % de la distribución central para los salarios
en tal
sección. ¿Cuál es el salario que divide la masa salarial en dos partes iguales?

106
14. La tabla adjunta muestra el salario mensual de los 720 trabajadores de una empresa para el
pasado año:

Salarios (en miles de Bs.) 720 830 950 1.100 1.200 1.350
N° trabajadores 300 200 100 60 40 20

A la hora de renovar el convenio colectivo, la dirección de la empresa presenta dos alternativas a


los trabajadores:
i) Aumento proporcional del 5% en el salario de cada trabajador.
ii) Aumento lineal de 50 mil Bs. en el salario de cada trabajador.
Desde esta doble posibilidad, y teniendo en cuenta que a la dirección de la empresa le es
indiferente cualquier de las dos opciones, se quiere conocer por parte de los negociadores
sindicales:
a) ¿Cuál de las dos alternativas daría lugar a una menor dispersión?
b) ¿A partir de qué salario es preferible el aumento proporcional? ¿Qué porcentaje de
trabajadores
estarían beneficiados por éste?

15. Dos empresas del mismo grupo y pertenecientes al mismo sector productivo, pero ubicadas
en regiones distintas, han manifestado a la dirección general de la compañía su descontento por
las retribuciones salariales que están percibiendo. La empresa localizada en la región 2 manifiesta
que su salario medio es inferior al de la que está en la región 1, argumentando además que la
dispersión en sus salarios es menor, a pesar de que el sueldo máximo que se pueda percibir en
esta empresa supere al sueldo máximo de la empresa ubicada en la región 1. Además, argumentan
que la productividad media por empleado para el conjunto de la empresa supera a la de la
región 1, siendo igual dicha productividad por empleado para cada una de las categorías en que
se considera dividida la empresa. Conocemos la siguiente información acerca de las dos empresas
en conflicto:
Empresa ubicada en Región 1 Empresa ubicada en Región 2
Categoría Salario N° Productividad Salario N° Productividad
Laboral Mensual Empleados por mes y Mensual Empleados por mes y
(103 Bs) empleado (103 Bs) empleado

A 90-120 24 0,5 85-115 10 0,5


120-150 36 115-145 42
B 150-180 20 0,7 145-170 35 0,7
180-210 20
C 210-240 50 0,8 170-220 20 0,8
220-250 23

Desde esta información, se le pide:


a) Comparar las medias salariales para ambas empresas, la representatividad de las mismas,
y la
productividad media por empleado para el conjunto de las dos empresas. En base a las

107
cifras
alcanzadas, confirme o deniegue los argumentos dados por la empresa de la región 2.
b) Determine para la empresa ubicada en la región 1 el salario cobrado por un mayor
número de trabajadores

c) Calcular el intervalo salarial, para la empresa ubicada en la región 2, que abarca el 95 %


de la
distribución central de la misma.
La dirección afirma que, si bien es cierto que existe una diferencia en el salario medio del
conjunto de las dos empresas, no existe tal diferencia en cuanto a la productividad. Por ello,
propone un aumento proporcional del 5 % en los salarios de la empresa ubicada en la región 2,
con objeto de que aumente la media salarial. Adicionalmente, propone reducir
proporcionalmente en cada nivel salarial el número de empleados en un 2 % para la empresa
ubicada en la región 1. A partir de tales modificaciones, se quiere conocer:
d) ¿Cuáles serán las nuevas situaciones de las dos empresas en cuanto a las medias
salariales, la representatividad de las mismas y las respectivas productividades?

16. Un grupo de expertos en análisis cuantitativo ha realizado un estudio sobre el consumo


semanal de alcohol (variable Y) en un determinado conjunto de individuos a partir de la siguiente
información:
Y Número de
personas
0-2 36
2-10 49
10-20 80
20-35 100

A partir de los datos aquí recogidos, dé respuesta a las siguientes preguntas:


a) ¿Cuál es el consumo semanal de alcohol más frecuente?
b) Construye un intervalo para el consumo de alcohol, tal que contenga el 95 % central
de la
frecuencia.
c) Basándonos con otro criterio de medida el consumo de alcohol (Y'=Y/2+1),
¿cómo se
modificaría la dispersión relativa de la nueva distribución (medida a través del
coeficiente de
variación) respecto de la primitiva?
d) Representa el histograma de Y e interpreta a partir del mismo el tipo de asimetría que
presenta
la variable.

17. A partir de los datos sobre el paro registrado en la comunidad autónoma de Andalucía en
1997 que aparecen en la siguiente tabla, responda a las cuestionen que se relacionan a
continuación.

108
Rango de edad (años) N° personas (miles)
(18,20] 35.100
(20,25] 71.100
(25,55] 304.900
(55,65] 32.400
a) ¿A qué edad el número de parados es mayor?
b) Calcula la dispersión relativa de la edad de los parados.
c) El 90 % de los parados tiene por lo menos una edad de ____?
d) Se pretende establecer una política laboral que potencie la contratación de los
parados en
función de su edad. Para ello, se establece una subvención en dinero (en pesetas)
para las
contrataciones que se realicen, según la cual, el dinero que recibiría la empresa sería
igual al
producto entre la edad del trabajador y la constante 369.230. No obstante, y en
función de las disponibilidades presupuestarias, no se podría subvencionar cualquier
número de contrataciones, por lo que se proponen dos tipos de políticas de subvenciones
alternativas:
i) La subvención sólo se aplicaría a las 5.000 primeras contrataciones que se realicen en
cada
rango de edad, ii) La subvención sólo se aplicaría al 25 % de las primeras
contrataciones que se realicen en cada rango de edad.
¿Cuál sería la subvención media otorgada si se aplicase la primera política de subvenciones y
si se aplicase la segunda?

18. El Departamento de estudios de una conocida compañía de suministros telefónicos que


ofrece, entre sus servicios, conexión a internet de sus usuarios, ha llevado a cabo un estudio
durante el último mes (mayo), de acuerdo a la facturación realizada por este servicio, sobre los
clientes que no tienen contratada tarifa plana ni ningún tipo de bono. De este análisis, se
desprende la información relativa al número de conexiones a internet realizadas por tales usuarios:

Número de conexiones/mes Porcentaje de usuarios


0-5 20
5-15 20
15-30 10
30-60 35
60-90 15
Se sabe también que para 45.000 de tales clientes, el número de conexiones fue superior a 60. A
partir de tales datos, y de toda la información anterior, se desea conocer para este mes y el
colectivo de clientes analizado:
a) ¿Cómo sería el histograma de frecuencias correspondiente a esta distribución? Realice para
ello la correspondiente representación gráfica y comente las características más relevantes de la
misma.
b) ¿Cuál es el número más frecuente de conexiones establecidas por un cliente?
Razone su
respuesta e indique si tal medida es exacta o aproximativa y, en su caso, si se estableció algún

109
tipo
de hipótesis para poder llegar a calcular tal cifra, indicando la misma.
c) ¿Cuál es el número medio de conexiones establecidas por un usuario? ¿Considera tal
media
como representativa? Razone su respuesta.
d) Si se quisiera primar al 20 % de los clientes que realizan un mayor número de
conexiones
rebajando el precio pagado por aquellos, ¿a partir de qué número de conexiones al
mes se
establecería el precio más reducido?
e) A fin de incentivar el hábito de conexión a Internet, se ha planteado una oferta para el
próximo
mes mediante la cual cualquier conexión se facturará a 75 Bs. De los estudios realizados
por la compañía derivados del número de contrataciones realizadas, del historial de
conexiones efectuadas, y de su experiencia en otros países, se prevé un crecimiento del 90 %
en las conexiones realizadas en julio respecto de las computadas para el mes de mayo,
manteniéndose la estructura de la distribución de frecuencias de ese mes. Desde estas
previsiones, ¿cuál sería la nueva media de
conexiones? ¿Cuáles serían los ingresos totales de la compañía por este concepto? Razone
sus
respuestas.

19. En una empresa dedicada al envío a domicilio de comida preparada, se han recogido, durante
las últimas semanas, datos de los pedidos, tomando nota de sus correspondientes precios,
obteniéndose la siguiente distribución:

Precio pedido Número de pedidos


(Miles de Bolívares)
(9,12] 25
(12,14] 30
(14,16] 35
(16,18] 25
(18,22] 20

A partir de tal información, dé su opinión acerca de las siguientes cuestiones:


a) ¿Cuál fue el precio más frecuente?
b) ¿Cuál fue el precio promedio?
c) ¿Es importante la dispersión relativa respecto del precio medio? Razone su respuesta.
d) Cómo es la distribución con respecto a la simetría?
e) Cómo es la distribución con respecto a la curtosis?
Se quiere ofrecer un servicio de máxima urgencia en los pedidos más caros, aquellos que tienen
un precio superior a los 17.500 Bs. ¿A qué porcentaje de los pedidos afectaría este servicio?
Razone

110
20. Una empresa proveedora de servicios de acceso a Internet tiene una cartera de 1900 clientes en
una zona geográfica. Las edades de estos clientes están recogidas en la siguiente tabla, en donde
figuran los porcentajes acumulados referentes a cada intervalo de edad:

Edad %A
(18,25] 17
(25,35] 45
(35,50] 77
(50,70] 100

A partir de tal información, se pide:


a) Calcule la edad promedio de uso de Internet, la Mediana, La edad más frecuente.
b) Calcule el coeficiente de variación
c) Si tuviésemos que dirigir una campaña de marketing al 90 % central de edades, ¿a
qué
intervalos de edades estaría dirigida dicha campaña?
d) ¿Podría valorar el grado de simetría de la distribución de edades? Responda
cuantificando la
simetría a través de la determinación del coeficiente de asimetría de Pearson.
e) ¿Podría valorar el grado de curtosis de la distribución de edades?

21. Las ventas mensuales (en 102 litros) de una conocida marca de refrescos en los diversos
establecimientos en que se vende en una determinada zona geográfica, se recogen en una
variable estadística, cuya tabla de frecuencias se especifica a continuación:

Ventas N° establecimientos
(20 , 22] 24
(22 , 25] 30
(25 , 30] 35
(30 , ?] 22

a) Se sabe que la media aritmética de las ventas, calculada a través de las correspondientes
marcas
de clase, se situó, para esta distribución, en los 2650 litros. ¿ Cuánto vale el último límite
superior de la tabla?
b) A partir de la información suministrada en la parte (a). Cuantifique el grado de dispersión
relativa.
c) Construya un diagrama de caja o Boxplot y comente sobre la simetría de la distribución
d) Se conoce que, por cada grado más de temperatura media diaria, se incrementaría un 5
% el consumo de estos refrescos. ¿Cómo afectaría tal subida a la media, dispersión
relativa?

111
22. En una zona de una ciudad se ha efectuado un estudio estadístico sobre la variable
"número de automóviles por vivienda ocupada". Los datos del estudio se han recogido en la
siguiente tabla:

Automóviles 0 1 2 4
N° de viviendas 5 10 5 2
Con esta información, analice las siguientes cuestiones:
a) ¿Qué número medio de automóviles por vivienda hay en esa zona? ¿Considera esta
media
representativa? Razone su respuesta.
b) Represente gráficamente el diagrama acumulativo de frecuencias y señale en el mismo
la
posición exacta de la mediana de la variable.
c) ¿Considera que el número de automóviles está repartido de forma uniforme entre
las
viviendas? Cuantifique su respuesta y explique su significado.
d) Cuantifique la curtosis de esta distribución de frecuencias y explique su significado para
este
caso.

23. La distribución de frecuencia siguiente, representa los pesos en kilogramos de una muestra de
paquetes transportados por una compañía aérea:

Pesos ( Kg) fi
[10-11) 1
[11-12) 4
[12-13) 6
[13-14) 8
[14-15) 12
[15-16) 11
[16-17) 8
[17-18) 7
[18-19) 6
[19-20) 2
a) Calcule la media aritmética, la mediana y la moda
b) Calcule la desviación estándar y el coeficiente de variación
c) Calcule los coeficientes de asimetría y comente sobre estos
d) Calcule el coeficiente de curtosis y comente sobre el grado de apuntamiento
e) Construya un diagrama de caja y comente sobre él
f) El 70% de los paquetes pesan más de ______________Bs.
g) El 40% de los paquetes pesan a lo sumo ___________Bs
h) Calcule el intervalo de 89% que según el teorema de Chebyshev contiene los
valores centrales de la distribución

112
24. En las siguientes tablas se registran los sueldos quincenales (en miles) de 50 obreros de dos
fábricas.

Fábrica A Fábrica B

Sueldo % Sueldo %

[45 – 55) 18 [45 – 55) 12

[55 – 65) 24 [55 – 65) 28

[65 – 75) 26 [65 – 75) 30

[75 – 85) 20 [75 – 85) 22

[85 – 95) 12 [85 – 95) 8

a) ¿En cuál fábrica hay mayor dispersión relativa?


b) Un obrero que gana Bs. 140000 mensuales. ¿Dónde estaría mejor remunerado con respecto a
sus compañeros?
c) ¿Cuál de las dos distribuciones es más simétrica?
d) Cómo es la curtosis de cada distribución?

113
Capítulo IV
“Los planes corresponden al hombre,
las probabilidades a Dios.”
Proverbio chino

TEORIA DE PROBABILIDAD

En los capítulos anteriores el enfoque consistía en describir las propiedades principales de una
muestra por métodos numéricos y gráficos, es decir, hemos estado haciendo lo que llamamos
estadística descriptiva; en algunos casos se está interesado en conocer el comportamiento futuro
de cierto proceso o experimento, por ejemplo queremos saber cuál es la posibilidad de que una
semilla después de ser plantada germine, es claro que en ese escenario la incertidumbre juega un
papel fundamental, no sabemos a priori si la semilla germinará, pero en base a experiencias
anteriores podemos asignarle una probabilidad de que germine. Este es el caso de la estadística
inferencial o inductiva, está totalmente relacionada con los conceptos de incertidumbre y de
probabilidad.

El origen de las probabilidades algunos autores lo sitúan en XVI porque


Origen de las algunos científicos italianos como Tartaglia y Galileo resolvieron algunos
Probabilidades problemas de probabilidades relacionados en su mayoría con los juegos
de dados, pero en realidad no fue sino en el siglo XVII cuando Antoine
Gombauld, jugador profesional de dados, consultó a Blas Pascal (1623-
1662) y a Pierre Fermat (1601-1655), cuando se comenzó a desarrollar con formalidad el concepto
de probabilidad. Gombauld, más conocido como el caballero de Meré, pensó haber descubierto
una táctica infalible de jugar a los dados, con muy buenos resultados al principio, pero que
después comenzó a perder mucho dinero. Esa situación lo hizo consultar a Pascal y Fermat, para
solicitar un análisis detallado del juego con dados, iniciándose así poco a poco una ciencia bien
fundamentada.

En la actualidad la probabilidad tiene un papel fundamental en áreas como:

 Economía y ciencias actuariales en el estudio de los riesgos que existen al vender una
póliza de seguro.
 En la vida cotidiana cuando escuchamos la predicción del estado del tiempo tomamos
nuestras precauciones.
 En las industrias de productos electrónicos se basan en el tiempo de vida promedio de los
componentes del artefacto para ofrecerle al cliente un período de garantía.
Introducción a la teoría de probabilidad
En general la probabilidad es la posibilidad de que algo pase. Las probabilidades se expresan
como fracciones o números que están entre 0 y 1. Tener una probabilidad de cero de un evento
significa que ese evento nunca va a suceder y tener una probabilidad de uno de un evento significa
que ese evento siempre sucede.

Conceptos Relacionados
Experimento Aleatorio
Un experimento es un proceso que lleva a la ocurrencia o resulta en una observación.

114
Todo experimento debe ser susceptible de repeticiones conservando las mismas condiciones con
las cuales se realizó su antecesor. Esto es, el investigador debe fijar esas condiciones, bajo las
cuales se realizarán las sucesivas repeticiones del experimento y conservarlas en cada una de las
réplicas, de tal manera que sus inferencias resulten lo más fiables posible. Sin embargo en los
experimentos aleatorios, aun así no siempre se obtienen los mismos resultados, pues a veces
participan factores incontrolables que aparentemente no obedecen a ninguna causa natural, ni
intervención humana intencionada y que denominamos Azar o casualidad.

Desde el punto de vista de la presencia o no de la contingencia en los resultados, si definimos


experimentos determinísticos y experimentos aleatorios:

Experimento determinístico es aquel en el cual, bajo las mismas condiciones experimentales, las
repeticiones del experimento absolutamente todas, siempre producen el mismo resultado.
Como ejemplo, tenemos que un objeto de cualquier masa partiendo de un estado inicial de
reposo, y dejado caer al vacío desde una torre de altura h, llega siempre al suelo con la misma
velocidad: v = 2 gh .
El experimento Aleatorio, conservando las mismas condiciones experimentales, los resultados
no se pueden predecir, con exactitud, para ninguna repetición.
Sí, por ejemplo lanzamos una moneda al aire para observar de cual lado cae, no podemos
pronosticar con certeza, si se presenta sello o se presenta cara. Tenemos entonces presente el
componente del azar y por consiguiente un experimento aleatorio. No ocurriría igual si la moneda
estuviese diseñada igual por ambos lados y por consiguiente sería un experimento determinístico.
Otros ejemplos de experimentos aleatorios son:
a.- Se lanza una moneda cinco veces y se cuenta cuantas veces salió cara
b.- Medir la resistencia a la tensión de una cabilla.
c.- Se mide el tiempo de vida útil de una bombilla

Espacio muestral (S)


Asociado a un experimento aleatorio es el conjunto de todos los resultados que se pueden obtener
al realizar el experimento. Lo designamos con la letra S y colocamos sus elementos entre llaves y
separados por comas.

7.1.2 Eventos.
Cualquier subconjunto del espacio muestral se le denomina suceso o evento aleatorio y lo
denotaremos con “E”, o cualquier letra A, B, C, D. Cada uno de los elementos del espacio
muestral se denomina evento elemental “e”.
Operaciones sobre Eventos:

• El evento A U B ocurre cuando se verifica uno de los dos, o ambos sucesos.


• El evento A ∩ B se presenta cuando ocurren los dos simultáneamente.
• Evento o suceso seguro: S, Siempre se presenta en un experimento.
• Evento o suceso imposible nunca ocurre dentro un experimento, es el evento que no
tiene elementos y se representa por Ø vacío.
• Eventos incompatibles: Dos o más sucesos son incompatibles o excluyentes cuando la
ocurrencia de uno impide la presencia de los otros.
• A y B son mutuamente excluyentes o disjuntos si A ∩ B = Ø

115
• Sucesos complementarios o contrarios. Dos sucesos son complementarios cuando son
mutuamente excluyentes y su unión conforma: el espacio muestral.
o Si A y B son complementarios entonces debe ocurrir que A ∩ B = Ø y que A
UB=S
• Si E es un evento seguro, entonces E=S

Ejemplos:
En el experimento lanzar un dado S ={1,2,3,4,5,6}:
- “sale un número par” es A={2,4,6}
- “sale un número mayor que 3” es B={4,5,6}
- “sale un número impar” es C={1,3,5}
- “A y B” = A ∩ B ={4,6}
- “A o B”= A U B = {2,4,5,6}
- “A y C” es imposible luego A y C son sucesos incompatibles.
Propiedades de los Eventos
En general, los sucesos o eventos, tienen las mismas propiedades de los conjuntos.

Leyes de Morgan
Si representamos por A el evento complemento de A. En algunos libros se denota el
complemento de A como Ac.

116
• El complemento de la unión de dos sucesos es la intersección de sus complementos:
( A U B) = A I B
• El complemento de la intersección de dos sucesos es la unión de sus complementos:
( A I B) = A U B

Ejemplo:
Experimento: Lanzamos una moneda para observar, si cae del lado de cara o del lado de sello.

• Espacio muestral
• Eventos elementales E1 = {c } , E2 = {s }
• Evento seguro
• Evento imposible
• E1 y E2 son eventos excluyentes.

Ejemplo:
Lanzar un par de dados, marcados c/u con los números 1,2,3,4,5 y 6

Espacio muestral

Algunos eventos son:


E1: (suma igual a 6):
E11: (suma igual a 12): suceso elemental
Con la unión e intersección de dos o más eventos, se generan nuevos sucesos.
Ejemplo:
En una mesa hay un juego (28 fichas) de dominó, se voltea una ficha para observar sus números:
Espacio muestral

117
E1: La diferencia absoluta entre sus componentes sea igual a 0

E2: La diferencia absoluta entre sus componentes sea igual a 2

Definición de Probabilidad
Los eventos aleatorios no son predecibles con absoluta certeza, no obstante podemos medir el
grado de confianza con que se hace un pronóstico, sobre la ocurrencia o no de un determinado
suceso.

Clasificación
Existen tres maneras básicas de clasificar la probabilidad. Estas tres formas representan
planteamientos conceptuales bastante diferentes para el estudio de la teoría de la probabilidad; de
hecho, los expertos no se ponen de acuerdo sobre cuál planteamiento es el más apropiado para
utilizar. Empecemos definiendo el planteamiento:
a. Clásico
b. Frecuentísta
c. Subjetivo

a. Definición Clásica de Probabilidad: (Regla de Laplace)


El planteamiento clásico define la probabilidad de que un evento A suceda como:

nºde casos favorables en


donde se presenta el evento n
P( A ) = =
nº total de casos posibles N

Para aplicar esta definición se supone que los sucesos elementales son equiprobables. Esto es que
cada posible evento elemental e tenga la misma posibilidad de ocurrir que cualquier otro evento
elemental del espacio muestral.

Un ejemplo sencillo de cálculo de probabilidades en la teoría clásica es calcular la probabilidad de


que salga cara al lanzar una moneda. En este caso el espacio muestral consiste en
S = {"sale cara", "sale sello"} = {c , s } . Como vemos hay N=2 posibles resultados y hay sólo un
caso favorable (n = 1), además suponemos que el chance de que salga cara es el mismo de que
salga sello, por lo tanto la probabilidad del evento A “que salga cara” es:
1
P ( A ) = . Es claro que la probabilidad de que salga sello también es ½.
2

La probabilidad clásica también se le conoce como probabilidad a priori, debido a que las
probabilidades pueden ser calculadas antes de efectuar el experimento. Si un experimento tiene
una cantidad finita de posibles resultados, y cada uno de los resultados es equiprobable, entonces

118
se pueden calcular las probabilidades a priori antes de realizar el experimento. Piense en lanzar un
dado normal de seis caras, ¿Cuál es la probabilidad de que salga un número mayor que cuatro?
En este caso S = {1, 2, 3, 4, 5, 6} , el evento A = {"sale mayor que 4"} = {5, 6}
consta de 2 elementos, y el espacio muestral S tiene 6 elementos, por lo tanto la
2 1
P( A ) = = .
6 3

Este planteamiento clásico es muy útil cuando calculamos probabilidades asociadas a objetos
como monedas, dados, bolas, canicas, cartas, etc., pero tiene serios problemas cuando tratamos de
aplicarlos a situaciones de toma de decisiones en áreas socio-humanísticas como la gerencia,
administración y hasta en la economía. El problema radica en que la teoría clásica se desestima la
probabilidad de que ocurran eventos como por ejemplo que al lanzar la moneda esta caiga de
canto, o que al realizar el experimento ocurra un terremoto y afecte el resultado. Claramente estas
situaciones son poco probables pero no son imposibles. Sin embargo estas situaciones poco
probables no existen en el planteamiento clásico. Además la teoría clásica supone una especie de
simetría en el mundo al indicar que los eventos elementales en un espacio muestral son
equiprobables, en el mundo real las situaciones pueden ser distintas y esto genera la necesidad de
plantearse otros conceptos de probabilidad.

b. Teoría Frecuentísta o de Frecuencias Relativas


Suponga que comenzamos a hacernos preguntas nosotros mismo como ¿cuál es la probabilidad
de que yo viva hasta los 85 años? O ¿cuál es la probabilidad de que la bombilla se queme durante
las siguientes 2 horas?. Nos damos cuenta de que no podemos emitir una respuesta a priori, sin
antes hacer experimentaciones o buscar información histórica sobre el asunto.

En el siglo XIX, los estadísticos británicos, estaban interesados en la fundamentar teóricamente el


riesgo de pérdidas en las pólizas de seguros de vida y comerciales, así comenzaron a recoger datos
sobre nacimientos y defunciones, sobre ocurrencias de siniestros y de éxitos en los negocios. En
la actualidad ese cúmulo de datos permite saber con qué frecuencia ocurre un siniestro y se puede
calcular la probabilidad de que un evento ocurra bajo ciertas circunstancias. Esta teoría define a la
probabilidad como:
1.- La frecuencia relativa observada de un evento durante un gran número de intentos o
2.- La fracción de veces que un evento se presenta a la larga, cuando las condiciones son estables.

Teóricamente está sustentada en una ley, La Ley de los grandes números, que indica que la
frecuencia relativa de un suceso tiende a estabilizarse en torno a un número, a medida que el
número de pruebas del experimento crece indefinidamente. Este número lo llamaremos
probabilidad de un suceso.

Por medio de un computador se puede simular la frecuencia de salidas “cara” cuando lanzamos
una moneda repetidamente 300 veces, el resultado se muestra en la gráfica. Asintóticamente la
frecuencia relativa de que salga cara es igual a 0.5.

119
1

Frecuencia Relativa de Salidas “cara”


0.75

0.5

0.25

0
0 50 100 150 200 250 300

Número de Lanzamientos

Desventajas de la Teoría Frecuentísta

• se requiere realizar un número infinito de veces un experimento para calcular una


probabilidad. Por ejemplo, lanzar infinitas veces un dado para ver que las frecuencias
relativas de la aparición de cada cara convergen a 1/6. Esto puede suplirse en la práctica
realizando el experimento un número suficientemente elevado de veces, hasta que
tengamos la precisión que requieran nuestros cálculos. Sin embargo,
• los experimentos aleatorios a veces no pueden ser realizados, como es el caso de calcular
la probabilidad de morir jugando a la ruleta rusa con un revolver: no es posible (o no se
debe) calcular esta probabilidad repitiendo el experimento un número indefinidamente
alto de veces para aproximarla mediante la frecuencia relativa). Para ello existen métodos
mucho más seguros, como los que mencionaremos a continuación.

La probabilidad frecuentista también se le conoce como probabilidad empírica o a posteriori


porque requiere de la realización repetida empíricamente del experimento para poder calcular la
probabilidad.

La Teoría Clásica y la Frecuentísta se enmarcan en lo que denominamos teorías objetivas u


operativas de la probabilidad. La teoría clásica es objetiva porque se basa en la deducción de un
conjunto de supuestos y la teoría frecuentísta es objetiva porque la probabilidad es obtenida de
repetidas observaciones empíricas de un experimento.

c. Teoría Subjetiva

Las probabilidades subjetivas están basadas en la creencia de las personas que efectúan la
estimación de la probabilidad. El individuo de acuerdo a la información que tenga disponible le
asigna una probabilidad a un evento. Esta evidencia puede presentarse por la frecuencia relativa
histórica de un evento o por la creencia personal (conocimiento de experto) meditada.

120
Las asignaciones de probabilidad subjetiva se presentan con más frecuencia cuando los eventos se
dan sólo una vez o un número reducido de veces. Por ejemplo si usted tiene la tarea
encomendada de elegir un nuevo personal para cargo de gerente de ventas de una empresa y tiene
a su disposición sólo tres candidatos que desde todo punto de vista tienen credenciales
equivalentes, buena apariencia, alto nivel de actividad, bastante confianza en sí mismos. ¿Cuáles
son las probabilidades de que los candidatos se relacionen exitosamente con los clientes? El
responder a esta pregunta requiere que usted asigne una probabilidad subjetiva al potencial de
cada uno de los candidatos que solicitan el puesto.
Como casi todas las decisiones sociales y administrativas de alto nivel se refieren a situaciones
específicas y únicas, más que a una larga serie de situaciones idénticas, los responsables de tomar
las decisiones en este nivel hacen uso considerable de la probabilidad subjetiva.

Definición Formal de Probabilidad


Para formalizar la definición de la probabilidad en espacios finitos, nos basaremos en una serie de
axiomas, estos nos permiten trabajar con las probabilidades sin importar el punto de vista de la
teoría clásica, frecuentista o subjetiva.

Definición axiomática de probabilidad : (Kolmogorov) Se llama probabilidad a una ley que


asocia a cada suceso A un número real que cumple los siguientes axiomas:
1. La probabilidad de un suceso cualquiera del espacio de sucesos siempre es positiva , es decir
p(A) ≥ 0 , ∀ A ⊆ S.
2. La probabilidad del suceso seguro es 1 , es decir , p(S) = 1
3. La probabilidad de la unión de sucesos mutuamente excluyentes o incompatibles es igual a la
suma de probabilidades de cada uno de ellos , o sea , p(A ∪ B) = p(A) + p(B)

Consecuencias de los axiomas:


 P( A ) = 1 - P(A)
 Demostración: Como A y A son mutuamente excluyentes ( A ∩ A)= Φ y
además A ∪ A = S, entonces P( A ∪ A) = 1 (axioma 1), y por el axioma 3,
P( A ∪ A) = P( A ) + P(A)=1, así que P( A ) = 1 - P(A)
 p( Φ ) = 0
 Demostración: ( Φ ∪ S) = S y ( Φ ∩ S) = Φ , usar los axiomas 2 y 3 para
demostrar la propiedad.
 0 ≤ p( A) ≤ 1
 Si A ⊂ B p ( A ) ≤ p ( B)
 Si los suceso son compatibles : p(A ∪ B) = p(A) + p(B) - p(A ∩ B)
 Para el caso de tres sucesos compatibles sería :
 p(A ∪ B ∪ C) = p(A) + p(B) + p(C) - p(A ∩ B) - p(A ∩ C) - p(B ∩ C) + p(A ∩ B ∩ C)

121
Diagramas de Venn para Eventos incompatibles, compatibles, complementarios y contenidos uno
en el otro.

Ejemplos:
En el ejemplo del lanzamiento de dos dados si el evento A consiste en que la suma sea mayor que
5 pero menor que 10.

Si B es el evento “la suma sea mayor que 8”

Ahora si calculamos la intersección entre A y B:


A I B = suma igual a 9 = {(3, 6);(4, 5);(5, 4);(6, 3)}
y entonces la probabilidad de que ocurra A y B, es decir, que la suma sea mayor que 5 y menor
que 10 y que también sea mayor que 8.

122
Por otro la probabilidad de que ocurra A o B, se calcula:

Ejemplo
Si A y B son dos sucesos tales que:

Ejemplo:
Una experiencia aleatoria consiste en preguntar a tres personas distintas, elegidas al azar, si son
partidarias o no de consumir un determinado producto.
a) Escribe el espacio muestral asociado a dicho experimento, utilizando la letra "s" para las
respuestas afirmativas y "n" para las negativas.
b) ¿Qué elementos del espacio muestral anterior constituyen el suceso " al menos dos de las
personas son partidarias de consumir el producto"?
c) Describe el suceso contrario de "más de una persona es partidaria de consumir el producto"

123
Halle usted mismo P(A) y P( B ).

NOCIONES DE CONTEO
7.3.1 Teorema de la probabilidad completa o teorema de la O
Si un suceso A puede ocurrir de n maneras y otro suceso B puede ocurrir m maneras, entonces el
suceso A ó B (Sucede el evento A ó sucede el evento B) puede ocurrir de n+m formas, siempre y
cuando los eventos no puedan suceder simultáneamente.
Ejemplo:
En el lanzamiento de un dado, de cuantas maneras se puede obtener un número inferior a 2 o
mayor que 4?
A: (número inferior a 2) sucede solo de una manera.
B : (número superior a 4), sucede de dos maneras
A ó B (número inferior a 2 o superior a 4) sucede de 1+2=3 maneras.

124
Ejemplo: Una máquina automática llena bolsas de caraotas. La mayoría de las
bolsas tienen el peso correcto, pero debido a las pequeñas variaciones en los
tamaños de los frijoles, algunas bolsas pueden tener un peso ligeramente mayor
o menor. Una revisión de 4000 paquetes llenados el mes pasado reveló:
Peso Evento Número de Probabilidad
Paquetes de ocurrencia
Peso más bajo A 100 0.025
Peso correcto B 3.600 0.90
Peso más alto C 300 0.075
4.000 1.00
¿Cuál es la probabilidad de que un paquete determinado tenga un peso no correcto (más bajo o
más alto)?
P ( A o B ) = P ( A U B ) = P ( A ) + P ( B ) = 0.025 + 0.075 = 0.1
Observe que los eventos son mutuamente excluyentes, es decir, los paquetes no pueden al mismo
tiempo tener más peso que el correcto y menos peso que el correcto.

7.3.2 Teorema de la probabilidad compuesta o teorema de Y


Si un seceso A puede suceder de n maneras y un suceso B de m formas, entonces el suceso A y B
(sucede el evento A y sucede el Evento B) puede ocurrir de nxm modos.
Ejemplo:
De cuántas maneras distintas pueden caer 2 dados, lanzados simultáneamente:
A: (dado 1) puede caer de 6 maneras.
B : (dado 2) puede caer de 6 maneras
A y B (dado 1 y dado 2 ) sucede de 6x6 =36 maneras
7.3.3 Otros teoremas que facilitan el cálculo de probabilidades
Permutaciones
Se le llama permutación a cada uno de los arreglos de n elementos, cuya diferenciación mutua se
debe al orden en que están colocados sus elementos. Al total de permutaciones obtenidas con n
elementos se le representa por: nPn = n ! = n( n − 1)( n − 2)( n − 3)......2.1
Ya que los productos de enteros consecutivos tienen lugar en muchos problemas relacionados
con las permutaciones y otras clases de arreglos o selecciones especiales, es conveniente presentar
aquí la notación factorial. En esta notación, el producto de todos los enteros positivos menores
o iguales que el entero positivo n se conoce como “n factorial” y se expresa como n!. Así,

1! = 1
2! = 2 — 1 = 2
3! = 3 — 2 — 1 = 6
4! = 4 — 3 — 2 — 1 = 24
5! = 5 — 4 — 3 — 2 — 1 = 120
6! = 6 — 5 — 4 — 3 — 2 — 1 = 720.
. . . . . .

125
y en general, n!(n – 1)(n – 2) ————— 3 — 2 — 1. Del mismo modo, para que varias fórmulas sean más
aplicables generalmente, determinamos que por definición 0! = 1.

Ejemplo:
Cuántas palabras diferentes se pueden formar con las letras n, l, o, e; así no tengan sentido?

nloe, nleo, nelo, neol, nole noel, lnoe, lneo, leno, leon, lone, loen, elon, elno, enlo, enol, eoln, eonl,
olne, olen, oeln, oenl, onle, onel.
Ejemplo:
¿De cuántas maneras distintas se pueden asignar a diez profesores las diez secciones de un curso
de economía?
Sustituyendo n = 10,
P = 10! = 3,628,800
10 10
obtenemos

Variaciones
A cada uno de los arreglos de r elementos obtenidos de un grupo de n elementos , cuya
diferenciación mutua se deba a los elementos ó el orden de colocación, se le denomina variación.
El número total de variaciones se representa por:

Ejemplo:
Cuántos números de tres cifras se pueden construir con los dígitos 1,2,3,4,5,6,7,8,9,0 si ninguno se
puede repetir

Combinaciones
A cada uno de los arreglos de r elementos obtenidos de un grupo de n elementos , cuya
diferenciación mutua se deba a los elementos sin importar el orden de colocación de ellos, se le
denomina combinación. El número total de combinaciones se representa por:

Ejemplo:
De cuántas maneras se puede escoger un comité o equipo de 4 hombres de un grupo de 8?

126
Ejemplo (parte 1):
De entre 10 empleados se debe seleccionar 3 para viajar a tres plantas: A, B y C, fuera de la
ciudad. Cada empleado irá a una planta. Como las plantas están en distintas ciudades, es
importante el orden de asignación de los empleados a las plantas. ¿De cuántos modos se puede
hacer la selección?
Este es un ejemplo de variaciones debido a que importa el orden de selección,

Ejemplo (parte 2):


Supóngase que los 3 empleados se deben seleccionar de entre los 10 para ir a una misma planta.
Además suponga que 2 de los 10 empleados son mujeres y 8 hombres. ¿Cuál es la probabilidad de
que se seleccione exactamente una mujer entre los 3 elegidos?
 10 
Casos posibles:   = 120
3
56
P ( Seleccionar exactamente 1 mujer ) = = 0.47
120
 2  8 
Casos favorables:    = 2.(28) = 56
 1  2 

Permutaciones con Repetición


En el caso de las permutaciones, si el elemento 1 se repite r1 veces, el elemento 2 se repite r2
veces, etc. Y el elemento k se repite rk, se le llama permutaciones con repetición y se calcula con:

Ejemplo:
¿Cuántas palabras diferentes, aun sin significado, se pueden formar con las letras de la palabra
amorosos?

Variaciones con Repetición


En el caso de las variaciones si los elementos se pueden repetir hasta r veces se les denomina
variaciones con repetición y se obtienen por:

Ejemplo:
¿Cuantos números de cuatro cifras existen?

127
Combinaciones con repetición:
Para calcular el número de combinaciones con repetición se aplica la siguiente fórmula:

Ejemplo:
C'10,4 son las combinaciones de 10 elementos con repetición, agrupándolos en subgrupos de 4, en
los que 2, 3 o los 4 elementos podrían estar repetidos:

Es decir, podríamos formar 715 subgrupos diferentes de 4 elementos.

EJERCICIOS PROPUESTOS
1. ¿De cuántas maneras se pueden colocar dos anillos diferentes en la misma mano, de modo que
no estén en el mismo dedo?
2. Al lanzar cinco dados de distintos colores ¿cuántos resultados podemos obtener?
3. Con los números 1,2,3,4,5 y 6:
3.1 ¿Cuántos números distintos de siete cifras podríamos formar?
3.2 ¿Podremos numerar a los 3224564 habitantes de una ciudad con esos números?
4. Se lanzan al aire uno tras otro cinco dados equilibrados de seis caras. ¿Cuál es el número de
casos posibles?
5. ¿Cuántos números de seis cifras existen que estén formados por cuatro números dos y por dos
números tres?
6. Lola tiene 25 bolitas (10 rojas, 8 azules y 7 blancas) para hacerse un collar. Engarzando las 25
bolitas en un hilo, ¿cuántos collares distintos podrá realizar?
7. ¿Cuántas palabras distintas, con o sin sentido, podremos formar con las letras de la palabra
educación? ¿y con la palabra vacaciones?
8. Un grupo de amigos formado por Raúl, Sonia, Ricardo y Carmen organizan una fiesta,
acuerdan que dos de ellos se encargarán de comprar la comida y las bebidas ¿De cuántas formas
posibles puede estar compuesta la pareja encargada de dicha misión?
9. Una fábrica de helados dispone de cinco sabores distintos (vainilla, chocolate, nata, fresa y
cola) y quiere hacer helados de dos sabores ¿Cuántos tipos de helado podrán fabricar?
10. Un grupo de amigos y amigas se encuentran y se dan un beso para saludarse. Si se han dado
en total 21 besos, ¿cuántas personas había?
11. En una carrera de 500 metros participan doce corredores ¿De cuántas maneras pueden
adjudicarse las medallas de oro, plata, bronce?
12. ¿De cuántas formas pueden cubrirse los cargos de presidente, vicepresidente, secretario y
tesorero de un club deportivo sabiendo que hay 14 candidatos?

7.4 Probabilidad Condicional

128
En un concurso de televisión, se dispone de 20 coches, para premiar al concursante, de las marcas
y colores que se indican en la siguiente tabla:
Rojo Azul Totales
SEAT Cordoba 2 8 10
SEAT Toledo 7 3 10
Totales 9 11 20
Los coches están colocados aleatoriamente, tras 20 puertas, de forma que el concursante no ve el
coche que hay detrás de cada puerta.
El concursante elige un número, entre 1 y 20, y si acierta el modelo y el color del coche que hay
en la puerta elegida, gana, en caso contrario pierde.
El concurso lo podemos considerar como un experimento aleatorio. Cada resultado es el coche
elegido.
Para describir fácilmente todo el proceso vamos a considerar:
Suceso C : El coche es un Seat Cordoba
Suceso T : El coche es un Seat Toledo
Suceso R : El coche es de color rojo
Suceso A : El coche es de color azul

Así el suceso: "Seat Toledo de color rojo" lo representamos por: T ∩ R y la probabilidad de este
suceso, sigue de la tabla :
Rojo Azul Totales
Seat Cordoba 2 8 10
Seat Toledo 7 3 10
Totales 9 11 20

P( T ∩ R ) = 7/20

La probabilidad de que el coche sea un Seat Toledo es:


Rojo Azul Totales
SEAT Cordoba 2 8 10
SEAT Toledo 7 3 10
Totales 9 11 20

P(T)=10/20 = 1/2

¿Qué ocurre si, una vez que el concursante ha elegido puerta, el presentador, le da la pista de que
el coche que hay tras la puerta es rojo?. Tendremos que cambiar la probabilidad al suceso T y al
suceso C. A la probabilidad del suceso T cuando se sabe que ha ocurrido R, le llamamos
probabilidad condicionada de T, sabiendo que ha ocurrido R y escribimos:

129
P(T/R)

Para asignar las nuevas probabilidades hemos de ser consecuentes con las propiedades que debe
cumplir toda asignación de probabilidades. El nuevo espacio muestral es el señalado en rojo en la
tabla siguiente. Por tanto asignamos así las probabilidades:
Rojo Azul Totales
SEAT Cordoba 2 8 10
SEAT Toledo 7 3 10
Totales 9 11 20

P(T/R) = 7/9 ; P(C/R) = 2/9

De la tabla anterior, siguen fácilmente las siguientes relaciones:

Consideremos ahora el siguiente experimento : Dos urnas, A y B ,la urna A, contiene 3 bolas
verdes y 2 bolas rojas, la urna B contiene 2 bolas verdes y 3 bolas rojas.

Se realiza el experimento en dos tiempos, primero se selecciona urna por un procedimiento


aleatorio y posteriormente de la urna elegida se extrae una bola.
Para representar, de forma muy adecuada, este tipo de experimentos, se realiza un esquema,
llamado: árbol de probabilidades

Cada flecha del diagrama se denomina rama del árbol; a cada rama, asignamos la probabilidad que
le corresponde. Un recorrido, desde el comienzo del experimento hasta el final, se llama un
camino.

130
Si sabemos que ha ocurrido el suceso A, tenemos que volver a asignar probabilidades a los
distintos caminos; todos los caminos que comienzan por el suceso B, tendrán probabilidad 0 y los
que empiezan por el suceso A:

Hay que aceptar por tanto las mismas relaciones entre probabilidades a las que habíamos llegado
en el experimento anterior:

Para concretar tenemos que admitir la siguiente definición:

Probabilidad condicionada P(A/B) : Se llama probabilidad del suceso A condicionado por B,


a la probabilidad de que se cumpla A una vez que se ha verificado el B .
p ( A ∩ B)
P(A/B) =
p ( B)

A B
a b c

b b+c b
p(A ∩ B) = p(B) = p(A/B) =
a+b+c a+b+c b+c

Otra forma de ver la fórmula es :


p(A ∩ B) = p(B) — p(A/B) = p(A) — p(B/A) = p(B ∩ A)

131
Generalizando: p(A ∩ B ∩ C) = p(A) — p(B/A) — p(C/A ∩ B)

Ejemplo:
Durante un estudio sobre accidentes automovilísticos, se encontró que 60% de los accidentes
suceden de noche, 52% están relacionados con conductores alcoholizados y 37% se presentan de
noche y además con conductores ebrios.
a) ¿Cuál es la probabilidad de que un accidente esté relacionado con un conductor
ebrio, dado que sucedió de noche?
b) ¿Cuál es la probabilidad de que un accidente haya ocurrido de noche si se sabe que
el conductor estaba ebrio?
• Denotemos A y B los siguientes eventos:
• A=El accidente sucede de noche
• B=El accidente está relacionado con un conductor alcoholizado
• P(A)= 0.60
• P(B) = 0.52
• P(A∩B) = 0.37
P ( A I B ) 0.37
a) P ( B | A ) = = = 0.62
P( A ) 0.60
P ( A I B ) 0.37
b) P ( A | B ) = = = 0.71
P( B ) 0.52
Note que no necesariamente P(A|B) = P(B|A)

Sucesos independientes: dos sucesos A y B se dice que son independientes si P(A) = P(A|B) .
En caso contrario, p(A) ≠ p(A|B), se dice que son dependientes.

Probabilidad de la intersección o probabilidad compuesta:


- Si los sucesos son dependientes p(A ∩ B) = p(A) — p(B/A) = p(B) — p(A/B)
- Si los sucesos son independientes p(A ∩ B) = p(A) — p(B)

Ejemplo: si al extraer dos cartas de una baraja lo hacemos con devolución tendremos dos sucesos
independientes, p(A ∩ B) = p(A) — p(B) pero si lo hacemos sin devolución ahora si son
dependientes p(A ∩ B) = p(A) — p(B|A).

Para que dos sucesos sean independientes tienen que verificar al menos una de las siguientes
condiciones:
 P (B/A) = P (B) es decir, que la probabilidad de que se de el suceso B,
condicionada a que previamente se haya dado el suceso A, es exactamente igual a
la probabilidad de B.
 P (A/B) = P (A) es decir, que la probabilidad de que se de el suceso A,
condicionada a que previamente se haya dado el suceso B, es exactamente igual a
la probabilidad de A.
 P (A ∩ B) = P (A) * P (B) es decir, que la probabilidad de que se de el suceso
conjunto A y B es exactamente igual a la probabilidad del suceso A multiplicada
por la probabilidad del suceso B.

132
Si el suceso A es independiente del suceso B, entonces el suceso B también es independiente del
suceso A.

Ejemplo: analicemos dos sucesos:


Suceso A: la probabilidad de que haga buen tiempo es del 0,4
Suceso B: la probabilidad de tener un accidente es del 0,1
Suceso intersección: la probabilidad de que haga buen tiempo y tener un accidente es del 0,08
Veamos si se cumple alguna de las condiciones señaladas:
P (B/A) = P (A ∩ B) / P (A) = 0,08 / 0,4 = 0,2 (que no es igual a P (B))
P (A/B) = P (A ∩ B) / P (B) = 0,08 / 0,6 = 0,133 (que no es igual a P (A))
P (A ∩ B) = 0,08 (que no es igual a P (A) multiplicado por P (B))
Por lo tanto, no se cumple ninguna de las tres condiciones señaladas por lo que estos dos
sucesos no son independientes, sino que existe algún grado de dependencia entre ellos.

Ejemplo: analicemos dos sucesos:


Suceso A: la probabilidad de que haga buen tiempo es del 0,4
Suceso B: la probabilidad de salir cara al lanzar una moneda es del 0,5
Suceso intersección: la probabilidad de que haga buen tiempo y que salga cara es 0,2
Veamos si se cumple alguna de las condiciones señaladas:
P (B/A) = P (A ∩ B) / P (A) = 0,2 / 0,4 = 0,5 (igual que P (B))
P (A/B) = P (A ∩ B) / P (B) = 0,2 / 0,6 = 0,4 (igual que P (A))
P (A ∩ B) = 0,2 (igual a P (A) multiplicado por P (B))
Por lo tanto, estos dos sucesos sí son independientes.

Ejercicio:
El propietario de una tienda de música sabe que el 30% de sus clientes pide ayuda a los empleados
y que el 20% hace una compra antes de abandonar el local. Además sabe que el 15% de los
clientes pide ayuda y hace una compra.

Responde a las siguientes preguntas y justifica tus respuestas en términos de probabilidades de los
sucesos relevantes.

a) ¿Cuál es la probabilidad de que un cliente haga al menos una de estas dos cosas? Resp.
0.35
b) ¿Son los dos sucesos mutuamente excluyentes? Resp. No
c) ¿Son los dos sucesos colectivamente exhaustivos? Resp. No
d) ¿Son los dos sucesos independientes estadísticamente? Resp. No

Existen tres tipos de probabilidades que se pueden encontrar cuando estamos tomando
en cuenta más de un evento, digamos eventos A y B:

Tipo de Concepto Notación


Probabilidad
Marginal es la probabilidad sencilla o incondicional de que se P( A )
presente un evento A sin importar la ocurrencia o no de

133
otro evento B.
Conjunta es la probabilidad de que los dos eventos se presenten, es P( A I B )
decir que A y B ocurran juntos.
Condicional es la probabilidad de que un segundo evento A se P( A B )
presente si se conoce que ya ha ocurrido el evento B.

Tablas de Probabilidad Conjunta:

Una tabla de distribución de frecuencias conjuntas o cruzadas es aquella en donde se disponen los
resultados de dos variables, los resultados de una variable se colocan en columnas y los de la otra
en renglones.
Ejemplo:
A 100 empleados de una empresa se les hizo un examen de aprovechamiento para medir la
destreza en una tarea. Cuarenta de los empleados eran hombres. Sesenta de los empleados
pasaron el examen porque alcanzaron una calificación mayor que cierto nivel predeterminado de
aprovechamiento. La clasificación entre hombres y mujeres fue la siguiente:
Hombres (H) Mujeres (M)
Aprobaron el Examen (A) 24 36
No Aprobaron el Examen (NA) 16 24
Suponga que se selecciona al azar un empleado de los 100 que hicieron el examen:
a) Calcular la probabilidad de que el empleado haya pasado el examen
b) Calcular la probabilidad de que el empleado sea hombre dado que aprobó el
examen
c) Calcular la probabilidad de que sea mujer y haya aprobado el examen
d) ¿Son independientes los eventos A=”Aprobó el examen” y H=”Es hombre”?
e) ¿Son independientes los eventos A=”Aprobó el examen” y M=”Es mujer”?

Calculamos la tabla conjunta de probabilidades con respecto al total de los 100 empleados

Hombres (H) Mujeres (M) Marginal


Aprobaron el Examen (A) 0.24 0.36 0.60
No Aprobaron el Examen (NA) 0.16 0.24 0.40
Marginal 0.40 0.60 1.00
(a) la probabilidad de que el empleado haya pasado el examen= P(A) = 0.60, que
representa una probabilidad marginal, se encuentra en el margen de la tabla.
(b) la probabilidad de que el empleado sea hombre dado que aprobó el examen, se calcula
P ( A I H ) 0.24
por P ( A H ) = = = 0.40 que corresponde al calculo de una
P( A ) 0.60
probabilidad condicional
(c) la probabilidad de que sea mujer y haya aprobado el examen, es P( M I A ) = 0.36 , es
una probabilidad conjunta. Note que las probabilidades conjuntas son las que están en
las celdas internas de la tabla.
(d) ¿Son independientes los eventos A=”Aprobó el examen” y H=”Es hombre”?
sabemos que P(A∩H) = 0.24 y por otra parte que P(A) = 0.60 y P(H)=0.40, asi que
P(A∩H) = P(A).P(H), por lo tanto son independientes.

134
(e) ¿Son independientes los eventos A=”Aprobó el examen” y M=”Es mujer”? Primero
calculemos P(A∩M)=0.36, y como P(A)= 0.60 y P(M)=0.60 de los cálculos de
marginales, tenemos que P(A∩M)= P(A).P(M), es decir, que A y M son
independientes.

Sistema completo de sucesos.


Un sistema completo de sucesos es un conjunto de sucesos o eventos A1 , A2 , A3 , ......, An tales que:

1. A1 ∪ A2 ∪ A3 ∪ ...... ∪ An = S

2. A1 , A2 , A3 , ......, An son mutuamente excluyentes.

Un sistema completo no es más que una partición del


espacio muestral en eventos disjuntos, de tal manera
que al unirlos todos se obtiene la totalidad del espacio
S.

Teorema de la probabilidad total: sea un sistema completo de sucesos y sea un suceso B tal que
p(B/Ai) son conocidas , entonces :
p(B) = p(B ∩ A1) + p(B ∩ A2) + .........= p(B ∩ A i ) ∑
A1 A2 A3 A4

B
B B

7.4.1 Teorema de Bayes. Concepto


Teorema de Bayes : sea A1 , A2 , A3 , ......, An un sistema completo de sucesos y sea B un suceso
tal que P(B|Ai) son conocidas , entonces :

P ( Ai )— P ( B | Ai )
P( Ai / B ) =
P ( A1 )— P ( B | A1 ) + P ( A2 )— P ( B | A2 ) + .... + P ( An )— P ( B | An )

135
Ejemplo
Se va ha realizar el siguiente experimento , se tira una moneda , si sale cara se saca una bola de una
urna en la que hay 4 bolas negras , 3 rojas y 3 amarillas , si sale sello se saca una bola de otra urna
en la que hay 5 bolas negras , 2 rojas y 3 amarillas.
a.- Calcular la probabilidad de que la bola extraída sea Negra.
b.- Calcular la probabilidad de que halla salido Cara, dado que la bola que se extrajo era Negra
Definamos los siguientes eventos:
C=”Sale Cara”
S=”Sale Sello”
N=”La bola es Negra”
R=”La bola es Roja”
A=”La bola es Amarilla”
El espacio muestral se puede describir de la siguiente manera:
NNNN
RRR
C ---------------------- AAA
S ---------------------- NNNNN
RR
AAA
El Arbol de probabilidades en este caso es:

N 4/10 p(C ∩ N) = 1/2 — 4/10 = 4/20


Cara 1/2 R 3/10 p(C ∩ R) = 1/2 — 3/10 = 3/20
A 3/10 p(C ∩ A) = 1/2 — 3/10 = 3/20

N 5/10 p(S ∩ N) = 1/2 — 5/10 = 5/20


Sello 1/2 R 2/10 p(S ∩ R) = 1/2 — 2/10 = 2/20
A 3/10 p(S ∩ A) = 1/2 — 3/10 = 3/20
La parte (a) se resuelve aplicando el Teorema de la probabilidad total:
p(N) = p(C ∩ N) + p(S ∩ N) = 4/20 + 5/20 = 9/20
La parte (b) se soluciona aplicando el Teorema de Bayes:
4
p(C ∩ N ) 4
p(C/N) = = 20 = .
p (C ∩ N ) + p ( S ∩ N ) 4 + 5 9
20 20
Ejemplo
Una caja tiene diez tornillos, de los que dos son defectuosos.

a. Si vamos extrayendo tornillos, uno tras otro, hasta localizar los dos defectuosos, ¿cuál es la
probabilidad de necesitar exactamente tres extracciones para localizarlos?.
b. Si extraemos dos tornillos, y el segundo ha resultado ser defectuoso, ¿cuál es la
probabilidad de que el primero también lo haya sido?.

136
137
Ejemplo
El 10% de las personas de una población padecen una enfermedad. Para detectarla se hace una
prueba que da positivo el 95% de las veces que se hace a alguien que padece la enfermedad. El 1%
de los pacientes sanos también da positivo en la prueba.

Es decir:
P ( padecer ) = 0,1

P (no padecer ) = P( sano) = 1 − P( padecer ) = 0,9

P ( positivo padecer ) = 0,95 y P ( positivo sano) = 0,01

a) Obtener la probabilidad de que la prueba clasifique a una persona como enferma.


Aplicando la fórmula de la probabilidad total tendremos:
P ( positivo) = P( positivo padecer ) × P( padecer )
+ P( positivo sano) × P( sano) =
= 0,95 × 0,1 + 0,01 × 0,9 = 0,104
b) ¿Cuál es la probabilidad de que una persona esté realmente enferma si la prueba ha dado
positiva?
Utilizando el teorema de Bayes:

(
P padecer positivo = ) P ( padecer y positivo)
P( positivo)
=

P( positivo padecer ) × P( padecer )


= =
0,104
0,95 × 0,1
= = 0,913
0,104
c) Hallar la probabilidad de que una persona esté sana si la prueba da positivo.
( ) ( )
P sano positivo = 1 − P padecer positivo = 1 − 0,913 = 0,087

Ejemplo:
En la economía de un país hay 4 sectores (Transporte, Comercios, Salud y Educación) B1, B2, B3 y
B4. Sea el suceso S “estar en paro”. La probabilidad de que una persona esté en paro en cada uno
de los sectores será:
P( S B1 ) = 0,05 P( S B2 ) = 0,01 P( S B3 ) = 0,02 P( S B4 ) = 0,1
De los trabajadores de esa economía la mitad pertenecen a B1 y el resto se reparten por igual entre
los otros tres, es decir:
P( B1 ) = 0,5 P( B2 ) = 0,16 P( B3 ) = 0,16 P( B4 ) = 0,16
La probabilidad de estar en paro de una persona escogida al azar será:

138
4
P( S ) = ∑ P(S Bi )P( Bi ) =
i =1

= 0,05 × 0,5 + 0,01 × 0,16 + 0,02 × 0,16 + 0,1 × 0,16 = 0,458


● Siguiendo con el ejemplo anterior, dada una persona que está en paro, ¿qué probabilidad hay de
que sea de un cierto sector Bi? Es decir buscamos P( Bi S ) .

● Según la definición de probabilidad condicionada, es:


P( Bi y S )
P( Bi S ) =
P( S )
● Si en el numerador aplicamos la expresión de la probabilidad conjunta y en el denominador la
de la probabilidad total obtenemos la regla de Bayes:

P ( Bi )— P( S | Bi )
P( Bi |S ) =
P ( B1 )— P( S | B1 ) + P( B2 )— P ( S | B2 ) + .... + P ( Bn )— P ( S | Bn )

Así ¿Cuál es la probabilidad de que una persona que esté en paro pertenezca al sector 1, es decir,
(
P B1 S ? )
0, 05 × 0, 5 0.025
P ( B1 S ) = = = 0, 5458
0, 05 × 0, 5 + 0, 01 × 0,16 + 0, 02 × 0,16 + 0,1 × 0,16 0.0458

139
Cuestionario del Capítulo IV:
PROBABILIDADES:
1. Colgate de Venezuela envió por accidente tres cepillos dentales eléctricos defectuosos a
una farmacia, junto con 17 cepillos buenos.
a. Cuál es la probabilidad de que los dos primeros cepillos que se vendan en la
farmacia estén defectuosos
b. Cuál es la probabilidad de que por lo menos uno de los tres primeros cepillos que
se vendan esté defectuoso
2. Sean A y B dos sucesos tales que: P(AUB)= ¾, P ( A) = 2 , P ( A ∩ B ) = 1 . Hallar P(A),
3 4
P(B) y P ( A ∩ B )
3. La probabilidad de que las acciones de una empresa financiera coticen al alza es 0.8,
mientras que esa probabilidad para una empresa del sector nuevas tecnologías es 0.4. A su
vez, la probabilidad de que las dos coticen al alza es 0.3.Obtenga las siguientes
probabilidades: a) que coticen al alza al menos una de las dos empresas; b) que ninguna de
las dos cotice al alza; c) que solo cotice una al alza.
4. La probabilidad de que un estudiante A apruebe un examen de Estadística es de 0.8; la de
otro estudiante B es 0.4; y la probabilidad de que aprueben los dos es de 0.3. Calcule la
probabilidad de los siguientes sucesos:
a. Al menos uno de los dos aprueba el examen.
b. Ninguno aprueba el examen.
c. Sólo uno aprueba el examen.
5. Una empresa vende sus productos en tres ciudades. Los porcentajes de venta son: 50% en
A, 30% en B y 20% en C. La probabilidad de que se produzca un impagado es,
respectivamente, 0,01 en A, 0,02 en B y 0,08 en C. Habiéndose dado un impagado, ¿de
qué ciudad es más probable que proceda?
6. Una entidad bancaria califica a sus clientes, a la hora de conceder préstamos, en dos
grupos: clientes "preferentes" y clientes "no preferentes". En su Memoria de 2005
aparecen los siguientes datos:
- El 30% de los préstamos fueron fallidos (no se pagaron a tiempo).
- El 25% de los préstamos fallidos fueron concedidos a clientes "preferentes".
- El 55% de los préstamos no fallidos fueron concedidos a clientes "preferentes".
Calcule:
a) Probabilidad de que un préstamo concedido a un cliente "preferente" resulte fallido.
b) Probabilidad de que un préstamo concedido a un cliente "no preferente" no sea fallido.
7. Sobre la población activa de un municipio tenemos los siguientes datos: el 30% son
obreros no calificados, el 60% son obreros especialistas y el resto son técnicos medios o
superiores. Actualmente, el paro abarca al 40% de los no cualificados y al 20% de los
especialistas, constituyendo los obreros no cualificados el 48% del total de los parados.
Determine el porcentaje de paro que existe entre los técnicos.
8. Para analizar el volumen de fraude en las declaraciones de IVA, un grupo de investigación
realiza el siguiente experimento. Sobre una amplia muestra de empresas se les preguntan
dos cuestiones: A) ¿Termina su RIF en número par?, B) ¿Ha cometido algún tipo de
fraude en la declaración de IVA?. Para evitar la falta de respuesta motivada por la

140
naturaleza de la segunda pregunta, a los que tienen que responder se les hace la siguiente
propuesta: lance una moneda al aire, de forma que si sale cara responda la pregunta A y si
sale sello responda la pregunta B. En ningún caso la empresa encuestada indica qué
pregunta ha contestado. Después de realizado el experimento, resulta que el 37% de los
entrevistados dan como respuesta sí. En estas condiciones: ¿cuál es la probabilidad de una
persona a la que se le preguntó B diga sí?
9. Una empresa de venta por correo considera tres posibles errores al enviarse un pedido:
A: el artículo enviado no es el solicitado
B: el artículo se extravía
C: el artículo sufre desperfectos en el transporte
Supóngase que el suceso A independiente de los sucesos B y C y que los sucesos B y C
son mutuamente excluyentes. Las probabilidades de los sucesos individuales son
P(A)=0.02, P(B)=0.01y P(C)=0.04. Calcule la probabilidad de que uno de estos errores
ocurra para al menos un pedido escogido al azar.
10. Si P(A1) = 0.20, P(A2) = 0.40, P(B∗A1) = 0.25 , P(B∗A2) = 0.05 y P(B∗A3) = 0.10.
Encuentre P(B) y P(A3∗B)
11. Determine la probabilidad de que fallen los dos motores de un pequeño aeroplano, dado
que cada motor tiene una probabilidad de 0.05 de fallar y que un motor tiene el triple de
probabilidad de fallar si es el único que está en funcionamiento.
12. El departamento de crédito de una empresa, reportó que 55% de sus ventas se pagan en
efectivo, 25% con cheque y 20% con cargos a tarjetas de crédito. Veinte por ciento de las
compras en efectivo, 60% de las que se pagan con cheque y 90% de las que se pagan con
tarjetas de crédito son por cantidades mayores de 200mil Bolívares. Un cliente realiza una
compra por más de 200mil Bolívares. Cuál es la probabilidad de este cliente haya pagado
con tarjeta de crédito? ¿Cuál es la probabilidad de este cliente haya pagado en efectivo?
13. El 10% de las personas de una población padecen una enfermedad. Para detectarla se hace
una prueba que da positivo el 95% de las veces que se hace a alguien que padece la
enfermedad. Pero el 1% de los pacientes sanos también da positivo en la prueba.
a. Obtener la probabilidad de que la prueba clasifique a una persona como enferma.
b. ¿Cuál es la probabilidad de que una persona esté realmente enferma si la prueba ha
dado positiva?
14. La probabilidad de que una empresa venda un producto defectuoso cuando la producción
se somete a un proceso diario de control de calidad es 0,005. La probabilidad de que un
día no haya control de calidad es 0,05 y la probabilidad de que esa empresa venda un
producto defectuoso es 0,02. Determinar:
a. La probabilidad de que se venda un producto defectuoso y que haya control de
calidad.
b. La probabilidad de que habiéndose vendido un producto defectuoso haya habido
control de calidad.
c. La probabilidad de que habiéndose vendido un producto defectuoso no haya
habido control de calidad.
d. La probabilidad de que habiéndose vendido un producto no defectuoso haya
habido control de calidad.
e. La probabilidad de que habiéndose vendido un producto no defectuoso no haya
habido control de calidad.
f. La probabilidad de que no habiendo control de calidad se venda un producto
defectuoso.

141
g. La probabilidad de que no habiendo control de calidad se venda un producto no
defectuoso.
15. De una caja que contiene pelotas numeradas del 1 al 6 se eligen dos, de forma
consecutiva, sin reemplazo. Hallar:
a. La probabilidad de que en la segunda extracción salga un 5
b. La probabilidad de que salga un 2 en la 1ra extracción y un 5 en la 2da
c. Supongamos ahora, que después de anotar el resultado de la primera extracción, se
devuelve la pelota a la caja y se saca nuevamente una pelota. Hallar la probabilidad
de los dos casos anteriores.
16. Supóngase que nos interesa la conclusión de la obra de construcción de una autopista, la
cual puede demorarse por una huelga. Además suponga que las probabilidades son de 0,60
de que habrá una huelga, del 85% de que el trabajo se concluirá a tiempo si no hay huelga
y de 0,35 de que el trabajo se terminará a tiempo si ocurre la huelga; si nos encontramos
con que la obra se terminó a tiempo. ¿Cuál es la probabilidad de que pese a ello hubiese
estallado una huelga?
17. En un estante hay 7 libros de estadística y 3 de administración. De los libros de
estadística, tres están empastados de amarillo y el resto de rojo; mientras que de los libros
de administración, uno está empastado en amarillo y dos en rojo. Suponiendo que del
estante se elige un libro al azar, ¿cuál es la probabilidad de que sea estadística y rojo? ¿cuál
es la probabilidad de que sea estadística si se sabe que es de color rojo?
18. Antes de que un producto determinado sea lanzado al mercado se recogen las reacciones
de un grupo de personas a las que se les permite probar el producto previamente.
Posteriormente a las ventas del producto se les asigna el calificativo de altas, moderadas o
bajas de acuerdo a las normas del mercado. Los resultados se muestran en la siguiente
tabla:
Reacciones Favorables Neutral Desfavorables
Ventas
Altas 173 101 61
Moderadas 88 211 70
Bajas 42 113 141
a) ¿Cuál es la probabilidad de que las ventas sean altas?
b) ¿Cuál es la probabilidad de que las reacciones sean favorables?
c) Si la reacción del grupo es favorable?. ¿Cuál es la probabilidad de que las ventas
sean altas?
d) Si las ventas son bajas ¿Cual es la probabilidad de que las opiniones hayan sido
desfavorables?
e) ¿Cuál es la probabilidad de que las opiniones sean favorables y las ventas sean
altas?
f) ¿Cuál es la probabilidad de que las ventas sean favorables o desfavorables?.
¿Son esos sucesos mutuamente excluyentes? Justifique
g) ¿Son los sucesos “Opiniones desfavorables” y “Ventas Bajas” independientes?
Justifique.
19. Una empresa que se dedica a al enlatado de atún utiliza a tal efecto tres máquinas A, B y
C. De ellas sabe, por controles de calidad previos, que la primera deposita menos cantidad
de la establecida en un 2% de las latas, la segunda en 1% y la tercera en un 3%. El 40% del
enlatado lo realiza la máquina A y el 35% la B. Si se selecciona al azar una lata, determinar
la probabilidad: a) de que proceda de A si tiene menos cantidad de la establecida; b) de

142
que no proceda de A si tiene la cantidad correcta. c) de que tenga menos cantidad de la
establecida.
20. Un banco está considerando cambiar su política de otorgamiento de créditos para reducir
el número d clientes que finalmente no pagan sus cuentas. El gerente sugiere que en el
futuro le sea cancelado el crédito a cualquier cliente que se demore un mes o más en sus
pagos en dos ocasiones distintas. La sugerencia del gerente se basa en el hecho de que, en
el pasado, el 90% de todos los clientes que finalmente no pagaron sus cuentas se habían
demorado en sus pagos por lo menos en dos ocasiones. Supongamos que, tras una
auditoria, se encuentra que el 2% de todos los clientes que adquieren un crédito
finalmente no pagan sus cuentas, y que de aquellos que finalmente si las pagan, el 45% se
han demorado al menos en dos ocasiones. Determine la probabilidad de que un cliente,
que ya se demoró por lo menos en dos ocasiones, finalmente no pague su cuenta y, con la
información obtenida, analice la política que ha sugerido el gerente.
21. Un analista de coyuntura económica quiere realizar predicciones a corto plazo sobre la
evolución de la economía. Para ello utiliza como indicador adelantado la venta total de
vehículos. Por experiencia pasada sabe que cuando la economía crece durante un periodo
a un ritmo superior al del periodo anterior (escenario A) la probabilidad de que las ventas
de vehículos sea alto es 0,90. Si ese crecimiento es igual al del periodo anterior (escenario
B) la probabilidad anterior es 0,50. Finalmente, si el crecimiento está por debajo al
observado en el periodo anterior (escenario C), entonces aquella probabilidad se reduce al
0,20. Además se sabe que los pronósticos respecto del comportamiento de la economía
asignan al escenario A una probabilidad del 0,20 y al B del 0,60. Determinar: a) La
probabilidad de que se de el escenario A y que las ventas de vehículos sea alta. b) La
probabilidad de que las ventas de vehículos sea alta. c) Si las ventas de vehículos es alta,
¿cuál es la probabilidad de los distintos escenarios?.

143
Capítulo V

DISTRIBUCIONES DE PROBABILIDAD

Como se vio en el capítulo anterior, una variable aleatoria es un fenómeno


de interés cuyas respuestas o resultados se expresan con números. Las
variables aleatorias entonces pueden ser discretas o continuas, las primeras
surgen de un proceso de contar y las segundas de un proceso de medir. La
distribución de probabilidad es una ley o función que permite el cálculo de
las probabilidades de la variable aleatoria. Entonces podemos pensar la
función de distribución de probabilidades como una función que tiene
la información de todos los posibles valores que puede tomar la variable
aleatoria, junto con las probabilidades de que tome dichos valores. De
acuerdo a la naturaleza de la variable aleatoria, tendremos distribuciones
discretas y distribuciones continuas.

DISTRIBUCIONES DISCRETAS DE PROBABILIDAD:


DISTRIBUCIÓN BINOMIAL- DISTRIBUCIÓN DE POISSON

En capítulos anteriores trabajamos con distribuciones de frecuencias o tablas de frecuencias, al


construir una lista de todos los resultados de una variable e indicando la frecuencia relativa de
cada resultado. Las distribuciones de frecuencias están relacionadas con las distribuciones de
probabilidad, de hecho podemos pensar que las distribuciones de probabilidad son las
distribuciones de frecuencias teóricas de las tablas de frecuencias. Una distribución de teórica es
aquella que describe cómo se espera que varíen los resultados aleatorios de la variable que se está
observando.

Una distribución de frecuencias es un listado de las frecuencias


Diferencia entre distribución observadas de todos los resultados de un experimento que se
de frecuencia y distribución de presentaron cuando se efectuó el experimento, mientras que una
distribución de probabilidad es un listado de las probabilidades de
probabilidades todos los posibles resultados que podrían obtenerse si el
experimento se llevara a cabo.

La distribución de probabilidad es entonces un modelo


matemático que relaciona el valor de una variable con la probabilidad de ocurrencia de este valor
en la población. Hay dos tipos de distribuciones de probabilidad:
1. Distribuciones discretas. Cuando la característica que se mide solamente puede tomar
ciertos valores dentro del dominio, como los números enteros 1, 2, 3, 4 …, la distribución
de probabilidad se denomina distribución discreta. Algunos ejemplos de distribuciones de
probabilidad discreta son: Binomial, Poisson, Multinomial, Hipergeométrica, Geométrica,
entre otras.
Algunos ejemplos de variables que tienen distribución discreta son:
.- Número de Hijos que tiene una familia seleccionada al azar

144
.- Cantidad de personas que van a una entidad bancaria por día
.- Número de facturas dañadas en un período de un mes
.- Artículos defectuosos por día en una línea de producción en una fábrica
.- Cantidad de alumnos aprobados en un examen

2. Distribuciones continuas. Cuando la variable que se mide puede tomar, en teoría,


cualquier valor dentro de un intervalo en los números reales, la variable se dice que tiene
una distribución continua. Algunos ejemplos teóricos de distribuciones continuas son:
Normal, Uniforme, t-Student, Exponencial, F-Fisher, Chi-Cuadrado, Beta, Gamma,
Weitbull, entre las más importantes.
Algunos ejemplos de variables que tienen asociada una distribución continua son:
.- Peso de una persona seleccionada al azar
.- Cantidad de líquido en una botella de refresco
.- Tiempo que se demora un cliente en el banco X
.- Peso de las bananas (o cualquier fruta) en la producción de una región
.- Ventas mensuales de comercios del mismo ramo y tamaño
.- Tiempo de vida útil de una bombilla
Así, toda distribución de probabilidad está asociada con una variable, que es la que permite
trasladar la propiedad o característica observada en el experimento hasta el mundo matemático.

Variable Aleatoria: es toda ley que asocia a cada elemento del espacio muestral un número real.
Esto permite sustituir los resultados de una prueba o experimento por números y los sucesos por
partes del conjunto de los números reales.

Las variables aleatorias pueden ser discretas o continuas:


- Discretas: el conjunto de posibles valores es numerable (se puede establecer una
correspondencia con los números enteros). Suelen estar asociadas a experimentos en que
se mide el número de veces que sucede algo.
- Continuas: el conjunto de posibles valores es no numerable. Puede tomar todos los
valores de un intervalo. Son el resultado de medir algo.

Ejemplos:
 En el experimento aleatorio de lanzar tres monedas y anotar el resultado. El espacio
muestral es S = {CCC, CCS, CSC, SCC, CSS, SCS, SSC, CCC}. Supongamos que a cada
suceso le asignamos un número, el número de caras obtenidas. Esta ley o función que
acabamos de construir la llamamos variable aleatoria (que en ese caso resulta discreta).
 Consideremos el experimento que consiste en elegir al azar un tomate de una plantación y
medimos su peso. La ley que asocia a cada tomate su peso es una variable aleatoria (ahora
en este caso es continua).

Ejemplo: Clasificar como discretas o continuas las siguientes variables aleatorias:


a) Número de empleados de una empresa seleccionada al azar → discreta
b) Tiempo que tarda en dañarse una bombilla → continua
c) Número de personas atendidas por un cajero de un banco → discreta
d) Cantidad de agua consumida en un mes → continua

145
No hay que confundir la variable aleatoria con sus posibles valores. Por ejemplo:
- La variable aleatoria, X, el número de caras al lanzar 6 veces una moneda (cuyos posibles
valores son: 0, 1, 2…6)

Así que generalmente estaremos denotando las variables aleatorias por letras mayúsculas: X, Y, Z,
T, y sus posibles valores por letras minúsculas x, y, z, t.

Construcción de la distribución de probabilidad

En algunos casos es sencillo determinar la distribución de probabilidad de una variable aleatoria,


simplemente calculando todas las probabilidades de los posibles valores que toma la variable. En
otros casos la distribución se determina teóricamente asociándola con un modelo de probabilidad
previamente desarrollado y caracterizado, por ejemplo se puede ver que el número de veces que
sale cara al lanzar n veces una moneda tiene una distribución binomial. En los casos de que la
variable aleatoria sea continua es más complicado y se recurre a uno de los modelos teóricos.

Sea X una variable aleatoria discreta. Su distribución viene dada por los valores que puede tomar,
x1, x2, x3, …, xk, y las probabilidades de que aparezcan p1, p2, p3, …, pk. Estas cantidades
pi = P{x = xi } reciben el nombre de función de probabilidad.

Ejemplo: Sea la variable aleatoria X = Número de caras que se obtienen al lanzar tres veces una
moneda
Posibles valores de X: 0, 1, 2 y 3
El espacio muestral que se obtiene al lanzar 3 veces moneda y anotar el resultado es:
S={CCC,CCS,CSC,SCC,SSC,SCS,CSS,SSS}

La variable aleatoria X:
- Toma valor 0 cuando ocurre el suceso {SSS}
- Toma valor 1 cuando ocurre el suceso {SSC,SCS,CSS}
- Toma valor 2 cuando {CCS,CSC,SCC}
- Toma valor 3 cuando {CCC}

La función de probabilidad es:


p0 = P{x = 0} = 1 / 8 = 0,125
p1 = P{x = 1} = 3 / 8 = 0,375
p2 = P{x = 2} = 3 / 8 = 0,375
p3 = P{x = 3} = 1 / 8 = 0,125

Gráficamente podemos representar la función de probabilidad de X:

146
0.40

0.35

0.30

0.25

0.20

0.15

0.10
0 1 2 3

Nota: el ancho de las barras no significa nada en este caso, sólo se usan para
destacar las probabilidades. Sólo importa la altura de las barras que corresponden
a las probabilidades.

¿Cuál será la probabilidad de que salgan al menos dos caras?


P{x ≤ 2} = P{x = 0} + P{x = 1} + P{x = 2} = 0,125 + 0,375 + 0,375
= 0,875
¿y la probabilidad de que el número de caras esté entre 1 y 2?

P{1 ≤ x ≤ 2} = P{x = 1} + P{x = 2} = 0,375 + 0,375 = 0,75


La probabilidad de que una variable aleatoria discreta X tome un valor entre dos cantidades a y b
será:
P{a ≤ x ≤ b} = P{x = a} + P{x = a + 1}+...+ P{x = b − 1} + P{x = b}
b
= ∑ P{x = xi }
xi = a

Propiedades de una distribución de probabilidad

Toda función de probabilidad cumple con las siguientes propiedades:


1.- pi = P{x = xi } ≥ 0 . La probabilidad de cada valor de la VA es no negativa.
k k
2.- ∑
i =1
pi = ∑ P{x = xi } = 1.
i =1
La suma de todas las probabilidades es igual a 1.

La función de distribución o de probabilidad acumulada representa en cada punto x0 la


probabilidad de que la variable tome un valor menor o igual que dicho punto, es decir,
P{x ≤ x0 } .

Ejemplo: continuando el ejemplo del número de caras al lanzar tres veces una moneda
P{x ≤ 0} = P{x = 0} = 0,125
P{x ≤ 1} = P{x = 0} + P{x = 1} = 0,125 + 0,375 = 0,5
P{x ≤ 2} = P{x = 0} + P{x = 1} + P{x = 2} = 0,5 + 0,375 = 0,875

147
P{x ≤ 3} = P{x = 0} + P{x = 1} + P{x = 2} + P{x = 3} = 0,875 + 0,125 = 1

Gráficamente la función de distribución de X sería:


1.0

0.8

0.6

0.4

0.2

0.0
0 1 2 3

Nota: el ancho de las barras no significa nada en este caso, sólo se usan para destacar las probabilidades. Sólo importa la altura de
las barras que corresponden a las probabilidades acumuladas.

Parámetros de una Variable Aleatoria Discreta


Sea X una variable aleatoria discreta, supongamos que sólo puede tomar los valores x1, x2, ..., xn, y
llamemos pi = P ( X = x i ) para todos los posibles valores de i=1, …, n.

Media o Esperanza, n

Valor Esperado
E( X ) = µ = ∑ x .P ( X = x )
i =1
i i

Varianza n
 n

Var ( X ) = σ = 2

i =1

( x i − µ ) . pi = 

2
∑ ( x . p )  − µ
i =1
2
i i
2

Desviación Típica o n
 n

Estándar σ = σ2 = ∑i =1
( x i − µ )2 . p i = 

∑ ( x . p )  − µ
i =1
2
i i
2

La media o esperanza matemática µ es el parámetro de tendencia central de la variable, indica un


valor alrededor del cual se distribuyen los datos poblacionales.
Tanto la varianza como la desviación típica son parámetros de dispersión, de tal manera que
cuanto menores son estos dos parámetros más agrupados se encuentran los valores de la
distribución entorno a los valores centrales. Por el contrario, para valores grandes de la varianza o
la desviación típica, los datos de la distribución se encuentran muy dispersos.

Supongamos que lanzamos una moneda 10 veces y contamos el número de


Interpretación del caras que salen en total, digamos que salen 8 caras, esto nos parece extraño
valor esperado y pedimos a un compañero que lance la moneda 50 veces y contamos que
salió 39 veces cara. Rápidamente dudamos de que la moneda este bien
balanceada ¿por qué? Porque esperamos que el número de veces que salga
cara sea igual (o parecido) al número de veces que sale sello.

148
El valor esperado o esperanza de una variable aleatoria es uno de los conceptos más importantes
en el estudio de las distribuciones de probabilidad. El valor esperado es un número que indica que
en períodos largos de observación, es decir, si repetimos el experimento muchas veces, el valor
que más observaremos estará cercano al valor esperado.

La media o esperanza de una variable aleatoria discreta será:


k
E ( x ) = mx = x1 p1 + x2 p2 +...+ x k pk = ∑ xi pi
i =1

Ejemplo: en una bolsa hay bolas numeradas: nueve bolas con un 1, cinco con un 2 y seis con un
3. Sacamos una bola y vemos que número tiene.

La función de probabilidad es:

xi 1 2 3
pi 9/20 5/20 6/20

La función de distribución es:


xi 1 2 3
pi 9/20 14/20 20/20

La media es 1—(9/20)+2—(5/20)+3—(6/20) = 37/20 = 1.85


La varianza es (1-1.85)2 — 9/20 + (2-1.85)2 — 5/20 + (3-1.85)2 — 6/20 = 0.72
La desviación estándar es σ = 0.72 = 0.85

La desviación típica es una medida de dispersión que depende de las unidades de medida de la
variable. Para evitar este inconveniente podemos emplear el coeficiente de variación. El
coeficiente de variación de una variable aleatoria X será:
σx
CVx =
mx

Ejercicio: Una compañía ha vendido 205 boletos para un avión de 200 plazas.
Sea x la variable aleatoria que expresa el número de viajeros que va al aeropuerto para viajar en el
avión. Su distribución es:
xi 198 199 200 201 202 203 204 205
pi 0,05 0,09 0,15 0,20 0,23 0,17 0,09 0,02

a) Hallar la probabilidad de que todos los viajeros que van al aeropuerto tengan plaza.
P{x ≤ 200} = P{x = 198} + P{x = 199} + P{x = 200} =
= 0,05 + 0,09 + 0,15 = 0,29

149
b) Obtener la probabilidad de que se quede sin plaza alguno de los viajeros que va al
aeropuerto.
P{x > 200} = P{x = 201} + P{x = 202}+...+ P{x = 205} =
= 0,2 + 0,23 + 0,17 + 0,09 + 0,02 = 0,71
P{x > 200} = 1 − P{x ≤ 200} = 1 − 0,29 = 0,71
c) Calcular el nº esperado de viajeros que acude al aeropuerto.
k
mx = ∑ xi pi = 198 × 0,05 + 199 × 0,09 + 200 × 0,15 + 201 × 0,2 +
i =1

+ 202 × 0,23 + 203 × 0,17 + 204 × 0,09 + 205 × 0,02 =


= 201,44
d) ¿Cuál es la probabilidad de que la primera persona de la lista de espera tenga sitio en el
vuelo?
P{x ≤ 199} = P{x = 198} + P{x = 199} = 0,05 + 0,09 = 0,14
Ejercicio:
Sea X una variable aleatoria que expresa el número de personas que habitan en una vivienda
elegida al azar. La distribución de probabilidad de X es la siguiente:
xi 1 2 3 4 5 6 7 8ó+
pi 0,230 0,322 0,177 0,155 0,067 0,024 0,015 0,010
a) Comprobar que es una distribución de probabilidad.
Todas las pi son mayores o iguales que cero y además se cumple que:
8

∑p i= 1
i = 0,23 + 0,322 + 0,177 + ...+ 0,010 = 1
b) Hallar la probabilidad de que el nº de personas que viven en un hogar sea menor o igual
que cuatro.
P( x ≤ 4) = P( x = 1) + P( x = 2) + P( x = 3) + P( x = 4) =
= 0,23 + 0,322 + 0,177 + 0,155 = 0,884
c) Calcular la probabilidad de que al menos dos personas vivan en una vivienda.
P( x ≥ 2) = P( x = 2) + P( x = 3) + ...`+ P( x ≥ 8) =
= 1 − P( x < 2) = 1 − 0,23 = 0,77
d) Obtener el nº medio de personas que habitan en una vivienda.
mx = 1 × 0,23 + 2 × 0,322 + 3 × 0,177 + ...+ 7 × 0,015 + 8 × 0,01 = 2,689

Propiedades de la media o Valor Esperado:

 Si X e Y son dos variables aleatorias se cumple que:


E( X + Y ) = E( X ) + E(Y )
 Si a y b son constantes se cumple que:
E( aX + b ) = aE( X ) + b

150
 El valor esperado de una constante C es igual a C, E(C) = C. Esta se desprende de la
propiedad anterior, pero vale la pena recalcarla.
 Si X e Y son independientes, E(X.Y) = E(X). E(Y)

Propiedades de la Varianza y Desviación Estándar:


 Si a y b son constantes se cumple que:
σ ax+b = a σ x . La desviación estándar es siempre positiva.
σ ax2 +b = a 2σ x2 . La varianza de una constante es cero.
 Si X e Y son dos variables aleatorias independientes se cumple que:
σ x2+ y = σ x2 + σ y2 y σ x + y = σ x2 + σ y2
Desigualdad de Chebyshev:

Existe una desigualdad muy conocida del matemático ruso Chebyshev que nos brinda la
oportunidad de entender mejor cómo la varianza mide el grado de variabilidad con respecto al
valor esperado de la variable aleatoria.

Sea X una variable aleatoria con E(X) = µ y sea c un número cualquiera. Entonces, si E(X-c)2
existe y ε es cualquier número positivo, tenemos
1
P ( X − c ≥ ε ) ≤ 2 E( X − c )2
ε
La expresión también se puede tener de las siguientes maneras:
1. Al considerar el evento complementario obtenemos:
1
P ( X − c < ε ) ≥ 1 − 2 E( X − c )2
ε
2. Al elegir c = µ obtenemos
Var ( X )
P( X −µ ≥ε)≤
ε
2

3. Al elegir c = µ y ε = kσ, donde σ 2 = Var ( X ) , obtenemos


1
P ( X − µ ≥ kσ ) ≤ 2
k
Esta última forma indica cómo la varianza mide el “grado de concentración” de la probabilidad
próxima a E(X)=µ.

Ejemplo:
La producción diaria de motores eléctricos en una fábrica es de 120 promedio con una desviación
estándar de 10.
a) ¿Qué fracción de días serán de un nivel de producción entre 100 y 140?
b) Calcular el intervalo más corto que con certeza contenga por lo menos 90% de los niveles
de producción diaria.
(a) El intervalo de 100 a 140 es de µ - 2σ a µ + 2σ siendo µ=120 , σ=10 y por tanto k=2
Utilizando el teorema de Chebyshev,

151
1
P ( X − µ ≥ kσ ) ≤
k2
1
P ( X − µ ≤ kσ ) ≤ 1 −
k2
1 1
P (100 ≤ X ≤ 140 ) ≤ 1 − 2
= 1 − = 0.75 , es decir, el 75% de los días la producción total estará
2 4
entre 100 y 140.

1
(b) Para calcular k, se debe hacer que (1 − ) = 0.9 , luego despejando k:
k2
1
= 0.1
k2
k 2 = 10 ⇒ k = 10 = 3.16

Entonces el intervalo será desde µ - kσ a µ + kσ, que sustituyendo k=3.16, µ = 120 y σ=10, se
obtiene que el intervalo buscado es:
120 – 3.16(10) a 120 + 3.16(10) que es desde 88.4 hasta 151.6
en este rango de valores debe estar por lo menos el 90% de los niveles diarios de producción.

Distribución Binomial
Supongamos que un experimento aleatorio tiene las siguientes
Distribución Binomial características:
Características •
En cada prueba del experimento sólo son posibles dos
resultados: el suceso A (éxito) y su contrario A (fracaso).
• El resultado obtenido en cada prueba es independiente de los resultados obtenidos
anteriormente.
• La probabilidad del suceso A es constante, la representamos por p, y no varía de una
prueba a otra. La probabilidad de A es 1- p y la representamos por q.
• El experimento consta de un número n de pruebas.

Todo experimento que tenga estas características diremos que sigue el modelo de la distribución
Binomial. A la variable X que expresa el número de éxitos obtenidos en el total de las n
pruebas, la llamaremos variable aleatoria binomial. Notación: X : Bin( n , p )

Ejemplos: cantidad de fumadores de una población, número de aprobados de la clase, días de


lluvia a lo largo de un año , nº de caras al tirar una moneda, etc.

La variable binomial es una variable aleatoria discreta, sólo puede tomar los valores 0, 1, 2, 3, 4, ...,
n suponiendo que se han realizado n pruebas. Como hay que considerar todas las maneras
posibles de obtener k-éxitos y (n-k) fracasos debemos calcular éstas por combinaciones (número
combinatorio n sobre k).

152
La distribución Binomial se suele representar por Bin(n,p) siendo n y p los parámetros de
dicha distribución.

Función de Probabilidad de la variable aleatoria Binomial

Como el cálculo de estas probabilidades puede resultar algo tedioso se han construido tablas para
algunos valores de n y p que nos facilitan el trabajo. (ver la tabla de probabilidades binomiales)

Parámetros de la
Distribución
Binomial

Función de Distribución de la v.a. Binomial

siendo k el mayor número entero menor o igual a xi.


Esta función de distribución proporciona, para cada número real xi, la probabilidad de que la
variable X tome valores menores o iguales que xi.

El cálculo de las F(x) = p( X ≤ x) puede resultar laborioso, por ello se han construido tablas para
algunos valores de n y p que nos facilitan el trabajo.

Ejemplo : Se lanza una moneda 11 veces:


¿Cuál es la probabilidad de obtener 5 caras?
¿Cuál es la probabilidad de obtener 5 o menos caras?
¿Cuántas caras se obtienen por término medio?
¿Cuál es la desviación típica?
Sea X el número de caras que se obtienen al lanzar 11 veces una moneda. Los únicos resultados
posibles son “cara” o “sello”, cada uno con probabilidad 0.5 de ocurrir. Esta probabilidad se
mantiene constante en cada lanzamiento y además el resultado de un lanzamiento no influye en el
resultado de otro lanzamiento de la moneda. Es decir, este proceso describe a una variable
aleatoria X binomial con parámetros p=0.5 y n = 11. X : Bin(11, 0.5)
Los posibles valores que puede tomar X son 0,1,2, …,11. Las probabilidades de cada uno de estos
posibles resultados se obtienen de aplicar la fórmula
n
P ( X = k ) =   p k q n −k , para k = 0,1, 2, ...,11 y para el caso n=11, p=0.5
k
 11   11 
P ( X = k ) =   0.5k (0.511−k ) =   0.511
k k

153
x P( X = k )
0 0.000488
1 0.005371
2 0.026855
3 0.080566
4 0.161133
5 0.225586
6 0.225586
7 0.161133
8 0.080566
9 0.026855
10 0.005371
11 0.000488
Total 0.999998 ≈ 1

Observe que la distribución es simétrica (esto sólo ocurre si p=0.5). Además que por errores de
redondeo no suma exactamente 1.

¿Cuál es la probabilidad de obtener 5 caras? P ( X = 5) =0.225586

¿Cuál es la probabilidad de obtener 5 o menos caras?


P( X ≤ 5) = P ( X = 0) + P ( X = 1) + P ( X = 2) + P ( X = 3) + P ( X = 4) + P ( X = 5)
P ( X ≤ 5) = 0.000488+0.005371+…+0.225586=0.499999 ≈ 0.5

¿Cuántas caras se obtienen por término medio? E(X) = n.p = 11 (0.5) = 5.5

¿Cuál es la desviación típica? Var(X) = npq ⇒ Desviacion = σ = npq = 11(0.5)(0.5) = 1.6583

Ejemplo:
Una máquina fabrica una determinada pieza y se sabe que produce un 7 por 1000 de piezas
defectuosas. Hallar la probabilidad de que al examinar 50 piezas sólo haya una defectuosa.

Se trata de una distribución binomial, Bin(50,0.007) y debemos calcular la probabilidad P(X=1).

154
Ejemplo:
La probabilidad de éxito de una determinada vacuna es 0,72. Calcula la probabilidad de a que una
vez administrada a 15 pacientes:

a) Ninguno sufra la enfermedad


b) Todos sufran la enfermedad
c) Dos de ellos contraigan la enfermedad

Se trata de una distribución binomial de parámetros Bin(15, 0.72)

Ejemplo:
La probabilidad de que el carburador de un coche salga de fábrica defectuoso es del 4 por 100.
Hallar:
a) El número de carburadores defectuosos esperados en un lote de 1000
b) La varianza y la desviación típica.

Solución :

155
TABLA DE DISTRIBUCIÓN BINOMIAL

156
Ajuste de una distribución Binomial a una observada.

Cuando se realiza una investigación estadística y se agrupan los datos obtenidos en una
distribución de frecuencias, los datos siguen en mayor o menor grado una de las distribuciones
teóricas (Binomial, Poisson, Geométrica, Multinomial, Normal, T-Student, etc.); por lo que se
hace necesario verificar el grado de aproximación de la distribución observada a la teórica.
Para realizar esta comparación es necesario calcular las frecuencias teóricas y comparar luego con
las observadas. Si las diferencias son pequeñas se dice que el ajuste es bueno y que los datos tienen
una distribución tal como lo describe el modelo teórico. Esta comparación se realizará más
adelante, con de los test de hipótesis de bondad de ajuste o prueba Chi-cuadrado. Vamos a
presentar una forma de obtener este ajuste de manera muy superficial.

Cuando el ajuste se realiza con una distribución Binomial, el problema consiste en el cálculo del
parámetro p de la distribución binomial. Una forma de resolver este problema es igualar el
x
promedio aritmético x con su estimado n.p , de donde se obtiene que p = . De esta manera se
n
pueden calcular las probabilidades de la binomial(n,p).
Luego se multiplican las probabilidades obtenidas por el total de frecuencias observadas ( ∑f i ),
esto nos da las frecuencias esperadas que luego se comparan con las observadas y se decide si el
ajuste es adecuado o no.

Ejemplo:
Se han tomado al azar 300 mujeres con no más de 6 hijos y se han agrupado en la siguiente
distribución de frecuencias:
Número Número de
de Hijos Mujeres
(x) (fi)
0 20
1 40
2 70
3 80
4 50
5 30
6 10

Ajuste la distribución observada a la teórica.

1. Primero buscamos la media aritmética :


0(20) + 1(40) + 2(70) + 3(80) + 4(50) + 5(30) + 6(10) 830
x= = = 2.76667
300 300

157
x 2.76667
2. Calculamos ahora p = = = 0.46111 , así que q =1-0.46111=0.53889
n 6

3. Ahora se calculan las probabilidades P ( X = x i ) y se multiplican por ∑f i =300,


obteniendo así las frecuencias esperadas.

Número Número de P( X = x i ) Frecuencias Diferencia d i2


de Hijos Mujeres Teóricas Absoluta
fo
(x) (fi) fo di
0 20 0.024490 7 13 24.1
1 40 0.125742 38 2 0.1
2 70 0.268961 81 11 1.5
3 80 0.306866 92 12 1.6
4 50 0.247815 59 9 1.4
5 30 0.067383 20 10 5.0
6 10 0.009612 3 7 16.3
Total 300 1 300 50

La tercera columna de la tabla se obtiene al calcular


n
P ( X = k ) =   p k (1 − p )n −k , para k = 0,1, 2, ..., 6
k
La cuarta columna (frecuencias teóricas) se obtiene al multiplicar cada término de la 3era columna
(probabilidades binomiales) por el total de las frecuencias (300). Aquí hay que redondear al entero
más cercano.
La quinta columna se obtiene al restar (en valor absoluto) los valores de la 2da columna con los de
la 4ta. Es decir, valor observado – valor esperado.
La sexta y última columna se realiza elevando al cuadrado los valores de la 5ta ( di ) y luego
d2
dividiéndolos entre los valores de la 4ta (fo), es decir, i .
fo
Por último se suman los valores de la última columna y se compara con un número C, en realidad
el valor exacto de C depende de la distribución Chi-Cuadrado y un nivel de significancia, para
evitar adentrarnos más en este tipo de pruebas podemos tomar C=n, y obtendremos un resultado
adecuado.
d i2
En este caso las diferencias son grandes, ya que ∑ fo
= 50 y este valor es mucho mayor que n=

6. Por lo tanto se decide que la distribución observada no se ajusta a una distribución binomial.

158
Apariencia general de una 1. Cuando p es pequeña, la distribución es sesgada hacia la
derecha
distribución binomial:
2. Cuando p es 0.5 la distribución es simétrica
3. Cuando p es grande la distribución es sesgada hacia la
izquierda.

Distribución Poisson

La distribución de Poisson es de gran utilidad cuando tenemos variables distribuidas a través del
tiempo o del espacio. Es el caso del número de llamadas que entran a una central telefónica en
una unidad de tiempo, la cantidad de personas que atiende un cajero en una hora, la cantidad de
gotas de lluvia que caen en un terreno, las llegadas de automóviles en una caseta de peaje, los
artículos defectuosos que hay en un lote de producción. Todos estos ejemplos se pueden
describir como procesos aleatorios discretos que toman valores como 0,1,2,3,4,5,…De hecho si se
restringe el período de observación, digamos que contamos la cantidad de vehículos que pasan
por una esquina en un período de 10 minutos, los valores serán de igual forma números enteros:
0,1,2,3,….k.

La distribución Poisson debe su nombre a Siméon Denis Poisson (1781-1840), un francés que
desarrollo la distribución a partir de sus estudios que realizó en los últimos años de su vida.

Características de los procesos de Poisson

159
El número de clientes que llegan a una caseta de pago de flete en una carretera es un ejemplo de
un proceso poisson y lo utilizaremos para caracterizarlo, otros procesos que tengan las mismas
características serán también procesos Poisson:
1. El promedio (media) del número de vehículos que llegan a la caseta en un período de
tiempo fijo (suponga por ejemplo en un período de una hora pico), se puede estimar por
medio de datos que se tengan de otras horas picos de días anteriores.
2. Si dividimos la hora pico en períodos (intervalos) de un segundo cada uno,
encontraremos que las siguientes afirmaciones son verdaderas:
a. La probabilidad de que exactamente un vehículo llegue a la caseta por segundo es
muy pequeña y es constante para cada intervalo de un segundo.
b. La probabilidad de que dos o más vehículos lleguen en un intervalo de un
segundo es tan pequeña que le podemos asignar el valor cero.
c. El número de vehículos que llegue en un intervalo de tiempo es independiente de
la ubicación del periodo de tiempo en la hora pico.
d. El número de llegadas de cualquier intervalo de tiempo es independiente del
número de llegadas de otro periodo de tiempo.
Al generalizar el proceso anterior debemos tomar en cuenta que los procesos poisson se
caracterizan generalmente por procesos de llegadas o de colas en donde se cuenta la ocurrencia
de un evento (que tiene probabilidad específica muy pequeña de ocurrir) en un periodo de
tiempo o en un espacio determinado.

La función de probabilidad de Poisson es:

Donde:

160
El número "e" es 2,71828 aproximadamente
" λ " = Lambda es el parámetro de la distribución y representa la tasa de ocurrencia del evento
observado, es el promedio de ocurrencias durante un intervalo especifico.
" k " es el número de éxitos en la unidad de tiempo o de espacio considerado

Parámetros y Características de
una Variable X distribuida Poisson
con parámetro λ
X : Poissson( λ )
Valor λ
Esperado:
Media
Varianza λ
Desviación λ
Estándar

El cálculo de probabilidades poisson se puede hacer por medio de tablas de valores de la


distribución poisson, para esto sólo necesitamos conocer el valor de λ y el valor de X=k. Aunque
también se puede hacer de manera directa con una calculadora pero necesitaríamos calcular e − λ .

Ejemplo:
Un cajero de un banco atiende en promedio 7 personas por hora, cual es la probabilidad de que
un una hora determinada:

c) Atienda menos de 5 personas


d) Atienda más de 8 personas
e) Atienda más de 5 pero menos de 8 personas
f) Atienda exactamente 7 personas

Denotemos por X al número de clientes que atiende el cajero en un periodo de una hora.
X : Poisson(7)
a) Probabilidad de que atienda menos de 5 personas =
P(X<5) = P(X=0) + P(X=1)+…+P(X=4)=
0 1 2 3 4
−7 7 −7 7 −7 7 −7 7 −7 7
e +e +e +e +e =
0! 1! 2! 3! 4!
 70 71 72 73 74 
e −7  + + + +  =
 0 ! 1! 2 ! 3! 4 ! 
 70 71 72 73 74 
−7
e  + + + + =
 0 ! 1! 2 ! 3! 4 ! 

 1 7 49 343 2401 
0.00091188  + + + + =
1 1 2 6 24 

161
0.00091188 ( 189.70833333) = 0.17299
P(X<5) = 0.17299
También podemos buscar P(X<5) = P( X ≤ 4) directamente en la tabla de la Distribución
Acumulativa de Poisson, se busca con λ = 7 en la fila de x=4 y obtenemos directamente P(X<5)
= 0.1730.

b) Probabilidad de que atiendan a más de 8 personas = P(X>8) = 1 – P(X≤ 8) = 1- 0.7291 =


0.2709.
c) Continúe usted mismo…

162
TABLA DE DISTRIBUCIÓN ACUMULATIVA POISSON
En la tabla se encuentran las probabilidades acumuladas de una variable que se distribuye Poisson
con parámetro λ.
x
 −λ λ k 
F ( x ) = P( X ≤ x ) =∑ e
k =0 
k! 

Por ejemplo si X : Poisson(4) y queremos calcular P(X ≤ 6) , buscamos en la tabla la columna de λ = 4 y


luego buscamos la intersección con la fila que indica x=6, que en este caso sería 0.8893.

163
Continuación de la tabla de probabilidades de una distribución Poisson (λ)

164
Continuación de la tabla de probabilidades de una distribución Poisson (λ)

165
Ejemplo:
La probabilidad de que un niño nazca pelirrojo es de 0,012. ¿Cuál es la probabilidad de que entre
800 recién nacidos haya 5 pelirrojos?

Luego,
P (x = 5) = 4,602

Por lo tanto, la probabilidad de que haya 5 pelirrojos entre 800 recién nacidos es del 4,6%.

Ejemplo
Durante la segunda guerra mundial cayeron sobre Londres 537 bombas voladoras. El área
afectada fué dividida en 576 sectores iguales. Sea Nk el número real de sectores en los cuales
cayeron k bombas. Suponiendo que las bombas cayeron al azar, el número esperado de bombas
por sector es 537/576= 0.932. La probabilidad que caigan k bombas en un sector, según la

aproximación Poisson, es Pk= e 0.932 (0.932)k / k! La tabla abajo muestra la comparación entre
real y teórico:

k 0 1 2 3 4 ≥5
Nk 229 211 93 35 7 1
576 Pk 226 211 99 31 7 2

Aproximación Poisson a la distribución binomial

En algunas ocasiones, si deseamos evitar la tediosa tarea de distribuciones binomiales, podemos


utilizar la distribución de poisson. Sólo en casos cuando n es “grande” y p es “pequeño” se
obtienen resultados muy parecidos en ambas distribuciones. Se conviene que para poder utilizar la
aproximación de la poisson a la binomial debe ser que n ≥ 20 y que p ≤ 0.05 .

Si n es “grande” y p es “pequeño” tenemos la siguiente aproximación:

k
 n  k n −k −np ( np )
k p q ≈e
  k!

Por lo tanto podemos aproximar la binomial por la poisson, calculando la media de la distribución
poisson, λ = n . p y sustituyéndola en la ecuación de la distribución de probabilidades.

Ejemplo:
En un hospital hay 20 aparatos de diálisis de riñón y que la probabilidad de que cualquiera de ellos
no funcione bien durante un día es de 0.02. ¿Cuál es la probabilidad de que exactamente tres
máquinas dejen de funcionar el mismo día?

166
Planteamiento Poisson Planteamiento Binomial
( np )k .e − np n 
P( X = k ) = P ( X = k ) =   p k (1 − p )n −k
k! k 
[(20)(0.02)]3 .e −( 20)( 0.02)  20 
P ( X = 3) = P ( X = 3) =   0.02 3 (0.98)17 = 0.0065
3! 3
(0.064)(0.67032)
P ( X = 3) = = 0.00715
6

Opcional
Distribución Hipergeométrica
La distribución binomial se utiliza en los casos en donde la probabilidad de observar un éxito sea
constante y no varia entre una observación y otra del experimento, en la práctica a veces se realiza
un muestreo sin re-emplazamiento lo que hace que la probabilidad de observar una característica
(éxito) en una población finita varíe de una observación a otra. En estos casos se utiliza la
distribución hipergeométrica.

La distribución hipergeométrica es el modelo que se aplica en experimentos del siguiente tipo:


En una urna hay bolas de dos colores (blancas y negras), ¿cuál es la probabilidad de que al sacar 2
bolas las dos sean blancas?

Son experimentos donde, al igual que en la distribución binomial, en cada ensayo hay tan sólo dos
posibles resultados: o sale blanca o no sale. Pero se diferencia de la distribución binomial en que
los distintos ensayos son dependientes entre sí:
Si en una urna con 5 bolas blancas y 3 negras en un primer ensayo saco una bola blanca, en el
segundo ensayo hay una bola blanca menos por lo que las probabilidades son diferentes (hay
dependencia entre los distintos ensayos).

La distribución hipergeométrica sigue el siguiente modelo:


 N 1  N 2 
 k  n − k 
P ( X = k ) =   
 
N
k
 
En el ejemplo:
N: es el número total de bolas en la urna
N1: es el número total de bolas blancas
N2: es el número total de bolas negras
k: es el número de bolas blancas cuya probabilidad se está calculando
n: es el número de ensayos que se realiza

167
Ejemplo: en una urna hay 7 bolas blancas y 5 negras. Se sacan 4 bolas ¿Cuál es la probabilidad de
que 3 sean blancas?
Entonces:
N = 12; N1 = 7; N2 = 5; k = 3; n = 4
Si aplicamos el modelo:
 7  5 
 3  1 
P ( X = 3) =    =
175
= 0.35
 12  495
4
 

Ejemplo: en una fiesta hay 20 personas: 14 casadas y 6 solteras. Se eligen 3 personas al azar ¿Cuál
es la probabilidad de que las 3 sean solteras?

 6  14 
 3  0 
P ( X = 3) =    = 0.0175
 20 
3
 
Generalmente se aplica la distribución hipergeométrica cuando:
1. Se selecciona una muestra de tamaño n de una población finita de N elementos
(sin re-emplazo)
2. El tamaño de la muestra n es más de 5% del tamaño de la población N
3. Se quiere determinar la probabilidad de un número k de éxitos o de fracasos.

En la práctica los resultados de una probabilidad calculada por la distribución hipergeométrica es


muy parecido a los resultados que se obtendrían al aplicar el modelo binomial. Como regla general
si el tamaño de la muestra es menor del 5% del tamaño de la población se puede utilizar la
distribución binomial para aproximar los valores de la hipergeométrica.

DISTRIBUCIÓN DE VARIABLE CONTINUA

Por ejemplo: Supongamos que vamos a realizar un experimento aleatorio que consiste en
seleccionar una persona y apuntar su peso. Podemos crear una variable aleatoria cuyos valores
sean el número de kilogramos que pesa la persona observada. En este caso, el rango de valores
posibles se extiende entre los límites naturales, pero la continuidad de esta variable aleatoria radica
en el carácter continuo de lo que medimos, el peso, es decir, en el hecho de que entre dos valores
posibles se podrían obtener infinitos valores intermedios, también posibles si utilizáramos
aparatos con suficiente precisión. Estos "infinitos" en el interior del rango de la variable es lo que
diferencia a las variables continuas de las discretas.

Sea X una variable aleatoria continua. Si queremos conocer su distribución de probabilidad no


nos sirve la función de probabilidad empleada con las discretas (cada valor con su probabilidad

168
asociada) porque la variable continua toma infinitos valores y la probabilidad asociada a cada valor
es nula. Recuerde que al ser la variable aleatoria continua el espacio donde esta definida no es
contable y por lo tanto carece de sentido hablar de P(X=xi)

Emplearemos la función de densidad f(x). Expresa la “densidad” o concentración de probabilidad


en cada zona. Expresa las probabilidades por áreas. Sus valores más altos corresponden a zonas
en las que es más probable que aparezcan resultados del experimento aleatorio.

Decimos que una variable aleatoria X es continua, si existe una función f, llamada función de
densidad de probabilidad (fdp) de X, que satisface las siguientes condiciones:

f(x) P(a≤X≤b)

Si X es una variable aleatoria continua con valores en un intervalo [a, b], entonces F(x) será la
probabilidad de que la variable X tome valores entre a y x. F(x)=P(a X x).

Es decir, la función de distribución F(x) es una primitiva de la función de densidad f(x), o dicho
de otra forma, la función de densidad es la derivada de la función de distribución.
Indica la probabilidad de que la variable aleatoria continua X sea menor o igual que un valor dado,
es decir, proporciona la probabilidad acumulada hasta un determinado valor de la variable.

169
PARÁMETROS DE UNA VARIABLE ALEATORIA CONTINUA
Por analogía con las definiciones de estos conceptos para variables aleatorias discretas, se definen
la esperanza matemática o media µ , la varianza σ2 y la desviación típica σ de una variable
aleatoria continua de la siguiente forma :

TIPIFICACIÓN DE UNA VARIABLE ALEATORIA


Si X es una variable aleatoria de media µ y desviación típica σ , la
variable Y=(X-µ)/σ tiene de media 0 y de desviación típica 1, y se llama tipificada de X.
Podemos decir que mide la desviación de X respecto de su media, tomando como unidad la
desviación típica de X.

Distribución Normal
Ya se había definido la distribución normal en la página 79 cuando se tomaba de referencia para
el cálculo de la curtosis, recuerde que la curtosis es una medida de apuntamiento o concentración
de la distribución y se calcula al comparar el coeficiente de curtosis de 4to momento entre la
distribución normal (que es igual a 0 en la fórmula de K) contra el valor obtenido en la
distribución de la variable que se estudia.

La mayoría de las distribuciones más importantes son normales, por eso en la práctica se puede
decir que la distribución normal es la más relevante entre todas la distribuciones. Por ejemplo la
distribución de los pesos de los individuos de cualquier especie, la estatura de una población, la
longitud de los tornillos que salen de una fábrica, el peso de las latas en un proceso de
producción industrial, entre otras.

No todas las distribuciones son normales por ejemplo si clasificamos según el nivel de renta a los
ciudadanos venezolanos son muy pocos los que poseen niveles de rentas altas y en cambio son
muchos los que poseen niveles de rentas bajas, por tanto la distribución no sería simétrica y en
consecuencia no se adapta al modelo normal.

Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas. Su propio nombre


indica su extendida utilización, justificada por la frecuencia o normalidad con la que ciertos
fenómenos tienden a parecerse en su comportamiento a esta distribución.

Muchas variables aleatorias continuas presentan una función de densidad cuya gráfica tiene forma
de campana.

170
En otras ocasiones, al considerar distribuciones binomiales, tipo B(n,p), para un mismo valor
de p y valores de n cada vez mayores, se ve que sus polígonos de frecuencias se aproximan a
una curva en "forma de campana".

En resumen, la importancia de la distribución normal se debe principalmente a que hay muchas


variables asociadas a fenómenos naturales que siguen el modelo de la normal

• Caracteres morfológicos de individuos (personas, animales, plantas,...) de una especie, p.ejm.


tallas, pesos, envergaduras, diámetros, perímetros,...
• Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco, o de una
misma cantidad de abono.
• Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo grupo de
individuos, puntuaciones de examen.
• Caracteres psicológicos, por ejemplo: cociente intelectual, grado de adaptación a un medio,...
• Errores cometidos al medir ciertas variables.
• Valores estadísticos muestrales, por ejemplo : la media.
• Otras distribuciones como la binomial o la de Poisson son aproximaciones normales, ...

Y en general cualquier característica que se obtenga como suma de muchos factores.

Función de densidad : una variable continua X sigue una distribución normal de media µ y
desviación típica σ , y se designa por N( µ , σ ) , si cumple que
2
1  x −µ 
1 −  
2 σ 
f(x) = e
σ 2π

Representación gráfica de esta función de


densidad

La distribución normal queda definida por dos parámetros, su media y su desviación típica y la
representamos así

171
Para calcular los máximos y mínimos deberíamos hacer:
2
1  x −µ 
1 −  
2 σ 
f(x) = e
σ 2π
x −µ
f '(x) = - f(x) , puesto que f(x) nunca puede valer 0 entonces , si x = µ f ' (x) = 0
σ
por lo que será un posible máximo o mínimo .
1  x −µ 
2

f ''(x) = − 2 1 −    f ( x ) luego f ''( µ ) <0 por lo que hay un máximo en el


σ   σ  
1
punto ( µ, )
σ 2π

Conviene observar que cuando la desviación típica es elevada aumenta la dispersión y se hace
menos puntiaguda la función ya que disminuye la altura del máximo. Por el contrario para valores
pequeños de σ obtenemos una gráfica menos abierta y más alta.

172
FUNCIÓN DE DISTRIBUCIÓN

• Puede tomar cualquier valor (- ∞, + ∞)


• Son más probables los valores cercanos a uno central que llamamos media µ
• Conforme nos separamos de ese valor µ, la probabilidad va decreciendo de igual forma a
derecha e izquierda (es simétrica).
• Conforme nos separamos de ese valor µ, la probabilidad va decreciendo de forma más o
menos rápida dependiendo de un parámetro, σ, que es la desviación típica.

F(x) es el área sombreada de esta gráfica

Cuando µ = 0 y σ =1 , N(0,1) se dice que tenemos una distribución normal reducida , estándar o
tipificada.

Distribución Normal Estándar N(0,1)

La distribución N(0,1) se encuentra tabulada , lo cual permite un cálculo rápido de las


probabilidades asociadas a esta distribución . Pero en general la media no suele ser 0 , ni la
varianza 1 , por lo que se hace una transformación que se llama tipificación de la variable , que
consiste en hacer el siguiente cambio de variable :
x −µ
Z=
σ
a partir del cual obtenemos una variable Z que si es N(0,1) y que por lo tanto podemos calcular
sus probabilidades por medio de

Y la representación gráfica de esta función sería

173
a la variable Z se la denomina variable tipificada de X, y a la curva de su función de densidad curva
normal tipificada.

Característica de la distribución normal tipificada (reducida, estándar)

• No depende de ningún parámetro


• Su media es 0, su varianza es 1 y su desviación típica es 1.
• La curva f(x) es simétrica respecto del eje OY
• Tiene un máximo en este eje
• Tiene dos puntos de inflexión en z =1 y z = -1

MANEJO DE TABLAS. CASOS MÁS FRECUENTES.


La distribución de la variable Z se encuentra tabulada

174
175
TABLA DE DISTRIBUCIÓN
NORMAL TIPIFICADA (0,1)

176
Ejemplo: si tenemos N(2,4) y queremos calcular p(x<7) entonces :
 x − 2 7−2
p(x<7) = p <  = p( z < -5/4 ) = Ф(-5/4)=0.1056
 4 4 

Manejo de tablas : pueden presentarse los siguientes casos :


p(z<1.45) = 0'9265
p(z<-1.45) = 0'0735
p(1'25<z<2'57) = 0'1005
p(-2'57<z<-1'25) = 0'1005
p(-0'53<z<2'46) = 0'695

Utilización conjunta de µ y σ :
En (µ ± σ) está el 68'26% de los datos ya que :
µ−σ−µ µ+σ−µ
p( µ - σ <X< µ + σ ) = p  <Z<  = p(-1< Z < 1) = 0.6826
 σ σ 
Análogamente se puede comprobar que en (µ ± 2σ) está el 95'4% de los datos y en (µ ± 3σ) está
el 99'7%.

Ejemplo: El C.I. de los 5600 alumnos de una provincia se distribuyen N(112,6) . Calcular
aproximadamente cuántos de ellos tienen :
a) más de 112 .................2800 alumnos.................la mitad de los alumnos
b) entre 106 y 118 ..........3823 alumnos .................este es el caso : (µ ± σ)
c) entre 106 y 112 ...........1911 alumnos
d) menos de 100 ..............128 alumnos
e) más de 130 ..................7 alumnos
f) entre 118 y 124 ............761 alumnos
( ojo hay que multiplicar % obtenido en la tabla por 5600/100 , que sale de una regla de tres )

Aproximación de la Binomial por la Normal (Teorema de De Moivre) :


Demostró que bajo determinadas condiciones (para n grande y tanto p como q no estén próximos
a cero) la distribución Binomial B(n, p) se puede aproximar mediante una distribución normal

Debemos tener en cuenta que cuanto mayor sea el valor de n, y cuanto más próximo sea p a 0.5,
tanto mejor será la aproximación realizada. Es decir, basta con que se verifique

gracias a esta aproximación es fácil hallar probabilidades binomiales, que para valores grandes
de n resulten muy laboriosos de calcular.

177
Hay que tener en cuenta que para realizar correctamente esta transformación de una variable
discreta (binomial) en una variable continua (normal) es necesario hacer una corrección de
continuidad.

178
Ejemplo: Se ha comprobado que la probabilidad de tener un individuo los ojo marrones es 0.6.
Sea X la variable aleatoria que representa el nº de individuos que tienen los ojos marrones de un
grupo de 1100. Calcular P(X>680) y P(X=680)
680 − (110)0.6
P(X>680) = 1 - P(X<680) = 1 - P(Y< ) = 1 - P(Y<1.23) = 0.1093
(1100)(0.6)(0.4)
P(X = 680) = P(679.5<X<680.5) se debe hacer así puesto que en una variable continua no tiene
sentido calcular probabilidades de valores puntuales.

Si representamos en un sistema de referencia, en el eje de las abscisas los valores de X y en el eje


de las ordenadas los valores Bin(n,p) , para distintos n y p=0.5, tenemos:

El Teorema Central del Límite en lenguaje cotidiano dice que si tenemos un grupo numeroso
de variables independientes y todas ellas siguen el mismo modelo de distribución (cualquiera que
éste sea), la suma de ellas se distribuye según una distribución normal.

Ejemplo: la variable "tirar una moneda al aire" sigue la distribución de Bernoulli. Si lanzamos la
moneda al aire 50 veces, la suma de estas 50 variables (cada una independiente entre si) se
distribuye según una distribución normal.
Este teorema se aplica tanto a suma de variables discretas como de variables continuas.
Los parámetros de la distribución normal son:
Media: n * µ (media de la variable individual multiplicada por el número de variables
independientes)

179
Varianza: n * σ2 (varianza de la variable individual multiplicada por el número de variables
individuales)

Ejemplo:
Se lanza una moneda al aire 100 veces, si sale cara le damos el valor 1 y si sale cruz el valor 0.
Cada lanzamiento es una variable independiente que se distribuye según el modelo de Bernouilli,
con media 0,5 y varianza 0,25.
Calcular la probabilidad de que en estos 100 lanzamientos salgan más de 60 caras.
La variable suma de estas 100 variables independientes se distribuye, por tanto, según una
distribución normal.
Media = 100 * 0,5 = 50
Varianza = 100 * 0,25 = 25
Para ver la probabilidad de que salgan más de 60 caras calculamos la variable normal tipificada
equivalente:

(*) 5 es la raiz cuadrada de 25, o sea la desviación típica de esta distribución


Por lo tanto:
P (X > 60) = P (Y > 2,0) = 1- P (Y < 2,0) = 1 - 0,9772 = 0,0228
Es decir, la probabilidad de que al tirar 100 veces la moneda salgan más de 60 caras es tan sólo del
2,28%

180
Cuestionario del Capítulo V:

1. A partir de la gráfica siguiente, de una función de probabilidad:

a. Construya la tabla de la función de probabilidad.


b. Encuentre el valor esperado de la variable aleatoria.
2. La única información disponible que tiene usted con respecto a la distribución de
probabilidad de un conjunto de resultados es la siguiente lista de frecuencias:
x 0 15 30 45 60 75
fi 25 125 75 175 75 25
a. Construya la función de probabilidad para el conjunto de datos.
b. Encuentre el valor esperado.
3. Suponga que alguien le propone un juego que consiste en lanzar al aire una moneda 3 veces, si consigue 3 caras ganará 20$, si consigue
2 caras ganará 10$, si consigue 1 cara perderá 12$ y si son todos sellos perderá 20$.
a. Determine la función de probabilidad siendo la variable aleatoria el número de
caras.
b. Con base a las probabilidades obtenidas anteriormente y siendo ahora la variable
aleatoria la cantidad de dinero que gana o pierde en cualquier lanzamiento.
¿Aceptaría usted jugar?
4. En una empresa de inversiones trabajan 20 analistas. Todas las mañanas se le encarga
a cada analista que evalúe de uno a cinco valores.
Los encargos que se hicieron esta mañana fueron:

# de valores 1 2 3 4 5
# de analistas 4 2 3 5 6
a. Determinar la función de probabilidad para la variable aleatoria del número de
valores asignados a los analistas esta mañana.
b. Determinar la media y la varianza para la misma variable.
5. La tabla siguiente muestra la función de distribución acumulativa de la variable
aleatoria X
x 1 2 3 4
F(x) 1/8 3/8 3/4 1

181
Determinar:
a. La función de probabilidad.
b. P(1≤ X ≤ 3) Sol: 3/4
c. P(X ≥ 2) Sol: 7/8
d. P(X < 3) Sol: 3/8
e. P(X > 4) Sol: 7/8

6. Un analista de mercado de una compañía que fabrica aviones de combate, tiene la


creencia de que el nuevo avión de la compañía tiene 70% de posibilidades de ser
escogido para sustituir por completo a los aviones de combate de la fuerza aérea. Sin
embargo, existe una posibilidad entre 5 de que la fuerza aérea compre sólo el número
necesario de esos aviones para sustituir la mitad de sus 50 aviones de combate.
Por último, existe una posibilidad entre 10 de que la fuerza aérea sustituya toda su
flotilla de aviones de combate por los aviones de esta compañía y que además compre
el número suficiente de éstos para ampliar el número de sus unidades en 10%.
Hallar la función de probabilidad de la variable aleatoria y trace la gráfica.
7. El director de una compañía de encomiendas, está preocupado respecto al número de
cartas de 1ra clase que su compañía ha perdido. Debido a que estas cartas son
transportadas en camión y por avión, el director de la compañía ha clasificado las
cartas extraviadas durante los últimos 2 años como las que se perdieron en camión y
las que se extraviaron en avión.

Los datos son los siguientes:

Mes E F M A M J J A S O N D
M E D I O
Camión 4 5 2 3 2 1 3 5 4 7 0 1
Avión 5 6 0 2 1 3 4 2 4 7 4 0

El director planea investigar a uno de los dos departamentos, el de tierra o el de aire,


pero no a ambos. Si decide abrir una investigación en el departamento que tenga el
mayor número esperado de cartas perdidas por mes. ¿A cuál departamento deberá
investigar?
Sol: al aéreo.
8. De un estudio que se realizó en una determinada comunidad del área metropolitana de
Caracas, se encontró que de cada 400 personas, 300 están alfabetizadas mientras que el
resto no lo está. Si se extraen 3 personas sin reemplazo, considerando X como la
variable que denote el total de personas alfabetizadas, construya la función de
probabilidad.
9. Una moneda está cargada de tal modo que hay 3 veces más probabilidad de que caiga
cara que sello. Para 3 lanzamientos independientes de la moneda, Halle:
a. La función de probabilidad de X siendo ésta el número total de caras.
b. Probabilidad de que cuando mucho caigan dos caras.
10. Un vendedor ambulante cuyo puesto está ubicado frente a un edificio de oficinas, tiene
que determinar si en el día de hoy vende refrescos o helados; pues considera que la
utilidad que realice en el día dependerá del clima. Adjunto se muestra la tabla de
rendimiento:

182
Venta de Refresco Helado
Clima
Frío 40 20
Cálido 55 80
El vendedor, con base a su experiencia, sabe que en esta época del año la probabilidad
de que haga un clima cálido es de un 60%. Determine cuál de los dos bienes debe
vender.
11. Un inversionista dispone de cierta cantidad de dinero para invertir de inmediato. Tiene
3 alternativas de inversión: A, B, C. En la siguiente tabla se representan las utilidades
estimadas de cada cartera de acuerdo a las condiciones de la economía:

Evento A B C
Economía en declive 500$ -2000$ -7000$
No hay cambios 1000$ 2000$ -1000$
Economía en expansión 2000$ 5000$ 20000$
Con base a su experiencia, el inversionista asigna las siguientes probabilidades a cada
una de las condiciones de la economía:
 Probabilidad de economía en declive: 30%
 Probabilidad de que no ocurran cambios: 50%
 Probabilidad de expansión económica: 20%
a. Determinar la mejor elección de cartera para el inversionista.

BINOMIAL:
12. Sea X binomial con n = 10 y p = 0.4. Calcular las probabilidades siguientes:
a. P[X ≤ 4].
b. P[X < 4].
c. P[X = 6].
d. P[X ≥ 5].
e. P[X > 6].
f. P[3 ≤ X ≤ 6].
g. P[4 ≤ X ≤ 7].
h. P[3 ≤ X < 6].
i. P[4 < X ≤ 7]
13. Sea X binomial con n = 30 y p = 0.23. Calcular las probabilidades siguientes:
a. P[X ≤ 4]. b. P[X < 4]. c. P[X = 4]. d. P[2 <X ≥ 5].
14. Un examen consta de 15 preguntas cada una de las cuales tiene 4 posibles respuestas. Una
persona sin conocimientos del tema responde las preguntas al azar.
a. ¿Cuál es la probabilidad de que acierte la respuesta si contesta sólo una pregunta?
b. ¿Cuál es la probabilidad de que conteste acertadamente a más de la mitad de las
preguntas?
c. Hallar la probabilidad de que dicha persona no conteste bien a ninguna de las 15
preguntas. Calcular la probabilidad de que acierte alguna.
d. Obtener la probabilidad de que responda bien a todas las preguntas.
15. En una distribución binomial, sea X el número de éxitos obtenidos en diez ensayos donde
la probabilidad de éxito en cada uno es de 0.8. Demostrar que la probabilidad de lograr de
manera exacta seis éxitos es igual a la probabilidad de tener cuatro fracasos.

183
16. Un vendedor de seguros sabe que la oportunidad de vender una póliza es mayor mientras
más contactos realice con clientes potenciales. Si la probabilidad de que una persona
compre una póliza de seguro después de la visita, es constante e igual a 0.25, y si el
conjunto de visitas constituye un conjunto independiente de ensayos, ¿cuántos
compradores potenciales debe visitar el vendedor para que la probabilidad de vender por
lo menos una póliza sea de 0.80?
17. La probabilidad de que un estudiante que ingresa a la Universidad se gradúe es de 0,4.
Hallar la probabilidad de que entre 15 estudiantes elegidos al azar:
a) Ninguno se gradúe.
b) Sólo Cuatro se gradúen.
c) Al menos cinco se gradúen.
d) A lo sumo cuatro se gradúen.
18. Suponga que el 8% de los artículos que produce una máquina automática son defectuosos.
Si se toma al azar una muestra de 20 defina la variable que le permita calcular las
probabilidades siguientes:
a) Que en la muestra haya 2 artículos defectuosos.
b) Que en la muestra haya como máximo 3 artículos defectuosos.
c) Que en la muestra haya 18 artículos defectuosos como mínimo.
d) Que en la muestra haya entre 2 y 5 artículos defectuosos.
19. Una compañía de petróleos dispone de diez tanques distribuidos a lo largo de una extensa
área del Golfo de México. Los oficiales creen que, en condiciones normales, cada tanque
tiene sólo un 1% de posibilidades de tener una pérdida de petróleo en todo el año. Sea X
el número de tanques que han experimentado pérdidas durante el año.
a) Fundamentar que X es binomial.
b) Encontrar la expresión para la función de probabilidad.
c) ¿Qué probabilidad hay de que haya más de 7 tanques con pérdidas?
d) Hallar E[X], Var [X] y σ.
e) Si los tanques están muy próximos y se produce alguna eventualidad (tal
como un huracán o un terremoto), ¿es correcto suponer que X es binomial?
Razonar la respuesta.
20. Suponga que 60% de toda la gente prefiere Pepsi Cola en vez de Coca Cola. Se
seleccionan al azar 18 personas que toman refrescos para un estudio.
e. De las 18, cuantas cree que prefieran Pepsi cola
f. Cuál es la probabilidad de que 10 de las personas prefieran Pepsi cola?
g. Cuál es la probabilidad de que al menos 6 personas prefieran Pepsi Cola?
h. Cuál es la probabilidad de que a lo sumo 4 personas prefieran Pepsi Cola?
21. Se considera que un proceso de producción está bajo control estadístico si la fracción
defectuosa de la producción es menor o igual a 0.10. Para determinar si el proceso está
fuera de control se han sugerido dos planes;
i. Se juzga el proceso fuera de control si se encuentran cinco o más unidades
defectuosas en una muestra de 25
ii. Se juzga el proceso fuera de control si se encuentran dos o más unidades
defectuosas en una muestra de 10
Evalúe la eficiencia de los dos planes con respecto a:
a. Deducir falsamente que el proceso está fuera de control
b. Descubrir un proceso que está produciendo 20% de unidades defectuosas
22. Suponga que una compañía de seguros vendió pólizas de seguros de vida a 5000
hombres de 42 años de edad. Si los estudios actuariales indican que la probabilidad de

184
que un hombre de 42 años muera en un determinado año es 0,001. ¿Cuál es la
probabilidad de que la compañía pague 4 indemnizaciones en un determinado año?.
Sol: 0,1755200 (Por binomial) 0,1745 (Por aproximación de Poisson)

SOBRE LA DISTRIBUCIÓN NORMAL:

23. En la siguiente distribución normal con µ=250 y con σ2=900, calcular las siguientes
probabilidades.
a) P(280 ≤ x ≤ 310) b) P(x ≤ 330) c) P(x > 330) d) P(x < 210)
e) P(x > 220) f) P(220 ≤ x ≤ 240) g) P(205 < x≤ 240) h) P(205 < x < 290)
24. Si X es una variable aleatoria que tiene una distribución normal con media 700 y con
varianza igual a 324, calcular las siguientes probabilidades.
a) P(x ≤ 750) b) P(x ≤ 430) c) P(x > 530) d) P(x > 770)
e) P(660 ≤x ≤ 740) f) P(500 ≤ x ≤ 640) g) P(720 < x ≤ 800)
25. Se sabe que el dinero que se gastan al mes los estudiantes de determinada universidad en
pasajes sigue una distribución normal de media 38.000 Bolívares y desviación típica 5.000
Bolívares.
i. ¿Cuál es la probabilidad de que un estudiante elegido aleatoriamente gaste menos
de 40.000 Bolívares en pasaje al mes?
j. ¿Cuál es la probabilidad de que un estudiante elegido aleatoriamente gaste más de
36.000 Bolívares en pasaje al mes?
k. Dibujar un gráfico que ilustre que las probabilidades en los apartados (a) y (b) son
iguales.
l. ¿Cuál es la probabilidad de que un estudiante elegido aleatoriamente gaste entre
30.000 y 40.000 Bolívares en pasaje al mes?
m. Se quiere encontrar un rango de Bolívares que represente el gasto en pasaje
mensual para el cual se incluyan el 80% de los estudiantes de esta universidad.
Explicar por qué pueden encontrarse infinitos rangos que cumplan esta condición,
y encontrar el rango más corto posible.
26. La vida útil de un neumático de determinada marca sigue una distribución normal con
media 35.000 kilómetros y desviación típica 4.000 kilómetros.
n. ¿Qué proporción de estos neumáticos tiene un tiempo de vida superior a 38.000
kilómetros?
o. ¿Qué proporción de estos neumáticos tiene un tiempo de vida inferior a 32.000
kilómetros?
p. ¿Qué proporción de estos neumáticos tiene un tiempo de vida entre 32.000 y
38.000 kilómetros?
q. Dibujar un gráfico con la función de densidad de los tiempos de vida, ilustrando
i. Por qué las respuestas de las preguntas (a) y (b) son iguales
ii. Por qué las respuestas de las preguntas (a), (b) y (c) suman uno.
27. Una compañía produce un compuesto químico y está preocupada por su contenido de
impurezas. Se estima que el peso de las impurezas por lote se distribuye según una normal
con media 12,2 gramos y desviación típica 2,8 gramos. Se elige un lote al azar.
a) ¿Cuál es la probabilidad de que contenga menos de 10 gramos de impurezas?
b) ¿Cuál es la probabilidad de que contenga más de 15 gramos de impurezas?

185
c) ¿Cuál es la probabilidad de que contenga entre 12 y 15 gramos de impurezas?
¿Es posible, sin hacer los cálculos, deducir cuál de las respuestas a las preguntas (a) y (b)
será mayor?, ¿cómo?
28. Si x es una variable con distribución N(4.3;1.2) hallar el valor de a tal que: i)
P( x < a ) = 0,7389 ii) P( x > a ) = 0,2981
29. Cierto tipo de batería dura un promedio de 3 años, con una desviación típica de 0.5 años.
Suponiendo que la duración de las baterías es una variable normal:
a) ¿Qué porcentaje de baterías se espera que duren entre 2.5 y 4.8 años?
b) Si una batería lleva funcionando 2 años. ¿Cuál es la probabilidad de que dure menos de
4.5 años?
30. En cierto negocio de construcción el salario medio mensual es de 386.000 Bolívares y la
desviación estándar es de 10.800 Bolívares. Si se supone que los salarios tienen una
distribución Normal ¿Qué porcentaje de los obreros percibe salarios entre 380.000 y
385.000Bolívares?
31. El gerente de producción de una fábrica de bombillas, estima que la vida útil del producto
está distribuida normalmente, con una media de 5.000 horas. Si además, el gerente
considera que hay una probabilidad de 0.75 de que la bombilla dure entre 4.432 y 5.568
horas. De cuánto es la desviación estándar?

186
Capítulo VI

Números índices
Definición
Un número índice es una cifra relativa, expresada generalmente en porcentajes, que sirve como
un indicador diseñado para describir los cambios de una variable con respecto a un valor de la
misma, la cual es tomada como punto de referencia y se denomina base. Generalmente los
números índices se utilizan para describir la evolución de una variable en el tiempo.

Selección del período base


Para elegir la base o valor de referencia se acostumbra que si la serie de números índices es corta
entonces el primer valor se la serie se toma como base, pero si la serie es larga se toma un valor o
período que presente la mayor estabilidad posible, es decir, que se encuentre poca afectada por
factores internos o externos.

La selección del período base, adquiere una gran importancia dado que los resultados obtenidos
tendrán un sentido conceptual respecto de dicho período. Es por ello que debe contar con ciertas
características de normalidad. Durante el período de referencia la variable cuya evolución pretenda
reflejarse no debe presentar valores de excepción por algún motivo, como puede ser la puesta en
marcha de medidas de política económica de carácter coyuntural, fenómenos climáticos poco
frecuentes (sequías, inundaciones), acontecimientos políticos especiales, entre otros factores que
pudieran afectar el valor de la variable en ese período.

Otra condición es que la ubicación temporal no debe estar muy alejada en el tiempo (con respecto
a la actualidad), porque generalmente las series económicas presentan variaciones en el tiempo
con tendencia creciente y a lo largo del tiempo se puede no notar el efecto o variación de los
valores, además de que generalmente ocurren cambios en patrones de consumo a medida que
pasa el tiempo.

Clasificación en índice de cantidad, precio o valor


Los índices pueden intentar reflejar la evolución en:
• la cantidad de un determinado bien o servicio o de un conjunto de ellos (por ejemplo
cantidades producidas, cantidades consumidas o cantidades vendidas).
• el precio de un bien o servicio o conjunto de éstos.
• el valor de un bien o servicio o de una canasta de bienes y servicios (se puede calcular el
valor de un bien o servicio por la multiplicación del precio por las cantidades).

De esta manera se tienen índices de cantidades, índices de precios o índices de valor.

Las cantidades se miden en magnitudes físicas y pueden expresarse simplemente por el número de
artículos producidos o por un número preciso de unidades escalares de longitud, de volumen o de
peso. Es imperativo que la unidad física utilizada sea identificable, ya que de otra forma la noción
de precio no tiene sentido. El precio es la cantidad de dinero pagada por cada unidad de producto

187
(bien o servicio); por eso es indispensable especificar de qué unidad física se trata. La afirmación
de que “el precio del trigo es de 4000 Bolívares” no aporta absolutamente ninguna información a
menos que se sepa que se está hablando de onzas de trigo, o de libras, o de kilos, o de toneladas.
Los indicadores de cantidad, sólo tienen sentido en el caso de un producto único y homogéneo;
cuando se trata de varios productos, expresados en unidades físicas diferentes, es imposible sumar
las cantidades, porque las unidades respectivas no son conmensurables. Por la misma razón, no
tiene sentido ni utilidad sumar precios. En cambio, los valores –es decir, el resultado de
multiplicar los precios por las cantidades- sí son aditivos y constituyen la base de todas las
operaciones de agregación económica.
Importa establecer una clara distinción entre precios y valores. Un valor es el producto
(matemático) resultante de la multiplicación de un precio por una cantidad. Un precio puede
considerarse como el valor de una sola unidad de un producto dado, de donde se desprende que
el único caso en que valor y precio son sinónimos es el caso especial de una sola unidad de un
bien.

En esta guía vamos a utilizar una notación bastante común en los textos que hablan de números
índices, esta será I 0t , en donde t indica el período para el cual se calcula el índice y 0 es el período
base.
• I 0t = 100 para el período base
• I 0t < 100 si el valor de la variable para el período t es menor que el correspondiente del
año base
• I 0t > 100 si el valor de la variable para el período t es mayor que el correspondiente del
año base

Clasificación en índice en: simple o compuesto


Cuando solamente se esta estudiando o representando un solo producto, bien o servicio, el índice
se llama índice simple, en tanto que si comprende un grupo de productos, bienes o servicios,
recibe el nombre de número índice compuesto o complejo.

El índice simple se obtiene dividiendo cada precio (cantidad o valor) de un período por un
precio (cantidad o valor) de un período fijo, considerado base, y luego multiplicando por 100% si
se quiere el índice en porcentaje.

Índices Simples
Precio Cantidad Valor
p q v p .q
Ip0t = t x100 Iq0t = t x100 Iv0t = t x100 = t t x100
p0 q0 v0 p0 .q0

Ejemplo
Para un determinado bien, se dispone de la siguiente información sobre cantidad, precio y valor.
Si la cantidad está expresada por ejemplo en términos de toneladas, el precio será precio por cada
tonelada. Si la cantidad está expresada en términos de horas, el precio será por cada hora. El valor,
como fue señalado, será el producto del precio por cantidad.

188
PERIODO CANTIDAD(q) PRECIO(p) VALOR(p*q)
0 125 2 250
1 181 2.5 452.5
2 205 2.8 574
3 115 2.9 333.5

El cálculo de índices de cantidad, precio y valor, tomando como período de referencia (período
base) el período 0, dará los siguientes resultados:
PERIODO INDICE DE INDICE DE INDICE
CANTIDAD PRECIO DE VALOR
0 100.0 100.0 100.0
1 144.8 125.0 181.0
2 164.0 140.0 229.6
3 92.0 145.0 133.4
Cálculo: todos los índices se calcularon tomando como referencia el período 0 (período base). En
ese sentido los valores de los índices resultan de:

Periodo 1 2 3
Índices de Cantidad: (181 / 125) x 100 (205 / 125) x100 (115 / 125 ) x 100
Índices de Precios: (2.5 / 2) x 100 (2.8 / 2) x 100 (2.9 /2 ) x 100
Índices de Valor: (452.5 / 250) x 100 (574 / 250) x 100 (333.5 / 250) x 100

Como se aprecia, se obtuvieron tres indicadores: uno hace referencia a la evolución en cantidad
del bien, otro a la evolución en precio y otro a la evolución en valor.

El índice compuesto simple (sin ponderar), se conocen también como índices de Sauerbeck;
se obtiene comparando la suma de los precios (cantidades o valores) de un conjunto de bienes o
servicios y dividiendo ese total entre la suma correspondiente al período base (se multiplica por
100% si se quiere el índice en porcentaje).

Los índices compuestos simples, estudian la evolución en el tiempo de una magnitud que tiene
varios componentes y a los cuales se asigna la misma importancia o peso relativo (siendo esta
última hipótesis nada realista en la práctica).
Por su naturaleza son de poco uso en el mundo de la economía.

Índice compuesto (de k artículos) simple


Sauerbeck
Precio Cantidad Valor
k  pt  k  q k  vt 
t

∑ 

j

0 
j =1  p j 
∑ 
q 
0
j
 ∑  j
 0
j =1  v j 
Ip0 =
t
x100 Iq 0t =
j = 1  j  x 100 Iv0 =
t
x100
k k
k
Donde p tj es el precio del t Donde v tj es el precio del bien
Donde q j es la cantidad del
bien j para el período t. j para el período t
bien j para el período t

189
Ejemplo: Calcular el índice compuesto de precios del conjunto de 5 artículos presentados en la
tabla siguiente.
Precios (Bs)
unidad de 07
Artículo medida 2006 2007 Ip06
A Kg. 1200 1500 125,00
B Lt 750 1300 173,33
C Und. 60 400 666,67
D Mtr 450 300 66,67
E Kg. 2500 6000 240,00
Total 6966 11507 1271,67

Note que si una persona compara 6966 Bs. (la suma total de los precios del 2006) con el total de
11507 Bs. del año 2007, y calcula un índice simple de esa manera, obtendría
11507
x100 = 165,19 . Que al interpretarlo estaría proponiendo un aumento de sólo el 65,19% de
6966
los precios. Este procedimiento es erróneo porque no refleja los aumentos individuales de cada
artículo, por ejemplo, el artículo C aumenta en un 566,67%, hecho que no recoge el
procedimiento simple. Todos los artículos aumentaron en más de 125% excepto uno sólo que
aumentó en 66,67%, es por esto que en vez de calcular el índice simple, se realiza el cálculo del
índice compuesto como se muestra a continuación.

Cada valor en la última columna de la tabla se cálculo como un índice simple, por ejemplo para el
p 1300
artículo B, Ip06 07
= 07 x100 = x100 = 173,33
p06 750
Por lo tanto el índice compuesto de precios, se calcula dividiendo la suma de los índices simples
de todos los artículos entre la cantidad de artículos:
k  pt 

∑  j  x100
 0
j =1  p j  125,00 + 173,33 + 666,67 + 66,67 + 240,00 1271,67
Ip0 =
t
= = = 254,33
k 5 5

Es decir que en conjunto hubo un aumento de 154,33% (254,33-100) en promedio en los


artículos en 2007 en comparación al 2006.

Este procedimiento no tiene en cuenta el peso relativo de cada uno de los componentes a la hora
de obtener el índice. Es decir, se calculan sin ponderar los distintos bienes o productos que se
están considerando. Además, el método de la media aritmética simple presenta un inconveniente
añadido, pues suma magnitudes que pueden ser muy heterogéneas, como en el ejemplo que
estamos tratando.

El procedimiento señalado en el ejemplo anterior se basa en el uso de la media aritmética. En


realidad esos índices compuestos se pueden elaborar a partir del promedio que se considere más
oportuno (media geométrica o media armónica), lo que nos da una idea de los distintos
procedimientos que se pueden utilizar para construir un índice compuesto simple.

190
A continuación hablaremos de los algunos métodos para obtener índices compuestos
ponderados. A diferencia de los métodos anteriores, en este caso se trata de promediar la
información inicial haciendo uso de ciertas ponderaciones. Estas deben reflejar la importancia de
los precios y las cantidades de cada uno de los bienes que entran en la definición del índice
compuesto.

Índices compuestos ponderados

Estudian la evolución en el tiempo de una magnitud que tiene varios componentes y a los cuales
se asigna un determinado coeficiente de ponderación wi. Son los que realmente se emplean en el
análisis de la evolución de fenómenos complejos de naturaleza económica (IPC, IPI, etc.)

• Sea una magnitud agregada compuesta por k artículos


• Sea I it0 el índice simple del artículo i (i=1,2,3, …, k) del período t en base al período 0.
• Sean w1,w2, …, wk, los pesos o ponderaciones de cada artículo

El número índice compuesto ponderado para el período t se calcula como:


k

∑I t
i0 .wi
Iw =
t
0
i =1
k
x100
∑w i =1
i

Índices de Precios
Este método se emplea generalmente para el cálculo de números índices de precios en donde se
ponderan los precios de acuerdo a las cantidades consumidas de los correspondientes artículos
(formando así valores). De acuerdo a como se escojan los pesos se tienen los métodos de
Laspeyres, Paasche o Fisher. Reescribiendo la fórmula anterior en función de los precios, se
obtiene:
k
pit0

i =1 pi00
.wi
Iw0t = k
x100
∑w i =1
i

Índice de precios de Laspeyres PL


Utiliza como coeficientes de ponderación el valor de las transacciones en el periodo base.
Tiene la ventaja de que las ponderaciones del periodo se mantienen fijas para todos los períodos
pero esto genera el inconveniente de que su representatividad disminuye según nos alejamos del
período base.
wi = pi0 qi0

k
pit0 k

∑i =1 p/ i00
. p/ i 0 .qi 0 ∑p t
i0 .qi 0
P = x100 =
t i =1
L0 k k
x100
∑pi =1
i0 .qi 0 ∑p
i =1
i0 .qi 0

191
El índice de Laspeyres puede interpretarse como la relación existente entre el valor que se obtiene
al comparar, a los precios actuales, la misma cantidad de artículos del precio base y el valor de
tales artículos en el año base.

Índice de precios de Paasche PP


Utiliza como coeficientes de ponderación el valor de las transacciones, con las cantidades del
período de comparación y los precios del período base. Las ponderaciones son por ello variables.
Tiene la ventaja de que los pesos relativos de los distintos componentes se actualizan cada periodo
con el agravante de complejidad y costes derivados de este cálculo.
wi = pi0 qit

k
pit0 k


i =1 p/ i00
. p/ i 0 .qit ∑p t
i0 .qit
P = x100 =
t i =1
P0 k k
x100
∑p
i =1
i0 .qit ∑p
i =1
i0 .qit

Índice de precios de Edgeworth PE


Utiliza como coeficientes de ponderación la suma de los dos anteriores.
wi = pi0 qi0 + pi0 qit
wi = pi0 (qi0 + qit)
k

∑p t
i0 .( qi 0 + qit )
P =
t i =1
E0 k
x100
∑p
i =1
i0 .( qi 0 + qit )

Índice de precios de Fisher PF


Se define como la media geométrica de los índices de Laspeyres y Paasche
PF = PL .PP

Índice de precios de Sidgwick-Drobisch PS


Se define como la media aritmétrica de los índices de Laspeyres y Paasche
P + PP
PS = L
2

Ejemplo: Considere los precios y las cantidades de 5 artículos (A,B,C,D,E) para los años 2006 y 2007.
2006 2007
unidad de
Artículo medida Precios (Bs) Cantidades Precios(Bs) Cantidades
A Kg. 1200 20 1500 30
B Lt 750 15 1300 18
C Und. 60 5 400 8
D Mtr 450 5 300 10
E Kg. 2500 2 6000 6

192
Calcule el índice de precios de:
a) Laspeyres
b) Paasche
c) Fisher
d) Edgeworth
e) Sidgwick-Drobisch

a) Cálculo para Laspeyres:


Multiplicamos las columnas de los precios por la columna correspondiente a las cantidades del
año base (2006)
06 07

Artículo po qo pt qt po.qo pt.qo


A 1200 20 1500 30 24000 30000
B 750 15 1300 18 11250 19500
C 60 5 400 8 300 2000
D 450 5 300 10 2250 1500
E 2500 2 6000 6 5000 12000
suma 42800 65000

07
∑p 07
i0 .qi 06
65.000
P
L 06 = i =1
k
x100 = = 151,87
42.800
∑pi =1
i 06 .qi 06

b) Cálculo para Paasche

06 07

Artículo p q p q po.qt pt.qt


A 1200 20 1500 30 36000 45000
B 750 15 1300 18 13500 23400
C 60 5 400 8 480 3200
D 450 5 300 10 4500 3000
E 2500 2 6000 6 15000 36000
suma 69480 110600

07
∑p t
i0 .qit
110.600
PP 06 = i =1
k
x100 = x100 = 159,18
69.480
∑p
i =1
i0 .qit

c) Fisher, PF = PL .PP = 151,87 x159,18 = 155,48

193
d) Procedimiento para el cálculo del índice de Edgeworth: Primero sumamos las columnas de las
cantidades del período base con la del período actual, luego multiplicamos esa columna por la
columna de precios del período actual y al sumar obtenemos el numerador de la fórmula y
análogamente al multiplicar por la columna de los precios del período base y sumar el total para
todos los artículos se obtiene el denominador.

06 07

Artículo p q p q qo+qt pt(qo+qt) po(qo+qt)


A 1200 20 1500 30 50 75000 60000
B 750 15 1300 18 33 42900 24750
C 60 5 400 8 13 5200 780
D 450 5 300 10 15 4500 6750
E 2500 2 6000 6 8 48000 20000
suma 175600 112280

07
∑p t
i0 .(qi 0 + qit )
175.600
PE 06 = i =1
k
x100 = x100 = 156,40
112.280
∑p
i =1
i0 .(qi 0 + qit )

e) Para Sidgwick-Drobisch: Se suman los índices de Laspeyres y Paasche y luego se divide por
dos el resultado.

07 07
07 P + PP 06 151,87 + 159,18
P
S 06 = L 06 = = 155,53
2 2

Resumiendo en una tabla los diferentes índices:


Laspeyres Paasche Fisher Edgeworth Sidgwick-
Drobisch
151,87 159,18 155,48 156,40 155,53

Observamos que aunque todos los índices pretenden dar un indicador que explique los cambios
de precios para el período 2007 en los artículos A, B, C, D y E como un agregado y en
comparación al período 2006; todos dan resultados diferentes, con un mínimo de 51,87% de
aumento (Laspeyres) hasta un 59,18% de aumento (Paasche), los demás índices con posiciones
medias entre esos dos valores.

De todos los índices compuestos que se han definido, los de Laspeyres son los que requieren
menos información, pues las ponderaciones son siempre fijas, las del período base, mientras que
para los de Paasche las mismas varían en cada período. Pero esa ventaja que presentan los
primeros puede llegar a ser un inconveniente, pues, con el transcurso del tiempo, esas
ponderaciones iniciales pueden llegar a quedarse obsoletas, lo que obliga a realizar una renovación
de las mismas.

194
Índices de cantidades compuestos ponderados
Se calculan de manera similar a los índices de precios, pero en este caso se consideran los precios
como los precios wi en las fórmulas. Por lo que podemos calcular con un procedimiento análogo
al aplicado a los índices de precios compuestos ponderados, los respectivos índices de cantidades
de Laspeyres (QL), Paasche (QP), Fisher(QF), Edgeworth (QE) y Sidgwick-Drobisch (QS), sólo
debemos intercambiar el método de pesaje escogiendo los precios ahora como los pesos para cada
cantidad.

Cambio de Base

En los enlaces de series de números índices que tienen distinta base, nos apoyamos en la
propiedad de inversión que dice que el producto de dos índices invertidos en períodos es igual a 1,
esto es que I 0t .I t0 = 1 . Cabe destacar que ni el índice de Laspeyres, ni el de Paasche, que son los
más utilizados en la cotidianidad la cumplen, pero que se actúa en la práctica como si se
cumpliera, ante la necesidad de efectuar dichos enlaces.

Sea una serie de números índices cuyo período base es 0, denotados por: I 01 , I 02 ,..., I 0n .

Puede interesar cambiar la base 0 si está muy alejada en el período t de comparación. Para ello no
es necesario efectuar un profundo estudio para determinar nuevos coeficientes de ponderación
(en el caso de índices complejos) sino únicamente apoyarnos en la propiedades de inversión y
circular que nos permiten obtener el coeficiente técnico que transforma la serie dada en una nueva
con un periodo base distinto h.

Para el período h, existirá un índice I 0h (viejo), que servirá de apoyo para el cálculo del nuevo
índice I ht de la siguiente manera:
I 0t
I ht = x100
I 0h

Índice de Precios del Consumo o Índice de Costo de Vida

El índice de los precios del consumo (IPC), es calculado mensualmente por el banco central de
Venezuela y por el actual Instituto Nacional de Estadísticas (INE). Mide las variaciones generales
en los precios del consumo a partir de una canasta de bienes y servicios representativa del
consumo promedio de los hogares. Por lo tanto, debe tenerse en cuenta que el IPC es un
indicador de la variación de los precios de un hogar promedio fundamentalmente de la zona
metropolitana, aunque en la actualidad se calcula por separado el índice para la zona de los andes
y hay proyectos de cálculos para otras zonas del país. Los artículos que conforman la canasta de
bienes en que se basa el IPC, no se corresponden con los bienes y servicios consumidos
efectivamente por ningún hogar en particular, sino que resultan del promedio de consumo de
todos los hogares del estrato seleccionado.

195
Fuente: Tomado del boletín “El termómetro de la inflación” del Banco Central de Venezuela, (2000)

Fuente: Tomado del boletín “El termómetro de la inflación” del Banco Central de Venezuela, (2000)

196
Evolución del IPC (base 1997=100)

Indice Var%

800,0 80,0

700,0 70,0

600,0 60,0

% de Variación acumulada anual


Valor del ïndice total anual

500,0 50,0

400,0 40,0

300,0 30,0

200,0 20,0

100,0 10,0

0,0 0,0
1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007

Indice 3,8 5,3 7,1 9,4 13,0 20,9 33,3 66,6 100,0 135,8 167,8 195,0 219,4 268,6 352,1 428,7 497,1 565,0 667,7
Var% 62,6 31,5 27,3 28,0 38,4 54,9 45,8 73,5 32,4 26,5 18,4 12,7 11,6 27,6 24,3 17,7 13,5 15,8 17,5

Fuente: Datos del BCV y cálculos propios. Se estimó el valor para noviembre y diciembre
de 2007 utilizando el promedio de la variación porcentual mensual de los últimos 18 años.

Se observa un crecimiento lineal del IPC con dos cambios notables de pendiente, uno en el año
1995 en donde de observa un incremento de la velocidad de crecimiento y otro en el año 2002 en
donde se observa otro aumento pronunciado en el crecimiento del IPC. Sin embargo el
porcentaje acumulado desde el año 2000 hasta el año 2007 es de 140.7% lo que quiere decir que
los bienes y servicios generales tomados en cuenta en el cálculo del índice han aumentado su
precio en más de 140.7%, es decir que algo que costaba 50.000Bs en el año 2000 se espera que
cueste 120.350 Bs ó 120,35 BsF para principios del año 2008. Este análisis solo se debe aplicar a
los productos de la canasta que se toma en cuenta para el cálculo del IPC y que hayan tenido un
aumento parecido al promedio y no para otros productos, ya que generalmente hay artículos que
aumentan mucho más que el promedio y otros que aumentan menos.

También se observa que el porcentaje acumulado de la variación mensual del IPC, tiene un
comportamiento promedio de 17.6% desde el 2000 hasta la actualidad. Esto quiere decir que cada
año los precios tienen un incremento promedio de un 17.6%.

La importancia del I.P.C.

El IPC y la inflación

197
El IPC no es la inflación, sino que mide la inflación. En efecto, la evolución de los precios
registradas en el IPC constituye la medición de la variación general de precios o sea la inflación.

Variable de ajuste

La variación del IPC en determinado período es usualmente utilizado como medidas de ajuste en
determinados contratos como por ejemplo los alquileres.
En otro orden ciertos instrumentos de depósito bancarios toman en cuanta la variación del IPC
para el cálculo de la rentabilidad.

También, en varios convenios salariales y los aumentos de salarios, se tomaba en cuenta la


evolución del IPC, para realizar los ajustes, tanto sea total, parcial etc. Cabe acotar que
actualmente, esa práctica ha perdido vigencia en Uruguay, dada la reducción de la inflación y la
reducción salarial impuesta por los cambio en el mercado laboral, la alta desocupación del
mercado y las acciones de política económica implementadas en los últimos años que priorizó
fundamentalmente la reducción del Gasto Público.

198
Cuestionario del Capítulo VI:

1) En 2006 el precio de un automóvil de segunda mano se incrementó en un 8% sobre el precio


de 2005. En 2007 (debido al alto índice de importaciones de autos usados) el precio fue un
5% menor que el precio ofrecido en 2006, pero 10% superior al precio dado en 2008
a) Hallar las cantidades relativas para los años 2005-2008 con base en 2005
b) Si el precio promedio de un automóvil para 2007 fue de BsF. 73.500 determine cuál
era el precio para 2006.

2) Con la siguiente información sobre los índices de precios para el período 1994-1998

Año 1994 1995 1996 1997 1998


I(t,1993) 1.18 1.19 1.14
I(t,1996) 1.00 1.22 1.25

a) Obtenga la serie completa de índices con bases en 1993


b) Calcule los índices I(97,95), I(95,98)
c) Calcule e interprete el valor del poder adquisitivo de los índices hallados en b)

3) El gobernador del estado, ha estudiado el consumo de agua por habitante durante los últimos
5 años, dividiendo la ciudad en dos zonas A y B, obteniendo:
Consumo de agua por habitante y año en las zonas A y B
Año 2003 2004 2005 2006 2007
Consumo zona A 345 367 354 389 325
Consumo zona B 321 331 315 318 310
En millones de litros cúbicos
Establece una serie de números índice para estudiar la variación del consumo referida al año
2003, teniendo en cuenta que la zona A, alberga al 56% de los ciudadanos y la B al 46%
4) Los registros de una empresa dedicada a la producción de acero, relativos a sus principales
materias primas, son los que se muestran en la siguiente tabla:

A partir de esta información, calcule los:


a) Índices de Precios Compuestos Simples
b) Índices de Cantidades Compuestos Simples
5) A partir de los datos del ejercicio anterior obtenga los indices de Laspeyres, Paasche, Fisher,
Edgeworth y de Sidgwick-Drobisch
6) A partir de la siguiente información (ficticia), calcule los índices de precios compuestos de
Sauerbeck, Laspeyres, Paasche, Fisher, Edgeworth y de Sidgwick-Drobisch

199
7) Con los datos del ejercicio 6) calcule los índices de cantidades compuesta ponderadas por los
métodos de Laspeyres, Paasche, Fisher, Edgeworth y de Sidgwick-Drobisch
8) Conocidos los precios y las cantidades de los artículos correspondientes a los años 2000-2007,
determine con base en el año 2000, los siguientes índices complejos:
• Los índices de precios mediante los métodos de Laspeyres, Paasche, Fisher,
Edgeworth y de Sidgwick-Drobisch
• Los índices de cantidades mediante los métodos de Laspeyres, Paasche, Fisher,
Edgeworth y de Sidgwick-Drobisch

Años Artículo A Artículo B Artículo C


Precio Cantidad Precio Cantidad Precio Cantidad
2000 3 10 2 15 4 5
2001 5 10 2 20 6 8
2002 5 14 6 15 10 8
2003 8 20 10 20 14 12
2004 10 25 12 25 18 10
2006 14 20 12 30 20 10
2007 18 20 14 40 25 15

200
BIBLIOGRAFIA

1. Ander-Egg E. Técnica de Investigación Social, 24ª ed. Editorial LUMEN, 1995


2. Berenson M. L, Levine D. M. y Krehbiel T. C. Estadística para administración. 2da ed.
Prentice Hall, 2001
3. Berenson M. L. y Levine D. M. Estadística Básica para Administración. 4ta. Ed. Prentice
Hall, 1996
4. Canavos G. Probabilidad y Estadística. Aplicaciones y Métodos. McGrawHill, 1997
5. Chou Y. Análisis Estadístico, 2da Ed. Mc Graw Hill, 1990
6. Chourio J. Estadística I, Editorial Biosfera, 1987
7. Cochran, W. G., Técnicas de Muestreo, México, Compañía Editorial Continental, 1985.
8. Fraser, D. A. Statistics, an introduction, Nueva York, Wiley, 1958
9. Freund, J.E. y Walpole, R. E. Mathematical Statistics, 4ta Ed. Englewood Cliffs, Nueva Jersey,
Prentice Hall, 1987
10. Kazmier L. Estadística Aplicada a la Administración y a la Economía. 3era ed. Mc Graw
Hill, 2000
11. Kendall, M.G. y Stuart, A. The Advanced Theory of Statistics, 4ta ed. Vol. 1, Nueva York,
Hafner Press, 1977
12. Levin R. y Rubin D. Estadística para Administradores. 6ta ed. Prentice Hall, 1996
13. Lind D. , Mason R., Marchal W., Estadística para Administración y Economía. 3era. Ed. Mc
Graw Hill, 2000
14. Mártinez, Bencardino C. Estadística y Muestreo. 11ª ed. Ecoe Ediciones, 2003
15. Mendenhall W. Estadística para Administradores. 2da ed. Grupo Editorial Iberoamérica, 1990
16. Mendenhall, W. Introduction to Probability and Statistics, 7ma ed. Duxbury Press, 1987
17. Mood, A. M. ; Graybill, F.A. y Boes, D. Introduction to the Theory of Statistics, 3era ed.
Nueva York, Mc Graw Hill, 1974Rivas E. Estadística General, 11ª Ed., Ediciones de la
Bilioteca de la UCV, 2000
18. Pardo A. y Ruiz M. SPSS 11, Guía para el Análisis de Datos, McGrawHill, 2002
19. Scheaffer R., Mendenhall W. y Ott L. Elementos de Muestreo. Grupo Editorial
Iberoamérica, 1987

201

También podría gustarte