Estadistica Descriptiva y Probabilidades
Estadistica Descriptiva y Probabilidades
Estadistica Descriptiva y Probabilidades
y
probabilidades
Estadística descriptiva
y
probabilidades
Figuras vi
Tablas viii
I Estadística descriptiva 1
1. Elementos generales 1
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.6. Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.7. Medición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
i
ii CONTENIDO
1.9. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.10. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.3. La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2.4. La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.1. El rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.4. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4. Medidas de dispersión 65
4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.2. El rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.6. La varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.8. Estandarización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.12. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.13. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
iv CONTENIDO
Referencias 93
Figuras
2.3. Grácos diferencial (a) e integral (b) de los datos de la tabla 2.10. . . . . . . . . . . . . . . . . . 29
v
vi FIGURAS
2.2. Datos asociados con una encuesta de opinión acerca de una medida económica. 1:=A favor; 0:=En
2.4. Datos asociados con el nivel educativo de algunos empleados de una empresa. B:= Bachillerato; P:=
2.6. Datos asociados con la clasicación con respecto al tamaño y a la afectividad de un grupo de perros.
2.8. Datos asociados con las ganancias en un día determinado de una muestra de empresas de una ciudad. 24
2.12. Datos asociados con el número de clientes de un almacén atendidos en los últimos 20 días. . . . . . 32
vii
viii TABLAS
3.3. Datos asociados con el número de hijos de una muestra de empleados de una empresa. . . . . . . . 48
3.5. Datos asociados con los puntajes de una muestra de 20 empresas en relación a la calidad de sus servicios. 55
4.1. Datos asociados con los salarios anuales de una muestra de supervisores de ventas de dos empresas. . 65
4.4. Datos asociados con una muestra de ventas diarias (en millones de pesos) de una empresa. . . . . . 86
Nomenclatura
X̄ Media muestral de X.
µX Media poblacional de X.
2
σX Varianza poblacional de X.
CV
dx Coeciente de variación muestral observado de X.
ix
x TABLAS
Rx Rango observado de X.
X Variable aleatoria X.
X(i) Estadístico de orden asociado con la i-ésima posición de una muestra aleatoria.
Estadística descriptiva
1
Capı́tulo 1
Elementos generales
1.1. Introducción
En las últimas décadas la estadística ha alcanzado un alto grado de desarrollo, hasta el punto de
involucrarse en la mayoría de las áreas del conocimiento. La estadística es una ciencia
1 auxiliar para
todas las ramas del saber, y su utilidad es evidente teniendo en cuenta que la mayoría de los quehaceres
y las decisiones en cualquier disciplina involucran cierto grado de incertidumbre o incerteza.
Los críticos de la estadística arman que a través de la estadística es posible mostrar o comprobar casi
cualquier cosa; esta es una concepción ligera y profana que se deriva de la ignorancia de la disciplina
estadística, dado que en estos casos se desconoce la teoría subyacente y la forma adecuada de interpre-
tar los resultados que permiten obtener conclusiones acertadas y precisas. Así, algunos investigadores
tendenciosos han abusado de la estadística, elaborando investigaciones de intención, teniendo previa-
mente los resultados que les interesa mostrar a personas ingenuas y no conocedoras de las técnicas
estadísticas. Otros, por ignorancia o negligencia, también abusan de la estadística utilizando métodos
no apropiados o razonamientos erróneos que conducen al fracaso de sus investigaciones.
Sólo adentrándose en un mundo especíco como en las ciencias sociales, la economía y la adminis-
tración, por ejemplo, es posible percibir que la estadística es una herramienta que permite dar luz y
obtener resultados, y por tanto benecios, en cualquier tipo de estudio teórico o aplicado, cuyos mo-
vimientos y relaciones, por su variabilidad intrínseca, no puedan ser abordados desde la perspectiva
1
2 CAPÍTULO 1. ELEMENTOS GENERALES
Los seres humanos poseen mayores o menores conocimientos, según el modo y el grado de participa-
ción en la cultura; pero de cualquier forma las formas y tipos de conocimientos generan dos modos
principales del saber que son el saber cotidiano y el saber cientíco . Se sabe de manera natural
por el sólo hecho de vivir, y se sabe cientícamente cuando existe una disposición de conocer y de
indagar en lo desconocido con los procedimientos pertinentes.
2 Teoría que supone que la evolución de los fenómenos naturales está completamente determinada por las condiciones
iniciales (Real Academia Española 2012c).
3 Fotografía tomada de la página web http://www.educared.org/global/premiointernacional/finalistas/710/
biograf/Blaplace.html.
1.3. ¾QUÉ ES ESTADÍSTICA? 3
inmediata de lo que pasa, por lo que únicamente percibe la epidermis de la realidad. Además, este
saber cotidiano no es sistemático, tanto en el proceso de adquisición y vinculación de la información,
como en el modo de establecer cánones de validación de la información; se limita a percibir lo inmedia-
to a través de experiencias, vivencias, estados de ánimo y emociones de la vida diaria, permaneciendo
en el nivel de la certeza sensorial.
De otra parte, se entiende por conocimiento cientíco, al conjunto de conocimientos racionales, ciertos
o probables, que obtenidos de manera metódica y vericados empíricamente, se sistematizan orgáni-
camente, cuyos contenidos son susceptibles de ser transmitidos.
El saber cientíco es racional, puesto que exige el uso de la razón y de una serie de elementos fun-
damentales como deniciones, proposiciones e hipótesis. Es cierto o probable, porque se trata con
verdades parciales, sujetas a corrección cuando nuevas experiencias demuestran la necesidad de recti-
cación. En la ciencia no existe la certeza absoluta . El conocimiento cientíco es metódico, ya
que no se obtiene al azar, sino mediante reglas lógicas, que acompañadas de procedimientos técnicos
se organizan según convenciones establecidas. También requiere la confrontación con la realidad y la
sistematización orgánica, porque no se trata de conocimientos inconexos sino de un saber ordenado
lógicamente, constituyendo un sistema de generalizaciones y principios que relacionan los hechos entre
si, deduciendo leyes y teorías. Además, los conocimientos de una ciencia deben ser transmisibles por
medio de un lenguaje que le sea propio y que debe responder a todas las exigencias de claridad y
precisión.
Para denir la estadística se debe precisar cada una de las técnicas que se emplean en los diferentes
campos en los que interviene. La denición dada en seguida permite apreciar la relación entre la
estadística y el método cientíco .
4
4 El método cientíco es el camino a seguir mediante una serie de operaciones, reglas y procedimientos jados
de antemano de manera voluntaria y reexiva, para alcanzar un determinado n que puede ser material o conceptual
(Pérez 2004, p. 188).
4 CAPÍTULO 1. ELEMENTOS GENERALES
La estadística se divide en dos grandes ramas de estudio que son la estadística descriptiva, cuando
los resultados del análisis no pretenden ir más allá del conjunto de datos observado, y la estadística
inferencial, cuando el objetivo del estudio es obtener conclusiones para un conjunto de datos más
amplio a partir de uno de menor tamaño. Estas dos ramas no son independientes, por el contrario,
son complementarias, y juntas proporcionan suciente información sobre la realidad, para que, quien
tenga poder de decisión, pueda tomar las medidas necesarias con el mayor grado de certeza posible.
La estadística descriptiva evidencia tal cual es una situación y muestra lo que hay ; permite explicar
las observaciones que se hagan sobre un evento, fenómeno o problema de investigación, evidenciando
propiamente la forma en que los hechos ocurrieron o se manifestaron.
La estadística inferencial toma lugar cuando a partir de los resultados obtenidos de un conjunto
de datos dado se obtienen conclusiones acerca de un conjunto de datos más amplio. Es decir, las
conclusiones que se obtienen de los datos en estudio, rebasan los límites de los mismos. Generalmente,
el análisis estadístico inferencial se lleva a cabo para mostrar relaciones de causa y efecto, y para
probar hipótesis y teorías.
5 También se puede tratar de un fenómeno individual repetido a través del tiempo (detalles en la sección 1.6). Éste
se puede entender como un fenómeno colectivo al considerar las ocasiones de medición como los elementos unitarios.
6 La aleatoriedad es una característica asociada a todo proceso cuyo resultado no es previsible, mas que en razón
de la intervención del azar, y por ende no se puede determinar en ningún caso antes de que éste se produzca.
1.5. ALGUNOS TÉRMINOS IMPORTANTES 5
Nota. La denición 1.5.1 no se reere únicamente a los seres vivos; una población puede estar consti-
tuida por los habitantes de un país o por los peces de un estanque, así como por los establecimientos
comerciales de un barrio o las viviendas de una ciudad.
Llevando a cabo una investigación se deben tener en cuenta algunas características esenciales al deli-
mitar la población en estudio, a saber, la homogeneidad, el tiempo, la cantidad y el espacio.
La homogeneidad se reere a que todos los miembros de la población tengan en común las caracte-
rísticas que se vayan a considerar en la investigación. Por ejemplo, si se investiga la incidencia de la
drogadicción en mujeres adolescentes, hay que denir precisamente el rango de edad de las jóvenes de
interés, de forma tal que todas las mujeres consideradas sean de la edad requerida.
La cantidad se reere al tamaño de la población. La falta de recursos como tiempo, dinero, espacio y
materiales puede limitar la extensión de la población que se quiere investigar. Por ejemplo, si se quiere
estudiar la preferencia de los colombianos frente a un producto determinado, no es necesario tener
en cuenta todas las personas económicamente activas del país, sino aquellos individuos que tengan
participación en el mercado del producto en cuestión.
El espacio se reere al lugar donde se localiza la población de interés. También, la falta de recursos
puede obligar al investigador a limitar el estudio a un conjunto de elementos más especíco. Siguiendo
el ejemplo anterior, puede que dicho producto se ofrezca principalmente en zonas particulares de las
ciudades intermedias.
Una población puede ser, según su tamaño, de dos tipos, a saber, nita o innita. Una población
nita es aquella donde el número de elementos que la conforma es nito. De otra parte, una población
innita es aquella donde el número de elementos que la forma es innito, o es tan grande que se puede
considerar innito. Por ejemplo, si se realiza un estudio sobre los productos que hay en el mercado,
hay tantos y de tantas calidades que esta población se puede considerar como innita.
6 CAPÍTULO 1. ELEMENTOS GENERALES
Nota. La cantidad de individuos de una muestra se simboliza con n, mientras que la cantidad de
elementos que constituyen una población nita se representa con N.
Se distinguen dos tipos de muestras. La clasicación de una muestra depende de cuán representativa
sea de la población, lo que se identica por el método de obtención de la misma. Se tienen las
muestras obtenidas a partir de procesos de muestreo no probabilístico y de muestreo probabilístico.
Las muestras no probabilísticas se caracterizan porque el diseño muestral
7 correspondiente se
realiza en forma subjetiva, arbitraria, según el criterio del investigador o del entrevistador de campo.
En el muestreo no probabilístico no existe una oportunidad real de que un elemento en particular de
la población sea seleccionado y por lo tanto no es posible calcular la conabilidad de las inferencias
asociadas. De otra parte, las muestras probabilísticas se fundamentan en el chance que tiene cada
elemento de la población en hacer parte de la muestra. En estas muestras, dadas ciertas condiciones de
conabilidad, error máximo admisible y tamaño poblacional, se deja al azar el diseño de la muestra.
El muestreo probabilístico permite medir la conabilidad de los procesos de inferencia y el error
de muestreo que está asociado intrínsecamente en el proceso (Soto 2001, p.31-33). El muestreo es
indispensable para el investigador ya que en la mayoría de aplicaciones no es conveniente o posible
medir a todos los miembros de una población, esto es, realizar un censo . En tales casos, se requiere
una muestra representativa de la población con el propósito de obtener conclusiones válidas acerca de
todo el colectivo en estudio.
El tamaño de la muestra depende de la precisión con que el investigador desee llevar a cabo el estudio; se
debe usar una muestra tan grande como sea posible teniendo en cuenta los recursos disponibles. Cuanto
más grande sea el tamaño de muestra, mayor será la posibilidad de que la muestra sea representativa
de la población.
Nota. El concepto de parámetro y estadístico son casi idénticos. La única diferencia radica en el
conjunto de datos donde cada cual es calculado; mientras un estadístico se calcula utilizando los datos
de una muestra, un parámetro se calcula utilizando los datos de una población.
Ejemplo 1.5.1. El promedio muestral y el promedio poblacional de una población nita son ejemplos
de un estadístico y de un parámetro respectivamente. Suponga que X representa una característica
7 El diseño muestral comprende todos los aspectos relacionados con la obtención de una muestra respecto a la
características objeto de estudio, como los objetivos de la investigación, la estructura de la población y los recursos
disponibles (humanos, nancieros, materiales, de disponibilidad de tiempo, etc.).
1.6. VARIABLES 7
medible de interés (detalles en la sección 1.6 y 3.2) y que xi representa el valor de X asociado con el
i-ésimo individuo; así, el promedio muestral observado de X, denotado con x̄, se dene como:
n
x1 + x2 + . . . + xn 1X
x̄ := = xi
n n i=1
N
x1 + x2 + . . . + xN 1 X
µX := = xi
N N i=1
Nota. Las expresiones dadas el ejemplo 1.5.1 son casi idénticas, pero la diferencia salta a la vista: en
la primera fórmula, se tiene la información de una muestra; mientras que en la segunda expresión, se
tiene la información de una población.
1.6. Variables
Las variables constituyen la materia prima de toda investigación estadística. En una investigación lo
primero que se debe hacer es delimitar la cuestión a investigar, lo que permite evidenciar las variables
preponderantes del estudio.
Algunos ejemplos de variables son la edad, el género, la raza, la nacionalidad, la estatura, el peso, el
ingreso, el número de nacimientos, la tasa de suicidios, el producto interno bruto, entre otras.
Nota. Las variables como la inteligencia, el gusto, el miedo y la vocación, por ejemplo, no son variables
observables. Tales características se denominan variables latentes . ¾Cómo realizar estudios que
involucren este tipo de variables? Generalmente se emplean variables auxiliares que reejen el atributo
que se quiere investigar, como los coecientes de inteligencia y las escalas de valores o anidad, por
ejemplo.
Las variables se pueden clasicar según su naturaleza como variables cualitativas o cuantitativas.
Las variables cualitativas son aquellas que se expresan en forma verbal como categorías o atributos.
El género, la raza, la aliación política, la nacionalidad y la profesión son ejemplos de variables
cualitativas.
8 CAPÍTULO 1. ELEMENTOS GENERALES
Las variables cuantitativas son aquellas que varían en términos de cantidad y se registran o expresan
en forma numérica. La edad, el peso, la estatura, la temperatura y el salario son ejemplos de variables
cuantitativas. A su vez, estas variables se clasican como sigue:
• Variables discretas : no admiten siempre un valor intermedio entre dos valores cualesquiera de
la variable. Por ejemplo, el número de hijos de una persona es una variable cuantitativa discreta.
• Variables continuas : siempre admiten un valor intermedio entre dos valores cualesquiera de
la variable. Por ejemplo, el salario de un empleado medido en millones de pesos es una variable
cuantitativa continua.
En ocasiones, por simplicidad, conviene expresar las variables cuantitativas como variables cualitativas.
Por ejemplo, las calicaciones de los estudiantes pueden ser categorizadas y expresadas como una
variable cualitativa. Así, el investigador puede utilizar una escala numérica de 0 a 5 para observar las
calicaciones de los estudiantes, y por comodidad expresar las observaciones por medio de categorías
acorde a un rango especíco de valores en el que la calicación del estudiante se encuentre, como por
ejemplo deciente, regular, bueno y excelente.
De otra parte, las variables tanto cualitativas como cuantitativas, también pueden ser clasicadas
como variables transversales o longitudinales . Las primeras son aquellas en las que el momento
de recolección de la información es el mismo para todos los individuos, o simplemente no es objeto de
estudio; mientras que las variables longitudinales son observadas repetidamente a través del tiempo.
Ejemplo 1.6.1. Una empresa de consultoría está creando un par de formularios para dos clientes
que necesitan información sobre un grupo particular de compañías que les son de interés. El primer
formulario indaga sobre el estado actual de las empresas de exportación respecto al año pasado, y
necesita establecer de éstas: el porcentaje de aumento de sus ventas respecto al año pasado, la cantidad
de clientes nuevos que tiene este año, el número de empleados que maneja y los grupos industriales
a los que exporta. De otro lado, el segundo formulario busca conocer los sectores industriales que se
encuentran en crecimiento constante y su posible horizonte nanciero. Para esto requiere establecer de
las industrias: el sector en el que se encuentra, el porcentaje de aumento en la producción y la cantidad
de clientes nuevos respecto al mes anterior. Clasicar las variables de interés. ¾Cuál formulario es
necesario diligenciar más de una vez?
Solución:
Para el primer formulario, el porcentaje de aumento de sus ventas respecto al año pasado es una
variable cuantitativa continua, ya que este valor puede ser cualquier número real. La cantidad de
clientes nuevos que tiene este año es una variable cuantitativa discreta, dado que si se tienen 10 u 11
clientes nuevos no es posible tener 10.5, por ejemplo. El número de empleados que maneja también
es una variable cuantitativa discreta, siguiendo el mismo razonamiento de la variable anterior. Por
último, los grupos industriales a los que exporta es una variable cualitativa, puesto que está asociada
con un número nito de valores cualitativos, a saber, industrial, comercial y de servicios.
En relación con el segundo formulario, el sector en el que se encuentra es una variable cualitativa como
1.7. MEDICIÓN 9
De otra parte, lo que se debe determinar en cuanto al diligenciamiento de los formularios es el objetivo
de cada uno, es decir, la razón de ser de cada cual. El primer formulario pretende responder a una
cuestión puntual referida a una comparación entre la actualidad y un tiempo pasado, mientras que el
segundo está diseñado para conocer una tendencia con el propósito de conjeturar sobre una situación
futura. Luego, lo más adecuado es que el primer formulario sea diligenciado una sola vez en el tiempo
para realizar dicha comparación (estudio transversal), mientras que el segundo formulario requiere
que sea diligenciado varias veces para establecer la tendencia del crecimiento en el tiempo (estudio
longitudinal). Por ende las variables del primer formulario son variables transversales y las del segundo
son variables longitudinales.
Nota. Un mismo formulario puede contener variables transversales y longitudinales.
1.7. Medición
Cuando se trata de objetos físicos el proceso de medición es directo, porque es cuestión de seguir
cuidadosamente unas reglas acordadas de antemano expresadas mediante una escala determinada.
Por ejemplo, es fácil tomar la estatura de una persona, dado que no hay dicultades en asignar un
número a la distancia que hay desde la planta de los pies hasta la coronilla del individuo de acuerdo
con la escala de una cinta métrica.
La taxonomía más conocida sobre las escalas de medición la presenta Stevens (1951) quien las clasica
en nominales, ordinales, de intervalos y de razón:
La escala nominal es aquella donde se clasican los individuos en categorías distintas. Consiste en
agrupar los individuos de acuerdo a alguna cualidad que los hagan propios de una categoría determi-
nada.
Es posible utilizar números en las escalas nominales, pero éstos no representan magnitudes absolutas.
Los números sólo se utilizan con el propósito de etiquetar una determinada categoría. Por ejemplo, en
algunas encuestas se asigna el número 1 al género masculino y el número 2 al género femenino, con el
propósito de facilitar el almacenamiento y manejo de la información, pero ello no quiere decir que el
género masculino tenga mayor o menor valor que el género femenino.
Los números utilizados para efectos de identicación en una escala nominal, nunca se utilizan para
llevar a cabo procedimientos aritméticos. Su única función es identicar. De hecho, la medición en
una escala nominal es limitada porque sólo permite efectuar una clasicación, mas no establecer la
magnitud de lo que se clasica.
La escala ordinal es aquella donde se clasican las unidades de observación en una posición con
relación a cierto atributo, pero sin indicar la distancia que hay entre las posiciones. Cuando se asignan
números es sólo para indicar el orden de las posiciones de lo que se está identicando. Por ejemplo,
una junta directiva se encuentra analizando tres diferentes alternativas A, B y C para una campaña
de mercadeo, y deciden que la alternativa A es la mejor y que la B es la peor; así, se han ordenado
las alternativas de acuerdo a la conveniencia para la campaña, pero no es posible evidenciar que tan
conveniente es la alternativa A respecto a las otras dos alternativas.
Con una escala ordinal tampoco se deben llevar a cabo las operaciones aritméticas. La diferencia
que pueda haber entre los elementos observados, no está constituida por unidades absolutas que se
puedan utilizar para determinar la distancia entre los objetos medidos. Por ejemplo, en una carrera
en la que no ha sido tomado el tiempo de los competidores, es posible establecer quién llegó primero,
y quién llegó segundo, pero no es posible establecer la diferencia entre los tiempos de llagada de los
competidores.
La escala de intervalo es aquella donde se ordenan los elementos según la magnitud del atributo que
representan y se proveen intervalos iguales entre las unidades de medida. No posee un cero absoluto,
dado que es establecido por convención de forma arbitraria por los expertos en el área de estudio; el cero
no implica la ausencia del atributo. Por ejemplo, la escala de medida de la inteligencia posee un valor
cero, pero éste no indica que un ser humano no tenga inteligencia. Análogamente, si la temperatura
de un objeto es cero grados centígrados, no es cierto que dicho elemento carezca de temperatura, ya
que la designación del valor cero es arbitraria y convencional.
Una diferencia de cierta magnitud en una escala de intervalo signica lo mismo para todas las posibles
diferencias con esa misma magnitud. Por ejemplo, la diferencia en la temperatura entre 1 y 2 es
equivalente a la diferencia entre 101 y 102 .
1.8. LA INVESTIGACIÓN ESTADÍSTICA 11
Por último, la escala de razón es aquella donde el punto cero no es arbitrario y corresponde a una
total ausencia de la característica observada. Por ejemplo, la escala de medición de una regla de 10
centímetros es de razón, la cual está dividida en 10 unidades cada una de igual magnitud a partir de
un punto cero absoluto y verdadero.
Algunas variables con las que se utiliza este tipo de escala se reeren a la ejecución de tareas motoras
y a los de aspectos siológicos. Dos ejemplos clásicos de la escala de razón son las medidas empleadas
para cuanticar la estatura y el peso de una persona. Además, dado el carácter absoluto del cero, la
razón entre los valores involucrados en esta escala de medida hace sentido.
En esta sección se señala el esquema de una investigación estadística, de la cual se hará énfasis en los
tópicos que se consideran de mayor relevancia e interés para el lector. El esquema de una investigación
estadística es el siguiente:
iv. Objetivos.
x. Bibliografía.
En una investigación es absolutamente necesario establecer qué y por qué se quiere estudiar algo.
Para ello, se debe lograr una delimitación clara, concreta e inteligible del problema que se quiere
abordar, con el propósito de evidenciar su accesibilidad y solubilidad, de forma tal que por medio de
12 CAPÍTULO 1. ELEMENTOS GENERALES
una revisión bibliográca responsable sea posible conocer el estado del arte, los resultados obtenidos
en investigaciones similares y corroborar las proposiciones básicas concebidas inicialmente.
Introducción y justicación
¾Qué se sabe de la realidad que interesa investigar? ¾Por qué interesa investigar esta realidad?
Antes de realizar cualquier investigación es obligatorio identicar qué se sabe acerca de la realizad
que se quiere examinar, con el propósito de establecer un punto de partida propio y real para el
estudio. Esto permite contextualizar e involucrar a todos los agentes de quienes pueda depender en
alguna medida la investigación. Por lo mismo es muy importante justicar apropiadamente por qué
es menester investigar tal realizad. De aquí depende que sea interesante y conveniente para todos los
actores involucrados, pues de ello depende muchas veces la consecución de los recursos.
Una hipótesis es una explicación provisional de los hechos objeto de estudio y su formulación depende
del conocimiento que el investigador posea sobre la población investigada. Una hipótesis estadística
debe ser susceptible de prueba, esto es, se debe poder docimar o juzgar para su aceptación ó rechazo.
Objetivos
¾Qué se quiere encontrar en el fenómeno objeto de estudio? ¾Qué se espera que suceda con la inter-
vención?
Luego de establecer los hechos objeto de estudio, se debe presupuestar hasta dónde se quiere llegar
con la investigación; en otras palabras, se debe jar cuáles son los objetivos de la investigación.
Éstos se deben plantear de tal forma que no haya lugar a confusiones o ambigüedades. Además, es
recomendable diferenciar los objetivos a corto, mediano y largo plazo, así como los objetivos generales
y los especícos.
Se debe evidenciar todo el bagaje teórico que dirige la investigación, describiendo completamente el
sustento teórico del problema y las evidencias de todo tipo que se encuentren alrededor del mismo.
En la fundamentación también se denen los términos más relevantes del estudio, ilustrando sus
principales rasgos y características.
¾Quiénes forman parte de la realidad que se estudia? ¾De ellos, quiénes serán los informantes? ¾Qué
y cómo se quiere medir?
La unidad de observación , entendida como cada elemento de la población estudiada, debe ser
denida previamente, de tal forma que se destaquen todas sus características; pues, al n de cuentas,
es sobre las unidades de observación que se hace la medición. Una unidad de observación puede
estar constituida por un elemento (unidad de observación simple) o por varios elementos (unidad de
observación compleja).
De otra parte, el criterio sobre el proceso de medición debe ser previamente denido y unicado. Por
ejemplo, si se trata de medidas de longitud, volumen o peso, se debe establecer bajo qué unidad de
medida se tomarán las observaciones, ya sea en metros, pulgadas, libras, kilogramos, etc. Así mismo,
se deben detallar las condiciones bajo las cuales se ha de efectuar la toma de la información.
En variadas circunstancias, estudiar todos y cada uno de los elementos que conforman la población no
es aconsejable, ya sea porque los recursos económicos y humanos son limitados, la homogeneidad de sus
elementos no justica un censo, o tal vez porque puede ser necesario destruir la unidad de observación.
Por tales motivos se recurre al análisis de los elementos de una muestra con el n de hacer inferencias
respecto a la población. La muestra en cuestión debe ser representativa de la población, esto es, sus
elementos deben ser escogidos de manera aleatoria de tal forma que reejen las características propias
de todos los individuos que conforman el colectivo en estudio.
Diseño de la investigación
En esta etapa se presenta el panorama metodológico completo que evidencia la forma en que se
organiza todo el proceso de investigación y los aspectos metodológicos esenciales que guían el trabajo
del investigador. En esta fase es de suma importancia la claridad y la precisión para dar cuenta del
posicionamiento del investigador en el mapa metodológico de la investigación cientíca. Dentro del
panorama metodológico se deben contemplar de manera particular los siguientes aspectos: recolección,
crítica, clasicación y ordenación, y análisis de la información.
14 CAPÍTULO 1. ELEMENTOS GENERALES
las que se pondrán a prueba los instrumentos de medición y se obtendrá una idea preliminar de la
variabilidad de la población, con el n de calcular el tamaño exacto de la muestra que conduzca a una
estimación de los parámetros con la precisión deseada.
Establecer las fuentes de información, así como la complejidad del instrumento de medición, son
decisiones que se han de tomar teniendo en cuenta todos los factores involucrados en la observación
de los elementos objeto de estudio. Se debe, entonces, descubrir dónde está la información, cómo y a
qué costo se puede conseguir.
Después de reunir la información pertinente, se necesita la depuración de los datos recogidos. Para
hacer la crítica de la información, es fundamental el conocimiento de la población por parte de quien
depura, para que sea posible detectar, por ejemplo, falsedades en las respuestas, incomprensión a las
preguntas, o respuestas al margen de todas las posibles causas de nulidad de una pregunta. Una vez
separado el material de desecho de la información debidamente depurada se procede a establecer las
clasicaciones respectivas, y con la ayuda de hojas de trabajo, se ordenan las respuestas y se preparan
los modelos de tabulación de las variables que intervienen en la investigación. Los avances tecnológicos
hacen que estas tareas, manualmente dispendiosas, puedan ser realizadas en corto tiempo.
La estadística ofrece métodos y procedimientos objetivos que convierten las especulaciones de primera
mano en aseveraciones cuya conabilidad puede ser evaluada en la toma de decisiones. Esta es la fase
de cálculo de los estadísticos, el ajuste de los modelos y la prueba de las hipótesis estadísticas, con el
n de establecer y redactar las conclusiones denitivas.
Presentación y publicación
La información adquiere más claridad cuando se presenta en una forma adecuada. Los cuadros, las
tablas y los grácos facilitan el análisis, pero se debe tener especial cuidado con las variables que se
van a presentar y la forma de hacerlo. No es aconsejable saturar un informe con tablas y grácos
redundantes que, antes que claridad, creen confusión. Además, la elección de los medios para mostrar
los resultados, se debe hacer no sólo en función de las variables de interés, sino del lector a quien va
dirigido el informe.
8 Una muestra piloto es un subconjunto de objetos de estudio que no son necesariamente seleccionados bajo el rigor
teórico de una muestra probabilística. Una muestra piloto permite realizar una descripción preliminar del fenómeno
de estudio y probar varios pasos metodológicos de la investigación, con el n de realizar correcciones y examinar los
supuestos teóricos de las etapas posteriores.
1.9. COMENTARIOS 15
1.9. Comentarios
En este capítulo se presentan algunos conceptos básicos de estadística, con el propósito de alentar su
estudio y esclarecer las concepciones falsas que se tengan al respecto; como creer que la estadística
únicamente trata con los porcentajes y las frecuencias que aparecen continuamente en los periódicos.
Así, en este capítulo y en los siguientes, se muestra una concepción real de la estadística descriptiva
por medio de sus aplicaciones, dado que es una herramienta de gran utilidad, que requiere un uso
adecuado e inteligente.
Es indispensable tener claras las premisas y los fundamentos de la estadística, para que posteriormente
se entiendan los conceptos que se presentan, se apliquen los métodos de manera correcta, y se analicen
los resultados obtenidos objetivamente, con el n de no cometer errores astronómicos como, por
ejemplo, establecer que tomar café produce cáncer, conclusión que eventualmente podría surgir de
un estudio cuyos pacientes son en su mayoría fumadores.
Por último, se resalta la importancia de una investigación cientíca como herramienta de estudio, dado
que a través de las hipótesis, los protocolos y/o las metodologías desarrolladas en una investigación de
tales características, es posible obtener conclusiones válidas sobre un tema de interés, con el propósito
de tomar decisiones conscientes en situaciones que impliquen incertidumbre.
1.10. Ejercicios
1.1 Clasicar y establecer la escala de medición de las siguientes variables:
c. Número de errores.
l. Opinión.
d. Filiación política.
m. Profesión.
e. Calicación de una prueba.
n. Número de hermanos.
f. Nivel educativo.
ñ. Ingresos mensuales.
g. Estatura.
1.2 Proponer una posible unidad de observación para cada variable del numeral anterior.
1.3 Un investigador educativo quiere evaluar la efectividad de un nuevo método para enseñar a
leer a estudiantes sordos. El aprovechamiento al nal del periodo de enseñanza se mide con la
puntuación del estudiante en una prueba de lectura.
a. ¾Cuál es la variable de estudio? ¾Qué tipo de variable de es? ¾Cuál es la escala de medición?
16 CAPÍTULO 1. ELEMENTOS GENERALES
1.4 Una empresa tuvo el año pasado algunas ventas de gran importancia. Los datos correspondientes
(en millones de pesos) se muestran en la siguiente tabla:
b. Calcular la media muestral de cada una de las muestras conformadas por las siguientes ob-
servaciones: {10; 15}, {1; 2; 5; 10; 13} y {1; 4; 7; 9; 12; 15; 19; 20}. Las observaciones están orde-
nadas por las.
1.5 Haciendo un estudio sobre la intención de voto en una población conformada por 5 millones
de votantes, de los cuales 2,900,000 son mujeres, se elige una muestra formada por 3,000 per-
sonas. ¾Cuántas mujeres y cuántos hombres deberá haber en la muestra elegida guardando las
proporciones dadas en la población?
1.6 ¾Cuáles son las principales diferencias entre la estadística descriptiva y la estadística inferencial?
1.8 Dada las motivaciones actuales que se tienen sobre el estudio del ser humano y sus interacciones
con el sexo opuesto, un centro de investigación decidió estudiar a tres grupos de personas de
manera independiente. El primero está conformado por 15 hombres y 15 mujeres, el segundo
por 20 hombres y 10 mujeres, y el tercero por 10 hombres y 20 mujeres. El objetivo del estudio
es detectar los comportamientos que se encuentran solamente en uno de los grupos, es decir,
aquellos comportamientos que no se tengan en más de uno de ellos. ¾Este estudio haría uso de
la estadística descriptiva o de la estadística inferencial? ¾Por qué?
1.9 En los siguientes casos identicar la población, la muestra, la unidad de observación, la variable
de interés y si la medición es cuantitativa o cualitativa:
1.10. EJERCICIOS 17
a. Varias veces durante el día un ingeniero de control de calidad de una fábrica, seleccionada
aleatoriamente algunos artículos producidos, los examina y registra el número de imperfec-
ciones que encuentra en cada artículo.
b. Durante una auditoria, cierta cantidad de cuentas de una rma fueron seleccionadas aleato-
riamente y examinadas en busca del número de errores.
d. Un gerente desea conocer si aquellos empleados que reciben 25 días de vacaciones son más
productivos durante el año que aquellos que reciben sólo 15 días. El gerente selecciona una
muestra de 40 trabajadores y registra su rendimiento.
1.10 En los siguientes casos distinguir las muestras aleatorias de las que no lo son:
a. Un fabricante necesita tener la certeza de que menos del 2 % de los artículos de un embarque
son defectuosos, de modo que prueba cierta cantidad de ellos tomados de los que vienen arriba
de un cargamento.
b. El Ministerio de Salud desea saber si una tienda particular reúne los requisitos del código
sanitario. Para ello decide visitar la tienda el quinto día de cada mes.
a. Parámetro y estadístico.
b. Población y muestra.
1.12 Enumerar los siguientes términos en el orden adecuado: conocimiento, datos e información.
Justicar.
1.13 Identicar tres tópicos actuales relacionados con la política, la economía y las ciencias sociales,
de los cuales se requiera algún tipo de información. Describir la información que se necesita para
investigar cada tópico.
1.15 Realizar el esqueleto de una investigación cientíca para un tema que le sea de particular interés,
en el cual haga mención de los puntos más importantes de una investigación estadística.
Capı́tulo 2
Tablas y grácas estadísticas
2.1. Introducción
Una de las primeras etapas en el análisis estadístico es la exploración de los datos, en la cual se resume
la información de las variables de manera compacta y precisa. Con este n se generan tablas y grácas
que evidencien claramente el comportamiento de las variables de manera individual y conjunta. Sin
embargo, una de las aplicaciones que mayor relevancia tiene este tipo de análisis es la depuración
1 de
la información, puesto que la mayoría de anomalías se reejan de manera particular dentro del análisis
exploratorio de los datos. Por ello es que la mayoría de tales análisis enfatizan el estudio univariado
de los datos, es decir, de una sola variable a la vez.
Nota. Algunas anomalías de los datos pueden ser: datos faltantes, perdidas de formato, errores de
digitación, valores no probables y no respuesta, por ejemplo.
1 La depuración es el proceso mediante el cual se realiza una inspección en busca de anomalías dentro de la
información que posteriormente don eliminadas y/o corregidas.
18
2.2. TABLAS ESTADÍSTICAS 19
Considere un conjunto de n individuos asociado con una variable cuyas modalidades o valores han
sido agrupados en k clases o categorías denotadas con C1 , C2 , . . . , Ck . Para cada una de las k clases
se denen las siguientes magnitudes:
Nota. Multiplicado por 100 % la fórmula de la denición 2.2.2, fi representa el porcentaje de individuos
comprendidos en la clase correspondiente.
para i = 1, . . . , k .
Ni
Fi :=
n
para i = 1, . . . , k .
20 CAPÍTULO 2. TABLAS Y GRÁFICAS ESTADÍSTICAS
Nota. Las frecuencias acumuladas se calculan para variables medidas en una escala al menos de tipo
ordinal; aunque también se pueden calcular para variables nominales, su interpretación es de cuidado,
de acuerdo al orden arbitrario de las clases establecido previamente.
Se llama distribución de frecuencias a la tabla que contiene las categorías junto con las frecuen-
cias correspondientes. Una tabla con tales características sirve para presentar de forma ordenada la
distribución de los datos. Su forma general se presenta en la tabla 2.1.
Proposición 2.2.1. En una distribución de frecuencias de una categoría con k clases se cumplen las
siguientes propiedades:
i. iii.
k
X i
X
fi = 1 Fi = fk
i=1 k=1
ii. iv.
Nk = n Fk = 1
Ci ni fi Ni Fi
C1 n1 f1 N1 F1
C2 n2 f2 N2 F2
. . . . .
. . . . .
. . . . .
Ck nk fk n 1
Total n 1 N.A. N.A.
Ejemplo 2.2.1. Considerar el conjunto de datos de la tabla 2.2 asociados con una encuesta de opinión
acerca de una medida económica. Elaborar la tabla de frecuencias correspondiente.
Solución:
La variable opinión, es una variable cualitativa nominal que toma los valores A favor, En contra
2.2. TABLAS ESTADÍSTICAS 21
1 0 0 1 1 3 1 3 1 3
0 0 0 3 0 0 0 1 1 0
1 0 0 0 0 0 1 1
Tabla 2.2: Datos asociados con una encuesta de opinión acerca de una medida económica. 1:=A favor; 0:=En contra;
3:=No Sabe/No Responde (NS/NR).
y NS/NR, de tal forma que el número de clases es k = 3. La tabla 2.3 corresponde a la distribución
de frecuencias requerida.
Ci ni fi
A favor 10 35.7 %
En contra 14 50.0 %
NS/NR 4 14.3 %
Total 28 100 %
Como la escala de medición de la variable opinión es nominal entonces no hacen sentido las frecuen-
cias acumuladas.
Ejemplo 2.2.2. Considerar el conjunto de datos de la tabla 2.4 asociados con el nivel educativo de
algunos empleados de una empresa. Elaborar la tabla de frecuencias correspondiente.
B D M B B P B M B B
B P B M B B M B M B
B B B B B B P B B B
B M B P B B M B B B
D B M B P B B B P P
Tabla 2.4: Datos asociados con el nivel educativo de algunos empleados de una empresa. B:= Bachillerato; P:=
Pregrado; M:= Maestría; D:= Doctorado.
Solución:
La variable nivel educativo, es una variable cualitativa ordinal que toma los valores Bachillerato,
Pregrado, Maestría y Doctorado, por lo que el número de categorías es k = 4. La tabla 2.5
corresponde a la distribución de frecuencias requerida.
Como la escala de medición de la variable nivel educativo es ordinal entonces hacen sentido las
frecuencias acumuladas.
22 CAPÍTULO 2. TABLAS Y GRÁFICAS ESTADÍSTICAS
Ci ni fi Ni Fi
Bachillerato 33 66.0 % 33 66.0 %
Pregrado 7 14.0 % 40 80.0 %
Maestría 8 16.0 % 48 96.0 %
Doctorado 2 4.0 % 50 100 %
Otro tipo de tablas para variables cualitativas son generadas a partir de dos o más variables cualita-
tivas, denominadas tablas de clasicación a p vías, donde p es el número de variables cualitativas que
se estén considerando. En el ejemplo 2.2.3 se presenta una tabla a dos vías de clasicación.
Ejemplo 2.2.3. Un estudio sobre el comportamiento de diferentes razas de perros generó la clasi-
cación que se presenta en la tabla 2.6 respecto a su tamaño (T ) y su afectividad (A).
Raza T A Raza T A
bass Peq Baja galg Gra Baja
beau Gra Alta gasc Gra Baja
boxe Med Alta labr Med Alta
buld Peq Alta masa Gra Alta
bulm Gra Baja mast Gra Baja
cani Peq Alta peki Peq Alta
chih Peq Alta podb Med Alta
cock Med Alta podf Gra Baja
coll Gra Alta poin Gra Baja
dalm Med Alta sett Gra Baja
dobe Gra Baja stbe Gra Baja
dogo Gra Baja teck Peq Alta
foxh Gra Baja tern Gra Baja
foxt Peq Alta
Tabla 2.6: Datos asociados con la clasicación con respecto al tamaño y a la afectividad de un grupo de perros. Peq:=
Pequeño; Med:= Mediano; Gra:= Grande.
Con el propósito de empezar una campaña de mercadeo con esta clasicación, interesa conocer el
porcentaje de razas que son grandes y afectivas, y también el porcentaje de razas que son pequeñas y
afectivas. Para tal n se genera la tabla 2.7 a dos vías de clasicación con las variables en cuestión.
De esta tabla se concluye que las razas de perros cuyos tamaños son grandes, en su mayoría son poco
afectivas, mientras que las razas de perros cuyo tamaño es pequeño frecuentemente son muy afectivas,
2.2. TABLAS ESTADÍSTICAS 23
Tabla 2.7: Tabla a dos vías de clasicación de los datos de la tabla 2.6.
por lo que en la campaña se considerará un enfoque publicitario en las razas de perros pequeños.
Nota. Los resultados de estas fórmulas generalmente no coinciden, así que el usuario decidirá a
conveniencia cuantas clases utilizar.
RX = xmax − xmin
4. Calcular la amplitud de las categorías. La amplitud se denota con a y por facilidad conviene
que sea igual para todas las clases. La fórmula de la amplitud es:
RX
a= (2.1)
k
.
.
.
Tabla 2.8: Datos asociados con las ganancias en un día determinado de una muestra de empresas de una ciudad.
Solución:
La variable ganancias es una variable cuantitativa de razón. Es claro que esta variable no está dada
en categorías, por lo que es necesario elaborar las clases pertinentes como sigue:
√
1. Se opta por trabajar con k = 6 clases dado que 35 = 5.916 ≈ 6 y 1 + 3.3 log10 (35) = 6.095 ≈ 6.
4. a = 81.8/6 = 13.63.
Lo que sigue es enumerar la cantidad de datos en cada categoría, y así obtener la distribución de
frecuencias requerida (tabla 2.9).
2.3. GRÁFICAS ESTADÍSTICAS 25
Ci ni fi Ni Fi
[60.40; 74.03) 5 14.3 % 5 14.3 %
[74.03; 87.67) 9 25.7 % 14 40.0 %
[87.67; 101.30) 10 28.6 % 24 68.6 %
[101.30; 114.93) 6 17.1 % 30 85.7 %
[114.93; 128.57) 3 8.6 % 33 94.3 %
[128.57; 142.20] 2 5.7 % 35 100 %
Dado que las ganancias están medidas en una escala de razón hacen sentido las frecuencias acumuladas.
Diagrama de barras
Un diagrama de barras es una representación gráca en la que cada una de las modalidades de la
variable de interés se representa mediante una barra. En este gráco se disponen los datos en el
primer cuadrante de unos ejes coordenados, levantando sobre el eje de las abscisas (eje x) una barra
para cada modalidad de la variable. La altura de la barra debe ser proporcional a la frecuencia absoluta
o relativa que se representa en el eje de las ordenadas (eje y ).
Nota. Estos diagramas se utilizan tanto para variables cualitativas como cuantitativas discretas cuando
la cantidad de categorías lo permite.
Ejemplo 2.3.1. En la gura 2.1 se muestra un diagrama de barras en el que se representa el estado
civil de una muestra de personas de una localidad.
26 CAPÍTULO 2. TABLAS Y GRÁFICAS ESTADÍSTICAS
Diagrama de sectores
En el diagrama de sectores se divide un círculo en tantas porciones como categorías tenga la variable,
de modo que a cada clase le corresponda un sector del círculo proporcional a su frecuencia absoluta o
relativa. El arco de cada porción se puede calcular usando la siguiente regla de tres:
n −→ 360o
ni −→ vi
Ejemplo 2.3.2. En la gura 2.2 se presenta un diagrama de sectores relacionado con la clasicación
de una muestra de empresas de una ciudad.
2.3. GRÁFICAS ESTADÍSTICAS 27
Nota. En algunas situaciones es de interés comparar dos conjuntos de datos. En tales casos es acon-
sejable el uso de las frecuencias relativas en los grácos para efectuar directamente la comparación.
Además, si los grácos usan los ejes coordenados, se debe procurar que éstos tengan la misma escala
de medida.
Para las variables cuantitativas, se consideran dos tipos de grácos en función del uso de las frecuencias
absolutas o relativas, a saber, diagramas diferenciales y diagramas integrales.
Nota. Dado que los diagramas integrales se construyen a partir de las frecuencias acumuladas, éstos
dan lugar a grácos crecientes.
28 CAPÍTULO 2. TABLAS Y GRÁFICAS ESTADÍSTICAS
Como se ha visto, hay dos tipos de variables cuantitativas: discretas y continúas. A continuación se
muestran algunas representaciones grácas para cada una de ellas.
Cuando se trabaja con una variable cuantitativa discreta, se utiliza como diagrama diferencial un
diagrama de barras. Se recomienda que las barras sean estrechas para evidenciar que los valores que
toma la variable son discretos. El diagrama integral tiene, dada la naturaleza de la variable, forma de
escalera.
Ejemplo 2.3.3. Para la información dada en la tabla 2.10 elaborar los diagramas diferencial e integral
correspondientes.
Número de hijos 1 2 3 4
Frecuencia 1 3 5 3
Solución:
En primer lugar, se debe obtener la distribución de frecuencias del número de hijos. Tal distribución
se presenta en la tabla 2.11. Con las frecuencias relativas se realizan los diagramas requeridos. Los
grácos utilizando las frecuencias absolutas son idénticos salvo por un cambio de escala en el eje de
las ordenadas.
Se observa que el gráco integral es creciente y que los saltos corresponden a la magnitud de las
barras del gráco diferencial. En la gura 2.3 se presentan estos grácos.
Ci ni fi Ni Fi
1 1 0.083 1 0.083
2 3 0.250 4 0.333
3 5 0.416 9 0.750
4 3 0.250 12 1
Figura 2.3: Grácos diferencial (a) e integral (b) de los datos de la tabla 2.10.
Cuando las variables son cuantitativas continuas se utilizan los histogramas y los polígonos de fre-
cuencias. Un histograma se construye a partir de la distribución de la frecuencias asociando a cada
categoría un rectángulo que tiene a cada intervalo como base. El criterio para calcular la altura de
cada rectángulo es mantener la proporcionalidad entre la frecuencia de cada intervalo y el área del
mismo.
Una vez se ha elaborado el histograma, el polígono de frecuencias consiste en unir mediante líneas
rectas los puntos superiores de cada rectángulo localizados en los puntos medios de cada intervalo.
Tales cantidades se denominan marcas de clase y están dadas por
li−1 + li
xi =
2
donde xi denota la marca de clase, y li−1 y li son el límite inferior y superior respectivamente de
i-ésimo intervalo para i = 1, . . . , k .
Un polígono de frecuencias acumulado u ojiva es un diagrama integral para una variable cuan-
titativa continua, y se obtiene de la misma forma que un polígono de frecuencias corriente, pero en
lugar de dibujar el polígono sobre el histograma, se representa sobre el diagrama de barras de las
frecuencias acumuladas.
Figura 2.4: Ejemplo de un polígono de frecuencias (a) y de un polígono de frecuencias acumulado (b).
Nota. Con el propósito de facilitar la lectura de los histogramas y de representar la información con
mayor precisión, es costumbre suavizar los polígonos de frecuencias como se ilustra en la gura 2.5.
Pictogramas
Un pictograma expresa con dibujos alusivos al tema de estudio las frecuencias de las modalidades de
la variable. Estos grácos se hacen representando a diferentes escalas un mismo dibujo. El escalamiento
de los dibujos debe ser de tal forma que el tamaño de cada uno de ellos sea proporcional a la frecuencia
absoluta o relativa de la modalidad que representa. Este tipo de grácos suele usarse en los medios de
comunicación, para que sean comprendidos por el público no especializado, sin que sea necesaria una
explicación compleja.
Cartogramas
Los cartogramas se utilizan cuando los datos disponibles hacen referencia a diferentes zonas geográ-
cas, de forma tal que los diferentes valores de la variable se indican con diferentes colores y tramas
Nota. Cuando los datos son números muy grandes es necesario aproximarlos a cantidades cercanas a
cientos, dependiendo de las diferencias que se presenten.
44 45 50 62 45 51 44 50 58 44
49 62 61 53 56 56 60 54 55 47
Tabla 2.12: Datos asociados con el número de clientes de un almacén atendidos en los últimos 20 días.
Ejemplo 2.3.7. Un almacén reconocido con una capacidad máxima de atención de 60 clientes está
considerando contratar más personal, puesto que en los últimos días se ha visto corta de empleados
para atender a la clientela. Para vericar esto se realiza un diagrama de tallos y hojas con la información
de la tabla 2.12 correspondiente al número de clientes atendidos en los últimos 20 días.
Una vez realizado este diagrama de tallo y hojas (tabla 2.13), el almacén decide no contratar más
personal, puesto que la capacidad de atención a sido superada únicamente en 3 ocasiones.
2.4. COMENTARIOS 33
Tallo | hojas
4 | 4445579
5 | 001345668
6 | 0122
Diagramas de líneas
Los diagramas de líneas son grácos diseñados especialmente para representar una estructura
especial de datos longitudinales (detalles en la sección 1.6) denominada serie de tiempo. Este tipo
de datos surge cuando un mismo individuo es observado en diferentes ocasiones momentos con el
propósito de analizar la evolución de la variable de estudio a través del tiempo y de realizar pronósticos
con base en la tendencia observada. En estos diagramas la variable de estudio se presenta en el eje
y, mientras que los tiempos de medición correspondientes se muestran en el eje x, de tal forma que
se unen mediante líneas rectas las observaciones registradas. Ejemplos clásicos de las series de tiempo
son las series económicas.
Ejemplo 2.3.8. En la gura 2.8 se presenta un ejemplo de una serie de tiempo correspondiente al
precio nal (en miles de pesos) del galón de gasolina corriente en Bogotá .
4
Cuando se elabora un gráco hay que tener en mente su objetivo primordial: dar a entender de
manera clara y sencilla el comportamiento de una o varias variables e identicar fácilmente cualquier
fenómeno de interés, como la concentración de los valores de una variable en alguna clase, la existencia
categorías sin propósito, la presencia de datos atípicos, etc. Por tal motivo, se debe tener especial
atención en las partes que conforman los grácos, como el título principal, el título de los ejes, el
color, el tamaño y la escala, ya que se puede desviar la atención del gráco cuando éste es muy
estrambótico o colorido, o dicultar la lectura cuando se desconoce el signicado de los ejes, por
ejemplo.
2.4. Comentarios
En este capítulo se abordan las formas básicas de resumir variables cualitativas y cuantitativas por
medio de tablas y grácas. Las tablas permiten evidenciar cómo se comportan las variables respecto a
los grupos o categorías que ellas mismas denen con relación a la información que se tiene, dependiendo
de las especicaciones del problema y de las necesidades del investigador.
2.5. Ejercicios
2.1. Los datos que aparecen a continuación corresponden a los porcentajes de rentabilidad de las
acciones de una muestra de 25 empresas.
2.5. EJERCICIOS 35
b. Responder:
iii. ¾Qué porcentaje de acciones tienen el porcentaje de rentabilidad entre 43.38 % y 50.90 %?
iv. ¾Cuántas acciones tienen el porcentaje de rentabilidad menor que 28.34 % o mayor que
43.38 %?
2.2. Los datos que se presentan a continuación corresponden a las cuentas telefónicas mensuales (en
miles de pesos) de una muestra de residentes de un sector de una ciudad:
b. ¾Cuáles son las categorías o clases de cuentas que ocurrieron con menor frecuencia?
c. Realizar un gráco con el cual se pueda discutir la siguiente armación: hay concentración de
los montos de las cuentas telefónicas.
2.3. Se ha realizado una encuesta a 600 personas que se encuentran en un centro comercial sobre
el tipo de almacén que más frecuentan dándoles a escoger algunas opciones que guran en un
formulario. Se han obtenido los siguientes porcentajes: calzado, 10 %; vestimenta, 18 %; artículos
deportivos, 12 %; artículos decorativos, 4 % y alimentación, 26 %. Hacer la tabla de las frecuencias
y el gráco correspondiente. ¾Como podría utilizar esta información el administrador del centro
comercial?
2.4. Para decidir sobre el número de mostradores de servicio necesarios para las tiendas que se construi-
rán en el futuro, una cadena de supermercados desea obtener información acerca de la duración
(en minutos) requerida para atender a sus clientes. Para encontrar la distribución de tiempos de
servicios a clientes se registró la siguiente información correspondiente a 70 clientes:
4.6 1.3 0.2 0.7 0.7 1.3 0.7 0.2 2.3 3.7 6.6 2.5
0.6 2.1 0.7 0.6 1.6 1.3 0.4 0.6 3.2 3.1 4.4 0.6
0.5 1.2 0.9 1.9 1.6 1.3 3.0 0.1 0.7 0.0 0.8 0.1
1.2 3.0 3.5 2.2 0.1 0.1 5.8 1.7 0.8 1.7 1.3 2.5
7.0 4.0 1.0 2.6 0.2 0.3 0.1 0.2 0.9 7.8 2.9 0.1
1.9 4.9 2.1 2.1 0.9 0.2 6.8 0.4 6.3 2.2
c. Comparar los grácos de los incisos anteriores. ¾Muestran estos diagramas la misma informa-
ción?
d. ¾Qué fracciones de los tiempos de servicio son menores o iguales a un minuto? ¾Y entre uno
y dos minutos? ¾Cuáles son los tiempos de servicio mínimo y máximo?
2.5. La gerencia de una empresa mencionó en su informe anual las siguientes cifras en miles de millones
de pesos correspondientes a las ventas netas y el costo de producción desde 2000.
a. Calcular y representar anualmente la utilidad neta entendida como la diferencia entre las
ventas y el costo de producción.
c. ¾En que año se logró la utilidad máxima? ¾Y la utilidad mínima? ¾Cuáles fueron estas utili-
dades? ¾En qué periodo se presentó el mayor cambio en las utilidades? ¾Y el menor? ¾Cuál
fue la magnitud de estos cambios?
2.6. El valor de una variable cuantitativa se mide una vez al año durante un periodo de 10 años. A
continuación se presentan los resultados obtenidos:
Año 1 2 3 4 5 6 7 8 9 10
Medición 61.5 62.3 60.7 59.8 58.0 58.2 57.5 57.5 56.1 56.0
2.7. ¾Qué es un diagrama de Pareto? ¾Cuáles son sus características? ¾Cómo se utiliza? ¾Para que
sirve?
Utilizando un diagrama de Pareto, analizar las pérdidas por rechazos en una fábrica de papel,
teniendo en cuenta que se han detectado los conceptos que se muestran en la siguiente tabla, en
la que se indican los costes asociados (en miles de Euros) a cada concepto .
5
2.8. Calcular los datos que faltan en la siguiente tabla y elaborar el gráco diferencial e integral
correspondientes.
Ci ni fi Ni
[0; 10) 60 f1 60
[10; 20) n2 0.4 N2
[20; 30) 30 f3 170
[30; 100) n4 0.1 N4
[100; 200] n5 f5 200
Total n N.A.
2.9. En la siguiente tabla se muestran las cifras (en millones de USD) relacionadas con películas
6
más taquilleras de los últimos años . Los datos corresponden a la taquilla en Estados Unidos, la
recaudación mundial, el presupuesto y el año de estreno.
b. Calcular la taquilla fuera de los Estados Unidos y la utilidad neta entendida como la diferencia
entre la recaudación y el presupuesto.
c. Construir un diagrama de tallos y hojas para la taquilla dentro y fuera de los Estados Unidos.
Comparar los resultados obtenidos.
d. Realizar un histograma de frecuencias relativas para la utilidad neta de las películas y con ésta
describir la distribución de las ganancias de los distribuidores.
2.5. EJERCICIOS 39
2.10. A continuación se muestra la distribución del consumo anual (en puntos porcentuales) de un país
y de una de sus ciudades principales. Realizar un diagramas de sectores y de barras en cada caso y
comentar los resultados obtenidos. ¾Cuáles grácos deben ser publicados? ¾Cuáles sectores tienen
mayor consumo? ¾Cuáles sectores tienen el menor consumo?
2.11. ¾Qué es un diagrama de puntos? ¾Cuáles son sus características? ¾Cómo se utiliza? ¾Para que
sirve? Mostrar una aplicación al respecto.
2.12. A continuación se presenta un conjunto de datos asociados con a la preferencia que tienen los
individuos en relación con la marca de vehículos según su punto de fabricación. En este formulario
se tuvieron en cuenta la zona de procedencia de los vehículos (1:=Asia; 2:=Europa; 3:=Estados
Unidos), el género (0:=Masculino; 1:= Femenino) y la edad (en años cumplidos) de los individuos
que respondían el formulario.
c. Elaborar una tabla a tres vías de clasicación con las frecuencias relativas tomando como
clases para la edad los siguientes intervalos: 26-30 años, 31-35 años y 36-40 años.
2 0 36 2 1 32
3 1 36 2 1 32
2 1 32 2 0 32
1 1 36 3 0 33
1 0 32 3 1 35
1 0 29 3 1 34
3 0 35 3 0 32
2 0 32 3 1 32
2 0 32 3 0 36
2 0 32 1 1 29
3 1 36 1 1 32
2 0 34 1 1 32
2 1 32 2 1 36
2 0 32 2 1 34
2 0 33 2 0 32
2 1 29 3 0 32
2 1 36 1 1 30
2 0 36 2 1 32
3 1 33 3 1 33
3 1 34 3 1 38
2 0 33 3 1 34
2 1 32 3 1 33
2 1 32 3 1 28
3 1 36 3 1 33
1 0 32 2 1 32
Capı́tulo 3
Medidas de tendencia central y de posición
3.1. Introducción
Cuando se realiza un análisis descriptivo de las variables de estudio que permita descubrir las anoma-
lías, estructuras, frecuencias y demás características relevantes de la información, se da un paso más
allá en el análisis pues se indaga ahora por las propiedades de la distribución de los datos. Con las
medidas estadísticas de tendencia central se quiere estudiar si los datos parecen estar agrupados en
uno o más grupos y que cantidades podrían ser representantes de tales grupos, o por el contrario, si
los datos se encuentran dispersos entre sí.
41
42 CAPÍTULO 3. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN
medidas estadísticas de dispersión (capítulo 4), ya que la calidad de las medidas de tendencia central
está asociada intrínsecamente con el grado de concentración de la información.
la suma de todas las observaciones del conjunto dividiendo después entre la cantidad de datos del
conjunto. Esta medida le otorga a todas las observaciones la misma importancia relativa dentro del
conjunto de datos.
1 Una realización de una variable se reere explícitamente al valor observado de esta variable obtenido a partir de
la medición concreta de un individuo particular objeto de estudio.
3.2. MEDIDAS ESTADÍSTICAS DE TENDENCIA CENTRAL 43
n
1X
x̄ := xi .
n i=1
Nota. media muestral observada2 de una variable X se simboliza con x̄, mientras que la media
La
poblacional se denota con µX . Así, cuando se dispone de una población nita, se tiene que
N
1 X
µX := xi
N i=1
donde N es el tamaño de la población. Además, la media se calcula para variables medidas en una
escala de intervalo o de razón.
Cuando los datos de una muestra están agrupados en una distribución de frecuencias, la media arit-
mética se calcula con la fórmula
Pk
ni xi
x̄ = Pi=1
k
i=1 ni
o con la fórmula
k
X
x̄ = fi xi
i=1
Solución:
Para calcular el promedio requerido primero se deben calcular las marcas de clase, es decir, calcular
para cada categoría
li−1 + li
xi =
2
donde li−1 y li son los límites inferior y superior de la i-ésima clase respectivamente para i = 1, . . . , 6.
Una vez calculadas las marcas de clase, se calcula el valor promedio de las ganancias aplicando la
fórmula del promedio para datos agrupados.
2 La media muestral X̄ = 1 Pn
Xi corresponde a la variable promedio de la muestra cuyos valores dependen
n i=1 Pn
1
de la muestra recogida; mientras que la media muestral observada x̄ = n i=1 xi compete a un valor especíco de la
variable X̄ calculada a partir de los datos de una muestra determinada.
44 CAPÍTULO 3. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN
Clase xi ni ni xi
[60.40 ; 74.03) 67.22 5 336.08
[74.03 ; 87.67) 80.85 9 727.65
[87.67 ; 101.30) 94.48 10 944.83
[101.30 ; 114.93) 108.12 6 648.70
[114.93 ; 128.57) 121.75 3 365.25
[128.57 ; 142.20] 135.38 2 270.77
Como Pn
ni xi 3293.3
Pi=1
n = = 94.09
i=1 ni 35
entonces el valor promedio de las ganancias de las empresas es 94.09 millones.
Proposición 3.2.1. Sea X una variable y a, b números reales. Entonces se tiene que:
i. Si X = a entonces X̄ = a.
ii. Si Y = a X + b entonces Ȳ = aX̄ + b.
iii. Si X y Y son variables conmensurables3 y W = aX + bY entonces W̄ = aX̄ + bȲ .
Ejemplo 3.2.2. Una compañía vende un promedio mensual de $47,700,000. La compañía paga men-
sualmente al Estado un impuesto igual al 17 % sobre las ventas. La utilidad de la compañía se calcula
teniendo en cuenta que quincenalmente paga $12,000,000 correspondientes a gastos jos de funciona-
miento además del impuesto sobre las ventas. Calcular la utilidad mensual promedio de la compañía.
Solución:
En esta situación x̄ = $47, 700, 000 donde X representa la venta mensual de la empresa. Como la
compañía paga mensualmente al Estado un impuesto igual al 17 % sobre las ventas y además gasta
3 Se dice que X y Y son variables conmensurables cuando existe una unidad común de medida en términos de la
cual tanto X como Y se pueden medir.
3.2. MEDIDAS ESTADÍSTICAS DE TENDENCIA CENTRAL 45
y por lo tanto ȳ = (1.17)(47, 700, 000) − 24, 000, 000 = 31, 809, 000 es la utilidad mensual promedio de
la empresa.
Ejemplo 3.2.3. De 500 estudiantes cuya estatura promedio es 1.57 metros, 150 son mujeres. Si la
estatura promedio de las mujeres es 1.52 metros, ¾cuál es la estatura promedio de los hombres?
Solución:
P500
i=1 xi
x̄ =
500
n1 x̄1 + n2 x̄2
1.57 =
500
(150)(1.52) + 350(x̄2 )
1.57 =
500
y por lo tanto
(1.57)(500) − (150)(1.52)
x̄2 = = 1.59
350
De este modo el promedio de los hombres es 1.59 metros.
• Es de uso cotidiano.
46 CAPÍTULO 3. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN
• Corresponde a uno de los valores menos frecuentes del conjunto de datos cuando la distribución
de los datos tiene forma de U (distribución (a) de la gura 3.1).
Se ha visto que la media aritmética se calcula con base en la magnitud de los datos, otorgándoles
igual importancia ponderación o peso a cada uno de ellos: 1/n para un conjunto de datos con n
elementos. Sin embargo, en algunas ocasiones la importancia relativa de los valores de la variable no
es la misma en todos los casos, por lo que los datos son ponderados de tal forma que esta importancia
se vea reejada en las estadísticas asociadas.
Nota. El límite superior de las sumatorias de la fórmula anterior depende de si se dispone de datos
agrupados o no agrupados.
Examen 4.5 40 %
Trabajo 1.0 10 %
Investigación 3.5 50 %
Solución:
4 Los datos atípicos (outliers en inglés) son datos muy grandes o muy pequeños comparados con el grueso del
conjunto de datos. Son observaciones con un comportamiento extraño porque toman valores que no se esperan (detalles
en la sección 4.4).
3.2. MEDIDAS ESTADÍSTICAS DE TENDENCIA CENTRAL 47
Se observa que las actividades académicas no tienen el mismo peso en la evaluación de la asignatura.
Por lo tanto, siguiendo la fórmula del promedio ponderado se obtiene que
3.2.3. La mediana
Otra medida de tendencia central es la mediana, la cual no se basa en la magnitud de los valores,
como la media aritmética, sino en la posición central que ocupa en el conjunto de datos ordenado
ascendentemente, dividiendo la información en dos partes iguales.
Nota. mediana muestral observada5 de una variable X se simboliza con x̃, mientras que la
La
mediana poblacional se denota con µ̃X . Además, la mediana se calcula para variables medidas en
al menos una escala ordinal.
Ejemplo 3.2.5. Los datos de la tabla 3.3 corresponden al número de hijos de una muestra de em-
pleados de una empresa. Calcular e interpretar la mediana.
Solución:
El tamaño de la muestra es n=40. Ahora, debido a que el total de datos es par y que los datos de
la tabla están organizados ascendentemente, se tiene que la mediana es el valor ubicado entre las
n n
observaciones de las posiciones
2 = 20 y
2 + 1 = 21. Por lo tanto la mediana es
1+1
x̃ = =1
1
Este valor indica que la mitad de los empleados no tienen hijos o tienen uno sólo.
Tabla 3.3: Datos asociados con el número de hijos de una muestra de empleados de una empresa.
Cuando los datos están agrupados en una tabla de frecuencias por intervalos, el cálculo de la mediana
es como sigue:
(0.5)n − Ni−1
x̃ = li−1 + (li − li−1 )
ni
donde i = mı́n{j : Nj > (0.5)n} es el número de la primera clase cuya frecuencia absoluta acumulada
es superior a (0.5)n.
Ejemplo 3.2.6. Calcular e interpretar la mediana de los datos del ejemplo 2.9.
Solución:
Se observa que las ganancias se encuentran organizadas en una tabla de frecuencias. En este caso i es
el número del primer intervalo cuya frecuencia absoluta acumulada es superior a (0.5)n = (0.5)(35) =
17.5; este intervalo es el número 3. Así, se obtiene que:
17.5 − (5 + 9)
x̃ = 87.67 + (101.30 − 87.67) = 92.44.
10
Entonces la mitad de las empresas tiene ganancias inferiores a 92.44 millones. Además, parece que
el valor de la ganancia mediana (92.44 millones) y el valor de la ganancia promedio (94.09 millones)
7
no dieren signicativamente . Esto sugiere que no hay ganancias atípicas que inuyan de manera
importante en la distribución de los datos. Es decir, la distribución de las ganancias de las empresas
parece ser simétrica con respecto a 94.09 millones.
7 Para comprobar este hecho formalmente es necesario docimar una hipótesis estadística.
3.2. MEDIDAS ESTADÍSTICAS DE TENDENCIA CENTRAL 49
que no depende de los valores que toma la variable, sino del orden de los mismos. Por ello, el
uso de la mediana es adecuado cuando la distribución de los datos no es simétrica.
3.2.4. La moda
La moda, como su nombre lo indica, es el valor más común (de mayor frecuencia) en un conjunto de
datos. Una distribución de datos puede tener una moda unimodal, dos modas bimodal o varias
modas multimodal. Asimismo, puede ocurrir que la distribución de los datos no tenga moda.
Nota. La moda muestral observada de una variable X se simboliza con x̆, mientras que la moda
poblacional se denota con µ̆X . Además, la moda se calcula para variables medidas en cualquier tipo
de escala.
Ejemplo 3.2.7. Calcular e interpretar la moda de los datos del ejemplo 3.2.5.
Solución:
Aquí se trata de un conjunto de datos bimodal debido a que hay dos valores de la variable que
maximizan la distribución de frecuencias. Estos valores de la variable son el valor 0 y el valor 1,
ambos con frecuencia absoluta igual a 12, lo que quiere decir que lo más frecuente para este grupo de
empleados es que no tengan hijos o tengan uno sólo.
Cuando los datos están agrupados en una tabla de frecuencias por intervalos, el cálculo de la moda es
como sigue:
ni − ni−1
x̆ = li−1 + (li − li−1 )
(ni − ni−1 ) + (ni − ni+1 )
donde i ∈ {j : nj ≥ nl , ∀l = 1, ..., k} es el número de un intervalo cuya frecuencia absoluta es la
mayor y k es el número de categorías.
8 Una medida se llama robusta si su magnitud no se altera notoriamente cuando hay cambios drásticos en la
estructura general del conjunto de datos donde es calculada.
50 CAPÍTULO 3. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN
Ejemplo 3.2.8. Calcular e interpretar la moda de los datos del ejemplo 2.9.
Solución:
Se observa que las ganancias se encuentran organizadas en una tabla de frecuencia. En este caso i es
el número del intervalo cuya frecuencia absoluta es la mayor; este intervalo es el número 3. Así, se
obtiene que:
10 − 9
x̆ = 87.67 + (101.30 − 87.67) = 90.39.
(10 − 9) + (10 − 6)
La moda sugiere que las ganancias que aparecen con mayor frecuencia se encuentran alrededor de
93.39 millones y pertenecen al intervalo donde se encuentra tal ganancia modal.
Una medida originada a partir de la geometría es la media geométrica, la cual hace parte de las
medias pitagóricas : la media aritmética, la media geométrica y la media armónica.
v
u n
uY
n
Gx := t xi .
i=1
Nota. La media geométrica se calcula sobre un conjunto de datos cuyos valores sean números no
negativos, usualmente porcentajes y tasas .
9
Una forma de saber cómo y cuándo se debe usar la media geométrica es teniendo en cuenta lo siguiente:
si el total se obtiene de una productoria de valores, ¾cuál es el valor que al reemplazarlo en todas las
9 Una tasa se reere a la relación entre dos magnitudes asociada con la relación entre la cantidad y la frecuencia de
un fenómeno. Son ejemplos la tasa de inación, la tasa de desempleo y la tasas de natalidad (Real Academia Española
2012d).
3.2. MEDIDAS ESTADÍSTICAS DE TENDENCIA CENTRAL 51
observaciones daría como resultado el mismo total? Es decir, la media geométrica se usa cuando el
total corresponde al producto de diferentes observaciones, mientras que la media aritmética se utiliza
cuando el total es obtenido mediante la adición de las observaciones.
Ejemplo 3.2.9. Se tiene un activo en la banca que genera ganancias del 30 % en el primer año, 20 %
en el segundo y 60 % en el tercero. ¾Cuál es la ganancia promedio?
Solución:
Lo primero que se debe observar es que el promedio requerido no es el promedio aritmético, pues lo
que se tiene no es una adición de capital en cada año, sino una multiplicación del mismo. En el primer
año se multiplica por 1.3, en el segundo por 1.2 y en el tercero por 1.6; y así, la ganancia que se obtiene
al nal de los tres años está multiplicada por estas tres cantidades. Luego, la ganancia promedio se
obtiene mediante:
p
3
√
3
Gx = (1.3)(1.2)(1.6) = 2.496 = 1.356.
En consecuencia, la ganancia promedio del activo es 35.6 %.
Nota. En ejemplo 3.2.9 la media aritmética y la media geométrica dieren notablemente.
Ejemplo 3.2.10. Comprobar el resultado de la proposición 3.2.3 con la información del ejemplo 3.2.9.
Solución:
A continuación se presenta sin demostración una proposición que establece la relación entre la mag-
nitudes de la media geométrica y de la media aritmética de un conjunto de observaciones positivas.
Esta proposición fue presentada por Augustin Louis Cauchy 10 en el siglo XIX y es como sigue:
10 Fotografía tomada de la página web http://www.saintpol.fr/genealogie/thematiques/cauchy.html.
52 CAPÍTULO 3. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN
• En algunos casos no está denida para conjuntos de datos que tengan valores negativos.
La media armónica última de las medias pitagóricas se enfoca en el promedio de medidas de razón.
3.2. MEDIDAS ESTADÍSTICAS DE TENDENCIA CENTRAL 53
n
Hx := Pn 1 .
i=1 xi
En variadas ocasiones esta medida de tendencia central no ha sido bien implementada, ya que existe
una confusión generalizada a la hora de decidir si usar la media aritmética o la media armónica como
medida de resumen.
Ejemplo 3.2.11. Se dispone de la información dada en la tabla 3.4 acerca de tres autos y sus
velocidades. Calcular la razón promedio de las velocidades.
A 10
B 20
C 30
Solución:
La media aritmética se utiliza cuando los denominadores se mantienen constantes, esto es, cuando el
tiempo es constante; mientras que la media armónica se emplea cuando el tiempo no es constante.
Por ello, sólo con esta información no es posible decidir cuál de las dos medias es la correcta, así que
se consideran los siguientes escenarios:
En otras palabras se puede decir que en el escenario 1, al mantenerse constante el tiempo de trabajo,
se mantiene jo el denominador de la razón y por tanto se debe usar la media aritmética:
10 + 20 + 30
x̄ = = 20
3
54 CAPÍTULO 3. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN
3
Hx = 1 1 1 = 16.363
10 + 20 + 30
Se observa que son los mismos resultados obtenidos con el razonamiento inicial.
Ejemplo 3.2.12. Comprobar el resultado de la proposición 3.2.5 con la información del ejemplo
3.2.11.
Solución:
1 1 1
1 10 + 20 + 30 0.100 + 0.050 + 0.033
= = = 0.061
x 3 3
1 1
que es igual al inverso de la media armónica
Hx = 16.363 = 0.061.
• No está denida cuando en el conjunto de datos alguno de los valores es nulo o en el caso de que
la suma de sus inversos sea igual a cero.
• Se garantiza su existencia si todos los datos del conjunto son positivos ó negativos.
• Resulta poco afectada por la existencia de valores grandes en el conjunto de datos; mientras
que es sensible a los valores cercanos a cero.
3.3. MEDIDAS DE POSICIÓN 55
Las medidas de posición permiten conocer otros puntos característicos de la distribución de los datos
diferentes a las medidas de tendencia central, que permiten dividir la información a conveniencia.
A continuación se presentan las medidas de posición de uso frecuente en estadística: el rango y los
percentiles.
3.3.1. El rango
En este ámbito, el rango de un conjunto de observaciones corresponde a los valores que describen la
posición en la que se encuentra cada valor del conjunto de datos ordenado ascendentemente.
Nota. No se debe confundir el rango de un conjunto de datos denido en esta sección con el rango de-
nido en la sección 2.2.2 para elaborar histogramas. De otro lado, cuando haya empates
11 la asignación
del rango varía según el objetivo de la misma. En unos casos se asigna la posición de manera aleato-
ria entre los individuos empatados y en otros se asigna el promedio de las posiciones que tomarían,
eventualmente.
52 56 50 41 50 62 55 46 62 48
46 62 53 55 43 42 47 50 42 65
Tabla 3.5: Datos asociados con los puntajes de una muestra de 20 empresas en relación a la calidad de sus servicios.
Ejemplo 3.3.1. Los datos de la tabla 3.5 corresponden a los puntajes de una muestra de 20 empresas
en relación a la calidad de sus servicios. Encontrar el rango del conjunto de datos.
Solución:
Lo primero que se debe hacer es ordenar los datos ascendentemente sin perder su identicación. Una
vez hecho esto, es claro que los valores 41 y 65 son el mínimo y el máximo de dicho conjunto de datos
y que hay sólo una empresa con cada uno de estos valores, en este caso los individuos 7 y 20; por lo
tanto la posición que tendrán estos individuos en el rango es 1 y 20 respectivamente.
Para asignar la segunda posición se debe observar que hay dos individuos con el siguiente valor más
bajo (42), luego a estas empresas (individuos 12 y 18) se les puede asignar aleatoriamente las posiciones
2+3
= 2.5.
2
De esta manera el valor en el rango de los individuos 12 y 18 es 2.5 para ambos. Siguiendo con este
procedimiento se obtiene el rango que se presenta en la tabla 3.6.
12.0 16.0 10.0 1.0 10.0 18.0 14.5 5.5 18.0 8.0
5.5 18.0 13.0 14.5 4.0 2.5 7.0 10.0 2.5 20.0
Los percentiles son valores que se caracterizan por superar cierto porcentaje de observaciones del
conjunto de datos. Los percentiles son medidas estadísticas de posición usadas constantemente para
describir los de datos en relación a una posición de interés.
Un percentil es un valor que acumula un porcentaje especíco de los datos. Se disponen principal-
mente de los percentiles como medidas de posición, y asociados a éstos como casos particulares se
tienen los cuartiles (percentiles 25, 50 y 75), por ejemplo.
Dependiendo de cómo estén dispuestos los datos (brutos o agrupados) el cálculo de los percentiles se
hará de una manera u otra. Si los datos no están agrupados, para calcular el p-ésimo percentil de un
conjunto de n datos se deben seguir los siguientes pasos:
i = np/100
Ejemplo 3.3.2. Calcular e interpretar el decil 6 (percentil 60) para los datos del ejemplo 3.3.
Solución:
Como se trata de un conjunto de datos discretos organizados en una tabla de frecuencias, el percentil
60 se calcula siguiendo los siguientes pasos:
Este valor indica que el 60 % de los empleados tienen dos hijos o menos. ¾De qué otra manera se puede
interpretar el percentil 60 en este caso?
Cuando los datos están agrupados en una tabla de frecuencias por intervalos, el cálculo del p-ésimo
percentil es como sigue:
(p %)n − Ni−1
pp = li−1 + (li − li−1 ) (3.1)
ni
donde i = mı́n{j : Nj > (p %)n} es el número de la primera clase cuya frecuencia absoluta acumulada
es superior a (p %)n.
Nota. La fórmula anterior es casi la misma fórmula para calcular la mediana, solamente que en lugar
de escribir (0.5)n se escribe (p %)n. De hecho, la mediana es un caso particular de un percentil: es el
percentil 50, es decir, el percentil calculado cuando p = 50.
Ejemplo 3.3.3. Calcular e interpretar el decil 8 (percentil 80) para los datos del ejemplo 3.2.1.
Solución:
Se observa que las ganancias se encuentran organizadas en una tabla de frecuencias. En este caso i es
número del primer intervalo cuya frecuencia absoluta acumulada es superior a (0.80)n = (0.80)(35) =
28.0; este intervalo es el número 4. Así, se obtiene que:
(0.80)(35) − 24
p80 = 101.3 + (13.6) = 110.4.
6
Entonces se tiene que el 80 % de las empresas tiene ganancias inferiores a 110.4 millones. ¾De qué otra
manera se puede interpretar el percentil 80 en este caso?
58 CAPÍTULO 3. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN
Los tres cuartiles son un caso particular de percentiles. Éstos dividen el conjunto de datos en cuatro
partes con el mismo porcentaje de datos. Los cuartiles están dispuestos de la siguiente forma: el
primer cuartil, simbolizado con q1 , es el percentil 25; el segundo cuartil q2 , es el percentil 50, es decir,
la mediana; y el tercer cuartil q3 , es el percentil 75. Así,
Una aplicación de los cuartiles en estadística consiste en realizar un gráco que describe adecuadamente
la forma de la distribución de un conjunto de datos; tal diagrama también sirve para detectar datos
atípicos. Este gráco es denominado diagrama de caja , boxplot en inglés, y es materia de estudio
en la sección 4.4.
Solución:
Aquí, los índices i, j y k corresponden a los números de los intervalos cuya frecuencia absoluta acu-
mulada es superior a (0.25)(35) = 8.75, (0.5)(35) = 17.50 y (0.75)(35) = 26.25 respectivamente. De
esta manera los cuartiles que se obtienen para este conjunto de datos son:
(0.25)(35) − 5
q1 = 74.03 + (13.63) = 79.71,
9
(0.50)(35) − 14
q2 = 87.67 + (13.63) = 92.44,
10
(0.75)(35) − 24
q3 = 101.30 + (13.63) = 106.41.
6
Con esto se puede decir que el 50 % de las ganancias se encuentra entre 79.71 y 106.41 millones, y que
el 25 % de las empresas con menores utilidades tienen ganancias inferiores a 79.6 millones, así como
el 25 % de las empresas con mayores utilidades tienen ganancias superiores a 106.41 millones.
3.4. Comentarios
Como parte de una revisión inicial de los datos, las medidas de tendencia central y de posición son
las primeras en proveer información sobre el comportamiento de los datos, como alrededor de cuáles
valores se concentran, cuáles valores son los más frecuentes y cómo se encuentran ordenados. A pesar
de que estas medidas son de cálculo e interpretación simple, tiende a haber un mal uso de las mismas,
ya sea a la hora de calcularlas o de interpretarlas, ya que fácilmente se puede utilizar el promedio
aritmético como medida de tendencia central cuando en realidad se debe usar la media geométrica, por
ejemplo; y aunque en algunos casos las diferencias no sean grandes numéricamente, éstas sí pueden
traer consecuencias graves dependiendo del contexto de las cifras. Errores tan simples como estos se
3.5. EJERCICIOS 59
cometen día a día y por esto es que en este capítulo se enfatiza el uso adecuado de tales medidas
estadísticas.
3.5. Ejercicios
3.1. Una compañía de mercadeo tiene dentro de su sta a 24 profesionales que realizan tareas por fuera
de la empresa con mucha frecuencia. A la gerente de esta empresa le tiene preocupada la falta
de puntualidad de sus trabajadores ya que ha recibido varias quejas en los últimos meses y cree
que esto puede dañar la reputación de la empresa. Los datos de la siguiente tabla corresponden
a la tardanza (en minutos) en llegar a las citas de trabajo de algunos empleados, clasicada por
el género:
Mujeres 6.3 10.0 9.2 7.3 4.1 6.4 9.8 8.4 5.2 0.4 5.0 0.6
Hombres 5.1 4.4 0.9 3.2 5.9 6.2 1.4 3.9 0.1 4.2 8.3 7.3
b. El gerente tiene la sospecha de que algún género es más incumplido que otro. ¾Qué es posible
sugerir con base en la media, la media y la moda?
3.3. El precio de una acción (Y ) se modica multiplicativamente según los cambios mensuales en la
tasa de cambio del Euro (T C ) según la siguiente regla:
(
y = 1.3 si T C ≥ 3, 000;
y = 0.9 si T C < 3, 000.
Acorde a las variaciones de la tasa de cambio para los 12 meses de la siguiente tabla, si el valor
inicial de una acción es 4, 250, calcular para ésta la valorización (o depreciación) promedio y el
valor al nal del periodo.
Si se tiene la misma inquietud anterior, ahora por semestre, ¾qué valores se obtendrían?
Mes 1 2 3 4 5 6
Semestre 1 3,148 3,087 3,210 2,956 3,215 3,053
Semestre 2 2,999 3,106 3,202 3,157 3,285 3,111
60 CAPÍTULO 3. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN
3.4. Calcular e interpretar la razón media del número de actividades por hora con la que los traba-
jadores de una fábrica realizan sus actividades (procesos de manufactura). En la siguiente tabla
se presentan los tiempos (en horas) en los que los trabajadores realizan 20 actividades, las cuales
conforman la cadena de producción.
42.20 45.70 34.60 40.20 48.90 43.80 46.00 39.50 57.80 37.20
56.40 40.30 46.90 41.70 27.20 51.70 37.90 39.60 59.00 39.00
3.5. El siguiente conjunto de datos corresponde al origen y la estadía de los visitantes hospedados en
hoteles de categoría I a IV de un sector turístico determinado. Calcular la media aritmética del
número de visitantes por nacionalidad.
I 75.3 253,175
II 84.7 140,810
III 71.8 47,900
IV 88.0 21,372
3.6. Veintiuna personas en un salón de clase tienen una altura promedio de 168 centímetros. Si al
salón entra una persona adicional, entonces, ¾cuál es la altura que debe tener esta persona para
que la altura promedio se incremente un centímetro?
3.7. Una empresa de manufacturación de productos químicos tiene una producción diaria de smog
3 3 3
de 110 cm en el ala A, de 80 cm en el ala B y de 149 cm en el ala C. Por otra parte el
Gobierno, decide crear una política en la cual la producción promedio máxima admisible de smog
por una empresa de químicos sea de 112.1 cm3 por día. Si la compañía mantiene una actividad de
producción de smog que culmina
3
en 80 mts en cada ala, entonces se puede decir que la empresa
cumple con el requerimiento. Calcular e interpretar el valor promedio de la producción de smog
por día.
I 20 3.7
II 25 2.4
III 20 3.0
IV 15 3.2
V
3.5. EJERCICIOS 61
3.9. A continuación se presentan los salarios mensuales en miles de pesos, pagados por una empresa
estatal a su personal. En la empresa se presenta un conicto laboral. El gerente propone un
aumento del 2 % para cada uno de los empleados y la junta directiva propone un aumento de 10
mil pesos quincenales para cada empleado.
a. Con base en el promedio, ¾qué es más ventajoso para el Estado y qué para cada grupo de
empleados?
b. Para cada propuesta, calcular el salario a partir del cual se encuentra el 10 % de los empleados
mejor pagos de la compañía.
3.12. Una de las metas de toda administración pública o privada es ganar lo más posible en relación
con el capital invertido en la empresa. Una medida del éxito en alcanzarla es el retorno sobre
la aportación, que es la relación de la ganancia neta entre el valor de las acciones. Los datos
presentados a continuación corresponden a los porcentajes de ganancia sobre las acciones para
una muestra de empresas gubernamentales del país.
# Aportación Frecuencia
1 2.0 - 5.0 4
2 5.0 - 8.0 7
3 8.0 - 11.0 11
4 11.0 - 14.0 16
5 14.0 - 17.0 21
6 17.0 - 20.0 14
7 20.0 - 23.0 9
8 23.0 - 26.0 4
62 CAPÍTULO 3. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN
3.13. La siguiente tabla contiene los salarios quincenales (en miles de pesos) de una muestra de traba-
jadores:
d. Rehacer los numerales anteriores teniendo en cuenta que todos los empleados reciben un sub-
sidio mensual de transporte de $50, 000.
3.14. La cantidad de viajeros por hora de cada estación de una empresa de transporte en un día
determinado es como sigue:
Estación 1 2 3 4 5
Viajeros por hora 13,050 8,545 10,453 12,093 9,448
3.15. Demostrar que si el producto de dos números positivos es igual a 1 entonces la suma de los mismos
no es menor que 2. Generalizar esta proposición.
3.16. Escribir la fórmula de la media geométrica y de la media armónica cuando los datos están agru-
pados en una tabla de frecuencias.
3.17. La media aritmética de los salarios quincenales de los empleados de una empresa fue $360,000. El
promedio de los salarios de los hombres y de las mujeres fue respectivamente $370,000 y $340,000.
Determinar el porcentaje de hombres y mujeres de la compañía.
3.18. Para ocupar un puesto de trabajo vacante, la gerencia de una compañía realiza diferentes pruebas
a los aspirantes, cada una de ellas con una importancia determinada. Los resultados de las pruebas
de los dos mejores aspirantes son los siguientes:
b. Si un tercer aspirate obtiene las mismas notas del aspirante número 2 excepto en informática,
¾cuánto debe ser la calicación de este nuevo aspirante para obtener la misma calicación
promedio del aspirate 1?
3.5. EJERCICIOS 63
Cultura general 1 9 7
Contabilidad 3 6 5
Idiomas 6 7 10
Informática 2 10 4
3.19. Una entidad nanciera ha comprado dólares estadounidenses a diferentes precios (en pesos) du-
rante una semana de acuerdo a la siguiente tabla:
Pesos por dólar 1,851 1,840 1,841 1,847 1,842 1,856 1,843
Frecuencia 64 55 75 34 56 76 45
3.20. Una agencia ha asignado un grupo de cinco empleados para completar un servicio de excursión
para un grupo de turistas. Las razones de eciencia (en minutos por turista) se dan a continuación.
Empleado Efectividad
A 10
B 8
C 15
D 12
E 9
3.22. Demostrar que si X es una variable y a es un número real positivo entonces se tiene que:
i. Si X=a entonces GX = a y HX = a.
ii. Si Y = aX entonces GY = aGX y HY = aHX .
3.23. Un curso tiene 35 hombres con una edad media de 17.5 años y 15 mujeres que en promedio son
22 % más jóvenes que los hombres. ¾Cuál es la edad media del curso?
3.24. Se sabe que ninguna de las sucursales de una empresa comercial tiene más de 9 empleados o
menos de 7. La mayoría tiene 8 trabajadores, pero el 25 % tiene 9 funcionarios y una de cada 10
sucursales tiene 7 empleados. ¾Cuál es el promedio de empleados por sucursal?
64 CAPÍTULO 3. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN
3.25. ¾Qué es la media recortada? ¾Cuáles son sus características? ¾Cómo se utiliza? ¾Para que sirve?
Mostrar una aplicación al respecto.
Capı́tulo 4
Medidas de dispersión
4.1. Introducción
Si dos conjuntos de datos tienen la misma media aritmética, no implica que la distribución de las
observaciones en ambos casos sea exactamente la misma, puesto que el grado de homogeneidad de
la información puede ser diferente. Por ejemplo, considere los datos que se presentan en la tabla 4.1
asociados con los salarios anuales (en millones de pesos) de una muestra de supervisores de ventas de
dos empresas. Se observa que ambos conjuntos de datos tienen la misma media (33.5 millones de pesos)
y la misma mediana (34.0 millones de pesos), por lo que si se limita el estudio de las observaciones
únicamente a estas medidas de tendencia central no es posible diferenciar la distribución de los salarios
de las dos compañías. Mas sin embargo, estas dos distribuciones son diferentes: los salarios de los
supervisores de la segunda empresa son más heterogéneos que los de la primera.
Tabla 4.1: Datos asociados con los salarios anuales de una muestra de supervisores de ventas de dos empresas.
En consecuencia, una medida de tendencia central por sí sola no es suciente para describir comple-
tamente la tendencia de un conjunto de datos; siempre es necesaria una medida que cuantique la
65
66 CAPÍTULO 4. MEDIDAS DE DISPERSIÓN
4.2. El rango
El rango es una medida de dispersión empleada en la sección 2.4 para construir histogramas. Es una
medida que está asociada con la amplitud del conjunto de datos.
Rx := xmax − xmin
Nota. No se debe confundir el rango de un conjunto de datos denido en esta sección con el rango
denido en la sección 3.3.1 utilizado para describir la posición en la que se encuentra cada valor del
conjunto de datos ordenado ascendentemente.
Ejemplo 4.2.1. Teniendo en cuenta los datos de la tabla 4.1, calcular e interpretar el rango para
cada empresa.
Solución:
El rango de la empresa 1 es
Se observa que el recorrido de los salarios de la segunda empresa es mayor que el recorrido de los
salarios de la primera en 6.9 millones de pesos.
El rango intercuartílico es una medida de dispersión que no está inuenciada por los valores extremos
de los datos como sí lo está el rango. En el rango intercuartílico se concentran el 50 % de las observa-
ciones que no hacen parte del 25 % de los valores más bajos ni del 25 % de los valores más altos del
conjunto de datos.
RIx := q3 − q1
Ejemplo 4.3.1. Teniendo en cuenta los datos de la tabla 4.1, calcular e interpretar el rango inter-
cuartílico para cada empresa.
Solución:
Se observa que el recorrido del 50 % de los salarios intermedios de la segunda empresa es mayor que
el mismo recorrido de los salarios de la primera en 1.65 millones de pesos. Aunque todavía hay una
diferencia clara, no es tan notoria como sí lo es con el rango, lo que sugiere la presencia de sueldos
considerablemente superiores de la primera empresa comparados con los de la segunda.
El diagrama de caja y bigotes (boxplot en inglés) es una representación gráca que sirve para
identicar algunas características fundamentales de la distribución de un conjunto de datos, tales
como la localización, la dispersión, la simetría y la detección de datos atípicos. En este diagrama se
representan los tres cuartiles y los datos atípicos de los datos con base en un rectángulo alineado
vertical u horizontalmente. La construcción vertical de este gráco asociado con las observaciones de
una variable X es como sigue:
ii. Dibujar un rectángulo paralelo al eje y tal que su lado mayor inicie en q1 y termine q3 . El ancho
de la caja no es de relativa importancia pero debe ser menor que el largo del rectángulo.
iv. Señalar y resaltar los valores que se encuentran por fuera del intervalo [Li , Ls ].
En resumen, una gráca de este tipo está constituida por una caja rectangular cuyo lado mayor
representa el rango intercuartílico. Este rectángulo está dividido por un segmento transversal que
indica donde se localiza la mediana y por lo tanto evidencia su relación con los demás cuartiles. Las
líneas que sobresalen de la caja tienen un límite de prolongación, de modo que cualquier dato que
no se encuentre dentro de este rango es marcado e identicado individualmente. En la gura 4.1 se
presenta un ejemplo de un diagrama de caja.
4.4. DIAGRAMA DE CAJA Y BIGOTES 69
Denición 4.4.1. Todo dato de una variable X que está más aleja-
do de (1.5)RIx del cuartil más cercano se dice que es un dato atípico
( outlier en inglés). Un dato atípico se denomina extremo si está ubica-
do a una distancia mayor de (3.0)RIx del cuartil más cercano y se llama
moderado en otro caso.
Ejemplo 4.4.1. Hacer un diagrama de caja y bigotes para los datos de la tabla 2.9. Describir la
distribución de las observaciones de acuerdo con el gráco obtenido.
Solución:
70 CAPÍTULO 4. MEDIDAS DE DISPERSIÓN
ii. Dibujar un rectángulo paralelo al eje y tal que su lado mayor inicie en 81.85 y termine en el valor
104.25.
iii. Trazar los bigotes de la caja hasta Li = 60.40 y Ls = 137.85. Por ende estos segmentos se
extienden de 81.85 a 60.4 y de 104.25 a 137.85.
iv. Señalar y resaltar los valores que se encuentren por fuera del intervalo [60.40,137.85]. Estas ob-
servaciones son 138.1 y 142.2.
La distribución de las ganancias parece ser simétrica alrededor de la mediana, esto es, el reparto de las
utilidades aparenta ser equilibrado o semejante en torno a 93.1 millones de pesos diarios dado que la
caja esta divida en dos partes iguales por la ganancia mediana y los bigotes tienen aproximadamente
la misma extension. Se presentan apenas un par de observaciones atípicas correspondientes a dos
empresas con ganancias diarias superiores a todas las demás con una diferencia notoria, pero según
parece no inuencian en gran medida la distribución de las utilidades puesto que la ganancia promedio
(94.09 millones de pesos) no diere marcadamente de la ganancia mediana.
di := xi − x̄
Nota. Una desviación positiva (di > 0) indica que el dato es mayor que el promedio, mientras que una
desviación negativa (di < 0) señala que el dato es menor que la media. Una desviación igual a cero
quiere decir que el dato es exactamente igual al promedio. Además, en la proposición 3.2.2 se muestra
Pn
que si x1 , x2 , . . . , xn es un conjunto de n realizaciones de una variable X entonces i=1 (xi − x̄) = 0,
Pn
esto es, i=1 di = 0.
4.5. LA DESVIACIÓN DE UN DATO 71
4.6. La varianza
Aunque el rango es una medida asociada con la extensión de todo conjunto de datos y el rango inter-
cuartílico es una medida relacionada con la amplitud correspondiente al 50 % de los datos intermedios,
ninguna de estas medidas de dispersión tiene en cuenta cómo se distribuyen las observaciones de la
variable de estudio respecto a alguna medida de tendencia central, como el promedio, por ejemplo.
Una medida de uso común que sí toma en cuenta tal repartición de los datos respecto a la media
aritmética es la varianza. Esta medida evalúa la manera en que uctúan los valores de una variable
respecto al promedio.
Nota. La varianza muestral se dene como el promedio de los cuadrados de las desviaciones de
1
los datos de la muestra . La varianza muestral observada
2 de una variable X se simboliza con S 2 ,
x
mientras que la varianza poblacional 2
se denota con σX . Así, cuando se dispone de una población
nita, se tiene que
N
2 1 X
σX := (xi − µX )2
N i=1
donde N es el tamaño de la población. Esta denición únicamente hace sentido cuando se tiene una
población nita. Además, como con otros estadísticos, la notación de la varianza incluye un subíndice
para enfatizar la variable sobre la cual se calcula.
Cuando los datos de una muestra están agrupados en una distribución de frecuencias la varianza
muestral se calcula con la fórmula
k
1 X
Sx2 = ni (xi − x̄)2
n − 1 i=1
1 En este libro la varianza muestral, la cuasi-varianza y la varianza corregida son sinónimos.
2 Como con cualquier otro estadístico, la varianza muestral S 2 := 1 P n
− X̄)2
X n−1 i=1 (Xi corresponde a la variable
varianza de la muestra cuyos valores dependen de la muestra recogida; mientras que la varianza muestral observada
1 Pn
Sx2 := n−1 i=1 (xi − x̄)
2 compete a un valor especíco de la variable 2
SX calculada a partir de los datos de una muestra
determinada.
4.6. LA VARIANZA 73
Aunque la varianza está asociada directamente con la variación de un conjunto de datos, su interpre-
tación se puede complicar debido a que está dada en unidades cuadráticas (unidades de medición
elevadas al cuadrado). Tal aspecto se debe tener en cuenta en la interpretación para describir correc-
tamente la realidad estudiada.
Nota. El valor mínimo que puede asumir la varianza es el valor cero, caso en el que todos los datos
son iguales al promedio.
Ejemplo 4.6.1. Calcular e interpretar la varianza de los siguientes datos asumiendo que éstos cons-
tituyen una población.
i 1 2 3 4 5
xi 62 80 83 72 73
Solución:
N
1 X 62 + 80 + . . . + 73
µX = xi = = 74.
N i=1 5
N
2 1 X (62 − 74)2 + (80 − 74)2 + . . . + (73 − 74)2
σX = (xi − µX )2 = = 53.2.
N i=1 5
dispersión con respecto al promedio, es decir, los datos parecen no estar agrupados respecto a 74.
Solución:
3 Se utiliza la expresión parece ser porque no hay un punto de comparación para establecer cuando una cantidad
es pequeña o grande. Por tal motivo se debe recurrir a medidas que den cuenta de cómo realizar esta calicación de
manera apropiada de acuerdo a ciertos estándares de precisión (detalles en la sección 4.10).
74 CAPÍTULO 4. MEDIDAS DE DISPERSIÓN
Para calcular la varianza primero se deben calcular las respectivas marcas de clase como en el ejemplo
3.2.1. Una vez calculadas las marcas de clase, se calcula la varianza de las ganancias aplicando la
fórmula para datos agrupados. En la tabla 4.2 se presentan los cálculos pertinentes.
k
1 X 12, 076.65
Sx2 = ni (xi − x̄)2 = = 355.18.
n − 1 i=1 35 − 1
Considerando el valor 355.18 millones de pesos cuadrados como alto, se concluye que las ganancias
están muy dispersas respecto a la ganancia promedio que corresponde a 94.09 millones de pesos.
Nota. En el ejemplo 4.6.2 las unidades de la varianza son unidades cuadráticas y la interpretación de
la misma se hace sin tener en cuenta algún punto de referencia considerándola simplemente como un
valor grande.
Proposición 4.6.1. Sea X una variable y a, b números reales. Entonces se tiene que:
i. Si X = a entonces SX2 = 0.
ii. Si Y = aX + b entonces SY2 = a2 SX2 .
Demostración:
n n
2 1 X 1 X
SX = (Xi − X̄)2 = (a − a)2 = 0.
n − 1 i=1 n − 1 i=1
4.6. LA VARIANZA 75
n
1 X
SY2 = (Yi − Ȳ )2
n − 1 i=1
n
1 X
= ((aXi + b) − (aX̄ + b))2
n − 1 i=1
n
1 X
= (aXi + b − aX̄ − b)2
n − 1 i=1
n
1 X
= (aXi − aX̄)2
n − 1 i=1
n
1 X
= (a(Xi − X̄))2
n − 1 i=1
n
1 X 2
= a (Xi − X̄)2
n − 1 i=1
n
1 X
= a2 (Xi − X̄)2
n − 1 i=1
= a2 SX
2
.
Ejemplo 4.6.3. Los siguientes datos están asociados con los salarios quincenales (en miles de pesos)
de una muestra de empleados de una compañía. Los empleados piden un reajuste quincenal de 15 %
sobre su salario, pero el Estado ofrece un reajuste de 18 % más una bonicación mensual de cuarenta
mil pesos. Calcular el promedio y la varianza para las dos propuestas.
Solución:
Primero se debe calcular el promedio y la varianza de los salarios quincenales de los empleados (X ),
de donde
n n
1X 1 X
x̄ = xi = 246.66 y Sx2 = (xi − x̄)2 = 1, 400.
n i=1 n − 1 i=1
Sea Y1 el salario quincenal de los empleados (en miles de pesos) ajustado con la propuesta que ellos
mismos han dado. Este reajuste consiste en un aumento quincenal de 15 % y en consecuencia
Y1 = 1.15X,
76 CAPÍTULO 4. MEDIDAS DE DISPERSIÓN
De otra parte, el Estado ofrece un reajuste de 18 % más una bonicación mensual de cuarenta mil
pesos, esto es, veinte mil pesos quincenales. Si Y2 denota el salario quincenal (en miles de pesos)
ajustado con la propuesta del Estado entonces se obtiene que
Y2 = 1.18X + 20
Por lo tanto la propuesta que aparentemente tiene más dispersión con respecto al salario quincenal
promedio es la propuesta del Estado.
Ejemplo 4.6.4. Calcular la varianza de la utilidad mensual de la compañía del ejemplo 3.2.2 teniendo
en cuenta que la varianza de la venta mensual es $2 273,500.
Solución:
Demostración:
n
X n
X
(xi − x̄)2 = (x2i − 2xi x̄ + x̄2 )
i=1 i=1
4.6. LA VARIANZA 77
n
X n
X n
X
= x2i − 2xi x̄ + x̄2
i=1 i=1 i=1
n
X n
X
= x2i − 2x̄ xi + nx̄2
i=1 i=1
n
X
= x2i − 2x̄(nx̄) + nx̄2
i=1
n
X
= x2i − 2nx̄2 + nx̄2
i=1
n
X
= x2i − nx̄2 .
i=1
Nota. En virtud de la proposición 4.6.2 se tiene que una forma alternativa para calcular la varianza
muestral observada de una variable X es:
n
!
1 X
Sx2 = x2i − nx̄ 2
.
n−1 i=1
Ejemplo 4.6.5. El cálculo de Sx2 en el ejemplo 4.6.3 también se puede lograr como sigue:
n
!
1 X 1
Sx2 x2i 2
558, 800 − (9) 246, 662 = 1, 400.
= − nx̄ =
n−1 i=1
9−1
• Es un valor no negativo.
2
SW 6= a2 SX
2
+ b2 SY2 .
Se observa que Sx 4
es la realización de un estadístico , mientas que σX es una parámetro.
Nota. Las unidades de la desviación estándar son las mismas unidades de la variable de estudio. Por
ello, la interpretación de esta medida es inmediata y comparable con los valores de la variable.
Ejemplo 4.7.1. Calcular la desviación estándar de la utilidad mensual de la compañía del ejemplo
4.6.4.
Solución:
Como Sy2 = 374, 394.15 se sigue que la desviación estándar de la utilidad mensual es $611,870 dado
que
q p
Sy = Sy2 = 374, 394.15 = 611.87.
4 Corresponde
q Pn
2 := 1
a un valor especíco de la variable SX n−1 i=1 (Xi − X̄)2 calculada a partir de los datos de
• Es un valor no negativo.
4.8. Estandarización
En seguida se presenta una metodología para comparar magnitudes que en principio no lo son, con el
propósito de investigar una variable de interés en escenarios disímiles.
X − µX
Z := .
σX
La variable Z se denomina variable estandarizada o variable tipicada .
tudes que en principio no son comparables. Esto se aplica al caso en que se quiera comparar individuos
semejantes de poblaciones diferentes. Por ejemplo, si se quiere comparar el nivel académico de dos
estudiantes de diferentes universidades para otorgar una beca de estudios, en principio será injusto
concederla directamente al que posea una nota media más elevada, ya que la dicultad para conse-
guir una buena calicación puede ser mucho mayor en un centro que en el otro, lo que limita las
posibilidades de uno de los estudiantes y favorece al otro. En este caso, se aconseja comparar las
calicaciones tipicadas de ambos estudiantes por medio del promedio y desviación típica de las notas
correspondientes de los alumnos de cada universidad.
Ejemplo 4.8.1. Teniendo en cuenta los datos de la tabla 4.1, estandarizar las observaciones de cada
empresa. Comentar los resultados obtenidos.
Solución:
donde x̄i y Sxi son respectivamente la media muestral y la desviación estándar muestral de los salarios
de los supervisores de la i-ésima empresa para i = 1, 2. En la siguiente tabla se presentan los salarios
estandarizados de cada empresa:
Por ejemplo, se observa que el individuo 1 de la primera empresa es denitivamente mejor pago en
su contexto que el individuo 1 de la segunda compañía a pesar de que tienen salarios muy próximos,
dado que el puntaje estandarizado del primer individuo es superior que el mismo puntaje del otro
empleado. Tal comparación sólo se puede realizar eliminando el efecto de la escala en las observaciones
asociadas. Además, se observa que la media y la desviación estándar de los salarios estandarizados de
cada empresa son 1 y 0 respectivamente.
El matemático ruso Pafnuty Chebyshev 6 cuyo trabajo generó grandes avances en la probabilidad y
la estadística, se distingue por un teorema muy popular bautizado con su mismo nombre, en la cual se
evidencia la relación de la proporción de observaciones en un rango dado con la media y la desviación
estándar de la población correspondiente.
Teorema 4.9.1. Para cualquier población con media µX y desviación estándar σX , por lo menos
el 100(1 − 1/k2 ) % de las observaciones de la variable X se encuentran a una distancia de la media
menor que kσX , para cualquier número k ≥ 1. De otra forma, dentro del intervalo que va de µX −kσX
a µX + kσX se encuentra por lo menos el 100(1 − 1/k2 ) % de los datos de la población.
teorema de Chebys-
La formulación matemática y la demostración del teorema 4.9.1 conocido como
hev o desigualdad de Chebyshev se presenta en la sección ?? con la noción de probabilidad.
Ejemplo 4.9.1. Determinar un intervalo que contenga al menos 95 % de las observaciones de una
población con media 26 y desviación estándar 3.
Solución:
100 1 − 1/k 2 % = 95 %
1
1 − 2 = 0.95
k
1
= 0.05
k2 r
1
k=
0.05
k = 4.472.
82 CAPÍTULO 4. MEDIDAS DE DISPERSIÓN
Por lo tanto un intervalo que contiene por lo menos el 95 % de las observaciones de esta población es
aquel que va de 26 − (4.472)(3) = 12.583 a 26 + (4.472)(3) = 39.416.
La tabla 4.3 proporciona algunos valores de k y los porcentajes correspondientes. Por ejemplo, de
acuerdo con el teorema de Chebyshev, al menos el 55.6 % de los datos de la población se encuentran a
una distancia de la media menor que 1.5 veces la desviación estándar. O, dicho de otra forma, dentro
del intervalo que va de µX − (1.5)σX hasta µX + (1.5)σX , sin importar el valor de µX y de σX , se
encuentra por lo menos el 55.6 % de los datos de la población.
Ejemplo 4.9.2. Considerar los datos de la primera empresa de la tabla 4.1. Estos datos tienen
una media de 33.500 con una desviación estándar de 1.708 ambas cantidades dadas en millones
de pesos. Asumiendo que estos datos conforman las observaciones de una población, el teorema de
Chebyshev asegura que al menos 55.6 % de los salarios se encuentran a una distancia de la media
menor que (1.5)(1.708)=2.561 millones de pesos. En otras palabras, dentro del intervalo que va de
30.938 a 36.062 millones de pesos están por lo menos el 55.6 % de los salarios. Análogamente, dentro
del intervalo que va de 27.523 a 39.477 millones de pesos se encuentra por lo menos el 75.0 % de los
salarios de los supervisores de la empresa.
La ventaja del teorema de Chebyshev es que se puede aplicar a cualquier población. Pero, en con-
trapartida, tiene un inconveniente importante. Para muchas poblaciones, el porcentaje de valores que
se encuentran en un intervalo determinado es mucho mayor que el mínimo asegurado por el teorema.
Para poblaciones con distribuciones que tengan forma acampanada (ver la distribución (d) de la gu-
ra 3.1), es posible establecer una regla empírica que proporcione valores ables, como sigue: para
poblaciones con una distribución de frecuencias que tenga forma de campana, aproximadamente el
68 % de los valores de la población se encuentran a una distancia de la media menor que una desvia-
ción estándar, y aproximadamente el 95 % están a una distancia de la media menor que dos veces la
desviación estándar.
De otra parte, para comparar la dispersión de dos o más conjuntos de datos no es adecuado confrontar
simplemente las varianzas o las desviaciones estándar, puesto que tales medidas están inuenciadas
por la escala de medida de los datos. Es necesario, por lo tanto, eliminar tal inuencia generada por
las unidades de medida. El coeciente de variación de Pearson, en honor al matemático británico Karl
Pearson 7 , es una medida relativa8 de dispersión que permite solucionar estas inquietudes.
Nota. De acuerdo con la denición 4.10.1, si se dispone de la información de una muestra asociada con
una variable X entonces el valor observado del coeciente de variación muestral de X , denotado
con CV
d x, está dado por
Sx
CV x :=
d
x̄
donde |a| es el valor absoluto de a. Similarmente, el coeciente de variación poblacional de una
variable X , denotado con CVX , está dado por
σX
CVX =
.
µX
7 Fotografía tomada de la página web http://www.apprendre-math.info/history/photos/Pearson.jpeg.
8 Una medida relativa es aquella medida que dene su valor en relación a otra cantidad.
84 CAPÍTULO 4. MEDIDAS DE DISPERSIÓN
Como se ha visto, para establecer el tamaño relativo de la desviación estándar se utiliza el promedio,
comparando la magnitud de la dispersión de la variable con la media del conjunto de datos, de tal
forma que la apreciación correspondiente es relativa al valor del promedio. Además, como se trata de
un cociente, las unidades del numerador y del denominador se cancelan y en consecuencia el coeciente
de variación es una medida adimensional, lo que quiere decir que carece de unidades de medición. Por
ello, se acostumbra expresar el coeciente en porcentaje y dependiendo del valor que tome se dice que
si el coeciente de correlación:
Ejemplo 4.10.1. Un inversionista potencial piensa adquirir acciones en una de dos compañías A o
B listadas en la bolsa de valores. Si ninguna de las compañías ofrece dividendos a sus clientes y ambas
tienen igual clasicación en términos de crecimiento potencial como lo aseguran varios servicios de
inversión el posible inversionista quizás considere la volatilidad (variabilidad) de ambas acciones para
tomar una decisión en cuanto a la inversión. En los últimos meses, el precio promedio de las acciones
en la compañía A fue de US 50 con una desviación estándar de US 10. Además, durante el mismo
periodo, el precio promedio de las acciones en la compañía B fue de US 12 con una desviación estándar
de US 4. ¾Cómo puede determinar el inversionista cuáles acciones son más variables?
Solución:
En términos de la desviación estándar, el precio de las acciones de la compañía A parece más volátil
que el de las acciones de la compañía B. Sin embargo, como los precios promedio por acción de las dos
compañías son tan diferentes, será conveniente que el inversionista potencial considere la variabilidad
del precio con respecto al promedio a n de examinar la volatilidadestabilidad de ambas acciones. Si
X denota el precio (en dólares) de las acciones en el periodo de tiempo examinado, para la compañía
A, el coeciente de variación es d x = |(10/50)100 %| = 20.0 %; mientras
CV que para la compañía B,
el coeciente de variación es d x = |(4/12)100 %| = 33.3 %. Entonces, en
CV relación con la media, el
precio de las acciones de la compañía B es mucho más variable que el de las acciones de la compañía
A.
Nota. El coeciente de variación sirve para comparar la variabilidad de dos conjuntos de datos respecto
a la media, mientras que si se quiere comparar a dos individuos de cada uno de estos conjuntos, es
necesario utilizar los valores estandarizados.
• Es un valor no negativo.
A continuación se presentan algunas medidas de dispersión basadas en el valor absoluto cuya magnitud
depende del posicionamiento de los datos respecto a la media y la mediana.
La desviación media es una medida que captura las desviaciones absolutas de los datos respecto a la
media. Esta medida también se denomina desviación absoluta.
n
1X
Dx := |xi − x̄|
n i=1
La desviación mediana es similar a la desviación media, pero ahora las desviaciones se calculan respecto
a la mediana del conjunto de datos.
n
1X
DMx := |xi − x̃|
n i=1
Nota. Las unidades en las que están dadas tanto la desviación media como desviación mediana son
unidades lineales. Además, de ser requeridos, los parámetros correspondientes se denen análogamente.
Ejemplo 4.11.1. Considerar los datos de la tabla 4.4 asociados con una muestra de ventas diarias
(en millones de pesos) de una empresa con 30 sucursales en el país. Si esta empresa tiene un contrato
con una compañía de contaduría que asegura que sus ingresos diarios no tienen una dispersión mayor
86 CAPÍTULO 4. MEDIDAS DE DISPERSIÓN
a $2,000,000, ¾qué se podría concluir al realizar una comparación de la desviación media, la desviación
mediana, la desviación estándar y el rango intercuartílico junto con un diagrama de caja y bigotes?
7.00 11.85 14.17 7.84 6.05 12.01 10.28 13.08 14.57 6.10
7.73 9.91 8.18 10.59 7.63 7.02 8.88 13.88 10.55 13.42
11.23 9.20 8.92 9.84 8.93 9.86 9.40 7.82 10.24 9.74
Tabla 4.4: Datos asociados con una muestra de ventas diarias (en millones de pesos) de una empresa.
Solución:
Teniendo en cuenta que la media y la mediana de las ventas diarias (X ) de las 30 sucursales de la
empresa son respectivamente 9.86 y 9.79 millones de pesos, se obtienen los resultados que se presentan
en seguida y el diagrama de caja y bigotes de la gura 4.5.
Teniendo en cuenta que las medidas toman posiciones opuestas respecto a la dispersión mencionada
en el contrato, la inspección del diagrama de caja toma un papel decisivo. Éste muestra que no
hay evidencia de datos atípicos, por lo que la desviación estándar no se encuentra inada por
observaciones extremas. Además, el rango intercuartílico, que es una medida robusta frente a los
observaciones atípicas, también muestra un fallo negativo respecto a la dispersión establecida en el
contrato. Así, se puede concluir que la dispersión encontrada en la muestra excede efectivamente lo
estipulado.
A continuación se presenta sin demostración una proposición que relaciona las magnitudes de algunas
medidas de dispersión:
Las siguientes son algunas observaciones acerca de la desviación media y la desviación mediana:
• La desviación media es sensible a datos atípicos, mientras que la desviación mediana es más
robusta frente a este tipo de observaciones.
4.12. Comentarios
Como es costumbre en el inicio de todo tipo de estudio, lo primero que se hace es la exploración
y la descripción de la información para conocer el material del cual se dispone y cómo se puede
emplear. En este capítulo se muestra cómo analizar más detalladamente la información disponible
para conocer un elemento fundamental de ésta: su dispersión. La variabilidad de un conjunto de datos
se explora a través de diferentes medidas que dan cuenta de la homogeneidad o heterogeneidad de
las observaciones respecto a las medidas de tendencia central.
Este paso descriptivo cobra especial importancia a medida que una investigación avanza puesto que
88 CAPÍTULO 4. MEDIDAS DE DISPERSIÓN
las decisiones que se tomen posteriormente se verán inuenciadas por la dispersión de las variables
de estudio y la precisión de las medidas de los estadísticos calculados. Inclusive, en la vida cotidiana,
el conocimiento de la variabilidad es tenido en cuenta aún en los procesos más simples, como en la
planeación de cronogramas y la realización de reuniones.
También se enseña una de las mejores formas grácas de resumir toda la información proporcionada
por las medidas de localización y de dispersión, por medio de un sólo gráco, denominado diagrama de
caja y bigotes. Éste permite describir y analizar a profundidad la posición y la forma de la distribución
de un conjunto de datos cuantitativos.
4.13. Ejercicios
4.1. Demostrar que si X es una variable y a, b son números reales entonces se tiene que:
i. Si X=a entonces SX = 0.
ii. Si Y = aX + b entonces SY = |a|SX .
4.2. Demostrar que si X es una variable y a es un número real entonces se tiene que:
i. Si X=a y a 6= 0 entonces CV
d X = 0.
ii. Si Y = aX entonces CV
dX = CV
dY .
iii. Si Y =X +a y a≥0 entonces d Y ≤ CV
CV dX .
4.3. Establecer la escala de medición requerida para cada medida de dispersión presentada en este
capítulo.
4.4. Con la información del ejercicio 3.9, calcular, interpretar y comparar el coeciente de variación
de cada propuesta. ¾Qué es más ventajoso para el Estado y qué para cada grupo de empleados?
10
X 10
X 10
X 10
X
xi = 110, yi = 60, x2i = 3156 y yi2 = 1138.
i=1 i=1 i=1 i=1
Para cada variable calcular el coeciente de variación. Interpretar y comparar los resultados
obtenidos.
4.6. Con la información del ejercicio 3.12, calcular e interpretar el coeciente de variación.
4.7. Una compañía evalúa la eciencia del transporte público y privado que utilizan sus empleados
para ir a trabajar diariamente. En la siguiente tabla se presenta un par de muestras asociadas
con el tiempo (en minutos) de cada modo de transporte. Calcular el promedio y la desviación
estándar en cada caso. Con base en los resultados obtenidos, ¾qué modo de transporte se debe
preferir?
4.13. EJERCICIOS 89
Particular 14 15 17 14 10 16 17 16 13 15
Público 20 19 18 15 14 14 13 21 22 10
4.8. Con la información del ejercicio 3.13, calcular las medidas de dispersión y realizar un diagrama
de caja y bigotes. Con base en los resultados obtenidos, ¾qué se puede asegurar acerca de la
situación salarial de los empleados?
y
n n
1 XX
Sx2 = (xi − xj )2 .
n − 1 i=1 j=1
4.10. En un estudio de tiempos llevado a cabo en una planta manufacturera, el tiempo (en minutos)
requerido para completar cierta operación se mide para 40 trabajadores. Se encuentra que la
media y la desviación estándar son 12.8 y 1.7 minutos respectivamente. Describir los datos de
la muestra utilizando la regla empírica. ¾Qué es necesario suponer sobre la distribución de los
tiempos para que el uso de la regla empírica sea adecuado? ¾Esta descripción coincide con la que
sugiere la desigualdad de Chebyshev?
4.11. Los siguientes datos corresponden al tiempo (en horas) utilizado para preparar un examen de
conocimiento y las calicaciones correspondientes (en una escala de 0 a 5) de una muestra de
aspirantes a un cargo especíco de una compañía. El jefe de personal de la empresa asegura que
el tiempo requerido para tener buenos resultados en la prueba es cercano a 8 horas. Teniendo en
cuenta las medidas de dispersión y un diagrama de caja y bigotes, ¾qué se puede asegurar acerca
de lo que sugiere el funcionario?
4.12. Con el propósito de estudiar la relación entre la inteligencia y los ingresos se tomaron dos muestras,
una de ellas conformada por individuos de cociente intelectual (CI ) inferior a 95 y otra conformada
por los demás; de cada persona se observó el salario mensual familiar (en salarios mínimos). Para
cada grupo calcular las medidas de dispersión y realizar un diagrama de caja y bigotes. ¾Los
resultados sugieren que las personas más inteligentes tienen mayores ingresos?
90 CAPÍTULO 4. MEDIDAS DE DISPERSIÓN
4.13. Demostrar que cuando los datos de una muestra están agrupados en una distribución de frecuen-
cias, la varianza se calcula con la fórmula
k
!
1 X
2
ni xi − nx̄
n−1 i=1
4.14. Con la información del ejemplo 4.6.3, calcular, interpretar y comparar el coeciente de variación
para cada propuesta.
4.15. Considerar una población que consta del número de profesores en cada una de las universidad
pequeñas de una ciudad. El número de profesores por universidad tiene un promedio de 175 y
una desviación de estándar de 15.
a. Usar le teorema de Chebyshev para describir el porcentaje de universidades que tienen entre
145 y 205 profesores.
b. Si la distribución del número de profesores tiene forma acampanada, ¾qué fracción de las
universidades tiene mas de 190 profesores?
4.16. Se analizaron en el primer semestre de 2006 los gastos de una empresa de construcción y se
obtuvo un promedio de 174 millones de dólares y una desviación típica de 9 millones de dólares.
Se determinó luego que los contadores de esta empresa habían prescindido de 3 millones de
dólares en los gastos por un error de apreciación. Corrigiendo las medidas enunciadas, obtenga el
coeciente de variación de los gastos de esta empresa.
4.17. Los siguientes datos representan las puntuaciones de ambivalencia social para un grupo de per-
sonas, según los resultados de una prueba psicológica. Se observa que cuanto más alta se la
puntuación, mas fuete es la ambivalencia.
9 13 12 14 15 11 10 4 10
8 19 13 11 17 9 11 14 12
d. ¾Qué fracción de las puntuaciones está efectivamente a dos desviaciones estándar del promedio
de la muestra? ¾Qué indican la desigualdad de Chebyshev y la regla empírica al respecto? Con
los resultados obtenidos, ¾cómo se puede describir la distribución de las puntuaciones?
4.18. En cierta región la distribución de predios por extensión tiene una media de 35.4 hectáreas y una
desviación típica de 19.33 hectáreas, mientras que la distribución por canon de arrendamiento
tiene una media de $245,750 y una desviación de $7,470. ¾Cual de las dos distribuciones tiene
mayor variabilidad? ¾Por qué?
4.19. Con la información del ejemplo 4.6.4, calcular e interpretar el coeciente de variación de las
utilidades.
Referencias
b
Real Academia Española (2012 ), `Complacencia. Diccionario de la lengua española', http://lema.
rae.es/drae/?val=complacencia.
c
Real Academia Española (2012 ), `Determinismo. Diccionario de la lengua española', http://lema.
rae.es/drae/?val=determinismo. 2
d
Real Academia Española (2012 ), `Tasa. Diccionario de la lengua española', http://lema.rae.es/
drae/?val=tasa. 9
92
REFERENCIAS 93
Sturges, H. A. (1926), `The choice of a class interval', Journal of the American Statistical Association
21(153), 6566. 1iii
c
Wikipedia (2012 ), `Diagrama de venn', http://es.wikipedia.org/wiki/Diagrama_de_Venn.
Índice temático
aleatoriedad, 4 desviación, 70
amplitud, 23 absoluta, 85
atributo, 7 estándar, 78
muestral, 78
bigotes, 68 poblacional, 78
boxplot, 68 media, 85
mediana, 85
cartograma, 30
típica, 78
categoría, 7
diagrama
categorías, 19
de barras, 25
censo, 6
de caja, 58
cero absoluto, 10
de caja y bigotes, 68
ciencia, 1
de líneas, 33
clases, 19
de Pareto, 37
coeciente
de puntos, 39
de variación, 83
de sectores, 26
de Pearson, 82
de tallos y hojas, 32
muestral, 83
diferencial, 27
poblacional, 83
integral, 27
colectivo, 5
diseño
crítica de la información, 14
muestral, 6
cuartil, 56, 58
distribución
cuasi-varianza, 72
de frecuencias, 20
dato
atípico, 69 eje
datos elementos, 5
94
ÍNDICE TEMÁTICO 95
nominal, 10 relativa, 83
ordinal, 10 robusta, 49, 68
estadística, 1, 3 medidas
clasicación de, 4 de dispersión, 65
descriptiva, 4 de posición, 55
inferencial, 4 de tendencia central, 41
estadístico, 6 moda, 49
estandarización, 79 muestra, 6
no probabilística, 6
frecuencia piloto, 14
absoluta, 19 probabilística, 6
acumulada, 19 muestreo, 6
relativa, 19 no probabilístico, 6
acumulada, 19 probabilístico, 6
hipótesis, 12 objetivos, 12
estadística, 12, 48 observable, 7
histograma, 29 ojiva, 29
outlier, 69
individuos, 5 outliers, 46
investigación
cientíca, 13 parámetro, 6
estadística, 11 percentil, 56
pictograma, 30
ley determinista, 2 población, 5
nita, 5
máximo, 23
innita, 5
método
polígono
cientíco, 3
de frecuencias, 29
mínimo, 23
acumulado, 29
marca de clase, 29
ponderación, 46
media
promedio, 42
aritmética, 42, 43
muestral, 6
ponderada, 46
poblacional, 6
propiedades de, 44
armónica, 52, 53 rango, 23, 55, 66
propiedad de, 54 intercuartílico, 67, 68
geométrica, 50 realización de una variable, 42
propiedad de, 51 recolección
pitagórica, 50 de la información, 14
potencial, 61 recorrido, 23
recortada, 64 regla
mediana, 47 de Sturges, 23
medible, 7 empírica, 82
medición, 9
medida saber, 2
96 ÍNDICE TEMÁTICO
cientíco, 2
cotidiano, 2
tabla
de clasicación, 22
tasa, 50
teorema
de Chebyshev, 80, 81
tipicación, 79
unidad
de medida, 13
de observación, 13
compleja, 13
simple, 13
unidades
cuadráticas, 73
lineales, 78, 79
universo, 5
variabilidad, 73
variable, 7
adimensional, 79
auxiliar, 7
cualitativa, 7
cuantitativa, 8
continua, 8
discreta, 8
estandarizada, 79
latente, 7
longitudianal, 8
tipicada, 79
transversal, 8
variables
conmensurables, 44
varianza, 72, 73
corregida, 72
muestral, 72
propiedades de, 74
poblacional, 72