Tema 1-Estadística Descriptiva
Tema 1-Estadística Descriptiva
Tema 1-Estadística Descriptiva
Fundamentos de Probabilidad.
Variables Aleatorias.
Distribuciones Especiales.
Vectores Aleatorios.
Distribuciones de Muestreo.
Estimación.
Pruebas de Hipótesis.
BIBLIOGRAFÍA
EVALUACIÓN
Evaluación continua 40%
CRONOGRAMA DE EVALUACIÓN
FUNDAMENTOS DE
Quiz 2 PROBABILIDAD Y V.A. 6
DISCRETAS
TODO LO CONTEMPLADO EN
EL SÍLABO HASTA LA
Mid-term 8
SEMANA 7.
30%
VARIABLES ALEATORIAS Y
DISTRIBUCIONES DE PROBABILIDAD.
Quiz 3 DISTRIBUCIONES MULTIVARIANTES. 12
DISTRIBUCIONES MUESTRALES.
TEOREMA DEL LÍMITE CENTRAL
TODO LO CONTEMPLADO EN
Examen Final EL SÍLABO. 16
30%
DEFINICIÓN DE ESTADÍSTICA:
La estadística es el conjunto de métodos necesarios para recoger, clasificar,
representar y resumir datos, con el objetivo de hacer inferencias (extraer
consecuencias) científicas a partir de ellos, ante la presencia de incertidumbre.
Etc; Etc; …
*LIBROS
*OFICINAS GUBERNAMENTALES
20 DE OCTUBRE (ONU)
EJEMPLO:
OTRO EJEMPLO:
Premio a las matemáticas que salvan vidas:
David Cox y Bradley Efron son galardonados por revolucionar la estadística. Han sido
galardonados con el noveno Premio Fronteras del Conocimiento en Ciencias Básicas por
desarrollar herramientas estadísticas para obtener resultados fiables en diferentes áreas
del conocimiento. 24/ENERO/2017.
Some remarks . . . .
I keep saying the sexy (Attractive) job in the next ten years will be statisticians.
People think I’m joking, but who would’ve guessed that computer engineers
would’ve been the sexy job of the 1990s?
Varian then goes on to say:
The ability to take data - to be able to understand it, to process it, to extract
value from it, to visualize it, to communicate it’s going to be a hugely important
skill in the next decades, not only at the professional level but even at the
educational level for elementary school kids, for high school kids, for college
kids.
Source: FlowingData.com
Remarks
The lovely (Attractive) jobs are why we should all enroll our children
immediately in statistics courses. Big data can only be unlocked by shamans
with tremendous mathematical aptitude and training. McKinsey estimates
that by 2018 in the United States alone, there will be a shortfall of between
140,000 and 190,000 graduates with “deep analytical talent”. If you are one of
them, you will surely have a “lovely” well-paying job.
Begins’:
Businesses keep vast troves of data about things like online shopping behavior,
Now, more companies are trying to make sense of what the data can tell them
about how to do business better. That, in turn, is fueling demand for people
who can make sense of the information — mathematicians — and creating
Source: NPR.org
Also see this article in the NYT: For Today’s Graduate, Just One Word: Statistics
MACHINE LEARNING
There are three concepts that are at the core of Machine Learning: data, a
model, and learning.
A. Aldo Faisal
5.-Un fabricante asegura que las fundas de basura que confecciona cumplen
con las normas exigidas por la ley. ¿Será cierta esta afirmación?
b) Ordenación y presentación de los datos, y que suele presentarse mediante unas tablas de
simple o de doble entrada.
c) Resumen de la información, para tratar de describir las características más relevantes que
pueden tener los datos, y que se realiza mediante la determinación de parámetros estadísticos
que intentan resumir toda la información que aporte el conjunto de datos.
d) Análisis estadístico, a través de métodos facilitados por la Estadística Matemática, para tratar
de verificar hipótesis sobre regularidades que pueden detectarse en las etapas previas.
Montgomery, D.; Runger, G. (2014). Applied Statistics and Probability for Engineers.
An important aspect of dealing with data is organizing and summarizing the data in ways
that facilitate its interpretation and subsequent analysis. This aspect of statistics is called
Descriptive Statistics
➢ Data summary methods should highlight the important features of the data, such
as the middle or central tendency and the variability, because these characteristics
are most often important for engineering decision making.
➢ We will see that there are both numerical methods for summarizing data and a
number of powerful graphical techniques.
➢ The graphical techniques are particularly important. Any good statistical analysis of
data should always begin with plotting the data.
CONCEPTOS BÁSICOS:
Las variables pueden ser cuantitativas o cualitativas, según que tomen, o no, valores cuantificables.
a) Variable Ordinal: Puede tomar distintos valores ordenados siguiendo una escala establecida. Ej:
Leve, Moderado, grave. Ej: Meses del año, Ej: Intensidad de un dolor, Ej: Dureza de un mineral,
etc.
b) Variable nominal: Los valores no pueden ser sometidos a un orden. Ej: Los colores, Las razas,
religiones, Ej: El color de los ojos, etc.
b) Variable continua: Puede adquirir cualquier valor dentro de un intervalo específico de valores.
Ej: El peso, la altura, el sueldo, etc.
MUESTRA OBSERVADA:
Sea Y una variable asociada a cierto experimento. Se realiza n veces el experimento, de
manera independiente y bajo las mismas condiciones, y se obtienen n valores
correspondientes a la variable Y: y1, y2, …,yn. A estos resultados se le llama muestra
observada.
Ejemplo: Se esta estudiando la variable Y=peso de los estudiantes que usan el comedor de
la Universidad. Para eso se eligen 10 estudiantes aleatoriamente y se les pesa. Los
resultados son (en Kg.): 50; 44,3; 45,2; 54; 43; 99; 50; 58; 51; 50.
Otro ejemplo:
DISTRIBUCIONES DE FRECUENCIA
Es una tabla que divide un conjunto de datos en un número de clases (categorías) apropiadas, con
el objetivo de hacer resaltar características importantes de los datos.
ln (N)
Número de clases = 1+ ln (2)
Es común redondear el valor del número de clases: si el entero del resultado previo al redondeo es
"par" se redondea a la alta y si el entero es "impar" se redondea a la baja.
Debe tomarse en consideración que en cada caso las clases no se traslapan, incluyen todos los
datos y tienen la misma medida, y que los límites de clase se dan con el mismo número de
decimales que los datos originales.
Donde:
*Frecuencia Absoluta de la clase i (FA): es la frecuencia con que han aparecido los valores.
Observación: Las clases no se traslapan, deben incluir a todos los datos y tienen la misma medida.
Recomendación: Para hacer más homogénea la distribución de los datos en la tabla de frecuencias,
resulta en ocasiones conveniente, redondear el tamaño del intervalo de clase a: uno, dos cinco o
diez, y utilizar como límite inferior de la primera clase, un número terminado en cero o cinco.
2, 4, 2, 3, 1, 2, 4, 2, 3, 0, 2, 2, 2, 3, 2, 6, 2, 3, 2, 2, 3, 2, 3, 3, 4, 1, 3, 3, 4, 5, 2, 0, 3, 2, 1, 2, 3, 2, 2, 3, 1,
4, 2, 3, 2, 4, 3, 3, 2, 2.
Ejemplo:
67 98 81 74 77 53 60 76 77 74 73 62 63 62 76 74 87 57 78 74 79 59 83 66 88
Solución:
Ejemplo: Hacer la distribución de frecuencias de los pesos de 100 estudiantes de una determinada
escuela mostrados en la siguiente tabla:
32 22 46 55 47 51 65 58 34 48 40 54 59 38 31 59 32 46 71 28
51 49 31 54 81 21 47 52 41 59 62 39 63 16 63 51 40 65 68 37
87 45 38 50 45 68 51 34 47 54 23 59 47 40 52 32 49 75 53 77
34 47 26 63 52 64 73 48 43 37 55 63 69 49 47 58 41 72 67 70
67 32 57 35 72 41 52 37 53 48 76 61 69 58 63 59 75 62 67 63
OBSERVACIÓN
INTERPRETACIÓN DE RESULTADOS
1.-Un investigador dice: en estudios realizados recientemente se concluyó que el 28% de las
personas muere porque fuma. Esto quiere decir que el 72% restante muere porque no fuma.
2.-En estudios recientes se ha concluido que en los accidentes de trenes la mayoría de los
accidentados viaja en el último vagón. Conclusión: hay que eliminar el último vagón.
REPRESENTACIONES GRÁFICAS
La información proporcionada por las tablas de distribución de frecuencias es bastante completa,
pero tiene la dificultad de que su lectura requiere un cierto tiempo y capacidad de comparación
para relativizar la información de unas clases respecto de las otras. Además, en la experiencia del
lector, al comenzar a leer un determinado artículo (científico o no), su vista se dirige primero al
título, luego a los gráficos y, finalmente, a las tablas.
Así pues, las representaciones gráficas constituyen uno de los principales y más sencillos métodos
de exponer la información, por su capacidad de impactar al lector con muy poco esfuerzo por su
parte, dando una información rápida y global de los datos, siendo útiles incluso al investigador, pues
le permiten tener una idea general de los resultados y, a veces, sugerir nuevas hipótesis.
HISTOGRAMAS
Con los valores de la tabla de frecuencias se construye el HISTOGRAMA DE FRECUENCIAS, el cual es
una gráfica de barras que tiene como base el intervalo de clase y como altura la frecuencia relativa.
PESO
0,35
0,26
frecuencias relativas
0,17
0,09
0,00
18,30 25,70 33,10 40,50 47,90 55,30 62,70
Peso
Observación: En los gráficos hay que ser cuidadoso de no mostrar información engañosa. Para ello,
hay que acompañarlos con la mayor cantidad de información sobre su construcción.
EJEMPLO: Los datos siguientes corresponden a gastos de inversión publicitaria en los países de la
C.E.E. durante el año 1.986
PAÍSES INVERSIÓN
(MILLONES $)
R.F.A 8.234
INGLATERRA 6.915
FRANCIA 4.663
ESPAÑA 3.000
HOLANDA 2.970
ITALIA 2.846
DINAMARCA 1.084
BÉLGICA 464
GRECIA 164
IRLANDA 127
Luxemburgo
PAISES
GRE
IRL
DINBEL
ITA
RFA
HOL
ESPA
INGL
FRAN
Ejemplo: En la siguiente tabla se presentan los tiempos que deben esperar los vehículos para
cruzar por una intersección transitada. Hacer un gráfico de tallo y hoja.
RESUMENES NUMÉRICOS
La información gráfica es elegante y muy útil, sin embargo, principalmente tiene propósitos
descriptivos o ilustrativos. Para hacer inferencias se necesita mayor precisión de la que
puede esperarse en un gráfico. Luego, algunas medidas numéricas deben ser calculadas a
partir de los datos, con el objeto de conocerlos mejor, sintetizarlos o caracterizarlos más
específicamente. Tres importantes tipos de medidas son:
1 Medidas de posición o tendencia central: Media, Moda, Mediana, Cuartiles.
Observación: Por ahora, se hará referencia a los dos primeros tipos de medidas solamente y, de
ellas, a la Media, la Varianza y la Desviación Estándar.
Una de las principales ideas en la estadística es estimar las medidas poblacionales, a partir de las
medidas muestrales. Aunque los nombres no importan mucho, se tiene la convención de nombrar
a las medidas muestrales con letras arábigas y a las poblacionales con letras griegas. Por ejemplo, μ
y σ2 son los nombres que por lo general reciben la media y la varianza poblacionales,
respectivamente.
Definición: La muestra
Sea Y una variable o característica de interés en la población (nótese la letra mayúscula). Sea n el
número de individuos u objetos seleccionados (por cualquier método) de la población.
Llamaremos una muestra al conjunto y1, y2, · · · , yn (nótense las letras minúsculas), en el cual
cada yi es una observación particular del valor de la variable Y en el conjunto seleccionado, para i =
1, 2, · · · , n.
ESTADÍSTICA DESCRIPTIVA:
n n
yi ( yi −Y )2
media = Y = i=1n varianza = s2 = i=1 n
MEDIDAS DE TENDENCIA CENTRAL
Las tablas de distribuciones de frecuencia ofrecen toda la información disponible, pero a veces,
debido a su extensión nos encontramos con dificultades a la hora de su interpretación, por lo que
interesa resumirla con el fin de facilitar, tanto su análisis como la comparación entre distintas
muestras o poblaciones. En este proceso de síntesis se buscan valores que determinen el
comportamiento global del fenómeno estudiado.
b) Es siempre calculable.
Entre las más importantes están la media aritmética, la mediana, la moda y los cuantiles; además
de éstos, también están la media geométrica, la media armónica, la media cuadrática y la media
aritmética ponderada.
MEDIA ARITMÉTICA
Se define como la suma de todos los valores de la distribución, dividida por el nº total de datos.
n
yi
media = Y = i=1n
EJEMPLOS
1.-Sea la variable Y que representa los pesos en kilogramos de 10 estudiantes y que presentan los
valores:
63,54, 59, 63, 64, 54, 59, 63,59, 63
VENTAJAS E INCONVENIENTES
Como ventajas de utilizar la media aritmética como un promedio para sintetizar los valores de la
variable podemos citar las siguientes:
-Es única.
Como inconvenientes de la utilización de la media aritmética cabe citar que, a veces, puede dar
lugar a conclusiones erróneas, cuando la variable presenta valores muy extremos, que influyen
mucho en la media, haciéndola poco representativa.
Donde:
n es el tamaño de la muestra,
K es el número de clases,
Ejemplo: Calificaciones.
LA MEDIANA: Es el valor tal que el 50% de las observaciones está por encima y el otro 50% por
debajo. Para obtener la mediana ordenamos los datos en forma creciente, si el número de
observaciones es un número n impar, entonces la mediana es el valor de la observación que ocupa
el lugar número: n +1
2
Si el número de observaciones es un número n par, entonces la mediana es el promedio de los
valores de las observaciones que aparecen en los lugares: n y n+2
2 2
Ejemplo: Si hay un nº impar de términos, la mediana será el que ocupa la posición central. Por
ejemplo, si los valores de la variable son {1 , 2 , 3 , 4 , 5 }
La mediana sería Me = 3
Pero si hay un nº par de términos habría dos términos centrales y se toma como mediana la media
aritmética de ellos. Por ejemplo, si los valores de la variable son {1 , 2 , 5 , 7 , 9 , 10 , 13 , 14}
VENTAJAS E INCONVENIENTES
Como ventajas de la mediana podemos citar que no está influida por los valores extremos como
en el caso de la media, y además tiene sentido en casos de distribuciones en escala ordinal (datos
que pueden ser ordenados), siendo la medida más representativa de estos por describir la
tendencia central de los mismos.
Como inconvenientes puede ser la determinación de ésta en los casos de variables agrupadas en
intervalos.
EJEMPLO
En una pequeña compañía contratan cuatro nuevos ingenieros y les pagan 1000 Dólares a cada
uno y el propietario (también ingeniero) obtiene 40000. Entonces se puede afirmar que la
compañía paga en promedio 88000 dólares a sus ingenieros y que, en consecuencia, es un buen
lugar para trabajar.
MODA
Es el valor de la variable que más veces se repite en una distribución de frecuencias, es decir, el
que tiene mayor frecuencia absoluta.
Ejemplos:
Para los datos: 3, 4, 9, 10, 9, 11, 11, 12, 9 ¿La moda es=?
Para los datos: 3, 4, 11, 12, 4, 11, 4, 11, 18, 4, 19, 11 ¿La moda es=?
MEDIDAS DE DISPERSIÓN
Antes hemos definido una serie de medidas de tendencia central, cuyo objetivo era tratar de
sintetizar toda la información disponible, pero cabe preguntarse posteriormente si esa medida es
o no representativa de la distribución de frecuencias.
Así pues, resulta necesario que, para completar la información de un promedio (por ejemplo
media aritmética), éste vaya acompañado de uno o varios coeficientes que nos midan el grado de
dispersión de la distribución de la variable con respecto a él.
Cabe citar entre éstas el recorrido, el recorrido intercuartílico, la desviación media, la varianza y la
desviación típica. Todas son referidas en general a un promedio.
RECORRIDO O RANGO
Hemos dicho ya que éste es la diferencia entre el mayor y el menor valor de la distribución:
Si este recorrido es pequeño respecto al número de datos puede entenderse que existe poca
dispersión.
Tiene el inconveniente de que se ve totalmente influenciado por los valores extremos (con los que
se calcula).
VARIANZA
Se define como la media de los cuadrados de las desviaciones de los valores de la variable
respecto de la media aritmética, es decir:
n
( yi −Y )2
varianza = s 2 = i=1 n
Se utiliza el cuadrado para lograr que todas las desviaciones sean positivas; nos indica la mayor o
menor dispersión de los valores de la variable respecto de la media aritmética, y por lo tanto, su
representatividad.
Tiene el inconveniente de no venir expresada en las mismas unidades que la variable, sino en el
cuadrado de las mismas, por ello se utiliza más la siguiente.
n 2
( yi −Y )
s = i =1
Al ser la raíz cuadrada de la varianza viene expresada en las mismas unidades que la variable, lo
que la hace más apta como medida de dispersión que la varianza, siendo en la actualidad la más
utilizada.
Donde:
n es el tamaño de la muestra,
K es el número de clases,
Ejemplo: Calificaciones
LOS CUARTILES
Los cuartiles Q1, Q2 y Q3 de un conjunto de datos son los números tales que dividen en
cuatro partes iguales (25%, 50% y 75%) dicho conjunto. El segundo cuartil Q2 (50%) es la
mediana.
Se ordenan los datos de menor a mayor y se denota por X(i) el dato que está en la
posición i de la muestra ordenada. Entonces:
𝑛+1 𝑛+1
𝑄1 = 𝑋([𝑛+1]) + ( − [ ]) (𝑋([𝑛+1]+1) − 𝑋([𝑛+1]) )
4 4 4 4 4
3(𝑛 + 1) 3(𝑛 + 1)
𝑄3 = 𝑋([3(𝑛+1)]) + ( − [ ]) (𝑋([3(𝑛+1)]+1) − 𝑋([3(𝑛+1)]) )
4 4 4 4 4
Q2 = Mediana.
Interpretación: Afirmar, por ejemplo, que el primer cuartil del peso de niños recién
nacidos es 2700 gra., indica que un 25% de ellos tiene un peso inferior a 2700 gra.
10, 12, 12, 13, 13, 13, 14, 16, 16, 17, 18, 19, 20, 21, 24, 25, 27, 31, 32, 32, 36, 37, 49.
Box-plot
Esta representación gráfica, puede ser traducida como Caja con Bigotes o Representación Caja,
aunque se conoce usualmente con el nombre de Box-plot o bien Box and Whiskers plot.
En un Box-plot se visualiza la información contenido en los cuartiles. La mitad central de los datos,
que va desde el primer hasta el tercer cuartil, se representa mediante un rectángulo. La mediana
se identifica mediante una barra vertical dentro de esta caja. Una línea se extiende desde el tercer
cuartil hasta el valor máximo (o hasta el noveno decil) el y otra línea se extiende desde el primer
cuartil hasta el mínimo (o hasta el primer decil).
PASOS PARA LA CONSTRUCCIÓN DE UN BOX-PLOT:
1.-Se ordenan los datos y se calcula el máximo, el mínimo, la media y los cuartiles.
2.-Se dibuja un rectángulo cuyos extremos sean el primer y tercer cuartil, respectivamente, y se
indican en él la media y la mediana.
3.-Se calcula lo que se llamará los ‘límites admisibles’ inferior y superior, así:
LI = Q1 – 1,5 RI
LS = Q3 + 1,5 RI
Donde RI = Q3 - Q1
4.-Se dibuja una línea desde cada extremo del rectángulo al valor no atípico más alejado.
5.-Se indican todos los datos que están fuera del intervalo admisible, marcándolos como atípicos.
Solución con R:
>Mujer<-c(21,21,26,24,22,23,24,26,26,25,23,25,22,24,23,24,22,24,21,24,23)
>Hombre<-c(19,21,21,19,19,20,21,25,22,20,18,23,19,20,21,20,22,20,30,22,19)
>boxplot(Mujer, Hombre, main='Diagramas de caja', xlab='Genero', ylab='Sueldos',
names=c('Mujer', 'Hombre'))
Diagramas de caja
30
28
26
Sueldos
24
22
20
18
Mujer Hombre
Genero
INTRODUCCIÓN A R
Descarga e instalación: R es un lenguaje diseñado para cálculos estadísticos. Es un software libre
que puede ser descargado de la página web:
http://www.r-project.org/
Una vez instalado R, el cursor, que por defecto es el símbolo ‘>’, indica que R está listo para recibir
un comando.
RSTUDIO
RStudio es un entorno de desarrollo integrado que hace más fácil el trabajo con R.
Al entrar a RStudio vemos la pantalla dividida en cuatro ventanas. La ventana superior izquierda es
un editor especialmente adaptado para escribir código de R. Se puede personalizar. La ventana
inferior izquierda corresponde a la consola para utilizar R de forma interactiva. En la ventana
superior de echa aparece un listado de los objetos (ficheros, vectores, funciones, etc.) que se
encuentran en el área de trabajo. Finalmente, en la ventana inferior derecha aparecen varias
pestañas que corresponden a diferentes utilidades. En particular, esta es la ventana en la que
aparecen los gráficos.
• SUMA: 18+25
• RESTA: 10-4
• PRODUCTO: 23*6
• COCIENTE: 15/5
• POTENCIA: 49^11
• RAIZ CUADRADA: SQRT(36)
• EXPONENCIAL: EXP(-2)
• LOGARITMO: LOG(30)
• TRIGONOMÉTRICAS: sin(20); cos(30); tan(40)
VARIABLES: Las variables van a contener los resultados de las operaciones que se ejecuten.
Una variable escrita en mayúscula y otra escrita en minúscula son variables diferentes (case
sensitive). Si se realiza una operación sin asignarle un nombre, ese resultado se perderá para
futuros cálculos. Podemos asignar un valor a una variable usando el operador (<-).
>va<-15+35
>Va<-34*10
>VA<-20/12
>67+10
VECTORES
>nombrevector<-c(contenido)
FUNCIONES PARA USAR CON VECTORES
>v<-c(7,19,22,13,-10,34,11,25,19,13,23,5,16,26,21,30,15)
>min(v)
>max(v)
>sum(v)
>length(v)
>sort(v)
>mean(v)
>sd(v)
>var(v)
>median(v)
>summary(v)
>hist(v)
>quantile(v)
>quantile(v, probs=0.25)
PROBABILIDAD Y ESTADÍSTICA
OIGO, Y OLVIDO
VEO, Y RECUERDO
HAGO, Y ENTIENDO
1.-Clasificar las siguientes variables según su tipo (cualitativas ordinales o nominales, cuantitativas
discretas o continuas):
(a) Colores. (b) Cantidad de sillas. (c) Puntuaciones de un examen. (d) Costos de un artículo. (e)
Estatura de los alumnos. (f) Peso de las cajas de queso. (g) Carreras que se estudian en YACHAY.
(h) Marcas de cerveza. (i) Número de empleados de una empresa. (j) Altura de un edificio. (k)
Signos del Zodíaco. (l) Meses del año. (m) Ingreso per cápita de una nación. (n) Ganancias (en
dólares) de una empresa. (o) Número de calzado. (p) Precio de un producto. (q) Temperatura de
un enfermo.
2.-La siguiente muestra observada corresponde al tiempo de vida (en horas) de 10 insectos de la
misma clase: 6 6 1 2 4 5 6 2 2 2
3.-La siguiente muestra corresponde a la esperanza de vida (en años) en 30 países del mundo:
76 76 76 77 78 79 61 78 77 78 80 80 76 78 78 78 78 79 80 78 77 77 95 77 48 50 87 90 70 79
4.-Los siguientes datos representan los pesos (en gramos) de 40 insectos de una misma especie:
138 164,50 150 132 144 125,10 149 157 146 158 140 147 136 148 152 144 168,25 126 138 176
163 119 154 165 146 173 142 147 135 153 140 135 161,30 145 135 142 150 156 145 128
5.-La siguiente tabla de frecuencias representa los pesos (en libras) de 40 estudiantes de una
Universidad:
FRECUENCIA 3 5 9 12 5 4 2
5, 2, 1, 25, 1, 5, 8, 6
X 0 1 2 3 4 5
frecuencia 2 ? 6 4 2 1
8.- En un restaurante se tiene una fórmula específica para elaborar una cantidad determinada de
‘agua fresca’, tal fórmula contempla el agregar 500 g. de azúcar. Es claro que resulta de suma
importancia agregar exactamente esa cantidad de azúcar para la calidad del agua, ya que de lo
contrario, ésta queda muy dulce o desabrida. Aunque a los cocineros se les ha insistido sobre lo
anterior es frecuente que no pesen el azúcar y la agreguen al tanteo. Al considerar la calidad del
agua como un aspecto clave, se decide diseñar un procedimiento a prueba de olvidos: comprar
bolsas que contengan 500 g. de azúcar. Suponga dos marcas de azúcar (tipo A y tipo B) que
contemplan la presentación de 500 g. por lo que es necesario decidir qué marca comprar. Con este
propósito se pesan 40 bolsas de ambas marcas. Al pesarse arrojan los siguientes resultados:
TIPO A:
Frecuencia 2 5 15 11 7
Absoluta
TIPO B:
Frecuencia 6 11 14 5 4
Absoluta
9.-El número de pacientes recuperados después de aplicar un tratamiento contra una enfermedad
en ocho hospitales se muestra a continuación:
Hospital 1 2 3 4 5 6 7 8
# Pacientes 5 2 1 25 1 5 8 6
Recuperados
a)Calcular la media muestral, la moda, el primer cuartil, la mediana, el tercer cuartil. Interprete los
resultados.
? ? ? ? 6%
? ? ? ? 16 %
[30,45) ? 22 ? ?
? ? 80 ? ?
? 20 ? ? ?
a) Completar la tabla
2 4 8 4 8 1 2 32 12 1 5 7 4
(a) Sin agrupar los datos en una tabla de frecuencias, calcule la media, moda, mediana, primer y
tercer cuartil, varianza, desviación estándar, rango, coeficiente de variación. Interprete cada uno
de los resultados. Respuesta: media = 6.92, m = 4, q1 = 2, q3 = 8, S = 8.19, V = 1.18, R = 31, RI = 6
(b) Construir una tabla de distribución de frecuencias. (c) A partir de la información dada en la
parte (a), construir el diagrama de caja (Boxplot) correspondiente. Interprete los resultados.
12.- Los siguientes datos corresponden al número de turistas extranjeros que visitan cierta zona
en dos etapas del año:
Etapa 1: Enero-Julio: 108 112 94 144 162 162 76 102 11 79 129 95 114
Etapa 2: Agosto-Diciembre: 30 41 41 40 43 25 32 22 27 64 33 41
Según una agencia de viajes, la variabilidad de los datos debe ser mayor en el primer periodo. ¿Se
corresponde esta hipótesis con lo observado en las muestras?. Realice los cálculos que usted
considere necesario para dar respuesta a esa interrogante. Respuesta: Si corresponde.
13.- Los salarios mensuales de 4 individuos (en dólares son) son 1500, 1600, 1650 y 2000. Hallar el
salario promedio. Ahora entra a trabajar una nueva persona en la empresa, percibiendo un sueldo
de 5000 $ mensuales. ¿Se verá afectado el salario promedio tras esta incorporación?. Respuesta:
Si se verá afectado.
14.- Los siguientes datos representan el promedio de artículos vendidos a diario por dos
empleados de una tienda durante 5 días:
EMPLEDO A EMPLEADO B
25 15
20 25
15 27
30 23
35 35
(a) Calcular el promedio de artículos vendidos a diario por cada empleado. Respuesta:
Promedio(A)= 25, Promedio (B)= 25.
(b) ¿Cuál de los dos empleados parece mantener un promedio de ventas más homogéneo
durante la semana?. Respuesta: El empleado B.
ESTUDIANTE X Y
A 52 49
B 49 49
C 26 17
D 28 34
E 63 52
F 44 41
G 70 45
H 32 32
I 49 29
J 51 49
K 64 53
L 28 17
M 49 40
N 43 41
O 30 15
P 65 50
Q 35 28
R 60 55
S 49 37
T 66 50
16.-¿Existe una relación entre el producto nacional bruto (PNB) per cápita, expresado en dólares, y
la esperanza de vida de los niños nacidos en los países no desarrollados?
Utilice los datos de la siguiente tabla, donde se muestran los ingresos per cápita (X) y la esperanza
de vida (Y) en 16 naciones, para responder esta pregunta.
PAIS x y
Afganistan 75 40
Nigeria 135 39
Nepal 87 43
Zaire 90 45
Tanzania 120 44
Indonesia 80 48
Uganda 140 49
China 170 53
Irán 370 54
Turquía 760 57
Brasil 500 63
Taiwan 460 69
México 770 64
Venezuela 1000 66
Argentina 1300 67
17.- En una clínica de maternidad se ha hecho un estudio para saber la talla (en cm.) que tiene un
lactante teniendo en cuenta la Edad (en días), la talla (en cm.), el peso (en kg.) y el tamaño del
tórax (en cm.) al nacer. Para ello se tomó un amuestra de 9 niños de los que se obtuvieron los
resultados expresados en la tabla más abajo. Calcule el coeficiente de correlación de cada variable
con todas las demás. Hacer gráficos de dispersión. ¿Qué variables se puede decir que están
correlacionadas? ¿Por qué?
18.-En la siguiente tabla se muestran el Coeficiente Intelectual (CI), la edad y el peso al nacer de 25
niños. Hacer un box-plot para cada variable e interpretar los resultados:
13 102 2345 26
19.- Los siguientes datos corresponden a la ganancia de peso por día (expresada en gramos), de
novillos sometidos a una dieta experimental de engorde a corral.
704 890 986 806 798 995 876 705 706 915
801 720 807 960 858 606 798 708 893 906
660 780 615 895 969 880 700 697 804 918
825 809 758 705 800 910 896 708 690 830
a) Obtenga las siguientes medidas resumen: media, mediana, mínimo, máximo, rango,
b) Contestar Verdadero (V) o Falso (F) a cada una de las siguientes afirmaciones:
20.-Se dispone de los siguientes datos incompletos en una tabla de frecuencias.
BIBLIOGRAFÍA
OBSERVACIÓN: Este conjunto de problemas es un complemento a los problemas del texto guía:
Wackerly, D.; Mendenhall, W. & Scheaffer, R. (2010). Estadística Matemática con Aplicaciones,
7ma ed. CENGAGE Learning.
BIBLIOGRAFÍA ADICIONAL