Tema 1-Estadística Descriptiva

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 45

PROBABILIDAD Y ESTADÍSTICA

Prof. Dr. RAFAEL AMARO


iamaro@yachaytech.edu.ec
Bachelor of Science in Mathematics, USB, Ven.
Master of Science in Statistics, UCV, Ven.
PhD in Applied Multivariate Statistics, USAL, Spain.

RESUMEN DEL CONTENIDO DEL CURSO:


Estadística Descriptiva.

Fundamentos de Probabilidad.

Variables Aleatorias.

Distribuciones Especiales.

Vectores Aleatorios.

Distribuciones de Muestreo.

Estimación.

Pruebas de Hipótesis.

BIBLIOGRAFÍA

Wackerly, D.; Mendenhall, W. & Scheaffer, R. (2010). Estadística Matemática


con aplicaciones, 7ma ed. CENGAGE Learning.
Wackerly, D.; Mendenhall, W. & Scheaffer, R. (2008). Mathematical Statistics
with Applications, 7ma ed. CENGAGE Learning.

Montgomery, D.; Runger, G. (2014). Applied Statistics and Probability for


Engineers, 6th ed. Wiley.
Crawley, M. J. (2015). Statistics: an introduction using R. Wiley and sons.
Dalgaard, P. (2008). Introductory Statistics with R. Springer.
INTERNET

EVALUACIÓN
Evaluación continua 40%

Evaluación intermedia 30%

Evaluación final 30%

CRONOGRAMA DE EVALUACIÓN

Evaluación Contenido Semana

Quiz 1 ESTADÍSTICA DESCRIPTIVA 3

FUNDAMENTOS DE
Quiz 2 PROBABILIDAD Y V.A. 6
DISCRETAS
TODO LO CONTEMPLADO EN
EL SÍLABO HASTA LA
Mid-term 8
SEMANA 7.
30%
VARIABLES ALEATORIAS Y
DISTRIBUCIONES DE PROBABILIDAD.
Quiz 3 DISTRIBUCIONES MULTIVARIANTES. 12
DISTRIBUCIONES MUESTRALES.
TEOREMA DEL LÍMITE CENTRAL

PROYECTO MANEJO DE DATOS 15

TODO LO CONTEMPLADO EN
Examen Final EL SÍLABO. 16
30%
DEFINICIÓN DE ESTADÍSTICA:
La estadística es el conjunto de métodos necesarios para recoger, clasificar,
representar y resumir datos, con el objetivo de hacer inferencias (extraer
consecuencias) científicas a partir de ellos, ante la presencia de incertidumbre.

ALGUNAS ÁREAS DE APLICACIÓN DE LA ESTADÍSTICA:

HERRAMIENTA PODEROSA PARA RESOLVER PROBLEMAS EN ÁREAS TAN


DIVERSAS COMO:

INGENIERÍA: CONTROL DE CALIDAD (Control de proceso de fabricación, ESTUDIO DE


MATERIALES (duración, dureza, elasticidad, etc).

COMUNICACIONES, COMPUTACIÓN, REDES, ….

MEDICINA: COMPARACIÓN DE DIFERENTES MEDICAMENTOS, COMPARACIÓN


DE DIETAS.

AGRONOMÍA: COMPARACIÓN DE VARIEDADES DE UN MISMO CULTIVO.

ECONOMÍA: MODELOS ECONÓMICOS

ENCUESTAS POLÍTICAS, Tendencia de voto,Y OTRAS.

GENÉTICA, PSICOLOGÍA, EDUCACIÓN, DEPORTES: béisbol, fútbol, etc. . .

VACUNA CONTRA EL POLIO.

PRONOSTICOS DEL TIEMPO.

BIG DATA, REDES NEURONALES, MINERÍA DE DATOS, . . .

ECONOMETRÍA, SABERMETRÍA, BIOSTADÍSTICA, GEOESTADÍSTICA,


ASTROESTADÍSTICA, . . .
REVISTAS CIENTÍFICAS ESPECIALIZADAS EN ESTADÍSTICA:
*BIOMETRICS*Ann. Math. Statist.*J. Am. Statist.Assoc.*J. R. Statist.Soc.*BIOMETRIKA.

*j. Multivariate anal.*Applied Statistics.*Statistics in Medicine.*Data Analysis and


Informatics.

*Computational Statistics and Data Analysis.*Analyse de Donné esetInformatique.

*American Statistician.*Etc, Etc, ...

PROGRAMAS INFORMÁTICOS ESTADÍSTICOS:


*R.*SPSS.*INFOSTAT.*SAS.*S-PLUS.*STATGRAPHIC.*SYSTAT, *MATLAB, *PYTHON, *JULIA

Etc; Etc; …

MÁS SOBRE LA IMPORTANCIA DE LA ESTADÍSTICA


*CONGRESOS DE ESTADÍSTICA

*LIBROS

*OFICINAS GUBERNAMENTALES

*DIA MUNDIAL DE LA ESTADÍSTICA

20 DE OCTUBRE (ONU)

EJEMPLO: Florence Nightingale (1820- 1910).

Enfermera, Escritora, Estadística Británica. Guerra de Crimea (es una


península del este de Europa), aproximadamente en 1854.

EJEMPLO: La vacuna de SALK contra la polio.


En 1954 se llevó a cabo en los Estados Unidos el experimento médico más grande y quizás
más costoso de la ciencia moderna. Participaron más de un millón de niños a un costo de
más 5 millones de dólares de la época. El experimento se realizó para establecer la
efectividad de la vacuna SALK contra la poliomielitis. La investigación dividió aleatoriamente
en dos al grupo de sujetos participantes en el experimento, uno denominado grupo control
que fue inoculado con una solución salina inocua (placebo) y otro denominado grupo
experimental, que recibió la vacuna de SALK. Como resultado de este experimento, se logró
demostrar que la tasa de casos de poliomielitis por cada 100.000 personas vacunadas fue
la mitad de la tasa registrada para los que recibieron el placebo. Tal diferencia resultó
estadística y médicamente significativa y, en consecuencia, se adoptó como medida de
salud pública la vacunación regular y masiva de la población infantil contra la poliomielitis.

EJEMPLO:

El premio Nobel de economía 2015 es Angus Deaton, Matemático escocés,


catedrático de la Universidad de Princeton (EE UU), Profesor de
Microeconomía y es un experto en Estadística. Durante 5 décadas tomó y
analizó datos que le permitieron construir índices para la medición del
bienestar y la pobreza.

OTRO EJEMPLO:
Premio a las matemáticas que salvan vidas:

David Cox y Bradley Efron son galardonados por revolucionar la estadística. Han sido
galardonados con el noveno Premio Fronteras del Conocimiento en Ciencias Básicas por
desarrollar herramientas estadísticas para obtener resultados fiables en diferentes áreas
del conocimiento. 24/ENERO/2017.

Some remarks . . . .

Google’s Chief Economist Hal Varian on Statistics and Data:

I keep saying the sexy (Attractive) job in the next ten years will be statisticians.
People think I’m joking, but who would’ve guessed that computer engineers
would’ve been the sexy job of the 1990s?
Varian then goes on to say:

The ability to take data - to be able to understand it, to process it, to extract
value from it, to visualize it, to communicate it’s going to be a hugely important
skill in the next decades, not only at the professional level but even at the
educational level for elementary school kids, for high school kids, for college
kids.

Source: FlowingData.com

Remarks

The big data revolution’s “lovely” and “lousy” jobs:

The lovely (Attractive) jobs are why we should all enroll our children
immediately in statistics courses. Big data can only be unlocked by shamans
with tremendous mathematical aptitude and training. McKinsey estimates
that by 2018 in the United States alone, there will be a shortfall of between
140,000 and 190,000 graduates with “deep analytical talent”. If you are one of
them, you will surely have a “lovely” well-paying job.

Source: The Globe and Mail

‘The Search For Analysts To Make Sense Of ’Big Data’

Begins’:

Businesses keep vast troves of data about things like online shopping behavior,

or millions of changes in weather patterns, or trillions of financial transactions

— information that goes by the generic name of big data.

Now, more companies are trying to make sense of what the data can tell them

about how to do business better. That, in turn, is fueling demand for people
who can make sense of the information — mathematicians — and creating

something of a recruiting war.

Source: NPR.org

Also see this article in the NYT: For Today’s Graduate, Just One Word: Statistics

MACHINE LEARNING

Machine learning is about designing algorithms that automatically extract


valuable information from data. The emphasis here is on “automatic”, i.e.,
machine learning is concerned about general-purpose methodologies that can
be applied to many datasets, while producing something that is meaningful.

There are three concepts that are at the core of Machine Learning: data, a
model, and learning.

Machine learning: Se entiende como una familia de técnicas que permiten


mejorar un Sistema en el tiempo a partir de la experiencia.

Machine Learning: The four pillars of machine learning:


Mathematics for Machine Learning (2019)

Marc Peter Deisenroth

A. Aldo Faisal

Cheng Soon Ong

ALGUNOS PROBLEMAS QUE RESOLVEREMOS EN ESTE CURSO:

1.-Un Ingeniero Químico está estudiando reacciones endotérmicas que


envuelven bicarbonato de sodio y, en un determinado momento de su
investigación quiere saber: ¿Cuál es la probabilidad de que la temperatura final
de reacción sea menor o igual a 271 K?

2.-En una Universidad se están utilizando dos estrategias de enseñanza del


curso de Cálculo I. Se quiere llevar a cabo una investigación para conocer cuál
estrategia metodológica es más efectiva en el rendimiento académico en
Matemática.

3.- Un Ingeniero de Producción afirma que al utilizar un cierto aditivo en el


proceso de producción se logrará un producto más homogéneo. ¿Considera
Ud., que la afirmación es cierta?

4.-Un equipo de médicos está interesado en saber si el peso de un recién


nacido guarda relación con el hecho de que la madre sea o no fumadora.

5.-Un fabricante asegura que las fundas de basura que confecciona cumplen
con las normas exigidas por la ley. ¿Será cierta esta afirmación?

6.-Un gobierno provincial desea crear un plan de construcción de viviendas en


una de las dos ciudades principales de la provincia. Para esto necesita hacer
un estudio para determinar la proporción de hogares en condiciones de
pobreza extrema en cada una de las dos ciudades.
FASES DEL ANÁLISIS ESTADÍSTICO:
a) Recogida de datos, que no por ser elemental, está exenta de dificultades e indicaciones que
hay que observar, ya que una recogida mal efectuada puede ocasionar un sesgo de la información
y del posterior análisis, por lo que el objeto de la investigación debe plantearse de una manera
minuciosa, así como la organización del trabajo de campo necesario para la recogida de datos.

b) Ordenación y presentación de los datos, y que suele presentarse mediante unas tablas de
simple o de doble entrada.

c) Resumen de la información, para tratar de describir las características más relevantes que
pueden tener los datos, y que se realiza mediante la determinación de parámetros estadísticos
que intentan resumir toda la información que aporte el conjunto de datos.

d) Análisis estadístico, a través de métodos facilitados por la Estadística Matemática, para tratar
de verificar hipótesis sobre regularidades que pueden detectarse en las etapas previas.

TEMA 1: ESTADISTICA DESCRIPTIVA


DESCRIPTIV A

ESTADÍSTICA: 

INFERENCIAL

Montgomery, D.; Runger, G. (2014). Applied Statistics and Probability for Engineers.

Statistics is the science of data.

An important aspect of dealing with data is organizing and summarizing the data in ways
that facilitate its interpretation and subsequent analysis. This aspect of statistics is called
Descriptive Statistics

How should we summarize the information in the data?

➢ This is the general question that we consider.

➢ Data summary methods should highlight the important features of the data, such
as the middle or central tendency and the variability, because these characteristics
are most often important for engineering decision making.

➢ We will see that there are both numerical methods for summarizing data and a
number of powerful graphical techniques.
➢ The graphical techniques are particularly important. Any good statistical analysis of
data should always begin with plotting the data.

CONCEPTOS BÁSICOS:

POBLACIÓN: Este término se aplica a conjuntos o colecciones de objetos, reales o


conceptuales, y principalmente a conjuntos de números, mediciones u observaciones.
También se le llama colectivo o universo.

MUESTRA: Es una parte de la población.

MUESTRA ALEATORIA: Es un conjunto de observaciones elegidas de la población de tal


forma que cada elemento tiene la misma probabilidad de ser elegido, es decir, ha de tener
las mismas características, en los caracteres estudiados, que la población.

ESTADÍSTICA DESCRIPTIVA: Tiene como finalidad la recogida, clasificación, representación y


resumen de los datos.

ESTADÍSTICA INFERECIAL: Consiste en obtener conclusiones de una población a partir de la


información de una muestra de esa población. Son procedimientos mediante los cuales se
pueden hacer generalizaciones.
EJEMPLO: La vacuna de Salk contra la polio.

CARACTERES DE UNA POBLACIÓN:


Llamaremos variable al carácter objeto de estudio, que puede tomar distintos valores.

Las variables pueden ser cuantitativas o cualitativas, según que tomen, o no, valores cuantificables.

Variables cualitativas: Expresan distintas cualidades, características o modalidades. Se


divide en:

a) Variable Ordinal: Puede tomar distintos valores ordenados siguiendo una escala establecida. Ej:
Leve, Moderado, grave. Ej: Meses del año, Ej: Intensidad de un dolor, Ej: Dureza de un mineral,
etc.

b) Variable nominal: Los valores no pueden ser sometidos a un orden. Ej: Los colores, Las razas,
religiones, Ej: El color de los ojos, etc.

Variables cuantitativas: Estudian caracteres cuantificables, pueden clasificarse en:


a) Variable discreta: Presenta separaciones o interrupciones en la escala de valores que puede
tomar. Ej: Número de hijos; puede ser 0, 1, 2,. . . . . , Ej: Número de personas infectadas con un
virus, etc.

b) Variable continua: Puede adquirir cualquier valor dentro de un intervalo específico de valores.
Ej: El peso, la altura, el sueldo, etc.

MUESTRA OBSERVADA:
Sea Y una variable asociada a cierto experimento. Se realiza n veces el experimento, de
manera independiente y bajo las mismas condiciones, y se obtienen n valores
correspondientes a la variable Y: y1, y2, …,yn. A estos resultados se le llama muestra
observada.

Ejemplo: Se esta estudiando la variable Y=peso de los estudiantes que usan el comedor de
la Universidad. Para eso se eligen 10 estudiantes aleatoriamente y se les pesa. Los
resultados son (en Kg.): 50; 44,3; 45,2; 54; 43; 99; 50; 58; 51; 50.

REPRESENTACIÓN TABULAR DE LOS DATOS

En la siguiente tabla se observan el grupo sanguíneo (cualitativo), número de


hermanos (cuantitativo discreto) y el peso (en kg.) (Cuantitativo continuo) de
500 alumnos varones de una Universidad.

Alumno Grupo Número de Peso


# Sanguíneo Hermanos
1 A 0 70,5
2 B 3 57,75
:
:
500 AB 2 71,55

Otro ejemplo:
DISTRIBUCIONES DE FRECUENCIA
Es una tabla que divide un conjunto de datos en un número de clases (categorías) apropiadas, con
el objetivo de hacer resaltar características importantes de los datos.

La primera etapa en la construcción de una distribución de frecuencias consiste en decidir cuántas


clases utilizar y los límites de cada clase. En general el número de clases a usar depende del
número de observaciones, pero tiene muy poca utilidad usar menos de 5 o más de 15. Depende
también del rango de los datos, es decir la diferencia entre la observación más grande y la mas
pequeña. Una forma de determinar tentativamente el número de clases es:

Número de clases = N . Donde N es el total de observaciones.

Otra forma es usando la Fórmula de Sturges que establece que:

ln (N)
Número de clases = 1+ ln (2)

Es común redondear el valor del número de clases: si el entero del resultado previo al redondeo es
"par" se redondea a la alta y si el entero es "impar" se redondea a la baja.

Debe tomarse en consideración que en cada caso las clases no se traslapan, incluyen todos los
datos y tienen la misma medida, y que los límites de clase se dan con el mismo número de
decimales que los datos originales.

TABLA DE DISTRIBUCIÓN DE FRECUENCIAS: En general tiene una forma como la siguiente:

Intervalo de Puntos medios Frecuencia % de Frecuencia % de


Clase O marcas de Absoluta Frecuencia acumulada frecuencia
clase (FA) acumulada
: : : : : :
: : : : : :
: : : : : :
: : : : : :
Así pues, se ordenan las observaciones y se determinan las frecuencias de clase, que son el
número de observaciones en cada clase, y las frecuencias relativas que son la frecuencia de clase
dividida entre el total de observaciones.

Donde:

*Frecuencia Absoluta de la clase i (FA): es la frecuencia con que han aparecido los valores.

*Frecuencia relativa de la clase i (FR)=

*Frecuencia absoluta acumulada (FAA): representa el número de observaciones menores o iguales


a una cierta cantidad dada.

*Frecuencia relativa acumulada (FRA): es el cociente entre la frecuencia absoluta acumulada y el


número total de observaciones.

Nota: Algunas veces se le añaden columnas con los porcentajes.

Observación: Las clases no se traslapan, deben incluir a todos los datos y tienen la misma medida.

Recomendación: Para hacer más homogénea la distribución de los datos en la tabla de frecuencias,
resulta en ocasiones conveniente, redondear el tamaño del intervalo de clase a: uno, dos cinco o
diez, y utilizar como límite inferior de la primera clase, un número terminado en cero o cinco.

Ejemplo: Encuestados 50 matrimonios respecto a su número de hijos, se obtuvieron los siguientes


datos:

2, 4, 2, 3, 1, 2, 4, 2, 3, 0, 2, 2, 2, 3, 2, 6, 2, 3, 2, 2, 3, 2, 3, 3, 4, 1, 3, 3, 4, 5, 2, 0, 3, 2, 1, 2, 3, 2, 2, 3, 1,
4, 2, 3, 2, 4, 3, 3, 2, 2.

Construir una tabla estadística que represente dichos datos.

Ejemplo:

Las calificaciones finales de un curso de Matemática fueron:

67 98 81 74 77 53 60 76 77 74 73 62 63 62 76 74 87 57 78 74 79 59 83 66 88

Hacer tabla de la distribución de frecuencias.

Solución:

Intervalos de Puntos FA FR % de FR FAA


clase Medio
(50, 59] 54,5 3 3/25 = 0.12 12 % 3
(60, 69] 64,5 6 6/25 = 0.24 24 % 9
(70, 79] 74,5 11 11/25 = 0.44 44 % 20
(80, 89] 84,5 4 4/25 = 0.16 16 % 24
(90, 99] 94,5 1 1/25 = 0.04 4 % 25
Total 25 1 100 %

Ejemplo: Hacer la distribución de frecuencias de los pesos de 100 estudiantes de una determinada
escuela mostrados en la siguiente tabla:

32 22 46 55 47 51 65 58 34 48 40 54 59 38 31 59 32 46 71 28

51 49 31 54 81 21 47 52 41 59 62 39 63 16 63 51 40 65 68 37

87 45 38 50 45 68 51 34 47 54 23 59 47 40 52 32 49 75 53 77

34 47 26 63 52 64 73 48 43 37 55 63 69 49 47 58 41 72 67 70

67 32 57 35 72 41 52 37 53 48 76 61 69 58 63 59 75 62 67 63

OBSERVACIÓN

INTERPRETACIÓN DE RESULTADOS

1.-Un investigador dice: en estudios realizados recientemente se concluyó que el 28% de las
personas muere porque fuma. Esto quiere decir que el 72% restante muere porque no fuma.

2.-En estudios recientes se ha concluido que en los accidentes de trenes la mayoría de los
accidentados viaja en el último vagón. Conclusión: hay que eliminar el último vagón.

Huff, Darrel. (1973). How to lie with Statistics? Penguin Books.

REPRESENTACIONES GRÁFICAS
La información proporcionada por las tablas de distribución de frecuencias es bastante completa,
pero tiene la dificultad de que su lectura requiere un cierto tiempo y capacidad de comparación
para relativizar la información de unas clases respecto de las otras. Además, en la experiencia del
lector, al comenzar a leer un determinado artículo (científico o no), su vista se dirige primero al
título, luego a los gráficos y, finalmente, a las tablas.
Así pues, las representaciones gráficas constituyen uno de los principales y más sencillos métodos
de exponer la información, por su capacidad de impactar al lector con muy poco esfuerzo por su
parte, dando una información rápida y global de los datos, siendo útiles incluso al investigador, pues
le permiten tener una idea general de los resultados y, a veces, sugerir nuevas hipótesis.

"UNA IMAGEN VALE MÁS QUE MIL PALABRAS"

No sólo el lenguaje gráfico es importante; el poder de las representaciones gráficas es un hecho.

HISTOGRAMAS
Con los valores de la tabla de frecuencias se construye el HISTOGRAMA DE FRECUENCIAS, el cual es
una gráfica de barras que tiene como base el intervalo de clase y como altura la frecuencia relativa.

PESO

0,35

0,26
frecuencias relativas

0,17

0,09

0,00
18,30 25,70 33,10 40,50 47,90 55,30 62,70
Peso

Observación: En los gráficos hay que ser cuidadoso de no mostrar información engañosa. Para ello,
hay que acompañarlos con la mayor cantidad de información sobre su construcción.

GRÁFICOS DE TORTA (O DE SECTORES)


En una circunferencia se representan sectores circulares cuyo ángulo central coincida con la
frecuencia absoluta (no se puede utilizar para acumuladas) o relativa del elemento,
representando, mediante colores o incluyendo dentro de dicho sector el nombre de la clase o
elemento a representar. Vale tanto para frecuencias agrupadas, como no agrupadas.

EJEMPLO: Los datos siguientes corresponden a gastos de inversión publicitaria en los países de la
C.E.E. durante el año 1.986

Representar el correspondiente diagrama de sectores.

PAÍSES INVERSIÓN

(MILLONES $)

R.F.A 8.234

INGLATERRA 6.915

FRANCIA 4.663

ESPAÑA 3.000

HOLANDA 2.970

ITALIA 2.846

DINAMARCA 1.084

BÉLGICA 464

GRECIA 164

IRLANDA 127

No se poseen datos de Portugal y

Luxemburgo
PAISES

GRE
IRL
DINBEL
ITA
RFA

HOL

ESPA

INGL
FRAN

GRÁFICOS DE TALLO Y HOJA:


Este gráfico se utiliza para obtener una representación visual informativa de un conjunto de datos,
siempre y cuando los datos presenten dos o más dígitos.

Ejemplo: En la siguiente tabla se presentan los tiempos que deben esperar los vehículos para
cruzar por una intersección transitada. Hacer un gráfico de tallo y hoja.

0,2 1,5 2,3 4 0,5 1,5 2,5 4,1 0,7 1,5


2,5 4,5 1,1 1,5 2,9 5,1 1,2 1,7 2,8 5,8
1,2 1,9 3 1,4 1,3 2 3,1 1,4 2,1 3
1,4 2,1 3,7 1,4 2,2 3,7

RESUMENES NUMÉRICOS
La información gráfica es elegante y muy útil, sin embargo, principalmente tiene propósitos
descriptivos o ilustrativos. Para hacer inferencias se necesita mayor precisión de la que
puede esperarse en un gráfico. Luego, algunas medidas numéricas deben ser calculadas a
partir de los datos, con el objeto de conocerlos mejor, sintetizarlos o caracterizarlos más
específicamente. Tres importantes tipos de medidas son:
1 Medidas de posición o tendencia central: Media, Moda, Mediana, Cuartiles.

2 Medidas de dispersión: Varianza, Desviación Estándar, Rango.

3 Medidas de forma: Curtosis.

Observación: Por ahora, se hará referencia a los dos primeros tipos de medidas solamente y, de
ellas, a la Media, la Varianza y la Desviación Estándar.

Todas estas medidas calculadas a partir de la muestra, tienen su correlativo en la población, de


manera que es conveniente distinguirlas, por ejemplo, llamándolas “muestrales” cuando se refieren
a la muestra y “poblacionales” cuando se refieren a la población.

Una de las principales ideas en la estadística es estimar las medidas poblacionales, a partir de las
medidas muestrales. Aunque los nombres no importan mucho, se tiene la convención de nombrar
a las medidas muestrales con letras arábigas y a las poblacionales con letras griegas. Por ejemplo, μ
y σ2 son los nombres que por lo general reciben la media y la varianza poblacionales,
respectivamente.

Definición: La muestra

Sea Y una variable o característica de interés en la población (nótese la letra mayúscula). Sea n el
número de individuos u objetos seleccionados (por cualquier método) de la población.

Llamaremos una muestra al conjunto y1, y2, · · · , yn (nótense las letras minúsculas), en el cual
cada yi es una observación particular del valor de la variable Y en el conjunto seleccionado, para i =
1, 2, · · · , n.

ESTADÍSTICA DESCRIPTIVA:

Medidas de tendencia central :



Descripción numérica de los datos: media aritmética , moda, mediana, otras



Medidas de dispersión :

 varianza, desviación estándar, otras

n n
 yi  ( yi −Y )2
media = Y = i=1n varianza = s2 = i=1 n
MEDIDAS DE TENDENCIA CENTRAL
Las tablas de distribuciones de frecuencia ofrecen toda la información disponible, pero a veces,
debido a su extensión nos encontramos con dificultades a la hora de su interpretación, por lo que
interesa resumirla con el fin de facilitar, tanto su análisis como la comparación entre distintas
muestras o poblaciones. En este proceso de síntesis se buscan valores que determinen el
comportamiento global del fenómeno estudiado.

Las medidas de síntesis de la distribución se consideran operativas cuando:

a) Intervienen todos y cada uno de los elementos en su formación.

b) Es siempre calculable.

c) Es única para cada distribución de frecuencias.

Sólo tienen sentido si la variable es cuantitativa.

Entre las más importantes están la media aritmética, la mediana, la moda y los cuantiles; además
de éstos, también están la media geométrica, la media armónica, la media cuadrática y la media
aritmética ponderada.

MEDIA ARITMÉTICA

Se define como la suma de todos los valores de la distribución, dividida por el nº total de datos.

n
 yi
media = Y = i=1n
EJEMPLOS

1.-Sea la variable Y que representa los pesos en kilogramos de 10 estudiantes y que presentan los
valores:
63,54, 59, 63, 64, 54, 59, 63,59, 63

Calcular la media aritmética.

2.-Hacer el ejercicio anterior para los siguientes datos:

63,54, 59, 63, 64, 200, 59, 63,59, 63

VENTAJAS E INCONVENIENTES

Como ventajas de utilizar la media aritmética como un promedio para sintetizar los valores de la
variable podemos citar las siguientes:

- Considera todos los valores de la distribución.

- Es siempre calculable (en variable cuantitativa)

-Es única.

Como inconvenientes de la utilización de la media aritmética cabe citar que, a veces, puede dar
lugar a conclusiones erróneas, cuando la variable presenta valores muy extremos, que influyen
mucho en la media, haciéndola poco representativa.

CÁLCULO DE LA MEDIA PARA DATOS AGRUPADOS


Si solo se dispone de la tabla de distribución de frecuencias, entonces:
𝑘
1
𝑌̅ = ∑ 𝑓𝑖 𝑚𝑖
𝑛
1

Donde:

n es el tamaño de la muestra,

K es el número de clases,

mi es el punto medio de la clase i,

fi es la frecuencia absoluta de la clase i.

Ejemplo: Calificaciones.

LA MEDIANA: Es el valor tal que el 50% de las observaciones está por encima y el otro 50% por
debajo. Para obtener la mediana ordenamos los datos en forma creciente, si el número de
observaciones es un número n impar, entonces la mediana es el valor de la observación que ocupa
el lugar número: n +1
2
Si el número de observaciones es un número n par, entonces la mediana es el promedio de los
valores de las observaciones que aparecen en los lugares: n y n+2
2 2

Ejemplo: Si hay un nº impar de términos, la mediana será el que ocupa la posición central. Por
ejemplo, si los valores de la variable son {1 , 2 , 3 , 4 , 5 }

La mediana sería Me = 3

Pero si hay un nº par de términos habría dos términos centrales y se toma como mediana la media
aritmética de ellos. Por ejemplo, si los valores de la variable son {1 , 2 , 5 , 7 , 9 , 10 , 13 , 14}

La mediana seria: Me =(7 + 9)/2= 8

VENTAJAS E INCONVENIENTES

Como ventajas de la mediana podemos citar que no está influida por los valores extremos como
en el caso de la media, y además tiene sentido en casos de distribuciones en escala ordinal (datos
que pueden ser ordenados), siendo la medida más representativa de estos por describir la
tendencia central de los mismos.

Como inconvenientes puede ser la determinación de ésta en los casos de variables agrupadas en
intervalos.

EJEMPLO

En una pequeña compañía contratan cuatro nuevos ingenieros y les pagan 1000 Dólares a cada
uno y el propietario (también ingeniero) obtiene 40000. Entonces se puede afirmar que la
compañía paga en promedio 88000 dólares a sus ingenieros y que, en consecuencia, es un buen
lugar para trabajar.

MODA

Es el valor de la variable que más veces se repite en una distribución de frecuencias, es decir, el
que tiene mayor frecuencia absoluta.

Ejemplos:

Para los datos: 3, 4, 9, 10, 9, 11, 11, 12, 9 ¿La moda es=?

Para los datos: 3, 4, 11, 12, 4, 11, 4, 11, 18, 4, 19, 11 ¿La moda es=?

MEDIDAS DE DISPERSIÓN

Antes hemos definido una serie de medidas de tendencia central, cuyo objetivo era tratar de
sintetizar toda la información disponible, pero cabe preguntarse posteriormente si esa medida es
o no representativa de la distribución de frecuencias.
Así pues, resulta necesario que, para completar la información de un promedio (por ejemplo
media aritmética), éste vaya acompañado de uno o varios coeficientes que nos midan el grado de
dispersión de la distribución de la variable con respecto a él.

Distinguiremos dos tipos de medidas de dispersión: absolutas y relativas

MEDIDAS DE DISPERSIÓN ABSOLUTA

Cabe citar entre éstas el recorrido, el recorrido intercuartílico, la desviación media, la varianza y la
desviación típica. Todas son referidas en general a un promedio.

RECORRIDO O RANGO

Hemos dicho ya que éste es la diferencia entre el mayor y el menor valor de la distribución:

Re = Max (yi) - Min (yi)

Si este recorrido es pequeño respecto al número de datos puede entenderse que existe poca
dispersión.

Tiene el inconveniente de que se ve totalmente influenciado por los valores extremos (con los que
se calcula).

VARIANZA
Se define como la media de los cuadrados de las desviaciones de los valores de la variable
respecto de la media aritmética, es decir:
n
 ( yi −Y )2
varianza = s 2 = i=1 n
Se utiliza el cuadrado para lograr que todas las desviaciones sean positivas; nos indica la mayor o
menor dispersión de los valores de la variable respecto de la media aritmética, y por lo tanto, su
representatividad.

Tiene el inconveniente de no venir expresada en las mismas unidades que la variable, sino en el
cuadrado de las mismas, por ello se utiliza más la siguiente.

Ejemplo: Calcular la varianza para los conjuntos de datos siguientes:

A = {12, 13, 14, 20}; y B = {12, 13, 14, 13}

DESVIACIÓN TÍPICA O ESTÁNDAR

Se define como la raíz cuadrada positiva de la varianza, es decir:

n 2
 ( yi −Y )
s = i =1
Al ser la raíz cuadrada de la varianza viene expresada en las mismas unidades que la variable, lo
que la hace más apta como medida de dispersión que la varianza, siendo en la actualidad la más
utilizada.

Ejercicio: Demostrar que:


𝑛
1
2
𝑆 = ( ) [∑ 𝑌𝑖 2 − 𝑛 𝑌̅ 2 ]
𝑛−1
𝑖=1

CÁLCULO DE LA VARIANZA MUESTRAL PARA DATOS AGRUPADOS


𝑘
1
𝑆2 = ∑ 𝑓𝑖 (𝑚𝑖 − 𝑌̅)2
𝑛−1
1

Donde:

n es el tamaño de la muestra,

K es el número de clases,

mi es el punto medio de la clase i,

fi es la frecuencia absoluta de la clase i.

Ejemplo: Calificaciones
LOS CUARTILES
Los cuartiles Q1, Q2 y Q3 de un conjunto de datos son los números tales que dividen en
cuatro partes iguales (25%, 50% y 75%) dicho conjunto. El segundo cuartil Q2 (50%) es la
mediana.

Una manera de calcular los cuartiles (No es la única) es:

Se ordenan los datos de menor a mayor y se denota por X(i) el dato que está en la
posición i de la muestra ordenada. Entonces:

𝑛+1 𝑛+1
𝑄1 = 𝑋([𝑛+1]) + ( − [ ]) (𝑋([𝑛+1]+1) − 𝑋([𝑛+1]) )
4 4 4 4 4

3(𝑛 + 1) 3(𝑛 + 1)
𝑄3 = 𝑋([3(𝑛+1)]) + ( − [ ]) (𝑋([3(𝑛+1)]+1) − 𝑋([3(𝑛+1)]) )
4 4 4 4 4

Donde [𝑎] representa la parte entera de 𝑎.

Q2 = Mediana.

Interpretación: Afirmar, por ejemplo, que el primer cuartil del peso de niños recién
nacidos es 2700 gra., indica que un 25% de ellos tiene un peso inferior a 2700 gra.

EJEMPLO: Se realiza un estudio del tipo de sedimento existente en un sitio de perforación


mar abierto. La variable de interés es el porcentaje por volumen de sedimento presente
en las muestras. Los datos son:

10, 12, 12, 13, 13, 13, 14, 16, 16, 17, 18, 19, 20, 21, 24, 25, 27, 31, 32, 32, 36, 37, 49.

Calcular los cuartiles.

Box-plot
Esta representación gráfica, puede ser traducida como Caja con Bigotes o Representación Caja,
aunque se conoce usualmente con el nombre de Box-plot o bien Box and Whiskers plot.

En un Box-plot se visualiza la información contenido en los cuartiles. La mitad central de los datos,
que va desde el primer hasta el tercer cuartil, se representa mediante un rectángulo. La mediana
se identifica mediante una barra vertical dentro de esta caja. Una línea se extiende desde el tercer
cuartil hasta el valor máximo (o hasta el noveno decil) el y otra línea se extiende desde el primer
cuartil hasta el mínimo (o hasta el primer decil).
PASOS PARA LA CONSTRUCCIÓN DE UN BOX-PLOT:
1.-Se ordenan los datos y se calcula el máximo, el mínimo, la media y los cuartiles.

2.-Se dibuja un rectángulo cuyos extremos sean el primer y tercer cuartil, respectivamente, y se
indican en él la media y la mediana.

3.-Se calcula lo que se llamará los ‘límites admisibles’ inferior y superior, así:

LI = Q1 – 1,5 RI

LS = Q3 + 1,5 RI

Donde RI = Q3 - Q1

4.-Se dibuja una línea desde cada extremo del rectángulo al valor no atípico más alejado.

5.-Se indican todos los datos que están fuera del intervalo admisible, marcándolos como atípicos.

Ejemplo: En un estudio acerca de la discriminación se tiene el siguiente resultado, en forma


gráfica, referente al sueldo (en $) de los trabajadores de un banco. Interpretar.

Solución con R:

>Mujer<-c(21,21,26,24,22,23,24,26,26,25,23,25,22,24,23,24,22,24,21,24,23)

>Hombre<-c(19,21,21,19,19,20,21,25,22,20,18,23,19,20,21,20,22,20,30,22,19)
>boxplot(Mujer, Hombre, main='Diagramas de caja', xlab='Genero', ylab='Sueldos',
names=c('Mujer', 'Hombre'))

Diagramas de caja
30
28
26
Sueldos

24
22
20
18

Mujer Hombre

Genero

> mean(Mujer) > mean(Hombre)


[1] 23.47619 [1] 21
> sd(Mujer) > sd(Hombre)
[1] 1.600595 [1] 2.626785
> var(Mujer) > var(Hombre)
[1] 2.561905 [1] 6.9
> median(Mujer) > median(Hombre)
[1] 24 [1] 20

INTRODUCCIÓN A R
Descarga e instalación: R es un lenguaje diseñado para cálculos estadísticos. Es un software libre
que puede ser descargado de la página web:

http://www.r-project.org/

Una vez instalado R, el cursor, que por defecto es el símbolo ‘>’, indica que R está listo para recibir
un comando.
RSTUDIO
RStudio es un entorno de desarrollo integrado que hace más fácil el trabajo con R.

Instalación de RStudio: http://www.rstudio.com

Al entrar a RStudio vemos la pantalla dividida en cuatro ventanas. La ventana superior izquierda es
un editor especialmente adaptado para escribir código de R. Se puede personalizar. La ventana
inferior izquierda corresponde a la consola para utilizar R de forma interactiva. En la ventana
superior de echa aparece un listado de los objetos (ficheros, vectores, funciones, etc.) que se
encuentran en el área de trabajo. Finalmente, en la ventana inferior derecha aparecen varias
pestañas que corresponden a diferentes utilidades. En particular, esta es la ventana en la que
aparecen los gráficos.

Operaciones Matemáticas y variables:

• SUMA: 18+25
• RESTA: 10-4
• PRODUCTO: 23*6
• COCIENTE: 15/5
• POTENCIA: 49^11
• RAIZ CUADRADA: SQRT(36)
• EXPONENCIAL: EXP(-2)
• LOGARITMO: LOG(30)
• TRIGONOMÉTRICAS: sin(20); cos(30); tan(40)

VARIABLES: Las variables van a contener los resultados de las operaciones que se ejecuten.
Una variable escrita en mayúscula y otra escrita en minúscula son variables diferentes (case
sensitive). Si se realiza una operación sin asignarle un nombre, ese resultado se perderá para
futuros cálculos. Podemos asignar un valor a una variable usando el operador (<-).

>va<-15+35

>Va<-34*10

>VA<-20/12

>67+10

VECTORES

Sintaxis para crear vectores:

>nombrevector<-c(contenido)
FUNCIONES PARA USAR CON VECTORES

>v<-c(7,19,22,13,-10,34,11,25,19,13,23,5,16,26,21,30,15)

>min(v)

>max(v)

>sum(v)

>length(v)

>sort(v)

>mean(v)

>sd(v)

>var(v)

>median(v)

>summary(v)

>hist(v)

>hist(v, main=’HISTOGRAMA’, xlab=’Tiempo’, ylab=’Frecuencias’, col=’orange’)

>quantile(v)

>quantile(v, probs=0.25)
PROBABILIDAD Y ESTADÍSTICA

PROBLEMAS DE ESTADÍSTICA DESCRIPTIVA

OIGO, Y OLVIDO

VEO, Y RECUERDO

HAGO, Y ENTIENDO

1.-Clasificar las siguientes variables según su tipo (cualitativas ordinales o nominales, cuantitativas
discretas o continuas):

(a) Colores. (b) Cantidad de sillas. (c) Puntuaciones de un examen. (d) Costos de un artículo. (e)
Estatura de los alumnos. (f) Peso de las cajas de queso. (g) Carreras que se estudian en YACHAY.
(h) Marcas de cerveza. (i) Número de empleados de una empresa. (j) Altura de un edificio. (k)
Signos del Zodíaco. (l) Meses del año. (m) Ingreso per cápita de una nación. (n) Ganancias (en
dólares) de una empresa. (o) Número de calzado. (p) Precio de un producto. (q) Temperatura de
un enfermo.
2.-La siguiente muestra observada corresponde al tiempo de vida (en horas) de 10 insectos de la
misma clase: 6 6 1 2 4 5 6 2 2 2

a) Construir la tabla de distribución de frecuencias y el histograma, b) Calcular la media, el primer


cuartil, mediana, tercer cuartil, la varianza, la desviación estándar, el rango, el rango
intercuartílico, c) Construir el Box-Plot, d) interpretar los resultados.

3.-La siguiente muestra corresponde a la esperanza de vida (en años) en 30 países del mundo:

76 76 76 77 78 79 61 78 77 78 80 80 76 78 78 78 78 79 80 78 77 77 95 77 48 50 87 90 70 79

a) Construir la tabla de distribución de frecuencias y el histograma, b) Calcular la media, el primer


cuartil, mediana, tercer cuartil, la varianza, la desviación estándar, el rango, c) Construir el Box-
Plot, d) interpretar los resultados.

4.-Los siguientes datos representan los pesos (en gramos) de 40 insectos de una misma especie:

138 164,50 150 132 144 125,10 149 157 146 158 140 147 136 148 152 144 168,25 126 138 176
163 119 154 165 146 173 142 147 135 153 140 135 161,30 145 135 142 150 156 145 128

a) Construir la tabla de distribución de frecuencias, b) Calcular la media, el primer cuartil, mediana,


tercer cuartil, la varianza, la desviación estándar, el rango, el rango intercuartílico, c) Construir el
Histograma, d)¿La distribución de los pesos es simétrica? e)Construir el Box-Plot. f) ¿Cuál es el
máximo peso entre el 25% de los insectos que menos pesan?, ¿Cuál es el mínimo peso entre el
25% de los insectos que más pesan? interpretar los resultados.

5.-La siguiente tabla de frecuencias representa los pesos (en libras) de 40 estudiantes de una
Universidad:

PESO (lb) 118-126 127-135 136-144 145-153 154-162 163-171 172-180

FRECUENCIA 3 5 9 12 5 4 2

a) Completar la tabla, b) Calcular la media y la desviación estándar. C) Construir un histograma.


Interprete los resultados.

6.-A continuación se muestra el número de alumnos reprobados en 8 secciones de Matemática:

5, 2, 1, 25, 1, 5, 8, 6

a) Calcular la media muestral, la moda, la mediana. Interprete los resultados.

b) Dibuje un diagrama de caja de los datos. Interprete los resultados.

c) Construya una tabla de frecuencias para los datos.


7.-Completar la siguiente tabla de frecuencias si se sabe que la media es 2,72. Hallar la mediana.

X 0 1 2 3 4 5

frecuencia 2 ? 6 4 2 1

Sol: ?=5; med=4

8.- En un restaurante se tiene una fórmula específica para elaborar una cantidad determinada de
‘agua fresca’, tal fórmula contempla el agregar 500 g. de azúcar. Es claro que resulta de suma
importancia agregar exactamente esa cantidad de azúcar para la calidad del agua, ya que de lo
contrario, ésta queda muy dulce o desabrida. Aunque a los cocineros se les ha insistido sobre lo
anterior es frecuente que no pesen el azúcar y la agreguen al tanteo. Al considerar la calidad del
agua como un aspecto clave, se decide diseñar un procedimiento a prueba de olvidos: comprar
bolsas que contengan 500 g. de azúcar. Suponga dos marcas de azúcar (tipo A y tipo B) que
contemplan la presentación de 500 g. por lo que es necesario decidir qué marca comprar. Con este
propósito se pesan 40 bolsas de ambas marcas. Al pesarse arrojan los siguientes resultados:

TIPO A:

Peso (gr) 484,0-490,2 490,2-496,4 496,4-502,6 502,6-508,8 508,8-515,0

Frecuencia 2 5 15 11 7

Absoluta

TIPO B:

Peso (gr) 491,0-494,2 494,2-497,4 497,4-500,6 500,6-503,8 503,8-507,0

Frecuencia 6 11 14 5 4

Absoluta

a)Para el azúcar tipo A: i)Complete la tabla de distribución de frecuencias. ii)Calcular media y la


desviación estándar. b) En base a estos datos y al análisis estadístico de los mismos: ¿Qué marca
(tipo A o tipo B) se tiene que comprar para satisfacer los requisitos del restaurante?.

9.-El número de pacientes recuperados después de aplicar un tratamiento contra una enfermedad
en ocho hospitales se muestra a continuación:
Hospital 1 2 3 4 5 6 7 8

# Pacientes 5 2 1 25 1 5 8 6

Recuperados

a)Calcular la media muestral, la moda, el primer cuartil, la mediana, el tercer cuartil. Interprete los
resultados.

b)Dibuje un diagrama de caja de los datos. Interprete los resultados.

c)Construya una tabla de frecuencias para los datos.

d)¿Puede considerarse que la distribución de los datos es simétrica?

10.-Los intervalos de la siguiente tabla de frecuencias son de igual amplitud:

Límites de Frecuencia Frecuencia Porcentaje de Porcentaje de

Clase Absoluta Absoluta Frecuencia Frecuencia

Acumulada Relativa Absoluta Acumulada

? ? ? ? 6%

? ? ? ? 16 %

[30,45) ? 22 ? ?

? ? 80 ? ?

? 20 ? ? ?

a) Completar la tabla

b) ¿Se puede asumir normalidad en los datos?. Explique. Justifique.

c) Calcular la media, la varianza y el coeficiente de variación. Interpretar.


11.- El correo no deseado afecta la productividad de los oficinistas. Se hizo una investigación con
oficinistas para determinar la cantidad de tiempo por día que pierden en estos correos no
deseados. Los datos siguientes corresponden a los tiempos en minutos perdidos por día
observados en una muestra:

2 4 8 4 8 1 2 32 12 1 5 7 4

(a) Sin agrupar los datos en una tabla de frecuencias, calcule la media, moda, mediana, primer y
tercer cuartil, varianza, desviación estándar, rango, coeficiente de variación. Interprete cada uno
de los resultados. Respuesta: media = 6.92, m = 4, q1 = 2, q3 = 8, S = 8.19, V = 1.18, R = 31, RI = 6
(b) Construir una tabla de distribución de frecuencias. (c) A partir de la información dada en la
parte (a), construir el diagrama de caja (Boxplot) correspondiente. Interprete los resultados.

12.- Los siguientes datos corresponden al número de turistas extranjeros que visitan cierta zona
en dos etapas del año:

Etapa 1: Enero-Julio: 108 112 94 144 162 162 76 102 11 79 129 95 114

Etapa 2: Agosto-Diciembre: 30 41 41 40 43 25 32 22 27 64 33 41

Según una agencia de viajes, la variabilidad de los datos debe ser mayor en el primer periodo. ¿Se
corresponde esta hipótesis con lo observado en las muestras?. Realice los cálculos que usted
considere necesario para dar respuesta a esa interrogante. Respuesta: Si corresponde.

13.- Los salarios mensuales de 4 individuos (en dólares son) son 1500, 1600, 1650 y 2000. Hallar el
salario promedio. Ahora entra a trabajar una nueva persona en la empresa, percibiendo un sueldo
de 5000 $ mensuales. ¿Se verá afectado el salario promedio tras esta incorporación?. Respuesta:
Si se verá afectado.

14.- Los siguientes datos representan el promedio de artículos vendidos a diario por dos
empleados de una tienda durante 5 días:

EMPLEDO A EMPLEADO B

25 15

20 25
15 27

30 23

35 35

(a) Calcular el promedio de artículos vendidos a diario por cada empleado. Respuesta:
Promedio(A)= 25, Promedio (B)= 25.

(b) ¿Cuál de los dos empleados parece mantener un promedio de ventas más homogéneo
durante la semana?. Respuesta: El empleado B.

15.-Los datos siguientes corresponden a las calificaciones obtenidas por un grupo de 20


estudiantes en un examen de ingreso a la universidad, X, y en una prueba de comprensión oral
(Y). Hacer un diagrama de dispersión y calcular el coeficiente de correlación muestral. Concluir.

ESTUDIANTE X Y

A 52 49

B 49 49

C 26 17

D 28 34

E 63 52

F 44 41

G 70 45

H 32 32

I 49 29

J 51 49

K 64 53

L 28 17
M 49 40

N 43 41

O 30 15

P 65 50

Q 35 28

R 60 55

S 49 37

T 66 50

16.-¿Existe una relación entre el producto nacional bruto (PNB) per cápita, expresado en dólares, y
la esperanza de vida de los niños nacidos en los países no desarrollados?

Utilice los datos de la siguiente tabla, donde se muestran los ingresos per cápita (X) y la esperanza
de vida (Y) en 16 naciones, para responder esta pregunta.

PAIS x y

Afganistan 75 40

Nigeria 135 39

Nepal 87 43

Zaire 90 45

Tanzania 120 44

Indonesia 80 48

Uganda 140 49

China 170 53

Vietnam del Sur 245 54

Irán 370 54

Turquía 760 57
Brasil 500 63

Taiwan 460 69

México 770 64

Venezuela 1000 66

Argentina 1300 67

17.- En una clínica de maternidad se ha hecho un estudio para saber la talla (en cm.) que tiene un
lactante teniendo en cuenta la Edad (en días), la talla (en cm.), el peso (en kg.) y el tamaño del
tórax (en cm.) al nacer. Para ello se tomó un amuestra de 9 niños de los que se obtuvieron los
resultados expresados en la tabla más abajo. Calcule el coeficiente de correlación de cada variable
con todas las demás. Hacer gráficos de dispersión. ¿Qué variables se puede decir que están
correlacionadas? ¿Por qué?

Talla Edad TalNac Peso Torax

57,50 78,00 48,20 2,75 29,50

52,80 69,00 45,50 2,15 26,30

61,30 77,00 46,30 4,41 32,20

67,00 88,00 49,00 5,52 36,50

53,50 67,00 43,00 3,21 27,20

62,70 80,00 48,00 4,32 27,70

56,20 74,00 48,00 2,31 28,30

68,50 94,00 53,00 4,30 30,30

69,20 102,00 58,00 3,71 28,70

18.-En la siguiente tabla se muestran el Coeficiente Intelectual (CI), la edad y el peso al nacer de 25
niños. Hacer un box-plot para cada variable e interpretar los resultados:

NIÑO CI PESO EDAD NIÑO CI PESO EDAD

1 125 2536 28 14 75 2350 23


2 86 2505 31 15 90 2536 24

3 119 2652 32 16 109 2577 22

4 113 2573 20 17 104 2464 35

5 101 2382 30 18 110 2571 24

6 143 2443 30 19 96 2550 24

7 132 2617 27 20 101 2437 23

8 106 2556 36 21 95 2472 36

9 121 2489 34 22 117 2580 21

10 109 2415 29 23 115 2436 39

11 88 2434 27 24 138 2200 41

12 116 2491 24 25 85 2851 17

13 102 2345 26

19.- Los siguientes datos corresponden a la ganancia de peso por día (expresada en gramos), de
novillos sometidos a una dieta experimental de engorde a corral.

704 890 986 806 798 995 876 705 706 915

801 720 807 960 858 606 798 708 893 906

660 780 615 895 969 880 700 697 804 918

825 809 758 705 800 910 896 708 690 830

a) Obtenga las siguientes medidas resumen: media, mediana, mínimo, máximo, rango,

varianza, desviación estándar y coeficiente de variación.

b) Contestar Verdadero (V) o Falso (F) a cada una de las siguientes afirmaciones:
20.-Se dispone de los siguientes datos incompletos en una tabla de frecuencias.

Calcular la media y la varianza.

BIBLIOGRAFÍA

OBSERVACIÓN: Este conjunto de problemas es un complemento a los problemas del texto guía:

Wackerly, D.; Mendenhall, W. & Scheaffer, R. (2010). Estadística Matemática con Aplicaciones,
7ma ed. CENGAGE Learning.

BIBLIOGRAFÍA ADICIONAL

Canavos, G. Probabilidad y Estadística: Aplicaciones y Métodos. McGraw-Hill.

Degroot, M; Schervish, M. Probability and Statistics. Pearson.

Statistics with Julia. (2021). Yoni Nazarathy, Hayden Klok. Springer.

Kabacoff, R. (2020). R in action. Meap


Walpole, R; Myers, R, Myers, S, Yo, K. Probabilidad y Estadística para Ingeniería y Ciencias.
Pearson.

También podría gustarte