Trabajo Colaborativo Estadistica
Trabajo Colaborativo Estadistica
Trabajo Colaborativo Estadistica
ESTADISTICA INFERENCIAL
TRABAJO COLABORATIVO
PRESENTADO A:
ALEXANDER TRILLERAS
En este informe damos entrega del desarrollo al trabajo colaborativo, el cual consiste en aplicar
formulas y métodos matemáticos de muestreo, graficarlos y con cuyo de objetivo de calcular la
confiabilidad y/o exactitud de los cálculos realizados.
Actividad 1:
1. Determine si se puede considerar que las variables Millaje y Price se distribuyen
normalmente. Para hacer esto pueden calcular e interpretar cada una de las siguientes
medidas o procedimientos, y finalmente concluir.
a. El sesgo
b. La curtosis
c. Una gráfica de la curva normal (q-q plot)
d. La regla empírica.
2. Asuman que los datos corresponden a una población. Van a seleccionar una muestra
usando el muestreo aleatorio simple. Supongan conocido el tamaño de la población
¿Qué tamaño de muestra escogen? Justifiquen su respuesta.
Seleccionen la muestra y muestren o expliquen cómo la obtuvieron.
DESARROLLO
PRICE
1- Para hacer esto pueden calcular e interpretar cada una de las siguientes medidas o
procedimientos, y finalmente concluir. Para verificar si Price y Millaje son una
distribución normal o no, podemos realizar el análisis dato a dato con medidas de
dispersión para datos no agrupados, o simplemente agruparlos a través de una tabla
de frecuencia de intervalos.
calculamos el rango: restando el dato de mayor valor y el dato de menor valor.
70755 - 8639 = 62116- regla de sturges: utilizaremos la regla de sturges para
determinar el número de intervalos. (1 + 3,322 * log N), siendo el número de datos
= 804
En la grafica notamos que la lineación no presenta una tendencia cercana a la curva normal
de dispersión.
D. La regla empírica: esta regla se basa en la conclusión experimental, que expone que, en
una distribución normal, el porcentaje de datos en cierto intervalo de desviación desde su
media puede ser estimado bajo las siguientes premisas. Al no cumplirse una de ellas la
distribución no es normal, sin embargo, no es argumento suficiente para demostrar que lo
es.
. ´x+s ≥68%≥ ´x−s
. ´x+2s ≥ 95%≥ ´x−2s
. x+3 s ≥ 97% ≥´x−3 s
Prueba
21426+9915 ≥ 68% ≥21426-9915
39268,42024 ≥ 68% ≥19438,30839
Estos valores estarían ubicados en promedio desde parcialmente el intervalo dos hasta
parcialmente el intervalo 5, al hacer la frecuencia relativa acumulada fue de un 64% pero
reconociendo que con las aproximaciones puede dar mucho menor, se concluye que no
tiene una tendencia de distribución normal
MILLAJE
Desarrollo de la tabla de frecuencias para la variable millaje:
Rango= dato mayor – dato menor (50387 – 266)
Rango = 50121
Determinación de numero de intervalos mediante la regla de sturges.
Intervalos = 1+3,322*log n (n= 804)
Intervalos = 10
rango
Amplitud =
intervalos
Amplitud = 5013
MILLAJE
Absoluta Relativa
Marca de frecuencia
Lim inf Lim sup f relativa (fr) acumulada acumulada Xmi* fi Xmi2 * fi
clase (Xmi) absoluta (fi)
(Fi) (FR)
266 5279 2772,5 46 0,06 46 0,06 127535 353590787,5
5279 10292 7785,5 71 0,09 117 0,15 552770,5 4303594728
10292 15305 12798,5 101 0,13 218 0,27 1292648,5 16543961827
15305 20318 17811,5 165 0,21 383 0,48 2938897,5 52346172821
20318 25331 22824,5 227 0,28 610 0,76 5181161,5 1,18257E+11
25331 30344 27837,5 131 0,16 741 0,92 3646712,5 1,01515E+11
30344 35357 32850,5 43 0,05 784 0,98 1412571,5 46403680061
35357 40370 37863,5 14 0,02 798 0,99 530089 20071024852
40370 45383 42876,5 4 0,00 802 1,00 171506 7353577009
45383 50396 47889,5 2 0,00 804 1,00 95779 4586808421
sumas - - 804 1,00 15949671 3,71735E+11
Ya que la segunda muestra si tiene mayor nivel de confiabilidad el intervalo a elegir debe
hacerse usando los datos de la primera distribución, para este planteamos un porcentaje de
error del 10% y una confiabilidad del 95% continuamente seleccionar a la muestra de forma
aleatoria simple obteniendo el resultado.
805∗s 2∗1962
N=
850∗¿ ¿
N= 86,22
Se tomará una selección aleatoria de 87 datos los cuales obtendremos de multiplicar la
cantidad de datos totales por la varianza por el valor tabular de nuestro nivel de confianza y
dividirlo entre los datos totales, multiplicándolo por nuestro porcentaje de error (10%) por
la media obtenida, sumando la varianza multiplicada por nuestro valor tabular del
porcentaje de error.
Semana 4 Actividad 2
3. Utilizando la muestra obtenida en la Actividad 1, construyan un intervalo de confianza
para el millaje promedio. Deben seleccionar un nivel de confianza; tomen en cuenta que se
debe privilegiar la exactitud sobre la confianza, aunque no se olviden completamente de la
confianza ¿qué nivel de confianza escogen y por qué? Una vez obtenido el resultado,
determinen si es correcto o no, y justifiquen su elección.
Supongan que la varianza poblacional es desconocida.
N-1 803
N 804
Z 1,96 3,8416 n
P 0,5
Q 0,5
e 0,05 0,0025 Error 5%
Remplazamos la formula
en este punto nos piden determinar si el millaje recorrido por dos fabricantes
CHEVROLET Y CADILLAC es diferente o es el mismo y en este punto la confianza se
debe privilegiar sobre la exactitud, lo primero que vamos a hacer es tomar los dos
fabricantes
fabricante Cadillac
Los intervalos
Limite inferior: -4770.502
Limite superior: 4988.460
Intervalo de confianza: 4332.43469
Conclusión: nivel de confianza del 95%, nivel de error de 5%, parámetro poblacional 95%
SEMANA 5 ACTIVIDAD 3
5. Ahora, hagan una prueba de hipótesis sobre la proporción de autos que tienen cuatro
puertas (el valor poblacional es conocido, usen este valor para la hipótesis nula). ¿La
conclusión obtenida es correcta o se cometió un error tipo I o tipo II? Usen el valor p en el
desarrollo.
En el desarrollo, supongan que el valor poblacional de p es desconocido.
en solución de este punto, nos basaremos en la fórmula de hipótesis nula H0=μ=4.
los grados de libertad son
considerados los valores que pueden ser asignados, esto con el fin de igualar el resultado el cual se
ha conocido previamente.
concluimos que dado el P-valor es menor que el valor de ALPHA medios, podemos decir que la
hipotesis Ho es valido.
6 - Ahora hagan una prueba de hipótesis, para determinar si el millaje recorrido por los
autos fabricados por Cadillac y Chevrolet es el mismo o es diferente. ¿cuál es la hipótesis
nula?, ¿escoge una prueba de dos colas o de una cola (de cola derecha o izquierda)?,
explique o justifique su elección. Consideren que la probabilidad de cometer un error tipo I
debe ser pequeña. Expliquen qué valor escogen para el nivel de significancia. Supongan
que las medias y las varianzas poblacionales son desconocidas.
Datos:
cadillac datos
la media 189.085.625
desviación
896.429.192
estándar
varianza 80358529.7
nivel de
95%
confianza
tamaño de
80
muestra
media
198.319.348
poblacional
z 1.96
los criterios de prueba son:
Nivel de significación::0.05
las regiones críticas (valores críticos )=se determinan con el nivel de significancia
entre 2 ,ya que se trata de una prueba de hipótesis de 2 colas por lo cual el nivel de
significancia desde 0,025 validamos en la tabla normal estándar para a/2=0,025 y
para(1-a/2)=1.96
Para un nivel de confianza del 95% el valor crítico De t para (n-1) =79 grados de libertad
De: 1.9905
se rechaza la hipótesis nula si el valor calculado el menor que -1.9905 o mayor que 1.9905.
Prueba de hipótesis
Verificamos lo anterior con una prueba de hipótesis para las diferencias de medias de
millaje recorrido por los autos fabricados porque Cadillac y Chevrolet si desconocemos las
varianzas y no tienen argumentos para suponer que son iguales, se utiliza el estadístico de
prueba.
Se escoge una prueba de hipótesis de 2 colas, Puesto que al ser rechazada. se puede decir
que U1<U2OU1>U2 y por ende serían distintas.
como el P-VALUE = 0.6902 ˃ 0.05 No se rechaza, es decir, el millaje recorrido por los
autos fabricados por Cadillac y Chevrolet es el mismo. la probabilidad del error tipo 1, el
cual llamamos nivel de significancia.