Trabajo Colaborativo Estadistica

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 18

INSTITUCIÓN UNIVERSITARIA POLITECNICO GRANCOLOBIANO

ESTADISTICA INFERENCIAL
TRABAJO COLABORATIVO

DARIN SERNA TORO – CODIGO: 192182753


CARLOS ANDRES BERNAL PERILLA – CODIGO 1921022172
WILLIAN JAVIAR PONGUTA GUTIERREZ – CODIGO 2011982969

PRESENTADO A:
ALEXANDER TRILLERAS

UNIVERSIDAD POLITÉCNICO GRANCOLOMBIANO


FACULTAD DE INGENIERÍA INDUSTRIAL
INVESTIGACIÓN DE OPERACIONES
GRUPO 29
INTRODUCCIÓN

En este informe damos entrega del desarrollo al trabajo colaborativo, el cual consiste en aplicar
formulas y métodos matemáticos de muestreo, graficarlos y con cuyo de objetivo de calcular la
confiabilidad y/o exactitud de los cálculos realizados.
Actividad 1:
1. Determine si se puede considerar que las variables Millaje y Price se distribuyen
normalmente. Para hacer esto pueden calcular e interpretar cada una de las siguientes
medidas o procedimientos, y finalmente concluir.
a. El sesgo 
b. La curtosis
c. Una gráfica de la curva normal (q-q plot)
d. La regla empírica.
2. Asuman que los datos corresponden a una población. Van a seleccionar una muestra
usando el muestreo aleatorio simple. Supongan conocido el tamaño de la población
¿Qué tamaño de muestra escogen? Justifiquen su respuesta.
Seleccionen la muestra y muestren o expliquen cómo la obtuvieron.

DESARROLLO
PRICE
1- Para hacer esto pueden calcular e interpretar cada una de las siguientes medidas o
procedimientos, y finalmente concluir. Para verificar si Price y Millaje son una
distribución normal o no, podemos realizar el análisis dato a dato con medidas de
dispersión para datos no agrupados, o simplemente agruparlos a través de una tabla
de frecuencia de intervalos.
calculamos el rango: restando el dato de mayor valor y el dato de menor valor.
70755 - 8639 = 62116- regla de sturges: utilizaremos la regla de sturges para
determinar el número de intervalos. (1 + 3,322 * log N), siendo el número de datos
= 804

seguidamente calculamos la amplitud: 62116/10= 6212


máximo 70755
mínimo 8639
amplitud 6212
n 804
intervalos 10
PRICE
Absoluta Relativa
Marca de frecuencia
Lim inf Lim sup f relativa (fr) acumulada acumulada Xmi* fi Xmi2 * fi
clase (Xmi) absoluta (fi)
(Fi) (FR)
8639 14851 11745 226 0,28 226 0,281 2654370 31175575650
14851 21063 17957 269 0,33 495 0,616 4830433 86740085381
21063 27275 24169 119 0,15 614 0,764 2876111 69512726759
27275 33487 30381 95 0,12 709 0,882 2886195 87685490295
33487 39699 36593 52 0,06 761 0,947 1902836 69630477748
39699 45911 42805 26 0,03 787 0,979 1112930 47638968650
45911 52123 49017 8 0,01 795 0,989 392136 19221330312
52123 58335 55229 2 0,00 797 0,991 110458 6100484882
58335 64547 61441 2 0,00 799 0,994 122882 7549992962
64547 70759 67653 5 0,01 804 1 338265 22884642045
sumas 804 1 17226616 4,4814E+11

medidas de dispersión adicionales:


Media = ∑Xmi⋅fin=21426
Mediana = lim Inf ´Amplitud * n2−f((i−1))=18915
desviación estándar = ∑(xm−x)2⋅fin−−−−−−−−−−√=9915
los anteriores cálculos son medidas de tendencia que nos ayudan a analizar el
comportamiento de la distribución de este punto, lo cual afirmamos que la distribución
presentada no es una distribución normal, debido a la posición de la mediana y la
media.
A. El SESGO: Es una característica de forma, relativa a la distribución, usando el
método del Coeficiente de Pearson, se presentan y analizan los siguientes casos:
 Coeficiente positivo: implica que la campana está desviada a la derecha, es
decir tiene mayor cantidad de datos después del punto medio
 Coeficiente negativo: implica que la campana está desviada a la izquierda, es
decir tiene mayor cantidad de datos antes del punto medio
 Coeficiente igual a cero= implica que la distribución es normal debido a las
características de simetría que presenta.
sesgo=3(media−mediana) desviación estándar = 3(21426−18915)9915=0,7598
Analizando el sesgo, podemos ver la desviación hacia la derecha de los datos
comparándolos con la campana estándar de una distribución normal
B.LA CURTOSIS: Es una característica de forma, relativa a la distribución, usando el
método del Fisher para datos agrupados, se presentan y analizan los siguientes casos:
* Medida de Fisher < 3, la distribución es platicútica. El pico es más agudo y no
simétrico.
* Medida de Fisher = 3: la distribución es normal, El pico es estándar y simétrico.
* Medida de Fisher > 3, la distribución es leptocúrtica, El pico se encuentra achatado
hacia el eje
a=∑fi(Xmi−media)4n(desviación)4=5,9241
C. Gráfica de la curva normal (q-q plot)
Para llevar nuestros datos a la media y referencia de un sistema normal se siguió el
procedimiento
- Ordenamiento y numeración de todos los datos
- Cambio al sistema normal mediante la función de distribución normal estándar inversa
aplicada a argumentos de la forma (i-0.5/n) siendo i la posición numérica del dato

En la grafica notamos que la lineación no presenta una tendencia cercana a la curva normal
de dispersión.
D. La regla empírica: esta regla se basa en la conclusión experimental, que expone que, en
una distribución normal, el porcentaje de datos en cierto intervalo de desviación desde su
media puede ser estimado bajo las siguientes premisas. Al no cumplirse una de ellas la
distribución no es normal, sin embargo, no es argumento suficiente para demostrar que lo
es.
. ´x+s ≥68%≥ ´x−s
. ´x+2s ≥ 95%≥ ´x−2s
. x+3 s ≥ 97% ≥´x−3 s
Prueba
21426+9915 ≥ 68% ≥21426-9915
39268,42024 ≥ 68% ≥19438,30839
Estos valores estarían ubicados en promedio desde parcialmente el intervalo dos hasta
parcialmente el intervalo 5, al hacer la frecuencia relativa acumulada fue de un 64% pero
reconociendo que con las aproximaciones puede dar mucho menor, se concluye que no
tiene una tendencia de distribución normal
MILLAJE
Desarrollo de la tabla de frecuencias para la variable millaje:
Rango= dato mayor – dato menor (50387 – 266)
Rango = 50121
Determinación de numero de intervalos mediante la regla de sturges.
Intervalos = 1+3,322*log n (n= 804)
Intervalos = 10
rango
Amplitud =
intervalos
Amplitud = 5013
MILLAJE
Absoluta Relativa
Marca de frecuencia
Lim inf Lim sup f relativa (fr) acumulada acumulada Xmi* fi Xmi2 * fi
clase (Xmi) absoluta (fi)
(Fi) (FR)
266 5279 2772,5 46 0,06 46 0,06 127535 353590787,5
5279 10292 7785,5 71 0,09 117 0,15 552770,5 4303594728
10292 15305 12798,5 101 0,13 218 0,27 1292648,5 16543961827
15305 20318 17811,5 165 0,21 383 0,48 2938897,5 52346172821
20318 25331 22824,5 227 0,28 610 0,76 5181161,5 1,18257E+11
25331 30344 27837,5 131 0,16 741 0,92 3646712,5 1,01515E+11
30344 35357 32850,5 43 0,05 784 0,98 1412571,5 46403680061
35357 40370 37863,5 14 0,02 798 0,99 530089 20071024852
40370 45383 42876,5 4 0,00 802 1,00 171506 7353577009
45383 50396 47889,5 2 0,00 804 1,00 95779 4586808421
sumas - - 804 1,00 15949671 3,71735E+11

medidas de dispersión adicionales:


Media = ∑Xmi⋅fin=19838
Mediana = lim Inf ´Amplitud * n2−f((i−1))=20738
desviación estándar = √∑(xm−x)2⋅fin = 8296
 Coeficiente positivo: implica que la campana está desviada a la derecha, es
decir tiene mayor cantidad de datos después del punto medio
 Coeficiente negativo: implica que la campana está desviada a la izquierda, es
decir tiene mayor cantidad de datos antes del punto medio
 Coeficiente igual a cero= implica que la distribución es normal debido a las
características de simetría que presenta.
sesgo=3(media−mediana) desviación estándar = 3(19838−20738)8296 = -0,3253
revisando el resultado del sesgo podemos notar la desviación hacia la izquierda de los
datos, en comparación con la campana estándar de una distribución normal, esta estaría
dentro de la tolerancia para considerarse como distribución normal.
B.LA CURTOSIS: Es una característica de forma, relativa a la distribución, usando el
método del Fisher para datos agrupados, se presentan y analizan los siguientes casos:
* Medida de Fisher < 3, la distribución es platicútica. El pico es más agudo y no
simétrico.
* Medida de Fisher = 3: la distribución es normal, El pico es estándar y simétrico.
* Medida de Fisher > 3, la distribución es leptocúrtica, El pico se encuentra achatado
hacia el eje
a=∑fi(Xmi−media)4n(desviación)4 = 2,96
analizando el resultado de curtosis, notamos un pico cercano a la distribución normal, lo
que significa que la mayoría de los datos se encuentran cerca al z=0.
C. Gráfica de la curva normal (q-q plot)
Para llevar nuestros datos a la media y referencia de un sistema normal se siguió el
procedimiento
- Ordenamiento y numeración de todos los datos
- Cambio al sistema normal mediante la función de distribución normal estándar inversa
aplicada a argumentos de la forma (i-0.5/n) siendo i la posición numérica del dato.
D. La regla empírica: esta regla se basa en la conclusión experimental, que expone que, en
una distribución normal, el porcentaje de datos en cierto intervalo de desviación desde su
media puede ser estimado bajo las siguientes premisas. Al no cumplirse una de ellas la
distribución no es normal, sin embargo, no es argumento suficiente para demostrar que lo
es.
. ´x+s ≥68%≥ ´x−s
. ´x+2s ≥ 95%≥ ´x−2s
. x+3 s ≥ 97% ≥´x−3 s
Prueba
Estos valores se ubicarían en promedio parcialmente el intervalo 4 hasta el intervalo 7, al
hacer la frecuencia relativa acumulada fue de un 68,7%, se concluye que tiene una
tendencia de distribución normal.
2. Asuman que los datos corresponden a una población. Van a seleccionar una muestra
usando el muestreo aleatorio simple. Supongan conocido el tamaño de la población
¿Qué tamaño de muestra escogen? Justifiquen su respuesta.
Seleccionen la muestra y muestren o expliquen cómo la obtuvieron.

Ya que la segunda muestra si tiene mayor nivel de confiabilidad el intervalo a elegir debe
hacerse usando los datos de la primera distribución, para este planteamos un porcentaje de
error del 10% y una confiabilidad del 95% continuamente seleccionar a la muestra de forma
aleatoria simple obteniendo el resultado.
805∗s 2∗1962
N=
850∗¿ ¿
N= 86,22
Se tomará una selección aleatoria de 87 datos los cuales obtendremos de multiplicar la
cantidad de datos totales por la varianza por el valor tabular de nuestro nivel de confianza y
dividirlo entre los datos totales, multiplicándolo por nuestro porcentaje de error (10%) por
la media obtenida, sumando la varianza multiplicada por nuestro valor tabular del
porcentaje de error.

Semana 4 Actividad 2
3. Utilizando la muestra obtenida en la Actividad 1, construyan un intervalo de confianza
para el millaje promedio. Deben seleccionar un nivel de confianza; tomen en cuenta que se
debe privilegiar la exactitud sobre la confianza, aunque no se olviden completamente de la
confianza ¿qué nivel de confianza escogen y por qué? Una vez obtenido el resultado,
determinen si es correcto o no, y justifiquen su elección.
Supongan que la varianza poblacional es desconocida.

se realiza la selección del tamaño de muestra con la siguiente formula


n=n.z2a.pqd2.(n−1)+z2apqn=n.z2a.pqd2.(n−1)+z2apq
N = tamaño de la población
Z = nivel de confianza
P = probabilidad de éxito
Q = probabilidad de fracaso
D = precisión (error máximo admisible en términos de proporción)
 a continuación muestro unos datos del muestro aleatorio y solución a la ecuación
Aleatorio simple final price Aleatorio simple final millaje
745 37384 745 16088
561 23348 561 24027
586 25300 586 19569
524 21896 524 16508
2 8769 2 35299
638 28817 638 21039
761 39692 761 25169
552 23078 552 23798
636 28678 636 25380
492 20952 492 20158
363 17163 363 20829
650 29844 650 23143
781 43892 781 23371
122 12734 122 21386
448 19423 448 25557
233 14909 233 23323
226 14847 226 12980
561 23348 561 24027
278 15709 278 22236
72 11700 72 15253
145 13141 145 19898
496 21183 496 21394
390 17789 390 26980
486 20676 486 18021
397 17945 397 19592
353 16998 353 25930
656 30122 656 14568
334 16569 334 25777
199 14222 199 8427
640 29115 640 21960
529 22005 529 15516
543 22461 543 8928
166 13586 166 25662
250 15163 250 17158
652 29914 652 22105
46 11170 46 22380
599 26190 599 17335
691 32076 691 23553
482 20537 482 16950

N-1 803
N 804
Z 1,96 3,8416 n
P 0,5
Q 0,5
e 0,05 0,0025 Error 5%

Nivel de confianza Z alfa


99,70% 3
99% 2,58
98% 2,33
96% 2,05
95% 1,96
90% 1,645
80% 1,28
50% 0,674

 Remplazamos la formula

Tamaño de muestra = 260

Utilizando la tabla anterior se realizan los siguientes datos:


n 260
promedio 19201,7231
desviación estandar 7706,71777
alfa 0,1
intervalo 786,158361
desde 18415,5647
hasta 19987,8814
con estos datos se realizo una curva la cual se observa
donde se encuentra el 90% de la información.
4- Construyan un intervalo de confianza para determinar si el millaje recorrido por los autos
fabricados por Cadillac y Chevrolet es el mismo o es diferente. Ahora, asuman que deben
privilegiar la confianza sobre la exactitud. Justifiquen su elección del nivel de confianza.
Asuma que las medias y las varianzas poblacionales son desconocidas.

en este punto nos piden determinar si el millaje recorrido por dos fabricantes
CHEVROLET Y CADILLAC es diferente o es el mismo y en este punto la confianza se
debe privilegiar sobre la exactitud, lo primero que vamos a hacer es tomar los dos
fabricantes

Diferencia entre medias de dos poblaciones normales con varianzas poblacionales


desconocidas pero diferentes fórmulas:
Margen de error

fabricante Cadillac
Los intervalos
Limite inferior: -4770.502
Limite superior: 4988.460
Intervalo de confianza: 4332.43469
Conclusión: nivel de confianza del 95%, nivel de error de 5%, parámetro poblacional 95%

SEMANA 5 ACTIVIDAD 3
5. Ahora, hagan una prueba de hipótesis sobre la proporción de autos que tienen cuatro
puertas (el valor poblacional es conocido, usen este valor para la hipótesis nula). ¿La
conclusión obtenida es correcta o se cometió un error tipo I o tipo II? Usen el valor p en el
desarrollo.
En el desarrollo, supongan que el valor poblacional de p es desconocido.
en solución de este punto, nos basaremos en la fórmula de hipótesis nula H0=μ=4.
los grados de libertad son
considerados los valores que pueden ser asignados, esto con el fin de igualar el resultado el cual se
ha conocido previamente.

concluimos que dado el P-valor es menor que el valor de ALPHA medios, podemos decir que la
hipotesis Ho es valido.
6 - Ahora hagan una prueba de hipótesis, para determinar si el millaje recorrido por los
autos fabricados por Cadillac y Chevrolet es el mismo o es diferente. ¿cuál es la hipótesis
nula?, ¿escoge una prueba de dos colas o de una cola (de cola derecha o izquierda)?,
explique o justifique su elección. Consideren que la probabilidad de cometer un error tipo I
debe ser pequeña. Expliquen qué valor escogen para el nivel de significancia. Supongan
que las medias y las varianzas poblacionales son desconocidas.

Datos:
cadillac datos
la media  189.085.625
desviación
896.429.192
estándar 
varianza 80358529.7
nivel de
95%
confianza
tamaño de
80
muestra 
media
198.319.348
poblacional
z 1.96
los criterios de prueba son:
Nivel de significación::0.05
 las regiones críticas (valores críticos )=se determinan con el nivel de significancia
entre 2 ,ya que se trata de una prueba de hipótesis de 2 colas por lo cual el nivel de
significancia desde 0,025 validamos en la tabla normal estándar para a/2=0,025 y
para(1-a/2)=1.96

 Reemplazando en -c y c, la región de decisión se termina =-1.96 y 1.96


 Si el estadístico Z* se encuentra entre -1.96 y 1.96 no se rechaza h – hipótesis nula
 Cuando la varianza poblacional es desconocida, se utiliza el estadístico t-student,
También se utiliza la desviación estándar de la muestra (s) en lugar del Sigma (o), el
estadístico t, sigue una distribución t-student con n-1 grados de libertad.
Decisión

Para un nivel de confianza del 95% el valor crítico De t para (n-1) =79 grados de libertad
De: 1.9905

se rechaza la hipótesis nula si el valor calculado el menor que -1.9905 o mayor que 1.9905.

Prueba de hipótesis

Verificamos lo anterior con una prueba de hipótesis para las diferencias de medias de
millaje recorrido por los autos fabricados porque Cadillac y Chevrolet si desconocemos las
varianzas y no tienen argumentos para suponer que son iguales, se utiliza el estadístico de
prueba.

el cual tiene, aproximadamente, una distribución t con grados de


libertad por:
juego de hipótesis

Se escoge una prueba de hipótesis de 2 colas, Puesto que al ser rechazada. se puede decir
que U1<U2OU1>U2 y por ende serían distintas.

como el P-VALUE = 0.6902 ˃ 0.05 No se rechaza, es decir, el millaje recorrido por los
autos fabricados por Cadillac y Chevrolet es el mismo. la probabilidad del error tipo 1, el
cual llamamos nivel de significancia.

También podría gustarte