Trabajo Colaborativo Estadistica Inferencial V1

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 15

TRABAJO COLABORATIVO ESTADISTICA INFERENCIAL

PRESENTADO POR.

SANTIAGO CALDERÓN NIETO – 1821021086

DANIELA BAÑOS CANO-1911981733

IVERSON DANIEL ARAUJO RODRIGIUEZ -1911982923

NUBIA LUCRECIA OLARTE SERRANO-

PRESENTADO A

ALEXANDER TRILLERAS

POLITECNICO GRANCOLOMBIANO

ABRIL 2020
OBJETIVO GENERAL.

Realizar el trabajo colaborativo durante las semanas 1 3 y 5, para ejecutar de manera


asertiva los diferentes tipos de aplicación de fórmulas, Comprender el procedimiento para
construir intervalo de confianza para estimar la diferencia de dos promedios poblacionales
e interpretarlo partiendo de una base de datos propuesta por el tutor.

OBJETIVOS ESPECIFICOS.

-Resolver de forma adecuada los ejercicios que se proponen en el trabajo.

-Realizar una participación grupal en los foros de cada una de las semanas, para llegar a
una consolidación de trabajo bien planteada por los integrantes.

-Saber interpretar la información dada en cada uno de los escenarios para ejecutar el
trabajo propuesto.

-Poder solucionar las preguntas que generen los integrantes del grupo en el foro de
desarrollo para la buena comprensión de la ejecución del trabajo.
CONTENIDO

Pag.

1. Histograma según el contexto……………………………………………….. 1-2

1.1 Curtosis según el contexto…………………………………………………. 3-4

1.1.1 Cálculos de frecuencia acumulada y frecuencia relativa…………………. 3-4

1.1.2 Formula Curtosis……………………………………………………………4-5

2. Cálculos de la media, mediana, moda, desviación estándar,


Coeficiente de variación e interpretación de los resultados……………………… 6-7-8
3. Relación de variables y justificación de resultados………………………… 8

3.1 Categoría de edades que más realiza compras en el black-Friday…….. …. 8-9

3.2 Promedio de gatos de la categoría de la edad que más compra…….. …… 9

3.3 Proporción de hombres que compran es mayor que la de mujeres……………….. 9

3.4 Promedio de gasto de los hombres y las mujeres…………………………………. 10

4. Intervalos de confianza………………………………………………………………. 10

4.1 Alternativa para determinar el tamaño de una muestra

para la variable compra (Purchase)……………………………………………………. 10-11

5. Bibliografía………………………………………………………………………….. 12
DESCRIPCION.

El conjunto de datos en el archivo “black-friday” (Dagdoug, 2019) es una muestra de las


transacciones realizadas en una tienda minorista. La tienda quiere conocer mejor el
comportamiento de compra del cliente frente a diferentes productos. Específicamente, el
problema que estamos tratando de predecir la variable dependiente (el monto de la compra)
con la ayuda de la información contenida en las otras variables.

Utilizando la variable del valor de la compra (Purchase), realice lo siguiente:

1. HISTOGRAMA Y LA CURTOSIS SEGÚN EL CONTEXTO.

Para realizar el histograma y la forma de la curtosis tenemos que hacer una tabla de
intervalos con los datos.

NUMERO DE INTERVAL VALOR AMPLIT


DATOS O MIN VALOR MAX RANGO U
537577 19,452019 185 23961 23776 1188,8
20 183 23963 23780 1189
4
Nota: (en el Excel que se anexa, se puede ver el desarrollo formulado en cada una de las
celdas)

INTERVALO LIMITE LIMITE FREC


CLASE INF SUP ABS
1 183 1372,1 8075
2 1372,1 2561,1 24100
3 2561,1 3750,1 28860
4 3750,1 4939,1 28376
5 4939,1 6128,1 68396
6 6128,1 7317,1 61714
7 7317,1 8506,1 69581
8 8506,1 9695,1 34863
9 9695,1 10884,1 39891
10 10884,1 12073,1 39347
11 12073,1 13262,1 18903
12 13262,1 14451,1 6018
13 14451,1 15640,1 30109
14 15640,1 16829,1 33826

1
15 16829,1 18018,1 2091
16 18018,1 19207,1 11414

17 19207,1 20396,1 23442


18 20396,1 21585,1 6255
19 21585,1 22774,1 10

20 22774,1 23963 2306


537577

Y el histograma de la tabla anterior quedaría de la siguiente manera.

HISTOGRAMA
80000

70000
FRECUENCIA DE PERSONAS

60000

50000

40000
Series1
30000

20000

10000

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
VALORES COMPRA PURCHASE

Donde podemos observar los valores de las compras en el eje X y en la frecuencia de las
personas en el eje Y.

NOTA: para hallar la curtosis debemos realizar los cálculos de la media, mediana, moda,
desviación estándar, coeficiente de variación.

2
1.1 CURTOSIS SEGÚN EL CONTEXTO

1.1.1 Frecuencia acumulada, frecuencia relativa,

Frecuencia real acumulada y la marca de clase. Para hallar la media del ejercicio tenemos
que hallar el valor de la Marca de clase por la Frecuencia absoluta.

MARCA
INTERVALO LIMITE FREC FREC FREC FREC REL- DE
CLASE LIMITE INF SUP ABS ACUMU RELATIVA ACUM CLASE
1 183 1372,1 8075 8075 0,015021104 0,015021104 777,55
2 1372,1 2561,1 24100 32175 0,044830787 0,059851891 1966,6
3 2561,1 3750,1 28860 61035 0,053685333 0,113537224 3155,6
4 3750,1 4939,1 28376 89411 0,052784996 0,16632222 4344,6
5 4939,1 6128,1 68396 157807 0,127230146 0,293552366 5533,6
6 6128,1 7317,1 61714 219521 0,114800298 0,408352664 6722,6
7 7317,1 8506,1 69581 289102 0,129434481 0,537787145 7911,6
8 8506,1 9695,1 34863 323965 0,064852105 0,60263925 9100,6
9 9695,1 10884,1 39891 363856 0,074205184 0,676844433 10289,6
10 10884,1 12073,1 39347 403203 0,073193236 0,750037669 11478,6
11 12073,1 13262,1 18903 422106 0,035163335 0,785201004 12667,6
12 13262,1 14451,1 6018 428124 0,011194675 0,796395679 13856,6
13 14451,1 15640,1 30109 458233 0,056008721 0,8524044 15045,6
14 15640,1 16829,1 33826 492059 0,062923079 0,915327479 16234,6
15 16829,1 18018,1 2091 494150 0,003889675 0,919217154 17423,6
16 18018,1 19207,1 11414 505564 0,021232307 0,940449461 18612,6
17 19207,1 20396,1 23442 529006 0,043606776 0,984056238 19801,6
18 20396,1 21585,1 6255 535261 0,011635542 0,99569178 20990,6
19 21585,1 22774,1 10 535271 1,8602E-05 0,995710382 22179,6
20 22774,1 23963 2306 537577 0,004289618 1 23368,55
537577 1

3
Sumatoria de la operación de Marca de clase por la frecuencia absoluta de cada intervalo, al
final de la tabla en amarillo encontramos el valor deseado para el desarrollo de la formula.

Mar. clase* frec


abs
6278716,25 Utilizando la función de Excel
47395060 CONTAR.SI encontramos el valor
91070616 de cada una de las edades de las
123282369,6 personas que hay en la tabla de
378476105,6 datos. Siendo así las personas entre
414878536,4 26 y 35 años de edad las que más
550497039,6 realizan compras.
317274217,8
410462433,6 MEDIA= Marca Clase / Número
451648474,2 de personas
239455642,8 MEDIA= 5014739727 / 537377
83389018,8
453007970,4 MEDIA= 9328,41
549151579,6
36432747,6
212444216,4
464189107,2
131296203
221796
53887876,3
5014739727

1.1.2 FORMULA PARA HALLAR LA CURTOSIS.

CURTOSIS = (1 / N pers ) x (Sumatoria ( M.C – Media) ^ 4 x Frec abs / Desviación


estándar ^ 4.

En el Excel realizamos la descomposición de los paréntesis para cada intervalo y así sacar
la sumatoria que está resaltada en rojo al final de la tabla.

4
CURTOSIS
(M.C-MEDIA)^4* Frec
(M.C-MEDIA)^4 abs
5346130873931850,00 43170006806999700000,00
2937236292567690,00 70787394650881200000,00
1451884923147390,00 41901398882033700000,00
616945213188873,00 17506437369447500000,00
207377221780036,00 14183772460867300000,00
46107577588963,50 2845483043325300000,00
4029478863925,52 280375168830802000,00
2693433374,95 93901167750761,50
853558705949,07 34049310339014400,00
21374981670469,20 841041403787950000,00
124326438895940,00 2350142674449960000,00
420433976531552,00 2530171670766880000,00
1068390210306680,00 32168160842123800000,00
2274854325530870,00 76949222415407300000,00
4294452077093880,00 8979699293203300000,00
7429775789465620,00 84803460860960600000,00
12031384356696200,00 282039712089673000000,00
18497803242415900,00 115703759281312000000,00
27275524479835300,00 272755244798353000,00
38858453135011100,00 89607592929335600000,00
886954730299710000000,00

Decimos que:

CURTOSIS = (1 / 537577) x (886954730299710000000,00 / 4191,93 ^4)

CURTOSIS = 2,66

Lo que nos da a concluir que la curtosis es Leptocurtica ya que la distribución tiene


asimetría positiva.

5
2. CÁLCULOS DE MEDIA, MEDIANA, MODA, DESVIACION ESTÁNDAR,
COEFICIENTE DE VARIACIÓN, E INTERPRETACIÓN DE RESULTADOS.

Para hallar la Mediana tenemos que hallar el número del intervalo dividiendo el número de
personas sobre 2 así:

Numero intervalo= Número de personas / 2

Número intervalo= 537377 / 2

Numero intervalo = 268788,5

A este resultado lo aproximamos a un valor de la frecuencia acumulada en la tabla,


deducimos que el valor que aproxima es el 289102 en el intervalo número 7.

Ahora la mediana se aplica con la siguiente formula.

MEDIANDA= L inf +(N datos/2 – Fi-1) / Frec inter x Amp

L inf = límite inferior del intervalo

N datos = número de datos

Fi-1 = un valor menos del intervalo de la frecuencia abs. Acumulada

Frec inter = Frecuencia intervalo.

Amp = amplitud

Ahora reemplazamos

MEDIANA = 7317,1 + (537577 / 2 -219521) / 61714 x 1189

MEDIANA = 8158, 98

Para hallar la moda tenemos que saber la posición del intervalo como lo habíamos hecho
anteriormente y se saca mirando el valor máximo de la frecuencia absoluta que es 289102
que se encuentra en el intervalo 7.

MODA = L inf + ((frec inter - Fi-1) / (frec inter - Fi-1) + (frec inter – Fi+1)) x Amp

L inf = límite inferior del intervalo

Fi-1 = un valor menos del intervalo de la frecuencia abs. Acumulada

6
Fi+1 = un valor más del intervalo de la frecuencia abs. Acumulada

Frec inter = Frecuencia intervalo.

Amp = amplitud

MODA= 7317 + ((69581 – 61714 ) / (69581 – 61714) + (69581 – 34869)) x 1189

MODA = 7536,75

Para hallar la desviación estándar, necesitamos hallar la varianza en cada uno de los
intervalos así:

VARIANZA= Sumatoria (M.C – Media) ^ 2 / N pers x frec Abs.

M.C = marca de clase

N pers = número personas

Frec abs= frecuencia absoluta

Realizamos el proceso en cada intervalo y el valor resaltado en rojo es la sumatoria que


pide la formula.

VARIANZA
(M.C-MEDIA)^2 (M.C-MEDIA)^2*Frec abs.
73117240,61 590421717898,76
54196275,63 1306130242772,99
38103607,74 1099670119506,52
24838381,86 704813923525,52
14400597,97 984943298486,51
6790256,077 419053863525,65
2007356,188 139673850889,91
51898,29838 1809330376,49
923882,4092 36854593183,67
4623308,52 181913320333,74
11150176,63 210771788850,23
20504486,74 123396001210,23
32686238,85 984149965602,55
47695432,96 1613345715407,45
65532069,07 137027556433,33
86196147,18 983842823964,79
109687667,3 2571298296737,68
136006629,4 850721466935,33
165153033,5 1651530335,17
197125475,6 454571346759,83
1090790163 13396060752736,40

7
VARIANZA = 13396060752736,40 / 537577

VARIANZA = 24919333,89

Ahora si podemos hallar la Desviación estándar

DESVIACIÓN ESTÁNDAR = raíz cuadrada de la varianza

DESVIACIÓN ESTÁNDAR = 4191,93

Ahora podemos hallar el coeficiente de variación damos la respuesta en porcentaje (%)

COEFICIENTE DE VARIACIÓN = Desviación estándar / Media

COEFICIENTE DE VARIACIÓN = 4191,93 / 9328,41 x 100

COEFICIENTE DE VARIACIÓN = 54%

3. RELACIÓN DE VARIABLES Y JUSTIFICACIÓN DE RESULTADOS

3.1 ¿Cuál es la categoría de edades que más realiza compras en el black-friday?

Para hallar cuál de las categorías de edad realiza más compras realizamos el siguiente
cálculo.

CATEGORIA DE NUMERO DE
EDAD PERSONAS

0-17 14.707

18-25 97.634
EDAD QUE MAS REALIZA
26-35 214.690 COMPRAS

36-45 107.499

46-50 44.526

51-55 37.618

MAYOR 55 20.903
TOTAL 537577

8
Utilizando la función de Excel CONTAR.SI encontramos el valor de cada una de las
edades de las personas que hay en la tabla de datos. Siendo así las personas entre 26 y 35
años de edad las que más realizan compras.

3.2 ¿Cuál es promedio de gatos de la categoría de la edad que más compra?


Para hallar cual es el promedio de los gastos de la categoría de edad que más compra,
realizamos el siguiente calculo.

VALOR COMPRAS 0-17 $ 132.659.006


VALOR COMPRAS 18-
25 $ 901.669.280
VALOR COMPRAS 26-
35 $ 1.999.749.106
VALOR COMPRAS 36-
45 $ 1.010.649.565
VALOR COMPRAS 46-
50 $ 413.418.223
VALOR COMPRAS 50-
55 $ 361.908.356
VALOR COMPRAS >55 $ 197.606.873
Utilizamos la función SUMAR.SI en Excel para ver cuánto es el valor de las compras de
las personas de 26 y 35 años, lo que arroja un valor de $1.999.749.106.
Al tener el valor total de compras y el número de personas, dividimos el valor sobre el
número de personas para calcular el promedio de las compras.
Promedio compras = $1.999.749.106. / 214.690
Promedio compras = $9.315
Concluimos que el promedio de compras es de $9.315.

3.3 ¿La proporción de hombres que compran es mayor que la de mujeres?


Para hallar si los hombres compran más que las mujeres realizamos el siguiente calculo.

CANTIDAD HOMBRES 405380 LOS HOMBRES COMPRAN MÁS


CANTIDAD MUJERES 132197
TOTAL 537577
Utilizando la función de Excel CONTAR.SI encontramos que la cantidad de hombres que
compran es mayor a la de las mujeres.

9
3.4 ¿Cuánto es el promedio de gasto de los hombres y las mujeres?
Para hallar el promedio de gastos de hombres y mujeres, tenemos que saber cuánto son los
gastos de cada uno.

VALOR COMPRAS
HOMBRES $ 3.853.044.357
VALOR COMPRAS
MUJERES $ 1.164.624.021
Para hallar el promedio de cada uno dividimos cada valor de compras de hombres
y mujeres por el número de personas (hombres - mujeres).
Promedio compras hombres = Valor compras / Numero de hombres
Promedio compras hombres = $ 3.853.044.357 / 405380
Promedio compras hombres = $9505

Promedio compras mujeres = Valor compras / Número de mujeres


Promedio compras mujeres =$ 1.164.624.021 / 132197
Promedio compras mujeres = $8810
Podemos decir que el promedio de compras de los hombres es de $9505 y el de las mujeres
es de $8810.

4. INTERVALOS DE CONFIANZA

4.1 Alternativa para determinar el tamaño de una muestra para la variable compra
(Purchase).

En probabilidad hemos visto que para hallar una muestra podemos usar la siguiente
ecuación:

En esta analizamos que, N es el tamaño de la población, Z es el nivel de confianza, p es la


probabilidad de éxito o la proporción esperada, q es la probabilidad de fracaso, d es la
precisión (error máximo admisible en términos de proporción).

10
En la ecucacion es recomendable usar el 2% de error y el nivel de confianza
aproximadamente 95%.

Parámetro Insertar valor


N 537577
Z 1,96
p 50%
q 50%
e 2%

11
5. BIBLIOGRAFIA.

 Lectura fundamental encuentro ciencias básicas escenario 2


 Lectura fundamental encuentro ciencias básicas escenario 3
 Lectura fundamental encuentro ciencias básicas escenario 5
 https://ingenioempresa.com/histograma/
 https://techlandia.com/13074399/como-calcular-la-curtosis-y-el-sesgo

12

También podría gustarte