Unidad 4 y 5 - 6MV3

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 152

6MV3

Unidad 4 y 5
Estadistica y
Probabilidad
De Jesús González Azael Isaac
Gutiérrez Muños Luis David
Hernández Hernández Carlos
Quintero Corro Jaime Enrique
Ruiz López Josué Isaí
Unidad
temática
IV
4.1.Variable aleatoria continua
Una variable aleatoria continua, es aquella que puede asumir un número incontable de valores.
Por ejemplo:
Si realizamos el experimento de ir a una granja y estudiamos las características de las vaquitas, podemos definir la variable aleatoria B =
peso de una vaca en la granja de Jorge (en kilogramos).
Alguna vaquita puede pesar 425,1872 kg; otra puede pesar 612,5874541 kg; otra puede pesar 545,897512121 kg. Si tomamos más vacas,
podríamos tener más valores y nunca terminaríamos. Se conoce que el becerro más pequeño tiene un peso de 30 kg, y la vaca más grande
tiene un peso de 1000 kg.

Y así, tendríamos un número incontable de valores para el rango de esta variable. El rango de esta variable puede ser cualquier valor
dentro del intervalo que va desde 30 kg hasta 1000 kg, por ello, es una variable aleatoria continua.
Ejercicio 1. Se venden 5000 billetes para una rifa a 1 euro cada uno. Si el único premio del sorteo es de 1800 euros, calcular el resultado que debe
esperar una persona que compra 3 billetes.
RESOLUCIÓN.
Consideramos la variable aleatoria discreta
ξ = ‘cantidad de dinero obtenido en el juego’.
Los posibles valores de ξ son dos:
• Si se gana la rifa, se obtiene un beneficio de 1800−3 = 1777 euros. Por la Ley de Laplace, la probabilidad de que ocurra este hecho es de 3/5000.
• Si no se gana la rifa, resulta una pérdida de 3 euros. Nuevamente por la Ley de Laplace, la probabilidad de que esto ocurra es de 4997/5000.
Por lo tanto, la distribución de probabilidad para la variable aleatoria ξ será:

El resultado que debe esperar una persona que compra 3 billetes es

lo que interpretamos como que, en promedio, cabe esperar una pérdida de 1.93 euros.
Ejercicio 2. Una variable aleatoria discreta toma todos los valores enteros entre 0 y 4 con la siguiente función de densidad:

Calcular su esperanza y varianza.


Ejercicio 3. Un experimento consiste en lanzar tres veces una moneda. Sea la variable aleatoria: X ="número de
caras que se obtienen". Se pide:
a) Distribución de probabilidad de X
b) Función de distribución de X. Representación gráfica
c) Media, varianza y desviación típica de X d) Probabilidad de que salgan a lo sumo dos caras
e) Probabilidad de que salgan al menos dos caras
Ejercicio 4
4.2.Función de densidad de variable continua y momentos.
Sea X una variable aleatoria continua. Entonces, una función de densidad de probabilidad de X es una función f(x) tal que para dos
números cualesquiera a y b con a ≤ b,

La probabilidad de que X asuma un valor en el intervalo [a, b] es el área sobre este intervalo y bajo la gráfica de la función de densidad. Se puede
apreciar mejor en la siguiente gráfica:

La gráfica de f(x) se suele llamar curva de densidad.


La función de probabilidad de una variable aleatoria continua siempre cumplirá con estas condiciones:

En otros casos, el área bajo la curva tendrá forma de triángulo o rectángulo y será muy sencilla de calcular.
Ejemplo 1
A partir de la función de densidad de probabilidad f(x), calcular P(1 ≤ X ≤ 3)

Solución:
En este problema, nos piden calcular P(1 ≤ X ≤ 3). Y con la función de probabilidad de una variable aleatoria continua, las probabilidades
se calculan mediante el área bajo la curva, por ello:

Graficamos la función f(x) para que se vea mucho mejor:


Como queremos calcular la probabilidad de que nuestra variable aleatoria discreta X tome un valor
entre 1 y 3, entonces sombreamos el área bajo la función f(x) en ese intervalo:

Solo nos queda calcular el valor del área sombreada y en este caso se puede realizar de 2 formas diferentes: mediante la fórm ula del
rectángulo y mediante la integral definida de f(x) desde x igual a 1 hasta 3.
Con áreas:
Con integrales:

Obtuvimos el mismo resultado con ambos métodos, una probabilidad de 0,5 o 50%.
4.3.Distribución Uniforme
• Es el modelo más simple
• Aparece cuando una variable toma valores dentro de un intervalo [ , ] a b y su función de densidad permanece constante dentro de ese intervalo
• Esto implica que la probabilidad de que la variable tome valores en subintervalos de igual amplitud es la misma.
• Diremos que una variable aleatoria tiene una distribución uniforme en el intervalo [ , ] a b si su función de densidad es la siguiente:

En el denominador figura la amplitud del intervalo dominio de f(x)


• Representación gráfica:
Se comprueba fácilmente que es función de densidad
• Función de distribución:

Cálculo de probabilidades: muy simple

La probabilidad de que la variable uniforme tome valores en un intervalo determinado [ x x 1 2 , ] sólo depende de la amplitud de dicho intervalo 2 1 ( ),
x x − de manera que las probabilidades de intervalos con la misma amplitud serán idénticas.
Características:

a)Esperanza:

Es el punto medio del intervalo.


La mediana de la distribución coincide con la media y carece de moda (no tiene máximo absoluto).
b)Varianza:

• Un caso particular de distribución uniforme, de uso muy extendido, es la distribución uniforme en el intervalo[0,1 ,] es decir, X U~ [0,1 ]:

Aplicaciones de la distribución uniforme:


1.Situaciones de absoluta incertidumbre respecto a la probabilidad de los resultados de un experimento aleatorio (se admite que son
equiprobables).
2. Redondeo de las diferencias entre valores observados y reales. Se supone que el error se distribuye uniformemente en el intervalo
fijado por el redondeo (por ejemplo, de -0,5 a +0,5).
3. Aproximación de una distribución distinta de la uniforme en un intervalo muy pequeño.
4. La distribución uniforme [0,1] se utiliza en la generación de valores aleatorios (muestras) de cualquier variable.
Ejemplo 1
Ejemplo 2
4.4. Distribución de probabilidad normal y normal estándar
DISTRIBUCIÓN NORMAL

Una variable aleatoria continua, X, sigue una distribución normal de media μ y desviación típica σ, y se designa porN(μ, σ), si se cumplen las
siguientes condiciones:

1. La variable puede tomar cualquier valor: (-∞, +∞)

2. La función de densidad, es la expresión en términos de ecuación matemática de la curva de Gauss:

Curva de la distribución normal


* El campo de existencia es cualquier valor real, es decir, (-∞, +∞).
* Es simétrica respecto a la media µ.
* Tiene un máximo en la media µ.
* Crece hasta la media µ y decrece a partir de ella.
* En los puntos µ − σ y µ + σ presenta puntos de inflexión.
* El eje de abscisas es una asíntota de la curva.

El área del recinto determinado por la función y el eje de abscisas es igual a la unidad.
Al ser simétrica respecto al eje que pasa por x = µ, deja un área igual a 0.5 a la izquierda y otra igual a 0.5 a la derecha.
La probabilidad equivale al área encerrada bajo la curva.
p(μ - σ < X ≤ μ + σ) = 0.6826 = 68.26 %

p(μ - 2σ < X ≤ μ + 2σ) = 0.954 = 95.4 %

p(μ - 3σ < X ≤ μ + 3σ) = 0.997 = 99.7 %

DISTRIBUCIÓN NORMAL ESTÁNDAR


La distribución normal estándar, o tipificada o reducida, es aquella que tiene por media el valor cero, μ =0, y por desviación típica la unidad, σ
=1.

Su función de densidad es:


Su gráfica es:

La probabilidad de la variable X dependerá del área del recinto sombreado en la figura. Y para calcularla utilizaremos una tabla.

Tipificación de la variable

Para poder utilizar la tabla tenemos que transformar la variable X que sigue una distribución N(μ, σ) en otra variable Z que siga una distribución N(0,
1).
Ejemplo 1
Tablas para los problemas
La media de los pesos de 500 estudiantes de un colegio es 70kg y la desviación típica 3kg.

Suponiendo que los pesos se distribuyen normalmente, hallar cuántos estudiantes pesan:

1 Entre 60kg y 70kg.

Sustituyendo:

Localizando los valores en la tabla de distribución normal y operando:

Por lo tanto, si multiplicamos la probabilidad P(60 ¡ X≤75) por los estudiantes tenemos

De los 500 estudiantes 476 se encuentran entre los 60 y 75 kilogramos de peso.


En una ciudad se estima que la temperatura máxima en el mes de junio sigue una distribución normal, con media 23° y desviación típica
5°.

Calcular el número de días del mes en los que se espera alcanzar máximas entre 21° y 27°.

Utilizando la formula , vamos a sustituir el valor de la media (23), y la desviación típica (5).

Buscamos los valores correspondientes en la tabla de distribución normal:

Por lo tanto

Esto quiere decir, que en todo el mes, solo 13 días alcanzarán temperaturas entre 21 y 27 grados.
Varios test de inteligencia dieron una puntuación que sigue una ley normal con media 100 y desviación típica 15.

1 Determinar el porcentaje de población que obtendría un coeficiente entre 95 y 110.

Sustitución de valores en la formula:

El porcentaje de la población que obtendrá un puntaje entre 95 y 110 es de 37.79%.


Bibliografías.

5.1-Normal y Normal Estándar. (s/f). Edu.Mx. Recuperado el 11 de junio de 2024, de


http://cidecame.uaeh.edu.mx/lcc/mapa/proyecto/libro19/51normal_y_normal_estndar.html

Ejercicios resueltos de variables aleatorias. Ejercicios resueltos de distribuciones de densidad de variables continuas. (s/f ). Calculo.cc.
Recuperado el 11 de junio de 2024, de https://calculo.cc/temas/temas_estadistica/binomial_normal/problemas/prod_densidad.html

Ejercicios sobre distribucion normal. (s/f). Material Didáctico - Superprof. Recuperado el 11 de junio de 2024, de
https://www.superprof.es/apuntes/escolar/matematicas/probabilidades/distribucion-normal/ejercicios-de-la-distribucion-normal.html

Función de probabilidad de una variable aleatoria continua. (2020, febrero 7). MateMovil; Matemóvil. https://matemovil.com/funcion-de-
densidad-de-probabilidad/

(S/f-a). Ull.es. Recuperado el 11 de junio de 2024, de


https://campusvirtual.ull.es/ocw/pluginfile.php/6033/mod_resource/content/1/tema8/PR8.2-valeatorias.pdf

(S/f-b). Uma.es. Recuperado el 11 de junio de 2024, de https://riuma.uma.es/xmlui/bitstream/handle/10630/10390/8%20PIE-


%20MODELOS%20PROBABILIDAD%20VAC.pdf?sequence=1
4.5. Distribucion de probabilidad Beta, Gama, Weibull

Distribución Beta

La distribución beta es una distribución de probabilidad definida en el intervalo (0,1) y


parametrizada por dos parámetros positivos: α y β. Es decir, los valores de la distribución beta
dependen de los parámetros α y β.
Por lo tanto, la distribución beta sirve para definir variables aleatorias continuas cuyo valor
oscila entre 0 y 1.
Existen varias notaciones para denotar que una variable aleatoria continua está regida por una
distribución beta, las más comunes son:
Distribución gamma
La distribución gamma es una distribución de probabilidad continua definida por dos parámetros
característicos, α y λ. Es decir, la distribución gamma depende del valor de sus dos parámetros: α
es el parámetro de forma y λ es el parámetro de escala.
El símbolo de la distribución gamma es la letra griega mayúscula Γ. Por lo tanto, si una variable
aleatoria sigue una distribución gamma se escribe de la siguiente manera:

La distribución gamma también se puede parametrizar usando el parámetro de forma k=α y el


parámetro inverso de escala θ=1/λ. En cualquier caso, los dos parámetros que definen la
distribución gamma son números reales positivos.
En general, la distribución gamma se utiliza para modelar conjuntos de datos que son asimétricos a
la derecha, de manera que existe una mayor concentración de datos en la parte izquierda de la
gráfica. Por ejemplo, la distribución gamma se usa para modelar la fiabilidad de componentes
eléctricos.
Distribución de Weibull

La distribución de Weibull es una distribución de probabilidad continua que queda definida por dos
parámetros característicos: el parámetro de forma α y el parámetro de escala λ.
En estadística, la distribución de Weibull se usa principalmente para el análisis de supervivencia.
Asimismo, la distribución de Weibull tiene muchas aplicaciones en diferentes ámbitos.
Ejercicio 1
1. Tania ingresa a una rifa en la feria local y se pregunta cuáles son sus posibilidades de ganar. Si su
probabilidad de ganar puede modelarse mediante una distribución beta con α = 5 y β = 2, ¿cuál es la
probabilidad de que tenga como máximo un 10% de posibilidades de ganar?
Ejercicio 2
1. Una fábrica se apaga durante unas horas debido a una falla en la máquina y el gerente quiere saber qué
porcentaje de su producción diaria se perderá debido a eso. Si la proporción de producción perdida se puede
describir mediante una función beta con α = 50 y β = 49, ¿cuál es la probabilidad de que pierdan entre el 15% y el
20% de la producción diaria?
4.6. Distribución de probabilidad t de student

La Distribución t de Student, a menudo conocida simplemente como la Distribución t, es una distribución de


probabilidad que se emplea para modelar datos que siguen una distribución normal y que tienen tamaños de
muestra pequeños
La importancia de la Distribución t radica en su capacidad para abordar muestras pequeñas, donde la varianza
poblacional es desconocida. En tales casos, la Distribución t proporciona una herramienta valiosa para realizar
inferencias estadísticas con mayor precisión que la Distribución normal estándar (Z).

El funcionamiento de la Distribución t se basa en la relación entre la media de una muestra y la media


poblacional, ajustada por el tamaño de la muestra y la varianza poblacional desconocida. La fórmula general para
la Distribución t es la siguiente:

• es la media de la muestra.
•μ es la media poblacional (generalmente
desconocida).
•s es la desviación estándar de la muestra.
•n es el tamaño de la muestra
•t es el valor de la Distribución t.
Ejercicio 1
Un fabricante de focos afirma que usa producto durará un promedio de 500 horas de trabajo. Para conservar este
promedio esta persona verifica 25 focos cada mes. Si el valor y calculado cae entre –t 0.05 y t 0.05, él se
encuentra satisfecho con esta afirmación. ¿Qué conclusión deberá él sacar de una muestra de 25 focos cuya
duración fue?

520 521 511 513 510 µ=500 h


513 522 500 521 495
n=25
496 488 500 502 512
510 510 475 505 521 Nc = 90%
506 503 487 493 500
X = 505 36.

S=12.07
𝑋−𝜇
𝑡=
𝜎/ 𝑛

𝛼 = 1 − 𝑁𝑐 = 10
𝑉 = 𝑛 − 1 = 24
𝑡 = 2.22

Se puede concluir que la media poblacional no es 500,


porque la muestra poblacional está por encima de esta, y por
lo tanto debería estar por encima de 500.
Ejercicio 2
1. En la red de centros de menores de determinada región se quiere comprobar si para determinado
colectivo el promedio de intentos de fuga por interno es mayor a 3. Se selecciona aleatoriamente a 20
menores, obteniendo que el nº medio de intentos es 3,5, con una deviación típica de 2,7. Para un nivel de
confianza del 99%, ¿puede considerarse que efectivamente el promedio de intentos de fuga es mayor al
valor que se planteaba inicialmente?

Solución

Se trata de un contraste de hipótesis para una media, pues solo hay una muestra. Planteamos las hipótesis:

Ho: µ = 3
H1: µ > 3

La hipótesis nula mantiene que el promedio de intentos se mantiene en 3, mientras que la


hipótesis alternativa plantea, tal como se sospecha, que esa cantidad ha aumentado. Tenemos
entonces un contraste de hipótesis unilateral.

Antes de seleccionar la prueba, observamos los datos relativos al estudio realizado mediante
muestreo:
Ho: µ = 3
H1: µ > 3

La hipótesis nula mantiene que el promedio de intentos se mantiene en 3, mientras que la


hipótesis alternativa plantea, tal como se sospecha, que esa cantidad ha aumentado. Tenemos
entonces un contraste de hipótesis unilateral.

Antes de seleccionar la prueba, observamos los datos relativos al estudio realizado mediante
muestreo:

n = 20
𝑥̅ = 3,5
𝑠𝑥 = 2,7
Nc = 0,99 por lo que el nivel de significación es α = 0,01

Como el tamaño muestral es n ≤ 30, debemos usar para la prueba el estadístico t-Student con n-
1 grados de libertad.

𝑥̅ − µo 𝑠𝑥
t= donde 𝜎𝑥̅ =
𝜎𝑥 √𝑛−1

2,7
𝜎𝑥̅ = = 0,6194224
√20−1

3,5−3
te = = 0,807
0,619422
Este es el valor empírico del contraste mediante t-Student que debemos comparar con el valor crítico (tα).
Siendo α = 0,01 y un contraste unilateral, debemos localizar en la tabla de la distribución t-Student el valor de t
correspondiente a n-1 grados de libertad, es decir, a 19 grados de libertad.

En la tabla vemos que para esos datos el valor crítico de t es 2,539. Al comparar el t empírico (te) con el t crítico
(tα) vemos que 0,807 < 2,539:

Vemos que el valor


empírico resultado de la
prueba te no está en la
región de rechazo de H0,
por lo que no existen
evidencias
estadísticamente
significativas que nos
permitan rechazarla. No
podemos afirmar que el
promedio de intentos de
fuga por menor en la red de
centros de menores de esa
ciudad sea superior a 3
intentos por menor
Ejercicio 3
La longitud de los tornillos fabricados en una fábrica tienen media μ=10 mm y desviación s=1 mm, calcular la
probabilidad de que en una muestra de tamaño n=25, la longitud media del tornillo sea inferior a 20.5 mm:

La probabilidad que la longitud media de la muestra de 25 tornillos sea inferior a 20.5 mm es del 99.02%
Ejercicio 4
En una encuesta del CIS (diciembre de 2014) se observa que la proporción de españoles que leen
semanal o diariamente es del 45,4%, una proporción menor a la que señalaba en 2012 la Federación de
Gremios de Editores de España (47,2%). Sabiendo que la encuesta ha sido respondida por 2.477
individuos, ¿se puede considerar significativo este descenso en la proporción de lectores habituales
para un nivel de significación de 0,01?

Estamos ante un problema de contraste de hipótesis para una proporción, pues solo tenemos una
muestra. Nuestros datos son:
Proporción empírica (obtenida de la muestra): p = 0,454
Proporción teórica poblacional (procedente de estudios o datos anteriores):
P = 0,472
Tamaño de la muestra: n=2.477
Nivel de significación: a = 0,01
Planteamos las hipótesis que someteremos a contraste:

Tenemos un contraste unilateral en el sentido "menor que". Dado que la proporción obtenida en el
estudio más reciente del CIS es de menor magnitud que el anterior dato de 2012, nuestro objetivo es
comprobar si realmente se puede considerar significativo ese descenso en la cantidad de lectores diarios
o semanales. Por eso, la hipótesis alternativa se plantea en el sentido "menor que" respecto al dato
anterior.
Para elegir el estadístico de contraste adecuado, es necesario observar la relación entre el tamaño de la
muestra y el tamaño de la población. Como la población es suficientemente grande (N ≥20n) no hace
falta introducir el factor de corrección de poblaciones finitas (cpf).
Efectivamente, la población española (N), que es el colectivo al que va dirigida la encuesta del CIS, es
mucho mayor que 20 veces el tamaño de la muestra utilizada (n). Por ello, el estadístico de prueba que
debemos usar para resolver el contraste es:
Sabemos que Q = 1-P = 1 - 0,472 = 0,528

Debemos ahora comprobar en las tablas para la curva normal el valor de Z que corresponde al nivel de
significación 0,01 y compararlo con el Z empírico (Ze) que hemos obtenido de la prueba.
El Z crítico para a = 0,01 es -2,33. Hay que recordar que tenemos un contraste unilateral en el sentido
"menor que" y, aunque los Z tengan signo negativo, lo que nos interesa comparar es el valor absoluto.
Como |Ze|<|Zal, es decir|-1,8|<|-2,33|, Z, cae en la región de "aceptación" de Ho (recordemos que, en
sentido estricto no podemos "aceptar" la hipótesis nula; solo podemos concluir que no la podemos
rechazar)
Para un nivel de confianza del 99% concluimos que no hay evidencias estadísticamente significativas para
rechazar la hipótesis nula (Ho). No podemos afirmar que para ese nivel de confianza haya disminuido
significativamente la proporción de españoles que leen diaria o semanalmente.
Sin embargo, esta es la conclusión con un nivel de confianza del 99%, pero ¿qué pasaría si bajamos un poco el
nivel de exigencia y consideramos un nivel de confianza del 95%? La respuesta es sencilla, no hay más que
comparar el valor Z obtenido en la prueba con el correspondiente en las tablas para un nivel de significación de
0,05.
4.7. Distribución de probabilidad Ji cuadrada
La distribución chi-cuadrado es una distribución de probabilidad cuyo símbolo es χ². En concreto, la
distribución chi-cuadrado es la suma del cuadrado de k variables aleatorias independientes con distribución
normal.

Así pues, la distribución chi-cuadrado tiene k grados de libertad. Por lo tanto, una distribución chi-cuadrada
tiene tantos grados de libertad como la suma de los cuadrados de variables con distribución normal que
representa.
Ejercicio 1
En este ejemplo, queremos usar los datos para determinar si la elección del programa de los
estudiantes universitarios depende del género. Primero, necesitamos establecer una hipótesis
nula, prediciendo que el programa de matrícula de los estudiantes es independiente de su
género. Los resultados de nuestra prueba de chi cuadrado determinarán si debemos aceptar o
refutar la hipótesis nula. Los estadísticos normalmente aceptan la hipótesis nula si el valor p es
0.05 o más. Aquí están los datos:
Dado que hay tres categorías (ciencia, arte y educación), el grado de libertad es 2. Siguiendo la fila
para un grado de libertad de 2 en la tabla de chi cuadrado, buscamos los valores más cercanos a
nuestro valor de chi cuadrado de 10. 10 cae entre 9.21 y 10.597, por lo que nuestro valor p cae entre
los valores p correspondientes de 0.01 y 0.005. Dado que esto cae por debajo del valor p de 0.05,
rechazaríamos la hipótesis nula. Esto nos dice que según nuestros datos, el programa de elección
depende del género.
Ejercicio 2
Supóngase que los investigadores desean conocer si la preferencia por el café negro está
relacionada con el género de la persona, y especificar la respuesta con un nivel de significancia de
α = 0.05.

Para ello se dispone de una muestra de 100 personas entrevistadas y sus respuestas:
Establecer las hipótesis:

-Ho: el género y la preferencia por el café negro son independientes.


-H1: el gusto por el café negro está relacionado con el género de la persona.

Calcular las frecuencias esperadas para la distribución, para lo cual se requieren los totales añadidos
en la última fila y en la columna de la derecha de la tabla. Cada celda en el recuadro rojo tiene un valor
esperado fe, que se calcula multiplicando el total de su fila F por el total de su columna C, dividido por
el total de la muestra N:

fe = (F x C) /N

Los resultados son los siguientes para cada celda:

-C1: (36 x 47) / 100 = 16.92


-C2: (64 x 47) / 100 = 30.08
-C3: (36 x 53) / 100 = 19.08
-C4: (64 x 53) / 100 = 33.92
Seguidamente hay que calcular el estadístico chi cuadrado para esta distribución, de acuerdo a la
fórmula dada:

Determinar χ2crítico, sabiendo que los datos registrados están en f = 2 filas y c = 2 columnas, por lo
tanto, el número de grados de libertad es:

k = (2-1)⋅(2-1) = 1.

Lo cual significa que debemos buscar en la tabla mostrada arriba el valor de χ2k, α = χ21; 0.05 , el
cual es:

χ2crítico = 3.841
χ2 = 2.9005

χ2crítico = 3.841

Dado que χ2 χ2crítico se acepta la hipótesis nula y se concluye que la preferencia por el café negro no
está vinculada con el género de la persona, con un nivel de significación de 5%.
Ejercicio 3
El propietario de un negocio había estado trabajando para mejorar las relaciones con los
empleados en su empresa. Predijo que cumplió con su objetivo de aumentar la satisfacción de los
empleados del 65% al ​80%. Se preguntó a los empleados de cuatro departamentos si estaban
satisfechos con las condiciones laborales de la empresa. Los resultados se muestran en la
siguiente tabla:
Podemos usar chi cuadrado para determinar si los resultados apoyan o rechazan la predicción del
propietario de la empresa.

Nuestro primer paso es calcular los valores predichos para poder compararlos con los valores reales de
la encuesta. El número previsto de empleados satisfechos es el 80% del número total de empleados en
cada departamento. Esto deja el 20% restante como el número de empleados insatisfechos. Por
ejemplo, el número previsto de empleados satisfechos en el departamento de finanzas es 0,80 (19) =
15,2. El número previsto de empleados insatisfechos en el departamento de finanzas es 0,20 (19) =
3,8. La siguiente tabla muestra los valores observados y esperados para cada departamento. Los
valores observados están en negrita y los valores esperados están entre paréntesis.
El siguiente paso es usar la tabla de chi cuadrado que se encuentra al comienzo de la lección para
encontrar el valor p . Debido a que nuestros datos tienen cuatro categorías (los cuatro
departamentos de la empresa), nuestro grado de libertad es tres. Siguiendo la fila para un grado de
libertad de tres, queremos encontrar el valor más cercano al valor de chi cuadrado de 11,6806. El
valor más cercano es 11,345, que corresponde a un valor p de 0,01. Es común que los estadísticos
usen un valor p de 0.05 para determinar si la hipótesis debe aceptarse o rechazarse. Dado que
nuestro valor p es menor que 0.05, la hipótesis debería rechazarse. En otras palabras, los datos no
respaldan la predicción del gerente comercial de que aproximadamente el 80% de los empleados
están satisfechos.
Ejercicio 4
Muchos casinos utilizan máquinas de reparto de cartas para repartir cartas al azar.
Ocasionalmente, la máquina se prueba para garantizar la misma probabilidad de negociar para
cada palo. Para realizar la prueba, se reparten 1.500 cartas desde la máquina, mientras se cuenta
el número de cartas de cada palo. En teoría, se deberían repartir 375 cartas de cada palo. Como
puede ver en los resultados de nuestra tabla, este no es el caso:
Podemos usar chi cuadrado para determinar si las discrepancias son significativas. Si las
discrepancias son importantes, entonces el juego no sería justo. Deberían tomarse medidas para
garantizar que el juego sea justo.

Este ejemplo tiene cuatro categorías de datos, por lo que el grado de libertad es tres. El valor
más alto que se muestra en nuestra tabla de chi cuadrado para un grado de libertad de tres es
12,838, que corresponde a un valor p de 0,005. Nuestro valor de chi cuadrado de 53.0294 es
mayor que 12.838 y nos dice que el valor p sería menor que 0.005. Esto nos permite rechazar la
hipótesis, lo que significa que las discrepancias son significativas. Por lo tanto, usar la máquina
de repartir cartas no sería un juego justo.
4.8. Distribucion de probabilidad F
La distribución F o distribución de Fisher-Snedecor es la que se usa para comparar las
varianzas de dos poblaciones diferentes o independientes, cada una de las cuales sigue una
distribución normal.
La variable aleatoria F o estadístico F propuesto por Ronald Fisher (1890 – 1962) es el que se
usa más frecuentemente para comparar las varianzas de dos poblaciones y se define de la
siguiente manera:

Siendo s2 la varianza muestral y σ2 la varianza poblacional. Para distinguir cada uno de los dos
grupos poblacionales, se utilizan los subíndices 1 y 2 respectivamente.

Se sabe que la distribución ji-cuadrada con (n-1) grados de libertad es la que sigue la variable
auxiliar (o estadístico) que se define a continuación:

X2 = (n-1) s2 / σ2.
Por lo tanto, el estadístico F sigue una distribución teórica dada por la siguiente fórmula:

Siendo U la distribución ji-cuadrada con d1 = n1 – 1 grados de libertad para la población 1 y V la


distribución ji-cuadrada con d2 = n2 – 1 grados de libertad para la población 2.
El cociente definido de esta forma es una nueva distribución de probabilidad, conocida como
distribución F con d1 grados de libertad en el numerador y d2 grados de libertad en el denominador.
Ejercicio 1
Considere dos muestras de poblaciones que tienen la misma varianza poblacional. Si la
muestra 1 tiene tamaño n1 = 5 y la muestra 2 tiene tamaño n2 = 10, determine la probabilidad
teórica que el cociente de sus varianzas respectivas sea menor o igual a 2.

Debe recordarse que el estadístico F se define como:

Pero se nos dice que las varianzas poblacionales son


iguales, por lo que para este ejercicio se aplica:
Como se desea saber la probabilidad teórica de que este cociente de varianzas muestrales sea
menor o igual a 2, necesitamos conocer el área bajo la distribución F entre 0 y 2, el cual puede
obtenerse por tablas o software. Para esto ha de tenerse en cuenta que la distribución F requerida
tiene d1 = n1 – 1 = 5 – 1 = 4 y d2 = n2 – 1 = 10 – 1 = 9, es decir la distribución F con grados de
libertad (4, 9).

Mediante el uso de la herramienta estadística de geogebra se determinó que esta área es 0.82, por
lo que se concluye que la probabilidad que el cociente de varianzas muestrales sea menor o igual a
2 es del 82%.
Como se desea saber la probabilidad teórica de que este cociente de varianzas muestrales sea
menor o igual a 2, necesitamos conocer el área bajo la distribución F entre 0 y 2, el cual puede
obtenerse por tablas o software. Para esto ha de tenerse en cuenta que la distribución F requerida
tiene d1 = n1 – 1 = 5 – 1 = 4 y d2 = n2 – 1 = 10 – 1 = 9, es decir la distribución F con grados de
libertad (4, 9).

Mediante el uso de la herramienta estadística de geogebra se determinó que esta área es 0.82, por
lo que se concluye que la probabilidad que el cociente de varianzas muestrales sea menor o igual a
2 es del 82%.
Ejercicio 2
Se tienen dos procesos de manufactura de láminas delgadas. La variabilidad del espesor debe
ser lo menor posible. Se toman 21 muestras de cada proceso. La muestra del proceso A tiene
una desviación estándar de 1,96 micras, mientras que la del proceso B tiene desviación
estándar de 2,13 micras. ¿Cuál de los procesos tiene menor variabilidad? Utilizar un nivel de
rechazo del 5%.
Los datos son los siguientes: Sb = 2,13 con nb = 21; Sa = 1,96 con na = 21.
Esto significa que ha de trabajarse con una distribución F de (20, 20) grados
de libertad.

La hipótesis nula implica que la varianza poblacional de ambos procesos es


idéntica, es decir σa^2 / σb^2 = 1. La hipótesis alternativa implicaría varianzas
poblacionales diferentes.

Entonces, bajo la suposición de varianzas poblacionales idénticas, se define el


estadístico F calculado como: Fc = (Sb/Sa)^2.

Como el nivel de rechazo se ha tomado como α= 0,05, entonces α/2= 0,025


La distribución F(0.025; 20,20) = 0,406, mientras que F(0.975; 20,20) = 2,46.
Por lo tanto, la hipótesis nula será cierta si el F calculado cumple:
0,406≤Fc≤2,46. De lo contrario se rechaza la hipótesis nula.

Como Fc=(2,13/1,96)^2 = 1,18 se concluye que el estadístico Fc está en el


rango de aceptación de la hipótesis nula con una certeza del 95%. En otras
palabras con una certeza del 95% ambos procesos de manufactura tienen la
misma varianza poblacional.
Ejercicio 3
Se realizó un estudio para decidir si hay o no la misma variabilidad en la presión sanguínea
sistólica entre hombres y mujeres. Se utilizaron muestras aleatorias de 16 hombres y 13 mujeres
para contrastar la afirmación de los investigadores en el sentido de que las variancias eran
diferentes. Utiliza α=0.05 y los siguientes datos:

Hombres: 120 120 118 112 120 114 130 114 124 125 130 100 120 108 112 122
Mujeres: 122 102 118 126 108 130 104 116 102 122 120 118 130

S12=62.19
S22=98.34

F=16-198.3413-162.34=1.97
Ejercicio 4
Se requiere que la temperatura permanezca constante durante la operación de horneado. Se hizo
un estudio para medir la varianza en la temperatura de los dos hornos en funcionamiento. Antes
de que el termostato reestableciera la flama, la variancia en la temperatura del horno A fue iguala
2.4, resultante de 16 medidas. La variancia del horno B fue 3.2, resultante de 12 mediciones..
Proporciona esta información evidencia suficiente para concluir que existe una diferencia en las
variancias para los dos hornos. Utiliza α=0.01.

Horno 1 | Horno 2 | N1= 16 | N2= 12 | σ2= 2.4 | σ2= 3.2 | F=16-13.212-12.4(1)=1.81

F(11,15,0.05)
Ejercicio 5
Para una distribución F encuentra:

a) f0.05 con gl=7 y gl=15; = 2.71

b) f0.05 con gl=15 y gl=7; = 3.51

c) f0.01 con gl=24 y gl=19; = 2.92

d) f0.95 con gl=19 y gl=24; = 1/F = 1/(24,19,0.05) = 1/ 2.11 = 0.4339

e) f0.99 con gl=28 y gl=12; = 1/F = 1/(12,28,0.01) = 1/ 2.9 = 0.3448


Referencias
Zapata, F. (2022, December 15). Distribución F: características y ejercicios resueltos. Lifeder. https://www.lifeder.com/distribucion-f/

Chi-cuadrado (χ2): distribución, cómo se calcula, ejemplos. (2020, August 11). https://definicion.edu.lat/academia/F874AD9AFCFABB8C6D7B6126911E4649.html#Ejemplo_de_calculo

Estadística, P. Y. (2023, August 2). Distribución de probabilidad. Probabilidad Y Estadística. https://www.probabilidadyestadistica.net/distribucion-de-probabilidad/#google_vignette


Unidad
temática V
Muestreo estadistico
El muestreo estadístico es una técnica utilizada en estadística para seleccionar una muestra representativa de
una población más grande. Esta metodología permite hacer inferencias sobre la población completa sin tener
que estudiar cada individuo, lo cual sería costoso y, a menudo, impracticable. Aspectos clave del muestreo
estadístico:

Tipos de Muestreo

1. Muestreo Aleatorio Simple: Cada miembro de la población tiene la misma probabilidad de ser
seleccionado. Se puede realizar mediante métodos como sorteo o usando tablas de números aleatorios.

2. Muestreo Sistemático: Se selecciona un punto de inicio aleatorio y luego se elige cada k-ésimo
elemento de la población. Es más fácil de administrar que el muestreo aleatorio simple
•Muestreo Estratificado: La población se divide en subgrupos o estratos homogéneos, y se toma una muestra aleatoria de
cada estrato. Esto asegura que se representen todos los subgrupos importantes.

•Muestreo por Conglomerados: La población se divide en grupos o conglomerados, y se selecciona aleatoriamente algunos
conglomerados para estudiar todos los elementos dentro de ellos. Es útil cuando los elementos de la población están
naturalmente agrupados.

•Muestreo de conveniencia: se elige una muestra basada en la facilidad de acceso. Aunque no es aleatorio puede ser útil
Para estudios exploratorios

•Muestreo por cuotas: se seleccionan muestras que cumplan con cuotas predefinidas, asegurando que la muestra refleje
Ciertas características de la población
Nivel de confianza y coeficientes de acuerdo a la campana
de guaus
Pasos en el Proceso de Muestreo

1. Definir la Población: Identificar claramente la población de interés.


2. Determinar el Tamaño de la Muestra: Decidir cuántos individuos serán incluidos en la muestra,
utilizando métodos estadísticos para asegurar que sea representativa.
3. Seleccionar el Método de Muestreo: Elegir el tipo de muestreo más adecuado según los objetivos del
estudio y las características de la población.
4. Recoger los Datos: Obtener la información necesaria de los individuos seleccionados.
5. Analizar los Datos: Utilizar técnicas estadísticas para analizar los datos y hacer inferencias sobre la
población.
6. Importancia y Ventajas
• Economía de Recursos: Reduce costos y tiempo comparado con estudiar toda la población.
• Precisión: Permite obtener estimaciones precisas cuando se realiza correctamente.
• Facilidad de Gestión: Simplifica la recolección y análisis de datos
Formulas
Para calcular el tamaño de una muestra para una población finita

(𝑁)(𝑍)(𝑝)(𝑞)
𝑛=
𝑒2 𝑁 − 1 + (𝑍)(𝑝)(𝑞)
Donde:
N= Tamaño de población o universo
n= Tamaño de muestra buscado
Z= Parámetros estadísticos
e = error de estimación máximo aceptado
p= probabilidad de que ocurra el evento estudiado ( éxito)
q=probabilidad de que no ocurra el evento estudiado (1-p)
Muestreo aleatorio
Tamaño de muestra para estimar una proporción

𝑍 2 (𝑝)(1 − 𝑝)
𝑒2
Donde:
Z= Parámetros estadísticos
e = error de estimación máximo aceptado
p= probabilidad de que ocurra el evento estudiado ( éxito)
q=probabilidad de que no ocurra el evento estudiado (1-p)

Tamaño de muestra para estimar una media

(𝑍 2 )(𝜎 2 )
𝑒2
Donde:
Z= Parámetros estadísticos
e = error de estimación máximo aceptado
𝜎 2 = varianza del dato buscado
Muestreo estratificado
Tamaño de muestra para estimar una proporción

𝑍 2 σ𝐿ℎ=1 𝑊ℎ 𝑝ℎ (1 − 𝑝ℎ )
𝑒2
Donde:
Z= Parámetros estadísticos
e = error de estimación máximo aceptado
𝑊ℎ = tamaño del estrato respecto al total de la muestra
𝑝ℎ = probabilidad de que ocurra el evento estudiado dentro de los estratos

Tamaño de muestra para estimar una media


𝑍 2 σ𝐿ℎ=1 𝑊ℎ 𝜎 2
𝑒2
Donde:
Z= Parámetros estadísticos
e = error de estimación máximo aceptado
𝑊ℎ = tamaño del estrato respecto al total de la muestra
𝜎 2 = varianza del dato buscado
Muestreo estratificado optimo
Tamaño de muestra para estimar una proporción

𝑍 2 (σ𝐿ℎ=1 𝑊ℎ 𝑝ℎ (1 − 𝑝ℎ ))2
𝑒2
Donde:
Z= Parámetros estadísticos
e = error de estimación máximo aceptado
𝑊ℎ = tamaño del estrato respecto al total de la muestra
𝑝ℎ = probabilidad de que ocurra el evento estudiado dentro de los estratos

Tamaño de muestra para estimar una media

𝑍 2 (σ𝐿ℎ=1 𝑊ℎ 𝜎)2
𝑒2
Donde:
Z= Parámetros estadísticos
e = error de estimación máximo aceptado
𝑊ℎ = tamaño del estrato respecto al total de la muestra
𝜎 = varianza del dato buscado
Muestreo por conglomerados
El tamaño de toda la población se determina de la siguiente manera
𝑛

𝑀 = ෍ 𝑚𝑖
𝑖=1

El tamaño promedio de los conglomerados de toda la población se calcula de la siguiente manera

𝑀
Ṁ=
𝑁
Estimación de la media

σ𝑛𝑖=1 𝑦𝑖
𝑦= 𝑛
σ𝑖=1 𝑚𝑖
Ejercicios
Se requiere estudiar la preferencia de un nuevo partido político en una población sobre la cual no se ha hecho
ningún estudio anterior , se acepta un margen de error máximo del 2%. Determine el tamaño de la muestra con
un nivel de confianza del 90% ( Z=1.645)

Datos
(𝑍2 )(𝑝)(𝑞)
p=0.5 𝑛=
q=(1-p) 𝑒2
=(1-0.5)=0.5
Z= 1.645 (1.6452 )(0.5)(0.5)
e=2%=0.02 𝑛=
0.022

0.6765
𝑛= = 1691.2656
0.0004
Ejercicios
Tomando la siguiente muestra realice una muestra sistemática de 5 estudiantes con un arranque en A=2

nombre numero color


nombre Numero color
1 Juan Rojo
9 Jose Gris
2 Raul Azul
10 Arturo Violeta
3 Andres Amarillo
11 Janna Verde
4 Jon Negro
12 Ximena Café
5 Diana Blanco
13 Alberto Rosa
6 Carolina Naranja
14 Adrian Fiusha
7 Eduardo Dorado
15 Marco plateado
8 monica morado
𝑁 15
𝐾= = =3
Datos: 𝑛 5
N=15
n=5 A=2 K=3
A=2 Para obtener la muestra sistemática utilizamos la siguiente formula

(A+K)
2+3=5
5+3=8
8+3=11
11+3=14

Por lo tanto la muestra sistemática es

numero nombre color


2 Raúl azul
5 diana blanco
8 Mónica morado
11 janna verde
14 Adrián fiusha
Ejercicios
Suponer que estamos investigando sobre el porcentaje de estudiantes que trabajan, en una población de 20
estudiantes, con un arranque A=1 . La base de datos de la población es:

Nombre ¿Trabaja? Nombre Trabaja


Rosa Si Carolina No
Aby No Uriel No
Isaac No Víctor Si
Saul No Marcos No
Gabriel Si Memo No
Valentina Si Josué No
Laila No Yahir No
Briseida No Yael No
Celeste No Daniela Si
Marisol Si Brisa Si
𝑁 20
𝐾= = =4
Datos: 𝑛 5
N=20
n=5 A=1 K=4
A=1 Para obtener la muestra sistemática utilizamos la siguiente formula

(A+K)
1+4=5
5+4=9
9+4=13
13+4=17

Por lo tanto la muestra sistemática es

numero nombre ¿trabaja ?


2 Aby No
5 Gabriel Si
9 Celeste No
13 Victor Si
17 Yahir No
Ejercicios
Se desean saber las proporciones de artículos defectuosos en una población de 25000. Para un estudio de
nivel de confianza del 95%(Z=1.96) y un error del 0.2, suponiendo que un estudio anterior produjo 18 artículos
defectuosos de cada 100. ¿De que tamaño tiene que ser la muestra?

Datos (𝑁)(𝑍)(𝑝)(𝑞)
p=0.82 𝑛=
q=(1-p) 𝑒 2 𝑁 + 𝑍2 (𝑝)(𝑞)
=(1-0.82)=0.18
Z= 1.96 (25000)(1.96)(0.82)(0.18)
e=0.2 𝑛=
N=25000 0.22 (25000) + 1.962 (0.82)(0.18)

14175.504
𝑛=
1000 + 0.5670

𝑛 = 14.1674
Ejercicios
Se desea estudiar la aceptación de un nuevo jugo en una población en la cual no se ha realizado ningún estu
dio con un margen de error del 4% y un nivel de confianza del 96%(Z=2.05)

Datos (𝑍2 )(𝑝)(𝑞)


p=0.5
𝑛=
𝑒2
q=(1-p)
=(1-0.5)=0.5
Z= 2.05
(2.052 )(0.5)(0.5)
𝑛=
e=4%=0.04 0.042

1.05
𝑛= = 656
0.0016
Bibliografía
Ochoa, C. (2015, 16 abril). Muestreo probabilístico: muestreo estratificado. https://www.netquest.com/blog/muestreo-probabilistico-
muestreo-estratificado

Intervalo de confianza - nivel de confianza - margen de error. (s. f.). https://diccio-


mates.blogspot.com/2011/05/intervalo-de-confianza-nivel-de.html

Tamaño de la muestra. Qué es y cómo calcularla. | QuestionPro. (s. f.). https://www.questionpro.com/es/tama%C3%B1o-de-la-muestra.html


Teorema de limite central
El teorema del límite central es un teorema fundamental de probabilidad y estadística. El teorema describe la
distribución de la media de una muestra aleatoria proveniente de una población con varianza finita. Cuando
el tamaño de la muestra es lo suficientemente grande, la distribución de las medias sigue aproximadamente
una distribución normal. El teorema se aplica independientemente de la forma de la distribución de la
población.

El teorema de límite central le permite aplicar estos procedimientos útiles a poblaciones que son
considerablemente no normales. El tamaño que debe tener la muestra depende de la forma de la distribución
original. Si la distribución de la población es simétrica, un tamaño de muestra de 5 podría producir una
aproximación adecuada. Si la distribución de la población es considerablemente asimétrica, es necesario un
tamaño de muestra más grande. Por ejemplo, la distribución de la media puede ser aproximadamente normal
si el tamaño de la muestra es mayor que 50. Las siguientes gráficas muestran ejemplos de cómo la
distribución afecta el tamaño de la muestra que se necesita.
Muestra de una población uniforme
Una población que sigue una distribución uniforme es simétrica, pero marcadamente no normal, como lo
demuestra el primer histograma. Sin embargo, la distribución de las medias de 1000 muestras de tamaño 5
de esta población es aproximadamente normal debido al teorema del límite central, como lo demuestra el
segundo histograma. Este histograma de las medias de las muestras incluye una curva normal superpuesta
para ilustrar esta normalidad.
Muestra de una población exponencial
Una población que sigue una distribución exponencial es asimétrica y no normal, como lo demuestra el
primer histograma. Sin embargo, la distribución de las medias de 1000 muestras de tamaño 50 de esta
población es aproximadamente normal debido al teorema del límite central, como lo demuestra el segundo
histograma. Este histograma de las medias de las muestras incluye una curva normal superpuesta para
ilustrar esta normalidad.
Formulas
Parámetro Distribución de la Muestra Distribución muestral
población de las p

Media
𝜇 = (𝑛)(𝑝) 𝑋
𝑃, = p' y E(p') = p
𝑛

Desviación típica
𝑝(1 − 𝑝)
𝜎= (𝑛)(𝑝)(𝑞) 𝜎𝑝, =
𝑛
Formulas
Sea x una variable aleatoria cualquiera de media µ y desviación típica 𝜎 , entonces; si el tamaño muestral n
es suficientemente grande (en la practica suele valer n>30), la distribución de las medidas muestrales se
aproxima a la de la normal, por lo tanto:

𝑋−𝜇
𝑍= 𝜎
𝑛
Si x1, x2, xn es una muestra aleatoria de tamaño n tomada de una población con media µ y varianza
entonces el limite de la distribución es:
Ẋ−𝜇
Ẑ= 𝜎
𝑛
Cuando n=infinito, es la distribución normal
Ejercicios
Una ciudad tiene 20 tiendas de una cadena igual de tamaño. La desviación estándar de la rotación del
personal en un año es de 75. Si tomamos una muestra de 5 tiendas sin reemplazo, determine el error
estándar de la media.

Datos
N=20 𝜎 𝑁−𝑛
n=5
𝜎𝑥 = ∗
𝑛 𝑁−1
𝜎=75

75 20 − 5
𝜎𝑥 = ∗ = 33.54 ∗ (0.885)
5 20 − 1

𝜎𝑥 =29.8011
Ejercicios
Una empresa de material eléctrico fabrica bombillas que tienen una duración que se distribuye
aproximadamente en forma normal con media de 800 horas y con desviación estándar de 40 horas. Calcule
la probabilidad de que una muestra aleatoria de 16 bombillas tenga una vida promedio de menos de 775
horas.

40
𝜎𝑥 = = 10
16

𝜇=800

𝑋−𝜇 775−800
𝑍= 𝜎 = = −2.5
10
𝑛

𝑃 𝑋 < 775 = 𝑃 𝑍 < −2.5

=0.0062*100=0.62%
Ejercicios
El viaje en autobús para ir de un campus de una universidad a un campus de otra ciudad toma en promedio
28 minutos, con una desviación estándar de 5 minutos. En cierta semana un autobús hizo el viaje 40 veces.
Cual es la probabilidad de que el tiempo promedio del viaje sea mayor a 30 minutos?. Suponga que el tiempo
promedio se redondea al entero mas cercano.

𝑥 − 28 30.5 − 28 25
𝑃 𝑥 > 30 = 𝑃 ≥ = = 3.16
5 5 0.791
40 40

𝑃 𝑍 ≥ 3.16 = 0.9992
1 − 0.9992 = 0.0008 = 0.08%
Ejercicios
Si cierta maquina fabrica resistencias eléctricas que tienen una resistencia media de 40 ohms y una
desviación estándar de 20 ohms, ¿Cuál es la probabilidad de que una muestra aleatoria de 36 de estas
resistencias tengan una resistencia combinada de mas de 1458 ohms?

Datos
n=36
1458
Ẋ= = 40.5
M=40 36
𝜎=2
40.5 − 40
𝑃 𝑋 > 40.5 = 𝑃 𝑍 > = 𝑃 𝑍 > 1.5 = 𝑃 𝑍 < 1.5
2
36

𝑃 𝑋 > 40.5 = 0.668


Ejercicios
La distribución de alturas de cierta raza de perros terrier tiene una media de 72 cm y una desviación estándar
de 10 cm; en tanto que la distribución de alturas de ciertas raza de poodles tiene una media de 28 cm con
una desviación estándar de 5 cm. Suponga que las medidas muestrales se pueden medir con cualquier
grado de precisión y calcule la probabilidad de que la media muestral de una muestra aleatoria de alturas de
64 terriers exceda la media muestral para una muestra aleatoria de alturas de 100 poodles a lo sumo 44.2
cm.

Datos 𝑋1 −𝑋2 − (𝑀1 −𝑀2 )


𝑍=
𝜎1 2 𝜎2 2
𝑀1 = 72 𝑛1 + 𝑛2
𝜎1 = 10
𝑁1 = 64 44.2−(72−28)
𝑃 (𝑋1 −𝑋2 < 44.2) = 𝑃 𝑍 < = 𝑃 𝑍 < 1.5
102 52
+
64 100
𝑀2 = 28
𝜎2 = 5 𝑃 (𝑋1 −𝑋2 < 44.2) =0.5596
𝑁2 = 100
Bibliografía
El teorema del límite central: las medias de muestras grandes y aleatorias son aproximadamente normales - Minitab. (s. f.). (C) Minitab, LLC. All
Rights Reserved. 2024. https://support.minitab.com/es-mx/minitab/help-and-how-to/statistics/basic-statistics/supporting-topics/data-concepts/about-
the-central-limit-theorem/

Holmes, A., Illowsky, B., & Dean, S. (2022, 14 febrero). 7.3 Teorema del límite central de las proporciones - Introducción a la estadística
empresarial | OpenStax. https://openstax.org/books/introducci%C3%B3n-estad%C3%ADstica-empresarial/pages/7-3-teorema-del-limite-central-de-
las-proporciones
Estimacion puntual
1. El objetivo de la estimación puntual es aproximar el valor del parámetro desconocido (tiempo medio de
ejecución de un algoritmo, altura media de las mujeres de una población, diferencia del resultado medio
entre dos tratamientos médicos, proporción de gente que mejora con un tratamiento médico…). Para
ello se utiliza la información de la muestra (x1,x2,…,xn)(𝑥1,𝑥2,…,𝑥𝑛), a través de un estimador.
Algunos estimadores frecuentes son:

•Media muestral, para estimar la media teórica de una variable X

𝑥1 +𝑥2 +𝑥𝑛
𝑋=
𝑛
•Proporción muestral, para estimar una proporción p
𝑥1 +𝑥2+𝑥𝑛
P=
𝑛

•Varianza muestral, para estimar la varianza teórica de una población

2 2
𝑥1 + 𝑥 … . 𝑥𝑛 + 𝑥
𝑆2 =
𝑛
•Casi-varinza muestral que corresponde a la varianza de la muestra dividida ente n-1

𝑥1 + 𝑥 2… . 𝑥𝑛 + 𝑥 2
𝑆2 =
𝑛−1

Un estimador es una aproximación de un parámetro teórico o desconocido de una población. Para estimar la
media de la altura de una población, podemos seleccionar una muestra y calcular la media aritmética de la
muestra. Ahora bien, también tendría sentido usar como estimador el siguiente:

𝑚𝑖𝑛 𝑥1 , 𝑥2 … 𝑥𝑛 + 𝑚𝑎𝑥 𝑥1 , 𝑥2 … 𝑥𝑛
=
2

Una primera propiedad deseable para un estimador es que el centro de la distribución de los valores que
puede tomar coincida con el valor del parámetro que queremos aproximar.

A esta propiedad se le llama insesgadez. Así, un estimador insesgado es aquel cuya media coincide con el
valor del parámetro a estimar.
Métodos de la estimación puntal
•Media muestral (X)= es el estimador puntual mas común para la media poblacional (𝜇 )

•Varianza muestral (𝑆 2 ) = estima la varianza poblacional (𝜎 )

•Máxima verosimilitud= Un método que elige el estimador que maximiza la probabilidad de observar los datos

•Método de los momentos= Estima los parámetros poblacionales al igualar los momentos muestrales (como
la media y la varianza) con los momentos teóricos de la población
Estimacion por intervalos
La estimación por intervalo es una regla que indica como calcular dos números con base en los datos
muestrales, estos dos números tienen asociada una probabilidad llamada nivel de confianza y la expresamos
como (1 – α), la cual mide que el verdadero parámetro poblacional se encuentre dentro del intervalo.

La estimación puntual no permite medir la confiabilidad de los resultados, es por esto que trabajaremos con
más detalle la estimación por intervalo.

Para construir el intervalo de confianza para la media poblacional se tendrán en cuenta tres situaciones
diferentes:
1. Cuando la población es normal y la varianza de la población es conocida
2. Cuando la población es normal y la varianza de la población es desconocida
3. Cuando la población no es normal

La distribución normal de X, es normal con media y varianza conocida, entonces se establece un intervalo de
confianza (1-ᵅ) de la siguiente manera

𝑋 − 𝑍∝ 𝜎𝑋 ≤ 𝜇 ≤ 𝑋 + 𝑍∝ 𝜎𝑋
2 2
Si la población es conocida, el intervalo se define como:

𝜎𝑥 𝑁 − 𝑛
𝑋+𝑍
𝑛 𝑁−1

Si la población es desconocida el intervalo se define como:

𝜎𝑥
𝑋+𝑍
𝑛
Ejercicios estimación puntual y por parámetros

Supongamos que tenemos una muestra de 10 alturas de estudiantes:


(160,165,170,175,180,185,190,195,200,205)

Determinar la estimación puntual de la media de las alturas de todos los estudiantes

𝑥1 +𝑥2 +𝑥𝑛
𝑋=
𝑛

160 + 165 + 170 + 175 + 180 + 185 + 190 + 185 + 200 + 205
𝑋=
10

𝑋 =182.5
Ejercicios estimación puntual y por parámetros
La doctora Patton es profesara de ingles. Hace poco conto el numero de palabras con faltas de ortografía en
un grupo de ensayos en sus estudiantes. Observo que la distribución de palabras con faltas de ortografía por
ensayo se regia por una distribución normal con una desviación estándar de 2.44 palabras por ensayo. En su
clase de 40 alumnos de las 10 de la mañana, el numero de palabras con faltas de ortografía fue de 6.05

Construya el intervalo de confianza de 90% para el numero medio de palabras con faltas de ortografía en la
población de ensayos.
𝜎𝑥
Datos 𝜇 =𝑋 + 𝑍
𝑛
n=40 Para el limite superior de confianza sustituimos valores en la formula
X=6.05
𝜎𝑋 =2.44 2.44
Z=1.64 𝜇 =6.05+1.64
40
𝜇=6.69

Para el limite inferior de confianza sustituimos valores en la formula

2.44
𝜇 =6.05-1.64 40
𝜇=5.41
Ejercicios estimación puntual y por parámetros
Se recibe un cargamento muy grande de bultos de arroz provenientes de una importación y se desea estimar el
peso promedio (µ) de dichos bultos, para esto se toma una muestra aleatoria de 100 bultos, que arrojan un peso
promedio de X =21.6 kilos. Se sabe por experiencias anteriores, que la desviación estándar de dichos
cargamentos es de σ =5.1 kilos. Se quiere un nivel de confianza en la estimación del 95% (1-α) =0.95

Datos
n = 100 Por lo tanto el tamaño de la población N es desconocida, entonces para reemplazar en el
X =21.6 kilos intervalo, solo falta encontrar el valor Z en la tabla normal para un nivel de confianza de 0.95.
σ =5.1 kilos
Como el nivel de confianza siempre queda en el centro de la distribución entonces: 1 – 0,95 =
0,05 0,05/2 = 0,025 α/2 = 0,025
En la tabla normal para un área de 0,025 el valor de Z es ±1,96
Si reemplazamos en la fórmula tenemos: 21,6 ± (1,96)5.1/√100 = 21,6 ±0,9996

El intervalo queda entonces en la forma: 20,6 ≤ µ ≤ 22,6 La expresión anterior, significa que con
una confianza del 95% se estima que el peso promedio de todo el cargamento fluctúa entre 20,6
y 22,6 kilos
Ejercicios estimación puntual y por parámetros
El sueldo mensual promedio de una muestra de 11 empleados, en el área administrativa de cierta multinacional, es de $1
500 000 y la desviación típica muestral es de 100 000. Si las observaciones son tomadas de una distribución normal,
determine el intervalo de confianza al 90% para el salario promedio de todos los empleados del área administrativa de la
empresa.

datos:
X: Salario mensual de los empleados del área administrativa
S= 100000 7
n= 11

calculamos α/2 100(1-α )%= 90% 1 –α=0.90 α=1- 0.90 α=0.10 α/2 = 0.05

Ahora hallamos el factor de confiabilidad, t n- 1,α/2 : es decir t 10 (0,05) = 1,8125 En la tabla de distribución de t student.
Donde se encuentra el valor de 1,8125. Reemplazando los valores en la fórmula se obtiene:
100000
1500000 ± 18125
11
1445351,069 ≤ µ ≤ 1554648,93

Luego podemos concluir con un nivel de confianza del 95% que el salario promedio de la empresa en el área administrativa,
está entre $1´445.351,069 y $1 554.648,93
Bibliografía
Del Rio, A. Q. (2019, 4 septiembre). 7.2 Estimación puntual | Estadística Básica Edulcorada. https://bookdown.org/aquintela/EBE/estimacion-
puntual.html

Gomez, A. (2013, 19 agosto). Uso de la tabla de distribucion de probabilidad normal estandar [Diapositivas]. SlideShare.
https://es.slideshare.net/slideshow/uso-de-la-tabla-de-distribucion-de-probabilidad-normal-estandar/25392010

4 Estimación puntual. (s. f.). https://www.uv.es/webgid/Inferencial/4_estimacin_puntual.html


Prueba de hipótesis
1. Introducción

La hipótesis de investigación que se genera en todo proyecto se define como la proposición o explicación
tentativa del fenómeno investigado o la postulación de lo que se busca o se trata de probar. La hipótesis de
trabajo está integrada por enunciados formales que declaran lo que el investigador quiere probar. De tal
manera que, para refutar o confirmar un problema de investigación, se debe plantear una hipótesis que
intenta proponer o explicar la relación entre dos variables, y ésta se debe apoyar siempre en conocimientos
organizados y sistematizados.
1. La prueba de hipótesis:
es un método esencial para la toma de decisiones. La decisión relaciona la elección entre dos enunciados
competitivos y mutuamente excluyentes, respecto de uno o más parámetros de la población. Los enunciados
competitivos se conocen como hipótesis nula y alternativa, respectivamente

Con base a lo anterior, es necesario señalar los atributos principales que debe poseer una hipótesis:
1. Debe hacer referencia a una situación real.
2. Las variables que se presentan en su planteamiento deben ser precisas, comprensibles y concretas.
3. La relación entre las variables debe ser clara, verosímil y lógica.
4. Los términos y las relaciones planteadas deben ser observables y medibles.
5. Las variables deben estar relacionadas con técnicas disponibles para probarlas.
Hipótesis estadística
1. Hipótesis nula (H0)
2. Hipótesis alternativa (H1)
3. La hipótesis H0 es la que se desea contrastar. Consiste generalmente en una afirmación concreta sobre
la forma de una distribución de probabilidad o sobre el valor de alguno de los parámetros de esa
distribución. El nombre de “nula” significa “sin valor, efecto o consecuencia”, lo cual sugiere que H0 debe
identificarse con la hipótesis de no cambio (a partir de la opinión actual); no diferencia, no mejora,
etc. H0 representa la hipótesis que mantendremos a no ser que los datos indiquen su falsedad, y puede
entenderse, por tanto, en el sentido de “neutra”. La hipótesis H0 nunca se considera probada, aunque
puede ser rechazada por los datos. Por ejemplo, la hipótesis de que dos poblaciones tienen la misma
media puede ser rechazada fácilmente cuando ambas difieren mucho, analizando muestras
suficientemente grandes de ambas poblaciones, pero no puede ser “demostrada” mediante muestreo,
puesto que siempre cabe la posibilidad de que las medias difieran en una cantidad lo suficientemente
pequeña para que no pueda ser detectada, aunque la muestra sea muy grande. Dado que
descartaremos o no la hipótesis nula a partir de muestras obtenidas (es decir, no dispondremos de
información completa sobre la población), no será posible garantizar que la decisión tomada sea la
correcta.
4. La hipótesis H1 es la negación de la nula. Incluye todo lo que H0 excluye.
¿Qué asignamos como H0 y H1 ?
La hipótesis H0 asigna un valor específico al parámetro en cuestión y por lo tanto “el igual” siempre forma parte de H0.
La idea básica de la prueba de hipótesis es que los hechos tengan probabilidad de rechazar H0. La hipótesis H0 es la
afirmación que podría ser rechazada por los hechos. El interés del investigador se centra, por lo tanto, en la H1.

La regla de decisión. Es el criterio que vamos a utilizar para decidir si la hipótesis nula planteada debe o no ser
rechazada. Este criterio se basa en la partición de la distribución muestral del estadístico de contraste en dos regiones o
zonas mutuamente excluyentes: Región crítica o región de rechazo y Región de no-rechazo

1. Región de no-rechazo.
-Es el área de la distribución muestral que corresponde a los valores del estadístico de contraste próximos a la afirmación
establecida en H0. Es decir, los valores del estadístico de contraste que nos conducen a decidir H0. Es por tanto, el área
correspondiente a los valores del estadístico de contraste que es probable que ocurran si H0 es verdadera. Su probabilidad
se denomina nivel de confianza y se representa por 1 – α
1. Región de rechazo o región crítica.
-Es el área de distribución muestral que corresponde a los valores del estadístico de contraste que se encuentran tan
alejados de la afirmación establecida en H0, que es muy poco probable que ocurran si H0 es verdadera. Su probabilidad se
denomina nivel de significación o nivel de riesgo y se representa con la letra α .
- Ya definidas las dos zonas, la regla de decisión consiste en rechazar H0 si el estadístico de contraste toma un valor
perteneciente a la zona de rechazo, o mantener H0 si el estadístico de contraste toma un valor perteneciente a la zona de
no-rechazo.
1. El tamaño de las zonas de rechazo y no-rechazo
-se determina fijando el valor de α, es decir, fijando el nivel de significación con el que se desea trabajar. Se suele tomar
un 1% o un 5%.
- La forma de dividir la distribución muestral en zona de rechazo y de no-rechazo depende de si el contraste es
bilateral o unilateral. La zona crítica debe situarse donde puedan aparecer los valores muestrales incompatibles
con H0.
- Estadístico de contraste. Un estadístico de contraste es un resultado muestral que cumple la doble condición de:
Proporcionar información empírica relevante sobre la afirmación propuesta en la H0.
Poseer una distribución muestral conocida

1. Tipos de contrastes.
2. Contrastes paramétricos:
- Conocida una v.a. con una determinada distribución, se establecen afirmaciones sobre los parámetros de dicha
distribución.
- Contrastes no paramétricos: Las afirmaciones establecidas no se hacen en base a la distribución de las observaciones,
que a priori es desconocida .
- Tipos de hipótesis del contraste.
1. Hipótesis simples: La hipótesis asigna un único valor al parámetro desconocido, H: θ = θ0
2. Hipótesis compuestas: La hipótesis asigna varios valores posibles al parámetro desconocido, H: θ ∈ ( θ1 , θ2 )
Regresión lineal
La regresión lineal es una técnica de modelado estadístico que se emplea para describir una variable de respuesta continua
como una función de una o varias variables predictoras.
Puede ayudar a comprender y predecir el comportamiento de sistemas complejos o a analizar datos experimentales,
financieros y biológicos.
Las técnicas de regresión lineal permiten crear un modelo lineal.
Este modelo describe la relación entre una variable dependiente y𝑦 (también conocida como la respuesta) como una
función de una o varias variables independientes Xi𝑋𝑖 (denominadas predictores). La ecuación general correspondiente a un
modelo de regresión lineal es:

Y=β0+∑ βkXk+ϵi𝑌=𝛽0+∑ 𝛽𝑘𝑋𝑘+𝜖𝑖

donde β𝛽 representa las estimaciones de parámetros lineales que se deben calcular y ϵ𝜖 representa los términos de error.
Tipos de regresión lineal
Regresión lineal simple: modelos que utilizan un único predictor. La ecuación general es:
Y=β0+β1X+ϵ𝑌=𝛽0+𝛽1𝑋+𝜖
Regresión lineal múltiple: modelos que utilizan múltiples predictores. Esta regresión tiene múltiples Xi𝑋𝑖 para
predecir la respuesta, Y𝑌. Este es un ejemplo de la ecuación:

Y=β0+β1X1+β2X2+ϵ𝑌=𝛽0+𝛽1𝑋1+𝛽2𝑋2+𝜖
Regresión lineal multivariante: modelos para varias variables de respuesta. Esta regresión tiene
múltiples Yi𝑌𝑖 que derivan de los mismos datos Y𝑌. Se expresan con fórmulas diferentes. Este es un ejemplo
del sistema con 2 ecuaciones:

Y1=β01+β11X1+ϵ1𝑌1=𝛽01+𝛽11𝑋1+𝜖1
Y2=β02+β12X1+ϵ2
Regresión lineal múltiple multivariante: modelos que utilizan varios predictores para múltiples variables de
respuesta. Esta regresión tiene múltiples Xi𝑋𝑖 para predecir varias respuestas Yi𝑌𝑖. Esta es una
generalización de las ecuaciones:
Otras formulas a utilizar
σ𝑥 σ 𝑦𝑖 2
𝑋= 𝜎𝑦 = − 𝑦𝑖 2
𝑛 𝑛
σ𝑦
Y=
𝑛
σ 𝑥𝑖 2
𝜎𝑥 = − 𝑥𝑖 2
σ 𝑥𝑖 𝑦𝑖 𝑛
𝜎𝑥𝑦 = − 𝑋𝑖 𝑌𝑖
𝑛
𝜎𝑥𝑦
σ 𝑦𝑖 2 𝑟=
𝜎𝑦 2 = − 𝑦𝑖 2 𝜎𝑦 ∗ 𝜎𝑥
𝑛

σ 𝑥𝑖 2
𝜎𝑥𝑦
𝜎𝑥 2 = − 𝑥𝑖 2 𝑚=
𝑛 𝜎𝑦 2
Pasos para la regresión lineal
Para esta visión general, tenga en cuenta la forma más simple de la ecuación de gráfico de líneas entre y y
x; y=c*x+m, donde c y m son constantes para todos los valores posibles de x e y. Así, por ejemplo,
supongamos que los datos de entrada para (x, y) era (1,5), (2,8) y (3,11). Para identificar el método de
regresión lineal, debe seguir los siguientes pasos:

1. Trace una línea recta y mida la correlación entre 1 y 5.

2. Siga cambiando la dirección de la línea recta para los nuevos valores (2,8) y (3,11) hasta que se ajusten
todos los valores.

3. Identifique la ecuación de regresión lineal como y = 3*x + 2.

4. Extrapola o predice que y es 14 cuando x es


Regresión no lineal
La regresión lineal, una de las herramientas más fundamentales en el análisis estadístico, se ha convertido en
un pilar crucial en campos que abarcan desde la economía hasta la medicina. En esencia, la regresión lineal
nos permite comprender y modelar relaciones entre variables, proporcionando una ventana hacia la
comprensión y predicción de fenómenos complejos en el mundo que nos rodea.

Desde el pronóstico de ventas hasta la evaluación del desempeño académico, la regresión lineal desempeña
un papel insustituible al brindarnos la capacidad de discernir patrones, tendencias y asociaciones significativas
en nuestros datos. En este artículo, exploraremos a detalle qué es la regresión lineal, cómo funciona y más.
En estadística, la regresión no lineal es un problema de inferencia para un modelo tipo: y fx = ( ,θ ) + ε. Basado
en datos multidimensionales x , y , donde f es alguna función no lineal respecto a algunos parámetros
desconocidos θ . Como mínimo, se pretende obtener los valores de los parámetros asociados con la mejor
curva de ajuste (habitualmente, con el método de los mínimos cuadrados). Con el fin de determinar si el modelo
es adecuado, puede ser necesario utilizar conceptos de inferencia estadística tales como intervalos de
confianza para los parámetros así como pruebas de bondad de ajuste.

Linealización
Algunos problemas de regresión no lineal pueden linealizarse mediante una transformación en la formulación
del modelo. Por ejemplo, considérese el problema de regresión no lineal (ignorando el término de error):
y a bx = exp(bx )

Aplicando logaritmos a ambos lados de la ecuación, se obtiene: ln ln ( y a bx ) = + ( ) lo cual sugiere una


estimación de los parámetros desconocidos a través de un modelo de regresión lineal de ln ( ) y con respecto a
x , un cálculo que no requiere procedimientos de optimización iterativa. De todas formas, la linealización debe
usarse con cuidado ya que la influencia de los datos en el modelo cambia, así como la estructura del error del
modelo y la interpretación e inferencia de los resultados, cosa que puede ser un inconvenientes. Hay que
distinguir entre la "linealización" usada en los párrafos anteriores y la "linealización local" que se adopta para
algoritmos clásicos como el de Gauss-Newton.
Mínimos cuadrados ordinarios y ponderados

Se considera la mejor curva de ajuste aquella que minimiza la suma de las desviaciones (residuales) al
cuadrado (SRC).
Esta es la aproximación por el método de mínimos cuadrados (MMC). Sin embargo, en aquellos casos donde
se tienen diferentes varianzas de error para diferentes errores, es necesario minimizar la suma de los
residuales al cuadrado ponderados (SRCP) (método de mínimos cuadrados ponderados).
En la practica, la varianza puede depender del valor promedio ajustado. Así que las ponderaciones son
recalculadas para cada iteración en un algoritmo de mínimos cuadrados ponderados iterativo.

En general, no hay una expresión de forma cerrada para los parámetros de mejor ajuste, como sucede en el
caso de la regresión lineal. Métodos numéricos de optimización son aplicados con el fin de determinar los
parámetros de mejor ajuste. Otra vez, en contraste con la regresión lineal, podría haber varios máximos
locales de la función a ser optimizada. En la práctica se suponen algunos valores iniciales los cuales junto con
el algoritmo de optimización conducen a encontrar el máximo global.
Estimación de los parámetros con el método Monte Carlo

Si el error de cada observación es conocido, entonces la precisión y confiabilidad de los parámetros puede
ser estimada mediante simulación Monte Carlo. Cada observación es aleatorizada de acuerdo a su media y
su desviación estándar. Con el nuevo conjunto de datos, una nueva curva es ajustada y las estimaciones de
los parámetros registradas. Las observaciones son entonces aleatorizadas y nuevos valores de los
parámetros son obtenidos. Al final, se generan varios conjuntos de parámetros y pueden ser calculadas la
media y desviación típica.

Algoritmo de Gauss–Newton

En matemáticas, el algoritmo de Gauss–Newton se utiliza para resolver problemas no lineales de mínimos


cuadrados. Es una modificación debida a CF Gauss del método de optimización de Newton que no usa
segundas derivadas.
Ejercicios
5 niños de 2,3,5,7,8 años de edad pesan respectivamente 14,20,32,42,44 kilos. Encontrar la ecuación de la
recta de regresión de la edad sobre el peso , ¿Cuál seria el peso aproximado de un niño de 6 años?

𝑋𝑖 𝑌𝑖 𝑋𝑖 2 𝑌𝑖 2 𝑋𝑖 𝑌𝑖

2 14 4 196 20

3 20 9 400 60

5 32 25 1024 160

7 42 49 1764 249

8 44 64 1936 352

Total= 25 Total= 152 Total= 151 Total= 5320 Total= 894


Para calcular 𝑋𝑖 2 solo tenemos que elevar el valor de 𝑋𝑖 al cuadrado

Para calcular 𝑌𝑖 2 solo tenemos que elevar el valor de 𝑌𝑖 al cuadrado

Para calcular solo 𝑋𝑖 𝑌𝑖 tenemos que multiplicar el valor de 𝑋𝑖 por 𝑌𝑖

Sustituimos en las demás formulas para poder encontrar la ecuación de la recta

σ 𝑥 25
𝑋= = =5
𝑛 5
σ 𝑦𝑖 2 5320
σ𝑦 152 𝜎𝑦 2 = − 𝑦𝑖 2 = − 30.4 2 = 139.84
Y= = = 30.4 𝑛 5
𝑛 5

σ 𝑥𝑖 𝑦𝑖 894
𝜎𝑥𝑦 = − 𝑋𝑖 𝑌𝑖 = − 5 30.4 = 26.8
𝑛 5
𝑋−Ẋ = m Y−Ẏ
𝑋 − 5 = 0.19 𝑌 − 30.4
𝑋 − 5 = 0.19𝑦 − 5.77
𝑋 − 5 + 5.77 = 0.19𝑦

𝑋
𝑌= − 0.77 𝑒𝑠𝑡𝑎 𝑠𝑒𝑟𝑖𝑎 𝑙𝑎 𝑒𝑐𝑢𝑎𝑐𝑖𝑜𝑛 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑐𝑡𝑎 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖𝑜𝑛
0.19

Para el inciso b solo tenemos que sustituir la edad de 6 años en la ecuación que acabamos de calcular

𝑋
𝑌= − 0.77
0.19

6
𝑌= − 0.77
0.19

𝑌 = 30.8 𝑒𝑠𝑒 𝑠𝑒𝑟𝑖𝑎 𝑒𝑙 𝑝𝑒𝑠𝑜 𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑜 𝑝𝑎𝑟𝑎 𝑢𝑛 𝑛𝑖ñ𝑜 𝑑𝑒 6 𝑎ñ𝑜𝑠


𝑋𝑖 𝑌𝑖 𝑋𝑖 2 𝑌𝑖 2 𝑋𝑖 𝑌𝑖
80 300 6400 90000 24000
79 302 6241 91204 23858
83 315 68889 99225 26145
84 330 7056 108900 27720
78 300 6084 90000 23400
60 250 3600 62500 15000
82 300 6724 90000 24600
85 340 7225 115600 28900
79 315 6241 99225 24885
84 330 7056 108900 27720
80 310 6400 96100 24800
62 240 3844 57600 14880
Total=936 Total=3632 Total=73760 Total=1109254 Total=285908
Ejercicios
A partir de los datos anteriores referidos a horas trabajadas y unidades producidas , Determinar la recta de
regresión y el coeficiente lineal

Para calcular 𝑋𝑖 2 solo tenemos que elevar el valor de 𝑋𝑖 al cuadrado

Para calcular 𝑌𝑖 2 solo tenemos que elevar el valor de 𝑌𝑖 al cuadrado

Para calcular solo 𝑋𝑖 𝑌𝑖 tenemos que multiplicar el valor de 𝑋𝑖 por 𝑌𝑖

Sustituimos en las demás formulas para poder encontrar la ecuación de la recta

σ 𝑥 936
𝑋= = = 78
𝑛 12
σ𝑦 3632
Y= = = 302.66
𝑛 12

σ 𝑥𝑖 𝑦𝑖 285908
𝜎𝑥𝑦 = − 𝑋𝑖 𝑌𝑖 = − 78 302.66 = 218.18
𝑛 12
σ 𝑦𝑖 2 1109254
𝜎𝑦 2 = 𝑛
− 𝑦𝑖 2 = 12
− 302.66 2
= 834.75

σ 𝑥𝑖 2 73760
𝜎𝑥 2 = 𝑛
− 𝑥𝑖 2 = 12
− 78 2
= 62.66

𝜎𝑦 = 𝜎𝑦 2 = 834.75 = 28.89

𝜎𝑋 = 𝜎𝑥 2 = 62.66 = 7.91

𝜎𝑥𝑦 218.18
𝑟= = = 0.95 𝑒𝑠𝑡𝑒 𝑒𝑠 𝑒𝑙 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖𝑜𝑛
𝜎𝑦 ∗ 𝜎𝑋 (28.89)(7.91)

𝜎𝑥𝑦 218.18
𝑚= = = 0.26
𝜎𝑦 2 834.75

𝑋−Ẋ=m Y−Ẏ
𝑋 − 78 = 0.26 𝑌 − 302.66
𝑋 − 78 = 0.26𝑦 − 78.69
𝑋 + 0.69 = 0.26𝑦
𝑋
𝑌= − 2.65 𝑒𝑠𝑡𝑎 𝑠𝑒𝑟𝑖𝑎 𝑙𝑎 𝑒𝑐𝑢𝑎𝑐𝑖𝑜𝑛 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑐𝑡𝑎 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖𝑜𝑛
0.26
Ejercicios
Para hacer un modelo de regresión necesitamos lápiz (o bolígrafo), folios y una calculadora elemental. Nada
más. En las practicas era suficiente con introducir los datos relativos a x y a y. Sin embargo, para hacer las
cosas sin ordenador hay que trabajar un poquito más. Por ese motivo vamos a hacer ejercicios con pocos
datos. La idea es escribir una tabla como la siguiente:
En dicha tabla, además de introducir los valores de x e y, nos ayudamos de la calculadora para hacer el resto de
columnas y las sumas finales de cada una de ellas. A partir de esta tabla, y conociendo las formulas de la
varianza y la covarianza, las calculamos tal y como aparecen a la derecha de la tabla. A partir de las medias, las
varianzas y la covarianza se calculan los coeficientes de la recta de regresión de y sobre x. Recordemos que en
la recta de regresión y = a + bx, los coeficientes a y b están dados por las siguientes formulas:

Por lo tanto, la recta es y = −5,0847 + 7,283x .


Esta recta es la que mejor predice el comportamiento de la variable y en función de la variable x.
Así, para calcular lo que podemos esperar que cueste un automóvil de 1,1 Tm, basta sustituir en la recta de
regresión la x por 1,1: y(1,1) = −5,0847 + 7,283 · 1,1 = 2,9266 millones. Este es el ´ valor esperado (o valor que
predice) nuestra regresión lineal para x = 1,1. Para saber si la predicción es fiable (si el ajuste es bueno),
calculamos el coeficiente de correlación lineal r:
Ejercicios
Si representamos los datos como puntos de coordenadas (xi , yi) en el plano vemos que, efectivamente,
´estos podrían ajustarse a una recta, lo que nos indica que la velocidad de reacción aumenta “linealmente”
con la concentración de glucógenas. Al igual que en el problema anterior, debemos elaborar una tabla con
los valores observados de las variables x e y y, a partir de ellos, completar las columnas siguientes ayudados
de la calculadora.
A partir de aquí, hacemos también el calculo de los estadísticos descriptivos más sencillos: medias,
varianzas y covarianza.

A continuación, calculamos los coeficientes a y b de la recta de regresión y = a + bx:


La recta de regresión es y = 1,2112204 + 18,648343x ; en la figura se ve cómo se ajustan los datos a ella.
Para calcular la velocidad de reacción a una concentración de 2,5 milimoles/litro, basta sustituir x por 2,5 en
la recta de regresión: y(2,5) = 1,2112204 + 18,648343 · 2,5 = 47,832078 micromoles/minuto. Finalmente,
vemos si el ajuste lineal es bueno calculando el coeficiente de correlación lineal
Bibliografía
Introducción a la regresión lineal. (s. f.). MATLAB & Simulink. https://la.mathworks.com/discovery/linear-regression.html

¿Qué es la regresión lineal? - Explicación del modelo de regresión lineal - AWS. (s. f.). Amazon Web Services, Inc.
https://aws.amazon.com/es/what-is/linear-regression/

SPSS Statistics Subscription - Classic. (s. f.). https://www.ibm.com/docs/es/spss-statistics/saas?topic=regression-nonlinear

Ortega, C. (2024, 29 marzo). Regresión lineal: Qué es, importancia y usos. QuestionPro. https://www.questionpro.com/blog/es/regresion-lineal/
Conclusiones
De Jesús González Azael Isaac

Como conclusión de esta investigación de las unidades de aprendizaje puedo recalcar la importancia de
saber interpretar los resultados arrojados por las formulas aplicadas ya que había casos en los ejercicios de
regresión lineal en los que los resultados no parecían lógicos sino hasta que interpretábamos dicho resultado
y lo poníamos en el contexto del problema dado. Asi mismo pude apreciar la gran importancia que tiene la
estadística dentro de la carrera de Ingeniería mecánica ya que en estos ejercicios vistos se toman cosas muy
simples como el peso de los niños o la producción de helados, pero estos mismos cálculos se pueden aplicar
dentro de la industria ya sea en el control de calidad de un lote de piezas o en el estudio para saber en que
momento es bueno invertir en la empresa basándose en datos recopilados con anterioridad.
Asi mismo aprendimos a graficar los puntos dados e indagando mas en las graficas nos pudimos dar cuanta
que muchas de las formulas que aplicamos se pueden demostrar con la ayuda de las graficas o en su
defecto nos ayudan a comprobar dichas formulas.
Por ultimo encuentro la relación que tienen todos estos temas ya que al avanzar en la complejidad de los
ejercicios puedes aplicar herramientas de los temas anteriores para hacer mas sencillo el ttrabajo.
Conclusiones

Ruiz López Josué Isaí

Las distribuciones de probabilidad de variables continuas, como la normal y la exponencial, son esenciales
para modelar y entender fenómenos naturales y procesos estocásticos. Estas distribuciones, caracterizadas
por funciones de densidad de probabilidad, permiten calcular la probabilidad de que una variable aleatoria tome
un valor dentro de un intervalo específico, siendo fundamentales para el análisis y la predicción en diversas
disciplinas.
La inferencia estadística permite sacar conclusiones sobre una población a partir de una muestra. Mediante la
estimación puntual, la estimación por intervalos y las pruebas de hipótesis, se pueden realizar predicciones y
tomar decisiones informadas basadas en datos. Este proceso es crucial en la investigación científica y en
diversas aplicaciones prácticas, como la medicina y la economía.
Ambos conceptos son esenciales para analizar e interpretar datos, proporcionando un marco sólido para la
toma de decisiones basada en evidencia cuantitativa.
Conclusiones
Gutiérrez Muños Luis David

En la probabilidad las distribuciones son de buena manera para entender los posibles valores de una variable
aleatoria continua
El comprender y saber diferenciar las variables y saber como aplicarlas ya sea para encontrar la mejor
variable o usar la que se necesita
En cuanto a las inferencia podemos inducir que gracias a la información que se nos da por una muestra de
información como las pruebas los intervalos y sus análisis de regresión para ser mas preciso sobre la
población a partir de la muestra dada
Conclusiones
Hernández Hernández Carlos

Los diferentes tipos de distribución de probabilidad nos ayudan a diferentes situaciones que se nos
presenten con nuestra muestra y población.
En la distribución t student intervienen las variables aleatorias continuas, se ocupa para alcanzar una media
de población por medio de una pequeña muestra. El tamaño de la muestra no es muy grande, conforme a las
tablas con el resultado que salga.
En la distribución chi-cuadrada se comprueba la independencia de las variables categóricas que son las
frecuencias esperadas, donde se comparan las frecuencias de la muestra, donde se tiene una hipótesis nula
(Ho) donde las variables son independientes y la hipótesis donde se ven si la variable tiene alguna relación.
En la distribución F es donde tenemos que comparar dos poblaciones sus varianzas, donde se tiene una
hipótesis nula y una hipótesis alternativa, aquí se tiene la varianza muestral y la varianza poblacional, donde
tienen que ser de las 2 poblaciones, donde también hay media, moda y varianza.

También podría gustarte