Unidad 4 y 5 - 6MV3
Unidad 4 y 5 - 6MV3
Unidad 4 y 5 - 6MV3
Unidad 4 y 5
Estadistica y
Probabilidad
De Jesús González Azael Isaac
Gutiérrez Muños Luis David
Hernández Hernández Carlos
Quintero Corro Jaime Enrique
Ruiz López Josué Isaí
Unidad
temática
IV
4.1.Variable aleatoria continua
Una variable aleatoria continua, es aquella que puede asumir un número incontable de valores.
Por ejemplo:
Si realizamos el experimento de ir a una granja y estudiamos las características de las vaquitas, podemos definir la variable aleatoria B =
peso de una vaca en la granja de Jorge (en kilogramos).
Alguna vaquita puede pesar 425,1872 kg; otra puede pesar 612,5874541 kg; otra puede pesar 545,897512121 kg. Si tomamos más vacas,
podríamos tener más valores y nunca terminaríamos. Se conoce que el becerro más pequeño tiene un peso de 30 kg, y la vaca más grande
tiene un peso de 1000 kg.
Y así, tendríamos un número incontable de valores para el rango de esta variable. El rango de esta variable puede ser cualquier valor
dentro del intervalo que va desde 30 kg hasta 1000 kg, por ello, es una variable aleatoria continua.
Ejercicio 1. Se venden 5000 billetes para una rifa a 1 euro cada uno. Si el único premio del sorteo es de 1800 euros, calcular el resultado que debe
esperar una persona que compra 3 billetes.
RESOLUCIÓN.
Consideramos la variable aleatoria discreta
ξ = ‘cantidad de dinero obtenido en el juego’.
Los posibles valores de ξ son dos:
• Si se gana la rifa, se obtiene un beneficio de 1800−3 = 1777 euros. Por la Ley de Laplace, la probabilidad de que ocurra este hecho es de 3/5000.
• Si no se gana la rifa, resulta una pérdida de 3 euros. Nuevamente por la Ley de Laplace, la probabilidad de que esto ocurra es de 4997/5000.
Por lo tanto, la distribución de probabilidad para la variable aleatoria ξ será:
lo que interpretamos como que, en promedio, cabe esperar una pérdida de 1.93 euros.
Ejercicio 2. Una variable aleatoria discreta toma todos los valores enteros entre 0 y 4 con la siguiente función de densidad:
La probabilidad de que X asuma un valor en el intervalo [a, b] es el área sobre este intervalo y bajo la gráfica de la función de densidad. Se puede
apreciar mejor en la siguiente gráfica:
En otros casos, el área bajo la curva tendrá forma de triángulo o rectángulo y será muy sencilla de calcular.
Ejemplo 1
A partir de la función de densidad de probabilidad f(x), calcular P(1 ≤ X ≤ 3)
Solución:
En este problema, nos piden calcular P(1 ≤ X ≤ 3). Y con la función de probabilidad de una variable aleatoria continua, las probabilidades
se calculan mediante el área bajo la curva, por ello:
Solo nos queda calcular el valor del área sombreada y en este caso se puede realizar de 2 formas diferentes: mediante la fórm ula del
rectángulo y mediante la integral definida de f(x) desde x igual a 1 hasta 3.
Con áreas:
Con integrales:
Obtuvimos el mismo resultado con ambos métodos, una probabilidad de 0,5 o 50%.
4.3.Distribución Uniforme
• Es el modelo más simple
• Aparece cuando una variable toma valores dentro de un intervalo [ , ] a b y su función de densidad permanece constante dentro de ese intervalo
• Esto implica que la probabilidad de que la variable tome valores en subintervalos de igual amplitud es la misma.
• Diremos que una variable aleatoria tiene una distribución uniforme en el intervalo [ , ] a b si su función de densidad es la siguiente:
La probabilidad de que la variable uniforme tome valores en un intervalo determinado [ x x 1 2 , ] sólo depende de la amplitud de dicho intervalo 2 1 ( ),
x x − de manera que las probabilidades de intervalos con la misma amplitud serán idénticas.
Características:
a)Esperanza:
• Un caso particular de distribución uniforme, de uso muy extendido, es la distribución uniforme en el intervalo[0,1 ,] es decir, X U~ [0,1 ]:
Una variable aleatoria continua, X, sigue una distribución normal de media μ y desviación típica σ, y se designa porN(μ, σ), si se cumplen las
siguientes condiciones:
El área del recinto determinado por la función y el eje de abscisas es igual a la unidad.
Al ser simétrica respecto al eje que pasa por x = µ, deja un área igual a 0.5 a la izquierda y otra igual a 0.5 a la derecha.
La probabilidad equivale al área encerrada bajo la curva.
p(μ - σ < X ≤ μ + σ) = 0.6826 = 68.26 %
La probabilidad de la variable X dependerá del área del recinto sombreado en la figura. Y para calcularla utilizaremos una tabla.
Tipificación de la variable
Para poder utilizar la tabla tenemos que transformar la variable X que sigue una distribución N(μ, σ) en otra variable Z que siga una distribución N(0,
1).
Ejemplo 1
Tablas para los problemas
La media de los pesos de 500 estudiantes de un colegio es 70kg y la desviación típica 3kg.
Suponiendo que los pesos se distribuyen normalmente, hallar cuántos estudiantes pesan:
Sustituyendo:
Por lo tanto, si multiplicamos la probabilidad P(60 ¡ X≤75) por los estudiantes tenemos
Calcular el número de días del mes en los que se espera alcanzar máximas entre 21° y 27°.
Utilizando la formula , vamos a sustituir el valor de la media (23), y la desviación típica (5).
Por lo tanto
Esto quiere decir, que en todo el mes, solo 13 días alcanzarán temperaturas entre 21 y 27 grados.
Varios test de inteligencia dieron una puntuación que sigue una ley normal con media 100 y desviación típica 15.
Ejercicios resueltos de variables aleatorias. Ejercicios resueltos de distribuciones de densidad de variables continuas. (s/f ). Calculo.cc.
Recuperado el 11 de junio de 2024, de https://calculo.cc/temas/temas_estadistica/binomial_normal/problemas/prod_densidad.html
Ejercicios sobre distribucion normal. (s/f). Material Didáctico - Superprof. Recuperado el 11 de junio de 2024, de
https://www.superprof.es/apuntes/escolar/matematicas/probabilidades/distribucion-normal/ejercicios-de-la-distribucion-normal.html
Función de probabilidad de una variable aleatoria continua. (2020, febrero 7). MateMovil; Matemóvil. https://matemovil.com/funcion-de-
densidad-de-probabilidad/
Distribución Beta
La distribución de Weibull es una distribución de probabilidad continua que queda definida por dos
parámetros característicos: el parámetro de forma α y el parámetro de escala λ.
En estadística, la distribución de Weibull se usa principalmente para el análisis de supervivencia.
Asimismo, la distribución de Weibull tiene muchas aplicaciones en diferentes ámbitos.
Ejercicio 1
1. Tania ingresa a una rifa en la feria local y se pregunta cuáles son sus posibilidades de ganar. Si su
probabilidad de ganar puede modelarse mediante una distribución beta con α = 5 y β = 2, ¿cuál es la
probabilidad de que tenga como máximo un 10% de posibilidades de ganar?
Ejercicio 2
1. Una fábrica se apaga durante unas horas debido a una falla en la máquina y el gerente quiere saber qué
porcentaje de su producción diaria se perderá debido a eso. Si la proporción de producción perdida se puede
describir mediante una función beta con α = 50 y β = 49, ¿cuál es la probabilidad de que pierdan entre el 15% y el
20% de la producción diaria?
4.6. Distribución de probabilidad t de student
• es la media de la muestra.
•μ es la media poblacional (generalmente
desconocida).
•s es la desviación estándar de la muestra.
•n es el tamaño de la muestra
•t es el valor de la Distribución t.
Ejercicio 1
Un fabricante de focos afirma que usa producto durará un promedio de 500 horas de trabajo. Para conservar este
promedio esta persona verifica 25 focos cada mes. Si el valor y calculado cae entre –t 0.05 y t 0.05, él se
encuentra satisfecho con esta afirmación. ¿Qué conclusión deberá él sacar de una muestra de 25 focos cuya
duración fue?
S=12.07
𝑋−𝜇
𝑡=
𝜎/ 𝑛
𝛼 = 1 − 𝑁𝑐 = 10
𝑉 = 𝑛 − 1 = 24
𝑡 = 2.22
Solución
Se trata de un contraste de hipótesis para una media, pues solo hay una muestra. Planteamos las hipótesis:
Ho: µ = 3
H1: µ > 3
Antes de seleccionar la prueba, observamos los datos relativos al estudio realizado mediante
muestreo:
Ho: µ = 3
H1: µ > 3
Antes de seleccionar la prueba, observamos los datos relativos al estudio realizado mediante
muestreo:
n = 20
𝑥̅ = 3,5
𝑠𝑥 = 2,7
Nc = 0,99 por lo que el nivel de significación es α = 0,01
Como el tamaño muestral es n ≤ 30, debemos usar para la prueba el estadístico t-Student con n-
1 grados de libertad.
𝑥̅ − µo 𝑠𝑥
t= donde 𝜎𝑥̅ =
𝜎𝑥 √𝑛−1
2,7
𝜎𝑥̅ = = 0,6194224
√20−1
3,5−3
te = = 0,807
0,619422
Este es el valor empírico del contraste mediante t-Student que debemos comparar con el valor crítico (tα).
Siendo α = 0,01 y un contraste unilateral, debemos localizar en la tabla de la distribución t-Student el valor de t
correspondiente a n-1 grados de libertad, es decir, a 19 grados de libertad.
En la tabla vemos que para esos datos el valor crítico de t es 2,539. Al comparar el t empírico (te) con el t crítico
(tα) vemos que 0,807 < 2,539:
La probabilidad que la longitud media de la muestra de 25 tornillos sea inferior a 20.5 mm es del 99.02%
Ejercicio 4
En una encuesta del CIS (diciembre de 2014) se observa que la proporción de españoles que leen
semanal o diariamente es del 45,4%, una proporción menor a la que señalaba en 2012 la Federación de
Gremios de Editores de España (47,2%). Sabiendo que la encuesta ha sido respondida por 2.477
individuos, ¿se puede considerar significativo este descenso en la proporción de lectores habituales
para un nivel de significación de 0,01?
Estamos ante un problema de contraste de hipótesis para una proporción, pues solo tenemos una
muestra. Nuestros datos son:
Proporción empírica (obtenida de la muestra): p = 0,454
Proporción teórica poblacional (procedente de estudios o datos anteriores):
P = 0,472
Tamaño de la muestra: n=2.477
Nivel de significación: a = 0,01
Planteamos las hipótesis que someteremos a contraste:
Tenemos un contraste unilateral en el sentido "menor que". Dado que la proporción obtenida en el
estudio más reciente del CIS es de menor magnitud que el anterior dato de 2012, nuestro objetivo es
comprobar si realmente se puede considerar significativo ese descenso en la cantidad de lectores diarios
o semanales. Por eso, la hipótesis alternativa se plantea en el sentido "menor que" respecto al dato
anterior.
Para elegir el estadístico de contraste adecuado, es necesario observar la relación entre el tamaño de la
muestra y el tamaño de la población. Como la población es suficientemente grande (N ≥20n) no hace
falta introducir el factor de corrección de poblaciones finitas (cpf).
Efectivamente, la población española (N), que es el colectivo al que va dirigida la encuesta del CIS, es
mucho mayor que 20 veces el tamaño de la muestra utilizada (n). Por ello, el estadístico de prueba que
debemos usar para resolver el contraste es:
Sabemos que Q = 1-P = 1 - 0,472 = 0,528
Debemos ahora comprobar en las tablas para la curva normal el valor de Z que corresponde al nivel de
significación 0,01 y compararlo con el Z empírico (Ze) que hemos obtenido de la prueba.
El Z crítico para a = 0,01 es -2,33. Hay que recordar que tenemos un contraste unilateral en el sentido
"menor que" y, aunque los Z tengan signo negativo, lo que nos interesa comparar es el valor absoluto.
Como |Ze|<|Zal, es decir|-1,8|<|-2,33|, Z, cae en la región de "aceptación" de Ho (recordemos que, en
sentido estricto no podemos "aceptar" la hipótesis nula; solo podemos concluir que no la podemos
rechazar)
Para un nivel de confianza del 99% concluimos que no hay evidencias estadísticamente significativas para
rechazar la hipótesis nula (Ho). No podemos afirmar que para ese nivel de confianza haya disminuido
significativamente la proporción de españoles que leen diaria o semanalmente.
Sin embargo, esta es la conclusión con un nivel de confianza del 99%, pero ¿qué pasaría si bajamos un poco el
nivel de exigencia y consideramos un nivel de confianza del 95%? La respuesta es sencilla, no hay más que
comparar el valor Z obtenido en la prueba con el correspondiente en las tablas para un nivel de significación de
0,05.
4.7. Distribución de probabilidad Ji cuadrada
La distribución chi-cuadrado es una distribución de probabilidad cuyo símbolo es χ². En concreto, la
distribución chi-cuadrado es la suma del cuadrado de k variables aleatorias independientes con distribución
normal.
Así pues, la distribución chi-cuadrado tiene k grados de libertad. Por lo tanto, una distribución chi-cuadrada
tiene tantos grados de libertad como la suma de los cuadrados de variables con distribución normal que
representa.
Ejercicio 1
En este ejemplo, queremos usar los datos para determinar si la elección del programa de los
estudiantes universitarios depende del género. Primero, necesitamos establecer una hipótesis
nula, prediciendo que el programa de matrícula de los estudiantes es independiente de su
género. Los resultados de nuestra prueba de chi cuadrado determinarán si debemos aceptar o
refutar la hipótesis nula. Los estadísticos normalmente aceptan la hipótesis nula si el valor p es
0.05 o más. Aquí están los datos:
Dado que hay tres categorías (ciencia, arte y educación), el grado de libertad es 2. Siguiendo la fila
para un grado de libertad de 2 en la tabla de chi cuadrado, buscamos los valores más cercanos a
nuestro valor de chi cuadrado de 10. 10 cae entre 9.21 y 10.597, por lo que nuestro valor p cae entre
los valores p correspondientes de 0.01 y 0.005. Dado que esto cae por debajo del valor p de 0.05,
rechazaríamos la hipótesis nula. Esto nos dice que según nuestros datos, el programa de elección
depende del género.
Ejercicio 2
Supóngase que los investigadores desean conocer si la preferencia por el café negro está
relacionada con el género de la persona, y especificar la respuesta con un nivel de significancia de
α = 0.05.
Para ello se dispone de una muestra de 100 personas entrevistadas y sus respuestas:
Establecer las hipótesis:
Calcular las frecuencias esperadas para la distribución, para lo cual se requieren los totales añadidos
en la última fila y en la columna de la derecha de la tabla. Cada celda en el recuadro rojo tiene un valor
esperado fe, que se calcula multiplicando el total de su fila F por el total de su columna C, dividido por
el total de la muestra N:
fe = (F x C) /N
Determinar χ2crítico, sabiendo que los datos registrados están en f = 2 filas y c = 2 columnas, por lo
tanto, el número de grados de libertad es:
k = (2-1)⋅(2-1) = 1.
Lo cual significa que debemos buscar en la tabla mostrada arriba el valor de χ2k, α = χ21; 0.05 , el
cual es:
χ2crítico = 3.841
χ2 = 2.9005
χ2crítico = 3.841
Dado que χ2 χ2crítico se acepta la hipótesis nula y se concluye que la preferencia por el café negro no
está vinculada con el género de la persona, con un nivel de significación de 5%.
Ejercicio 3
El propietario de un negocio había estado trabajando para mejorar las relaciones con los
empleados en su empresa. Predijo que cumplió con su objetivo de aumentar la satisfacción de los
empleados del 65% al 80%. Se preguntó a los empleados de cuatro departamentos si estaban
satisfechos con las condiciones laborales de la empresa. Los resultados se muestran en la
siguiente tabla:
Podemos usar chi cuadrado para determinar si los resultados apoyan o rechazan la predicción del
propietario de la empresa.
Nuestro primer paso es calcular los valores predichos para poder compararlos con los valores reales de
la encuesta. El número previsto de empleados satisfechos es el 80% del número total de empleados en
cada departamento. Esto deja el 20% restante como el número de empleados insatisfechos. Por
ejemplo, el número previsto de empleados satisfechos en el departamento de finanzas es 0,80 (19) =
15,2. El número previsto de empleados insatisfechos en el departamento de finanzas es 0,20 (19) =
3,8. La siguiente tabla muestra los valores observados y esperados para cada departamento. Los
valores observados están en negrita y los valores esperados están entre paréntesis.
El siguiente paso es usar la tabla de chi cuadrado que se encuentra al comienzo de la lección para
encontrar el valor p . Debido a que nuestros datos tienen cuatro categorías (los cuatro
departamentos de la empresa), nuestro grado de libertad es tres. Siguiendo la fila para un grado de
libertad de tres, queremos encontrar el valor más cercano al valor de chi cuadrado de 11,6806. El
valor más cercano es 11,345, que corresponde a un valor p de 0,01. Es común que los estadísticos
usen un valor p de 0.05 para determinar si la hipótesis debe aceptarse o rechazarse. Dado que
nuestro valor p es menor que 0.05, la hipótesis debería rechazarse. En otras palabras, los datos no
respaldan la predicción del gerente comercial de que aproximadamente el 80% de los empleados
están satisfechos.
Ejercicio 4
Muchos casinos utilizan máquinas de reparto de cartas para repartir cartas al azar.
Ocasionalmente, la máquina se prueba para garantizar la misma probabilidad de negociar para
cada palo. Para realizar la prueba, se reparten 1.500 cartas desde la máquina, mientras se cuenta
el número de cartas de cada palo. En teoría, se deberían repartir 375 cartas de cada palo. Como
puede ver en los resultados de nuestra tabla, este no es el caso:
Podemos usar chi cuadrado para determinar si las discrepancias son significativas. Si las
discrepancias son importantes, entonces el juego no sería justo. Deberían tomarse medidas para
garantizar que el juego sea justo.
Este ejemplo tiene cuatro categorías de datos, por lo que el grado de libertad es tres. El valor
más alto que se muestra en nuestra tabla de chi cuadrado para un grado de libertad de tres es
12,838, que corresponde a un valor p de 0,005. Nuestro valor de chi cuadrado de 53.0294 es
mayor que 12.838 y nos dice que el valor p sería menor que 0.005. Esto nos permite rechazar la
hipótesis, lo que significa que las discrepancias son significativas. Por lo tanto, usar la máquina
de repartir cartas no sería un juego justo.
4.8. Distribucion de probabilidad F
La distribución F o distribución de Fisher-Snedecor es la que se usa para comparar las
varianzas de dos poblaciones diferentes o independientes, cada una de las cuales sigue una
distribución normal.
La variable aleatoria F o estadístico F propuesto por Ronald Fisher (1890 – 1962) es el que se
usa más frecuentemente para comparar las varianzas de dos poblaciones y se define de la
siguiente manera:
Siendo s2 la varianza muestral y σ2 la varianza poblacional. Para distinguir cada uno de los dos
grupos poblacionales, se utilizan los subíndices 1 y 2 respectivamente.
Se sabe que la distribución ji-cuadrada con (n-1) grados de libertad es la que sigue la variable
auxiliar (o estadístico) que se define a continuación:
X2 = (n-1) s2 / σ2.
Por lo tanto, el estadístico F sigue una distribución teórica dada por la siguiente fórmula:
Mediante el uso de la herramienta estadística de geogebra se determinó que esta área es 0.82, por
lo que se concluye que la probabilidad que el cociente de varianzas muestrales sea menor o igual a
2 es del 82%.
Como se desea saber la probabilidad teórica de que este cociente de varianzas muestrales sea
menor o igual a 2, necesitamos conocer el área bajo la distribución F entre 0 y 2, el cual puede
obtenerse por tablas o software. Para esto ha de tenerse en cuenta que la distribución F requerida
tiene d1 = n1 – 1 = 5 – 1 = 4 y d2 = n2 – 1 = 10 – 1 = 9, es decir la distribución F con grados de
libertad (4, 9).
Mediante el uso de la herramienta estadística de geogebra se determinó que esta área es 0.82, por
lo que se concluye que la probabilidad que el cociente de varianzas muestrales sea menor o igual a
2 es del 82%.
Ejercicio 2
Se tienen dos procesos de manufactura de láminas delgadas. La variabilidad del espesor debe
ser lo menor posible. Se toman 21 muestras de cada proceso. La muestra del proceso A tiene
una desviación estándar de 1,96 micras, mientras que la del proceso B tiene desviación
estándar de 2,13 micras. ¿Cuál de los procesos tiene menor variabilidad? Utilizar un nivel de
rechazo del 5%.
Los datos son los siguientes: Sb = 2,13 con nb = 21; Sa = 1,96 con na = 21.
Esto significa que ha de trabajarse con una distribución F de (20, 20) grados
de libertad.
Hombres: 120 120 118 112 120 114 130 114 124 125 130 100 120 108 112 122
Mujeres: 122 102 118 126 108 130 104 116 102 122 120 118 130
S12=62.19
S22=98.34
F=16-198.3413-162.34=1.97
Ejercicio 4
Se requiere que la temperatura permanezca constante durante la operación de horneado. Se hizo
un estudio para medir la varianza en la temperatura de los dos hornos en funcionamiento. Antes
de que el termostato reestableciera la flama, la variancia en la temperatura del horno A fue iguala
2.4, resultante de 16 medidas. La variancia del horno B fue 3.2, resultante de 12 mediciones..
Proporciona esta información evidencia suficiente para concluir que existe una diferencia en las
variancias para los dos hornos. Utiliza α=0.01.
F(11,15,0.05)
Ejercicio 5
Para una distribución F encuentra:
Chi-cuadrado (χ2): distribución, cómo se calcula, ejemplos. (2020, August 11). https://definicion.edu.lat/academia/F874AD9AFCFABB8C6D7B6126911E4649.html#Ejemplo_de_calculo
Tipos de Muestreo
1. Muestreo Aleatorio Simple: Cada miembro de la población tiene la misma probabilidad de ser
seleccionado. Se puede realizar mediante métodos como sorteo o usando tablas de números aleatorios.
2. Muestreo Sistemático: Se selecciona un punto de inicio aleatorio y luego se elige cada k-ésimo
elemento de la población. Es más fácil de administrar que el muestreo aleatorio simple
•Muestreo Estratificado: La población se divide en subgrupos o estratos homogéneos, y se toma una muestra aleatoria de
cada estrato. Esto asegura que se representen todos los subgrupos importantes.
•Muestreo por Conglomerados: La población se divide en grupos o conglomerados, y se selecciona aleatoriamente algunos
conglomerados para estudiar todos los elementos dentro de ellos. Es útil cuando los elementos de la población están
naturalmente agrupados.
•Muestreo de conveniencia: se elige una muestra basada en la facilidad de acceso. Aunque no es aleatorio puede ser útil
Para estudios exploratorios
•Muestreo por cuotas: se seleccionan muestras que cumplan con cuotas predefinidas, asegurando que la muestra refleje
Ciertas características de la población
Nivel de confianza y coeficientes de acuerdo a la campana
de guaus
Pasos en el Proceso de Muestreo
(𝑁)(𝑍)(𝑝)(𝑞)
𝑛=
𝑒2 𝑁 − 1 + (𝑍)(𝑝)(𝑞)
Donde:
N= Tamaño de población o universo
n= Tamaño de muestra buscado
Z= Parámetros estadísticos
e = error de estimación máximo aceptado
p= probabilidad de que ocurra el evento estudiado ( éxito)
q=probabilidad de que no ocurra el evento estudiado (1-p)
Muestreo aleatorio
Tamaño de muestra para estimar una proporción
𝑍 2 (𝑝)(1 − 𝑝)
𝑒2
Donde:
Z= Parámetros estadísticos
e = error de estimación máximo aceptado
p= probabilidad de que ocurra el evento estudiado ( éxito)
q=probabilidad de que no ocurra el evento estudiado (1-p)
(𝑍 2 )(𝜎 2 )
𝑒2
Donde:
Z= Parámetros estadísticos
e = error de estimación máximo aceptado
𝜎 2 = varianza del dato buscado
Muestreo estratificado
Tamaño de muestra para estimar una proporción
𝑍 2 σ𝐿ℎ=1 𝑊ℎ 𝑝ℎ (1 − 𝑝ℎ )
𝑒2
Donde:
Z= Parámetros estadísticos
e = error de estimación máximo aceptado
𝑊ℎ = tamaño del estrato respecto al total de la muestra
𝑝ℎ = probabilidad de que ocurra el evento estudiado dentro de los estratos
𝑍 2 (σ𝐿ℎ=1 𝑊ℎ 𝑝ℎ (1 − 𝑝ℎ ))2
𝑒2
Donde:
Z= Parámetros estadísticos
e = error de estimación máximo aceptado
𝑊ℎ = tamaño del estrato respecto al total de la muestra
𝑝ℎ = probabilidad de que ocurra el evento estudiado dentro de los estratos
𝑍 2 (σ𝐿ℎ=1 𝑊ℎ 𝜎)2
𝑒2
Donde:
Z= Parámetros estadísticos
e = error de estimación máximo aceptado
𝑊ℎ = tamaño del estrato respecto al total de la muestra
𝜎 = varianza del dato buscado
Muestreo por conglomerados
El tamaño de toda la población se determina de la siguiente manera
𝑛
𝑀 = 𝑚𝑖
𝑖=1
𝑀
Ṁ=
𝑁
Estimación de la media
σ𝑛𝑖=1 𝑦𝑖
𝑦= 𝑛
σ𝑖=1 𝑚𝑖
Ejercicios
Se requiere estudiar la preferencia de un nuevo partido político en una población sobre la cual no se ha hecho
ningún estudio anterior , se acepta un margen de error máximo del 2%. Determine el tamaño de la muestra con
un nivel de confianza del 90% ( Z=1.645)
Datos
(𝑍2 )(𝑝)(𝑞)
p=0.5 𝑛=
q=(1-p) 𝑒2
=(1-0.5)=0.5
Z= 1.645 (1.6452 )(0.5)(0.5)
e=2%=0.02 𝑛=
0.022
0.6765
𝑛= = 1691.2656
0.0004
Ejercicios
Tomando la siguiente muestra realice una muestra sistemática de 5 estudiantes con un arranque en A=2
(A+K)
2+3=5
5+3=8
8+3=11
11+3=14
(A+K)
1+4=5
5+4=9
9+4=13
13+4=17
Datos (𝑁)(𝑍)(𝑝)(𝑞)
p=0.82 𝑛=
q=(1-p) 𝑒 2 𝑁 + 𝑍2 (𝑝)(𝑞)
=(1-0.82)=0.18
Z= 1.96 (25000)(1.96)(0.82)(0.18)
e=0.2 𝑛=
N=25000 0.22 (25000) + 1.962 (0.82)(0.18)
14175.504
𝑛=
1000 + 0.5670
𝑛 = 14.1674
Ejercicios
Se desea estudiar la aceptación de un nuevo jugo en una población en la cual no se ha realizado ningún estu
dio con un margen de error del 4% y un nivel de confianza del 96%(Z=2.05)
1.05
𝑛= = 656
0.0016
Bibliografía
Ochoa, C. (2015, 16 abril). Muestreo probabilístico: muestreo estratificado. https://www.netquest.com/blog/muestreo-probabilistico-
muestreo-estratificado
El teorema de límite central le permite aplicar estos procedimientos útiles a poblaciones que son
considerablemente no normales. El tamaño que debe tener la muestra depende de la forma de la distribución
original. Si la distribución de la población es simétrica, un tamaño de muestra de 5 podría producir una
aproximación adecuada. Si la distribución de la población es considerablemente asimétrica, es necesario un
tamaño de muestra más grande. Por ejemplo, la distribución de la media puede ser aproximadamente normal
si el tamaño de la muestra es mayor que 50. Las siguientes gráficas muestran ejemplos de cómo la
distribución afecta el tamaño de la muestra que se necesita.
Muestra de una población uniforme
Una población que sigue una distribución uniforme es simétrica, pero marcadamente no normal, como lo
demuestra el primer histograma. Sin embargo, la distribución de las medias de 1000 muestras de tamaño 5
de esta población es aproximadamente normal debido al teorema del límite central, como lo demuestra el
segundo histograma. Este histograma de las medias de las muestras incluye una curva normal superpuesta
para ilustrar esta normalidad.
Muestra de una población exponencial
Una población que sigue una distribución exponencial es asimétrica y no normal, como lo demuestra el
primer histograma. Sin embargo, la distribución de las medias de 1000 muestras de tamaño 50 de esta
población es aproximadamente normal debido al teorema del límite central, como lo demuestra el segundo
histograma. Este histograma de las medias de las muestras incluye una curva normal superpuesta para
ilustrar esta normalidad.
Formulas
Parámetro Distribución de la Muestra Distribución muestral
población de las p
Media
𝜇 = (𝑛)(𝑝) 𝑋
𝑃, = p' y E(p') = p
𝑛
Desviación típica
𝑝(1 − 𝑝)
𝜎= (𝑛)(𝑝)(𝑞) 𝜎𝑝, =
𝑛
Formulas
Sea x una variable aleatoria cualquiera de media µ y desviación típica 𝜎 , entonces; si el tamaño muestral n
es suficientemente grande (en la practica suele valer n>30), la distribución de las medidas muestrales se
aproxima a la de la normal, por lo tanto:
𝑋−𝜇
𝑍= 𝜎
𝑛
Si x1, x2, xn es una muestra aleatoria de tamaño n tomada de una población con media µ y varianza
entonces el limite de la distribución es:
Ẋ−𝜇
Ẑ= 𝜎
𝑛
Cuando n=infinito, es la distribución normal
Ejercicios
Una ciudad tiene 20 tiendas de una cadena igual de tamaño. La desviación estándar de la rotación del
personal en un año es de 75. Si tomamos una muestra de 5 tiendas sin reemplazo, determine el error
estándar de la media.
Datos
N=20 𝜎 𝑁−𝑛
n=5
𝜎𝑥 = ∗
𝑛 𝑁−1
𝜎=75
75 20 − 5
𝜎𝑥 = ∗ = 33.54 ∗ (0.885)
5 20 − 1
𝜎𝑥 =29.8011
Ejercicios
Una empresa de material eléctrico fabrica bombillas que tienen una duración que se distribuye
aproximadamente en forma normal con media de 800 horas y con desviación estándar de 40 horas. Calcule
la probabilidad de que una muestra aleatoria de 16 bombillas tenga una vida promedio de menos de 775
horas.
40
𝜎𝑥 = = 10
16
𝜇=800
𝑋−𝜇 775−800
𝑍= 𝜎 = = −2.5
10
𝑛
=0.0062*100=0.62%
Ejercicios
El viaje en autobús para ir de un campus de una universidad a un campus de otra ciudad toma en promedio
28 minutos, con una desviación estándar de 5 minutos. En cierta semana un autobús hizo el viaje 40 veces.
Cual es la probabilidad de que el tiempo promedio del viaje sea mayor a 30 minutos?. Suponga que el tiempo
promedio se redondea al entero mas cercano.
𝑥 − 28 30.5 − 28 25
𝑃 𝑥 > 30 = 𝑃 ≥ = = 3.16
5 5 0.791
40 40
𝑃 𝑍 ≥ 3.16 = 0.9992
1 − 0.9992 = 0.0008 = 0.08%
Ejercicios
Si cierta maquina fabrica resistencias eléctricas que tienen una resistencia media de 40 ohms y una
desviación estándar de 20 ohms, ¿Cuál es la probabilidad de que una muestra aleatoria de 36 de estas
resistencias tengan una resistencia combinada de mas de 1458 ohms?
Datos
n=36
1458
Ẋ= = 40.5
M=40 36
𝜎=2
40.5 − 40
𝑃 𝑋 > 40.5 = 𝑃 𝑍 > = 𝑃 𝑍 > 1.5 = 𝑃 𝑍 < 1.5
2
36
Holmes, A., Illowsky, B., & Dean, S. (2022, 14 febrero). 7.3 Teorema del límite central de las proporciones - Introducción a la estadística
empresarial | OpenStax. https://openstax.org/books/introducci%C3%B3n-estad%C3%ADstica-empresarial/pages/7-3-teorema-del-limite-central-de-
las-proporciones
Estimacion puntual
1. El objetivo de la estimación puntual es aproximar el valor del parámetro desconocido (tiempo medio de
ejecución de un algoritmo, altura media de las mujeres de una población, diferencia del resultado medio
entre dos tratamientos médicos, proporción de gente que mejora con un tratamiento médico…). Para
ello se utiliza la información de la muestra (x1,x2,…,xn)(𝑥1,𝑥2,…,𝑥𝑛), a través de un estimador.
Algunos estimadores frecuentes son:
𝑥1 +𝑥2 +𝑥𝑛
𝑋=
𝑛
•Proporción muestral, para estimar una proporción p
𝑥1 +𝑥2+𝑥𝑛
P=
𝑛
2 2
𝑥1 + 𝑥 … . 𝑥𝑛 + 𝑥
𝑆2 =
𝑛
•Casi-varinza muestral que corresponde a la varianza de la muestra dividida ente n-1
𝑥1 + 𝑥 2… . 𝑥𝑛 + 𝑥 2
𝑆2 =
𝑛−1
Un estimador es una aproximación de un parámetro teórico o desconocido de una población. Para estimar la
media de la altura de una población, podemos seleccionar una muestra y calcular la media aritmética de la
muestra. Ahora bien, también tendría sentido usar como estimador el siguiente:
𝑚𝑖𝑛 𝑥1 , 𝑥2 … 𝑥𝑛 + 𝑚𝑎𝑥 𝑥1 , 𝑥2 … 𝑥𝑛
=
2
Una primera propiedad deseable para un estimador es que el centro de la distribución de los valores que
puede tomar coincida con el valor del parámetro que queremos aproximar.
A esta propiedad se le llama insesgadez. Así, un estimador insesgado es aquel cuya media coincide con el
valor del parámetro a estimar.
Métodos de la estimación puntal
•Media muestral (X)= es el estimador puntual mas común para la media poblacional (𝜇 )
•Máxima verosimilitud= Un método que elige el estimador que maximiza la probabilidad de observar los datos
•Método de los momentos= Estima los parámetros poblacionales al igualar los momentos muestrales (como
la media y la varianza) con los momentos teóricos de la población
Estimacion por intervalos
La estimación por intervalo es una regla que indica como calcular dos números con base en los datos
muestrales, estos dos números tienen asociada una probabilidad llamada nivel de confianza y la expresamos
como (1 – α), la cual mide que el verdadero parámetro poblacional se encuentre dentro del intervalo.
La estimación puntual no permite medir la confiabilidad de los resultados, es por esto que trabajaremos con
más detalle la estimación por intervalo.
Para construir el intervalo de confianza para la media poblacional se tendrán en cuenta tres situaciones
diferentes:
1. Cuando la población es normal y la varianza de la población es conocida
2. Cuando la población es normal y la varianza de la población es desconocida
3. Cuando la población no es normal
La distribución normal de X, es normal con media y varianza conocida, entonces se establece un intervalo de
confianza (1-ᵅ) de la siguiente manera
𝑋 − 𝑍∝ 𝜎𝑋 ≤ 𝜇 ≤ 𝑋 + 𝑍∝ 𝜎𝑋
2 2
Si la población es conocida, el intervalo se define como:
𝜎𝑥 𝑁 − 𝑛
𝑋+𝑍
𝑛 𝑁−1
𝜎𝑥
𝑋+𝑍
𝑛
Ejercicios estimación puntual y por parámetros
𝑥1 +𝑥2 +𝑥𝑛
𝑋=
𝑛
160 + 165 + 170 + 175 + 180 + 185 + 190 + 185 + 200 + 205
𝑋=
10
𝑋 =182.5
Ejercicios estimación puntual y por parámetros
La doctora Patton es profesara de ingles. Hace poco conto el numero de palabras con faltas de ortografía en
un grupo de ensayos en sus estudiantes. Observo que la distribución de palabras con faltas de ortografía por
ensayo se regia por una distribución normal con una desviación estándar de 2.44 palabras por ensayo. En su
clase de 40 alumnos de las 10 de la mañana, el numero de palabras con faltas de ortografía fue de 6.05
Construya el intervalo de confianza de 90% para el numero medio de palabras con faltas de ortografía en la
población de ensayos.
𝜎𝑥
Datos 𝜇 =𝑋 + 𝑍
𝑛
n=40 Para el limite superior de confianza sustituimos valores en la formula
X=6.05
𝜎𝑋 =2.44 2.44
Z=1.64 𝜇 =6.05+1.64
40
𝜇=6.69
2.44
𝜇 =6.05-1.64 40
𝜇=5.41
Ejercicios estimación puntual y por parámetros
Se recibe un cargamento muy grande de bultos de arroz provenientes de una importación y se desea estimar el
peso promedio (µ) de dichos bultos, para esto se toma una muestra aleatoria de 100 bultos, que arrojan un peso
promedio de X =21.6 kilos. Se sabe por experiencias anteriores, que la desviación estándar de dichos
cargamentos es de σ =5.1 kilos. Se quiere un nivel de confianza en la estimación del 95% (1-α) =0.95
Datos
n = 100 Por lo tanto el tamaño de la población N es desconocida, entonces para reemplazar en el
X =21.6 kilos intervalo, solo falta encontrar el valor Z en la tabla normal para un nivel de confianza de 0.95.
σ =5.1 kilos
Como el nivel de confianza siempre queda en el centro de la distribución entonces: 1 – 0,95 =
0,05 0,05/2 = 0,025 α/2 = 0,025
En la tabla normal para un área de 0,025 el valor de Z es ±1,96
Si reemplazamos en la fórmula tenemos: 21,6 ± (1,96)5.1/√100 = 21,6 ±0,9996
El intervalo queda entonces en la forma: 20,6 ≤ µ ≤ 22,6 La expresión anterior, significa que con
una confianza del 95% se estima que el peso promedio de todo el cargamento fluctúa entre 20,6
y 22,6 kilos
Ejercicios estimación puntual y por parámetros
El sueldo mensual promedio de una muestra de 11 empleados, en el área administrativa de cierta multinacional, es de $1
500 000 y la desviación típica muestral es de 100 000. Si las observaciones son tomadas de una distribución normal,
determine el intervalo de confianza al 90% para el salario promedio de todos los empleados del área administrativa de la
empresa.
datos:
X: Salario mensual de los empleados del área administrativa
S= 100000 7
n= 11
calculamos α/2 100(1-α )%= 90% 1 –α=0.90 α=1- 0.90 α=0.10 α/2 = 0.05
Ahora hallamos el factor de confiabilidad, t n- 1,α/2 : es decir t 10 (0,05) = 1,8125 En la tabla de distribución de t student.
Donde se encuentra el valor de 1,8125. Reemplazando los valores en la fórmula se obtiene:
100000
1500000 ± 18125
11
1445351,069 ≤ µ ≤ 1554648,93
Luego podemos concluir con un nivel de confianza del 95% que el salario promedio de la empresa en el área administrativa,
está entre $1´445.351,069 y $1 554.648,93
Bibliografía
Del Rio, A. Q. (2019, 4 septiembre). 7.2 Estimación puntual | Estadística Básica Edulcorada. https://bookdown.org/aquintela/EBE/estimacion-
puntual.html
Gomez, A. (2013, 19 agosto). Uso de la tabla de distribucion de probabilidad normal estandar [Diapositivas]. SlideShare.
https://es.slideshare.net/slideshow/uso-de-la-tabla-de-distribucion-de-probabilidad-normal-estandar/25392010
La hipótesis de investigación que se genera en todo proyecto se define como la proposición o explicación
tentativa del fenómeno investigado o la postulación de lo que se busca o se trata de probar. La hipótesis de
trabajo está integrada por enunciados formales que declaran lo que el investigador quiere probar. De tal
manera que, para refutar o confirmar un problema de investigación, se debe plantear una hipótesis que
intenta proponer o explicar la relación entre dos variables, y ésta se debe apoyar siempre en conocimientos
organizados y sistematizados.
1. La prueba de hipótesis:
es un método esencial para la toma de decisiones. La decisión relaciona la elección entre dos enunciados
competitivos y mutuamente excluyentes, respecto de uno o más parámetros de la población. Los enunciados
competitivos se conocen como hipótesis nula y alternativa, respectivamente
Con base a lo anterior, es necesario señalar los atributos principales que debe poseer una hipótesis:
1. Debe hacer referencia a una situación real.
2. Las variables que se presentan en su planteamiento deben ser precisas, comprensibles y concretas.
3. La relación entre las variables debe ser clara, verosímil y lógica.
4. Los términos y las relaciones planteadas deben ser observables y medibles.
5. Las variables deben estar relacionadas con técnicas disponibles para probarlas.
Hipótesis estadística
1. Hipótesis nula (H0)
2. Hipótesis alternativa (H1)
3. La hipótesis H0 es la que se desea contrastar. Consiste generalmente en una afirmación concreta sobre
la forma de una distribución de probabilidad o sobre el valor de alguno de los parámetros de esa
distribución. El nombre de “nula” significa “sin valor, efecto o consecuencia”, lo cual sugiere que H0 debe
identificarse con la hipótesis de no cambio (a partir de la opinión actual); no diferencia, no mejora,
etc. H0 representa la hipótesis que mantendremos a no ser que los datos indiquen su falsedad, y puede
entenderse, por tanto, en el sentido de “neutra”. La hipótesis H0 nunca se considera probada, aunque
puede ser rechazada por los datos. Por ejemplo, la hipótesis de que dos poblaciones tienen la misma
media puede ser rechazada fácilmente cuando ambas difieren mucho, analizando muestras
suficientemente grandes de ambas poblaciones, pero no puede ser “demostrada” mediante muestreo,
puesto que siempre cabe la posibilidad de que las medias difieran en una cantidad lo suficientemente
pequeña para que no pueda ser detectada, aunque la muestra sea muy grande. Dado que
descartaremos o no la hipótesis nula a partir de muestras obtenidas (es decir, no dispondremos de
información completa sobre la población), no será posible garantizar que la decisión tomada sea la
correcta.
4. La hipótesis H1 es la negación de la nula. Incluye todo lo que H0 excluye.
¿Qué asignamos como H0 y H1 ?
La hipótesis H0 asigna un valor específico al parámetro en cuestión y por lo tanto “el igual” siempre forma parte de H0.
La idea básica de la prueba de hipótesis es que los hechos tengan probabilidad de rechazar H0. La hipótesis H0 es la
afirmación que podría ser rechazada por los hechos. El interés del investigador se centra, por lo tanto, en la H1.
La regla de decisión. Es el criterio que vamos a utilizar para decidir si la hipótesis nula planteada debe o no ser
rechazada. Este criterio se basa en la partición de la distribución muestral del estadístico de contraste en dos regiones o
zonas mutuamente excluyentes: Región crítica o región de rechazo y Región de no-rechazo
1. Región de no-rechazo.
-Es el área de la distribución muestral que corresponde a los valores del estadístico de contraste próximos a la afirmación
establecida en H0. Es decir, los valores del estadístico de contraste que nos conducen a decidir H0. Es por tanto, el área
correspondiente a los valores del estadístico de contraste que es probable que ocurran si H0 es verdadera. Su probabilidad
se denomina nivel de confianza y se representa por 1 – α
1. Región de rechazo o región crítica.
-Es el área de distribución muestral que corresponde a los valores del estadístico de contraste que se encuentran tan
alejados de la afirmación establecida en H0, que es muy poco probable que ocurran si H0 es verdadera. Su probabilidad se
denomina nivel de significación o nivel de riesgo y se representa con la letra α .
- Ya definidas las dos zonas, la regla de decisión consiste en rechazar H0 si el estadístico de contraste toma un valor
perteneciente a la zona de rechazo, o mantener H0 si el estadístico de contraste toma un valor perteneciente a la zona de
no-rechazo.
1. El tamaño de las zonas de rechazo y no-rechazo
-se determina fijando el valor de α, es decir, fijando el nivel de significación con el que se desea trabajar. Se suele tomar
un 1% o un 5%.
- La forma de dividir la distribución muestral en zona de rechazo y de no-rechazo depende de si el contraste es
bilateral o unilateral. La zona crítica debe situarse donde puedan aparecer los valores muestrales incompatibles
con H0.
- Estadístico de contraste. Un estadístico de contraste es un resultado muestral que cumple la doble condición de:
Proporcionar información empírica relevante sobre la afirmación propuesta en la H0.
Poseer una distribución muestral conocida
1. Tipos de contrastes.
2. Contrastes paramétricos:
- Conocida una v.a. con una determinada distribución, se establecen afirmaciones sobre los parámetros de dicha
distribución.
- Contrastes no paramétricos: Las afirmaciones establecidas no se hacen en base a la distribución de las observaciones,
que a priori es desconocida .
- Tipos de hipótesis del contraste.
1. Hipótesis simples: La hipótesis asigna un único valor al parámetro desconocido, H: θ = θ0
2. Hipótesis compuestas: La hipótesis asigna varios valores posibles al parámetro desconocido, H: θ ∈ ( θ1 , θ2 )
Regresión lineal
La regresión lineal es una técnica de modelado estadístico que se emplea para describir una variable de respuesta continua
como una función de una o varias variables predictoras.
Puede ayudar a comprender y predecir el comportamiento de sistemas complejos o a analizar datos experimentales,
financieros y biológicos.
Las técnicas de regresión lineal permiten crear un modelo lineal.
Este modelo describe la relación entre una variable dependiente y𝑦 (también conocida como la respuesta) como una
función de una o varias variables independientes Xi𝑋𝑖 (denominadas predictores). La ecuación general correspondiente a un
modelo de regresión lineal es:
donde β𝛽 representa las estimaciones de parámetros lineales que se deben calcular y ϵ𝜖 representa los términos de error.
Tipos de regresión lineal
Regresión lineal simple: modelos que utilizan un único predictor. La ecuación general es:
Y=β0+β1X+ϵ𝑌=𝛽0+𝛽1𝑋+𝜖
Regresión lineal múltiple: modelos que utilizan múltiples predictores. Esta regresión tiene múltiples Xi𝑋𝑖 para
predecir la respuesta, Y𝑌. Este es un ejemplo de la ecuación:
Y=β0+β1X1+β2X2+ϵ𝑌=𝛽0+𝛽1𝑋1+𝛽2𝑋2+𝜖
Regresión lineal multivariante: modelos para varias variables de respuesta. Esta regresión tiene
múltiples Yi𝑌𝑖 que derivan de los mismos datos Y𝑌. Se expresan con fórmulas diferentes. Este es un ejemplo
del sistema con 2 ecuaciones:
Y1=β01+β11X1+ϵ1𝑌1=𝛽01+𝛽11𝑋1+𝜖1
Y2=β02+β12X1+ϵ2
Regresión lineal múltiple multivariante: modelos que utilizan varios predictores para múltiples variables de
respuesta. Esta regresión tiene múltiples Xi𝑋𝑖 para predecir varias respuestas Yi𝑌𝑖. Esta es una
generalización de las ecuaciones:
Otras formulas a utilizar
σ𝑥 σ 𝑦𝑖 2
𝑋= 𝜎𝑦 = − 𝑦𝑖 2
𝑛 𝑛
σ𝑦
Y=
𝑛
σ 𝑥𝑖 2
𝜎𝑥 = − 𝑥𝑖 2
σ 𝑥𝑖 𝑦𝑖 𝑛
𝜎𝑥𝑦 = − 𝑋𝑖 𝑌𝑖
𝑛
𝜎𝑥𝑦
σ 𝑦𝑖 2 𝑟=
𝜎𝑦 2 = − 𝑦𝑖 2 𝜎𝑦 ∗ 𝜎𝑥
𝑛
σ 𝑥𝑖 2
𝜎𝑥𝑦
𝜎𝑥 2 = − 𝑥𝑖 2 𝑚=
𝑛 𝜎𝑦 2
Pasos para la regresión lineal
Para esta visión general, tenga en cuenta la forma más simple de la ecuación de gráfico de líneas entre y y
x; y=c*x+m, donde c y m son constantes para todos los valores posibles de x e y. Así, por ejemplo,
supongamos que los datos de entrada para (x, y) era (1,5), (2,8) y (3,11). Para identificar el método de
regresión lineal, debe seguir los siguientes pasos:
2. Siga cambiando la dirección de la línea recta para los nuevos valores (2,8) y (3,11) hasta que se ajusten
todos los valores.
Desde el pronóstico de ventas hasta la evaluación del desempeño académico, la regresión lineal desempeña
un papel insustituible al brindarnos la capacidad de discernir patrones, tendencias y asociaciones significativas
en nuestros datos. En este artículo, exploraremos a detalle qué es la regresión lineal, cómo funciona y más.
En estadística, la regresión no lineal es un problema de inferencia para un modelo tipo: y fx = ( ,θ ) + ε. Basado
en datos multidimensionales x , y , donde f es alguna función no lineal respecto a algunos parámetros
desconocidos θ . Como mínimo, se pretende obtener los valores de los parámetros asociados con la mejor
curva de ajuste (habitualmente, con el método de los mínimos cuadrados). Con el fin de determinar si el modelo
es adecuado, puede ser necesario utilizar conceptos de inferencia estadística tales como intervalos de
confianza para los parámetros así como pruebas de bondad de ajuste.
Linealización
Algunos problemas de regresión no lineal pueden linealizarse mediante una transformación en la formulación
del modelo. Por ejemplo, considérese el problema de regresión no lineal (ignorando el término de error):
y a bx = exp(bx )
Se considera la mejor curva de ajuste aquella que minimiza la suma de las desviaciones (residuales) al
cuadrado (SRC).
Esta es la aproximación por el método de mínimos cuadrados (MMC). Sin embargo, en aquellos casos donde
se tienen diferentes varianzas de error para diferentes errores, es necesario minimizar la suma de los
residuales al cuadrado ponderados (SRCP) (método de mínimos cuadrados ponderados).
En la practica, la varianza puede depender del valor promedio ajustado. Así que las ponderaciones son
recalculadas para cada iteración en un algoritmo de mínimos cuadrados ponderados iterativo.
En general, no hay una expresión de forma cerrada para los parámetros de mejor ajuste, como sucede en el
caso de la regresión lineal. Métodos numéricos de optimización son aplicados con el fin de determinar los
parámetros de mejor ajuste. Otra vez, en contraste con la regresión lineal, podría haber varios máximos
locales de la función a ser optimizada. En la práctica se suponen algunos valores iniciales los cuales junto con
el algoritmo de optimización conducen a encontrar el máximo global.
Estimación de los parámetros con el método Monte Carlo
Si el error de cada observación es conocido, entonces la precisión y confiabilidad de los parámetros puede
ser estimada mediante simulación Monte Carlo. Cada observación es aleatorizada de acuerdo a su media y
su desviación estándar. Con el nuevo conjunto de datos, una nueva curva es ajustada y las estimaciones de
los parámetros registradas. Las observaciones son entonces aleatorizadas y nuevos valores de los
parámetros son obtenidos. Al final, se generan varios conjuntos de parámetros y pueden ser calculadas la
media y desviación típica.
Algoritmo de Gauss–Newton
𝑋𝑖 𝑌𝑖 𝑋𝑖 2 𝑌𝑖 2 𝑋𝑖 𝑌𝑖
2 14 4 196 20
3 20 9 400 60
5 32 25 1024 160
7 42 49 1764 249
8 44 64 1936 352
σ 𝑥 25
𝑋= = =5
𝑛 5
σ 𝑦𝑖 2 5320
σ𝑦 152 𝜎𝑦 2 = − 𝑦𝑖 2 = − 30.4 2 = 139.84
Y= = = 30.4 𝑛 5
𝑛 5
σ 𝑥𝑖 𝑦𝑖 894
𝜎𝑥𝑦 = − 𝑋𝑖 𝑌𝑖 = − 5 30.4 = 26.8
𝑛 5
𝑋−Ẋ = m Y−Ẏ
𝑋 − 5 = 0.19 𝑌 − 30.4
𝑋 − 5 = 0.19𝑦 − 5.77
𝑋 − 5 + 5.77 = 0.19𝑦
𝑋
𝑌= − 0.77 𝑒𝑠𝑡𝑎 𝑠𝑒𝑟𝑖𝑎 𝑙𝑎 𝑒𝑐𝑢𝑎𝑐𝑖𝑜𝑛 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑐𝑡𝑎 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖𝑜𝑛
0.19
Para el inciso b solo tenemos que sustituir la edad de 6 años en la ecuación que acabamos de calcular
𝑋
𝑌= − 0.77
0.19
6
𝑌= − 0.77
0.19
σ 𝑥 936
𝑋= = = 78
𝑛 12
σ𝑦 3632
Y= = = 302.66
𝑛 12
σ 𝑥𝑖 𝑦𝑖 285908
𝜎𝑥𝑦 = − 𝑋𝑖 𝑌𝑖 = − 78 302.66 = 218.18
𝑛 12
σ 𝑦𝑖 2 1109254
𝜎𝑦 2 = 𝑛
− 𝑦𝑖 2 = 12
− 302.66 2
= 834.75
σ 𝑥𝑖 2 73760
𝜎𝑥 2 = 𝑛
− 𝑥𝑖 2 = 12
− 78 2
= 62.66
𝜎𝑦 = 𝜎𝑦 2 = 834.75 = 28.89
𝜎𝑋 = 𝜎𝑥 2 = 62.66 = 7.91
𝜎𝑥𝑦 218.18
𝑟= = = 0.95 𝑒𝑠𝑡𝑒 𝑒𝑠 𝑒𝑙 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖𝑜𝑛
𝜎𝑦 ∗ 𝜎𝑋 (28.89)(7.91)
𝜎𝑥𝑦 218.18
𝑚= = = 0.26
𝜎𝑦 2 834.75
𝑋−Ẋ=m Y−Ẏ
𝑋 − 78 = 0.26 𝑌 − 302.66
𝑋 − 78 = 0.26𝑦 − 78.69
𝑋 + 0.69 = 0.26𝑦
𝑋
𝑌= − 2.65 𝑒𝑠𝑡𝑎 𝑠𝑒𝑟𝑖𝑎 𝑙𝑎 𝑒𝑐𝑢𝑎𝑐𝑖𝑜𝑛 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑐𝑡𝑎 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖𝑜𝑛
0.26
Ejercicios
Para hacer un modelo de regresión necesitamos lápiz (o bolígrafo), folios y una calculadora elemental. Nada
más. En las practicas era suficiente con introducir los datos relativos a x y a y. Sin embargo, para hacer las
cosas sin ordenador hay que trabajar un poquito más. Por ese motivo vamos a hacer ejercicios con pocos
datos. La idea es escribir una tabla como la siguiente:
En dicha tabla, además de introducir los valores de x e y, nos ayudamos de la calculadora para hacer el resto de
columnas y las sumas finales de cada una de ellas. A partir de esta tabla, y conociendo las formulas de la
varianza y la covarianza, las calculamos tal y como aparecen a la derecha de la tabla. A partir de las medias, las
varianzas y la covarianza se calculan los coeficientes de la recta de regresión de y sobre x. Recordemos que en
la recta de regresión y = a + bx, los coeficientes a y b están dados por las siguientes formulas:
¿Qué es la regresión lineal? - Explicación del modelo de regresión lineal - AWS. (s. f.). Amazon Web Services, Inc.
https://aws.amazon.com/es/what-is/linear-regression/
Ortega, C. (2024, 29 marzo). Regresión lineal: Qué es, importancia y usos. QuestionPro. https://www.questionpro.com/blog/es/regresion-lineal/
Conclusiones
De Jesús González Azael Isaac
Como conclusión de esta investigación de las unidades de aprendizaje puedo recalcar la importancia de
saber interpretar los resultados arrojados por las formulas aplicadas ya que había casos en los ejercicios de
regresión lineal en los que los resultados no parecían lógicos sino hasta que interpretábamos dicho resultado
y lo poníamos en el contexto del problema dado. Asi mismo pude apreciar la gran importancia que tiene la
estadística dentro de la carrera de Ingeniería mecánica ya que en estos ejercicios vistos se toman cosas muy
simples como el peso de los niños o la producción de helados, pero estos mismos cálculos se pueden aplicar
dentro de la industria ya sea en el control de calidad de un lote de piezas o en el estudio para saber en que
momento es bueno invertir en la empresa basándose en datos recopilados con anterioridad.
Asi mismo aprendimos a graficar los puntos dados e indagando mas en las graficas nos pudimos dar cuanta
que muchas de las formulas que aplicamos se pueden demostrar con la ayuda de las graficas o en su
defecto nos ayudan a comprobar dichas formulas.
Por ultimo encuentro la relación que tienen todos estos temas ya que al avanzar en la complejidad de los
ejercicios puedes aplicar herramientas de los temas anteriores para hacer mas sencillo el ttrabajo.
Conclusiones
Las distribuciones de probabilidad de variables continuas, como la normal y la exponencial, son esenciales
para modelar y entender fenómenos naturales y procesos estocásticos. Estas distribuciones, caracterizadas
por funciones de densidad de probabilidad, permiten calcular la probabilidad de que una variable aleatoria tome
un valor dentro de un intervalo específico, siendo fundamentales para el análisis y la predicción en diversas
disciplinas.
La inferencia estadística permite sacar conclusiones sobre una población a partir de una muestra. Mediante la
estimación puntual, la estimación por intervalos y las pruebas de hipótesis, se pueden realizar predicciones y
tomar decisiones informadas basadas en datos. Este proceso es crucial en la investigación científica y en
diversas aplicaciones prácticas, como la medicina y la economía.
Ambos conceptos son esenciales para analizar e interpretar datos, proporcionando un marco sólido para la
toma de decisiones basada en evidencia cuantitativa.
Conclusiones
Gutiérrez Muños Luis David
En la probabilidad las distribuciones son de buena manera para entender los posibles valores de una variable
aleatoria continua
El comprender y saber diferenciar las variables y saber como aplicarlas ya sea para encontrar la mejor
variable o usar la que se necesita
En cuanto a las inferencia podemos inducir que gracias a la información que se nos da por una muestra de
información como las pruebas los intervalos y sus análisis de regresión para ser mas preciso sobre la
población a partir de la muestra dada
Conclusiones
Hernández Hernández Carlos
Los diferentes tipos de distribución de probabilidad nos ayudan a diferentes situaciones que se nos
presenten con nuestra muestra y población.
En la distribución t student intervienen las variables aleatorias continuas, se ocupa para alcanzar una media
de población por medio de una pequeña muestra. El tamaño de la muestra no es muy grande, conforme a las
tablas con el resultado que salga.
En la distribución chi-cuadrada se comprueba la independencia de las variables categóricas que son las
frecuencias esperadas, donde se comparan las frecuencias de la muestra, donde se tiene una hipótesis nula
(Ho) donde las variables son independientes y la hipótesis donde se ven si la variable tiene alguna relación.
En la distribución F es donde tenemos que comparar dos poblaciones sus varianzas, donde se tiene una
hipótesis nula y una hipótesis alternativa, aquí se tiene la varianza muestral y la varianza poblacional, donde
tienen que ser de las 2 poblaciones, donde también hay media, moda y varianza.