Estadistica Inferencial PDF
Estadistica Inferencial PDF
Estadistica Inferencial PDF
ESTADISTICA
INFERENCIAL
1
TEMARIO DETALLADO
Horas
1. Introducción al muestreo
2. Distribuciones muestrales
3. Estimación de parámetros
4. Pruebas de hipótesis
5. Pruebas de hipótesis con la distribución ji
cuadrada
6. Análisis de regresión lineal simple
7. Análisis de series de tiempo
8. Pruebas estadísticas no paramétricas
TOTAL
2
INTRODUCCIÓN
En esta asignatura el estudiante dará continuación al curso previo de
Estadística I. Observando la importancia que tiene el aprenderla, así:
3
En la unidad 6 investigará el análisis de regresión lineal simple para
averiguar el comportamiento de las variables y sus diferentes relaciones.
4
OBJETIVO GENERAL
Al finalizar el curso, el alumno será capaz de inferir las características de
una población con base en la información contenida, así como de
contrastar diversas pruebas para la toma de decisiones.
5
ESTRUCTURA CONCEPTUAL
6
UNIDAD 1
INTRODUCCIÓN AL MUESTREO
OBJETIVO ESPECÍFICO
Al terminar la unidad el alumno reconocerá los diferentes tipos de
muestreo y sus características.
15
NTRODUCCIÓN
La teoría del muestreo es útil en numerosas ocasiones y en diferentes
campos de la ciencia, sobre todo cuando no se cuenta con los recursos
necesarios para hacer un censo (tiempo y dinero) o cuando no esnecesario
o recomendable hacer un estudio completo de toda la población de
interés. Sin embargo, el no hacer el estudio completo, no significa de
ninguna manera que el estudio no sea importante, pues extraer una
muestra que sea representativa de una población y hacer inferencias que
sean correctas de la población basándose en los datos arrojados por la
muestra, es todo un proceso que debe ser cuidadosamente diseñado y
elaborado; desde el objetivo del muestreo, tamaño de la muestra, técnica
de muestreo a emplear, homogeneidad de la población, hasta las
inferencias obtenidas al termino del estudio apoyadas en la teoría de la
estimación.
16
Cabe aclarar que es imposible que una sola persona logre tal estudio
completo y que una gran cantidad de expertos en diferentes campos se
ve involucrada en tales estudios. Tales expertos incluyen no solo a los
expertos en estadística, en mercados, en el giro mismo al que se esté
dirigiendo el estudio, etc.
LO QUE SÉ
Selecciona si las siguientes aseveraciones son verdaderas (V) o falsas
(F).
Verdadera Falsa
1. El siguiente es un axioma de probabilidad,
“La probabilidad de un hecho existe y es
restringida a la amplitud de cero a uno,
( ) ( )
inclusive. Es decir, si designamos la
probabilidad de un hecho E como
P (E), entonces: 0 P(E) 1”.
2. La siguiente es una propiedad de los
logaritmos: ( ) ( )
n
loga u n loga u
17
3. La siguiente expresión no es una
propiedad de los logaritmos: ( ) ( )
loga uv loga u loga v
18
TEMARIO DETALLADO
(horas)
19
1.1. Parámetros, estadísticos y
estimadores
La teoría del muestreo estudia la relación entre una población y las
muestras tomadas de ella; es decir, se utiliza para estimar magnitudes
desconocidas de una población —tales como valores promedio y de
dispersión, llamadas a menudo parámetros de la población o simplemente
parámetros— a partir del conocimiento de esas magnitudes sobre
muestras, que se llaman estadísticos de la muestra o simplemente
estadísticos.
20
Un problema importante de la inferencia estadística es la estimación de
parámetros de la población, o brevemente parámetros (tales como la
media o la varianza de la población), de los correspondientesestadísticos
muestrales, o simplemente estadísticos (tales como la media y la varianza
de la muestra).
Hay varias razones por las que se quiere utilizar un estimador de máxima
verosimilitud para un parámetro; aunque dichos estimadores no siempre
son eficientes e insesgados, por lo general son la mejor opción que se
tiene debido a las siguientes propiedades:
21
Función de verosimilitud
Si denotamos a la función de verosimilitud con la letra “L” y la definimos
como la probabilidad de observar los datos tomados de manera
independiente de una variable aleatoria cualquiera, entonces dicha función
de verosimilitud tendrá la forma siguiente:
L(y1,y2,…,yn, a) = P(y1)P(y2)…P(yn)
L(y1,y2,…,yn, a) = f(y1)f(y2)…f(yn)
22
Primer paso
Debemos escribir la fórmula básica de la cual se parte y debemosidentificar
exhaustivamente todas sus variables; en este caso, la fórmula corresponde
a una distribución de Poisson; por lo tanto, recordando que la distribución
de Poisson es discreta con:
Segundo paso
Sustituir los valores o datos dados por el problema en la fórmula original,
considerando la teoría de la función de verosimilitud. Los valores
observados son y1=1 e y2=4; por lo tanto, la función de verosimilitud
estará formada por el producto para cada uno de los datos de la fórmula
misma.
Es decir:
23
Tercer paso
Realizar las operaciones algebraicas correspondientes a la reducción de
la fórmula, lo cual quiere decir que finalmente la fórmula anterior se puede
reducir a:
24
Si “L” es una función diferenciable de a, una condición necesaria para que “L”
tenga un máximo (no en la frontera) es:
Se escribe una derivada parcial debido a que “L” también depende de: y1,
1
En virtud de que el logaritmo natural es una función creciente, a medida que la
verosimilitud se incrementa hacia su máximo, también lo hace su logaritmo.
25
Finalmente, si la distribución de “Y” contiene “r” parámetros: a1, a2,...,ar,
y en lugar de tenemos:
26
Continuando con las leyes de los logaritmos, la expresión toma la forma
siguiente:
27
De modo que la estimación de máximo verosímil o de máxima verosimilitud de
es û=2.5.
28
Sexto paso Realizar operaciones correspondientes a la
teoría de derivación.
Séptimo paso Igualar el resultado reducido de la primera
derivada a cero.
Octavo paso Resolver la ecuación de primer grado resultante,
con lo cual obtenemos el resultado del
estimador de máxima verosimilitud.
29
Si quisiéramos estimar el parámetro entonces debemos calcular el
primer momento poblacional e igualarlo con el primer momento muestral,
a saber:
30
Así, si la variable estudiada X es el porcentaje de agrado de un producto
y dicho porcentaje (de 0 a 100) se distribuye de acuerdo con la función
de densidad fx(x) (que para asumir cierto modelo se puede utilizar una
prueba de bondad de ajuste), entonces para estimar se determina una
muestra aleatoria en la cual consideramos que arroja un promedio
31
Las respuestas implican el uso de los llamados contrastes (o tests) de
hipótesis y de significación, que son importantes en la teoría de las
decisiones.
32
1.3. Muestreo aleatorio y
muestreo de juicio
Existen básicamente dos métodos para seleccionar una muestra. Si cada
elemento de una población tiene la misma posibilidad de ser seleccionado
para integrar la muestra, el método se denomina muestreoaleatorio; por
el contrario, si los elementos tienen diferentes posibilidades de ser
elegidos, el método se denomina muestreo no aleatorio.
33
Debido a que si uno de los segmentos de la población es muy pequeño
entonces cabe la posibilidad de que ninguno de sus elementos pueda
ser incluido en la muestra y en consecuencia no ser tomado en cuenta.
34
En primer lugar extraemos una muestra de las unidades primarias (para lo
cual debemos tener la lista completa de estas unidades) y en segundo
lugar extraemos aleatoriamente una muestra de unidades secundarias
de cada una de las primarias seleccionadas en la primera extracción.
35
1.6. Tipos de muestreo aleatorio
Muestreo aleatorio sistemático
Aclaremos esto observando que el procedimiento en este tipo de
muestreo: se acomodan los elementos o personas de la población de
forma ascendente de preferencia y se selecciona un punto de partida
aleatorio y luego se toma cada k-esimo miembro para formar la muestra.
Del muestreo aleatorio simple puede ser difícil en ciertos casos. Por
ejemplo, suponga que la población que nos interesa consiste de 2000
facturas que se localizan en cajones. Tomar una muestra aleatoria sencilla
requeriría primero numerar las facturas, del 0001 al 1999; posteriormente,
se seleccionaría luego una muestra de, por ejemplo, 100 números
utilizando una tabla de números aleatorios; luego, en los cajones deberá
localizarse una factura que concuerde con cada uno de estos 100 números;
en fin, esta tarea puede requerir mucho tiempo. En lugar de ello, se podría
seleccionar una muestra aleatoria sistemática utilizando el siguiente
método: se recorren simplemente los cajones y se cuentan las facturas;
finalmente, se toman las que coincidan con el número 20 para su estudio.
Así, la primera factura debería elegirse utilizando un proceso aleatorio, por
ejemplo, una tabla de númerosaleatorios. Si se eligió la décima factura
como punto de partida, lamuestra consistiría en las facturas décima,
trigésima, quincuagésima, septuagésima, etcétera.
36
Debido a que el primer número se elige al azar, todos tienen la misma
probabilidad de seleccionarse para la muestra. Por lo tanto, se trata de
un muestreo cuasi-aleatorio. La ventaja para este tipo de muestreo sería
que es más rápido que un muestreo aleatorio formal y su desventaja es
que puede no reflejar información importante contenida en el conjunto de
datos debido a que no todos los elementos estrictamente hablados, tienen
la misma oportunidad de ser seleccionados.
Ejemplo
Los gastos en mercadotecnia de las 352 empresas mexicanas más grandes
seleccionadas por la revista Fortune. Supóngase que el objetivo de estudio
consiste en determinar si las empresas con altos rendimientos sobre su
inversión (una medición de la rentabilidad) han gastado una mayor
proporción de su presupuesto de ventas en mercadotecnia que las
empresas que tienen un menor rendimiento o incluso un déficit.
37
Supóngase que las 352 empresas se dividieron en cinco estratos; si
seleccionamos una muestra de 50 empresas, entonces de acuerdo con
el muestreo aleatorio estratificado se deberían incluir:
# #
Estrato Rentabilidad ?
empresas muestreado
1 30% y más 8 1 (8/352)(50)
2 De 20 a 30% 35 5 (35/352)(50)
3 De 10 a 20% 189 27 (189/352)(50)
4 De 0 a 10% 115 16 (115/352)(50)
5 Déficit 5 1 (5/352)(50)
Total 352 50
38
En algunos casos, el muestreo estratificado tiene la ventaja de poder
reflejar con mayor precisión las características de la población que un
muestreo aleatorio simple o sistemático, dado que puede darse el caso
en ambos muestreos (aleatorio simple o sistemático), de que alguno de
los estratos de interés no quede considerado en la muestra al no ser
elegido al menos alguno de sus elementos y la desventaja para este tipo
de muestreo estratificado es que puede caerse en el exceso de estratos
haciendo el proceso de muestreo más difícil y tardado que si aplicamos
un muestreo aleatorio simple.
39
En lugar de ello, se podría emplear un muestreo por conglomerados
subdividiendo la República Mexicana en unidades pequeñas, ya fueran
estados o regiones.
Tamaño de la muestra
Para la determinación del tamaño de la muestra se requiere tomar en
consideración la mayor cantidad posible de los siguientes elementos.
40
Fórmula genérica
Dependiendo del problema mismo, no todos los problemas incluyen la
totalidad de los elementos mencionados.
Variables
Las variables que considera la fórmula son los siguientes:
Variable Descripción
N Tamaño de la muestra
N Tamaño del universo
P Probabilidad de ocurrencia (homogeneidad del fenómeno)
Q Probabilidad de no ocurrencia (1-p)
Me Margen de error o precisión. Expresado como probabilidad.
Nc Nivel de confianza o exactitud. Expresado como valor z que
determina el área de probabilidad buscada.
41
Ejemplo
Se requiere calcular el tamaño de una muestra para el siguiente caso:
Variable Descripción
N ?
N 3,000,000
P Desconocemos la probabilidad de ocurrencia. Por esta razón
asumimos el mayor punto de incertidumbre, que es de 50%,
que al ser expresada como probabilidad queda como: 0.5
Q 1 – 0.5 = 0.5
Me +/- 5% de margen de error. Que expresado como probabilidad
queda como: 0.05
Nc 95% de nivel de confianza o exactitud. Que expresado como
valor “z” que determina el área de probabilidad buscada queda
como: 1.96
42
1. El porcentaje deseado entre 2 (debido a la simetría de la curva de
distribución normal), en este caso el resultado sería:
RESUMEN DE LA UNIDAD
Como pudimos observar, las técnicas de muestreo son variadas y su
aplicación depende del estado de la población (homogeneidad-
heterogeneidad), sin embargo la metodología de aplicación del proceso
de muestrear es mucho más completa, pues tiene que cuidar de
numerosos detalles tales como el objetivo mismo del muestreo, el tamaño
de la muestra, el nivel de confianza, etc.
43
El apoyo que brinda la teoría de la estimación es muy importante para
poder obtener inferencias correctas de la población y en consecuencia, las
personas que deban tomar las decisiones correspondientes puedan hacer
su trabajo de manera eficiente teniendo como sustento de tales decisiones
herramientas estadísticas poderosas tales como la Teoría del muestreo y
la Teoría de la estimación.
GLOSARIO DE LA UNIDAD
Aleatorio
Suceso incierto que tiene algún grado de inseguridad de ocurrir (también
es llamado estocástico).
Censo
Es el estudio en el que se incluye a toda la población.
Cuestionario
Instrumento recolector autoadministrable. En él, el cuestionado lee y
contesta por sí mismo las preguntas.
Desviación estándar
Raíz cuadrada de la suma de los cuadrados de las desviaciones de cada
valor que asume la variable en relación a la media. Raíz cuadrada de la
varianza para la muestra “s” para la población (sigma).
44
Distribución normal
Estudia la concentración de probabilidad en un intervalo cualquiera, que
está contenido en el área bajo la curva de una función de probabilidades
en forma de campana.
Entrevista
Instrumento recolector empleado en una conversación a niveles profundos
o específicos. Puede ser libre o estructurada.
Error sistemático
Error de respuesta o de encuesta que se produce constantemente a lo
largo de la investigación.
Estadística
Es una ciencia relativamente nueva que tiene por objeto la colección e
interpretación de datos.
Estadística inferencial
Estimación de las características de una población, validación de
distribuciones o la toma de decisiones sobre algún factor de la población,
sin conocerla enteramente y basándose en los resultados de un
muestreo, que se manifiestan en la estadística descriptiva de ese
conjunto de datos.
45
Muestra
Es un conjunto de “n” observaciones extraídas de entre los “N”
elementos de la población.
Muestreo a juicio
Es la selección de “n” elementos de entre los “N” de una población elegida
según el criterio del sujeto que los elige. Se basa en suposiciones muy
amplias acerca de las variables que se van a estudiar en la población.
Generalmente lo realizan expertos en la materia.
Parámetro
Medida que caracteriza a una población.
ACTIVIDADES DE APRENDIZAJE
ACTIVIDAD 1
46
ACTIVIDAD 2
CUESTIONARIO DE
REFORZAMIENTO
1. ¿Qué es la teoría del muestreo?
2. ¿En qué situaciones es conveniente recurrir al muestreo?
3. ¿Cuáles son los aportes de la teoría del muestreo?
4. ¿Qué es un muestreo aleatorio simple?
5. ¿Para qué se utiliza la teoría del muestreo?
6. ¿Qué es un muestreo aleatorio sistemático?
7. ¿Qué es un muestreo aleatorio estratificado?
8. ¿Qué es un muestreo por conglomerados?
9. ¿Qué es el nivel de confianza?
10. ¿Qué es el error de muestreo?
47
EXAMEN DE AUTOEVALUACIÓN
1
Elige la respuesta correcta a las siguientes preguntas, una vez que
concluyas, obtendrás de manera automática tu calificación.
48
3. Al proceso mediante el cual se obtienen los elementos de una
muestra representativa de la población se le denomina:
a) proceso estadístico
b) procedimiento de muestreo
c) proceso de selección
d) muestreo aleatorio
e) seccionamiento
49
d) acotada
e) estratificada
50
10. Un auditor va a realizar una prueba donde espera una tasa de error
no mayor al 5%. Si fija una precisión de 3% y un nivel de confianzade
95% en una población de 15 000 facturas, si la prueba serealizara en
el mes de marzo y si la última factura del mes de febreroes la No. 28
974, el tamaño de la muestra es de:
a) 15 000
b) 375
c) 7 500
d) 28 974
e) 1 500
EXAMEN DE AUTOEVALUACIÓN
2
Verdadera Falsa
1. En un muestro aleatorio cada elemento de una ( ) ( )
población tiene la misma posibilidad de ser
seleccionado para integrar la muestra.
2. En un muestreo no aleatorio los elementos tienen ( ) ( )
diferentes posibilidades de ser elegidos para integrar
la muestra.
51
3. El muestreo por conglomerados consiste en dividir una ( ) ( )
población en subgrupos llamados estratos y se
selecciona una muestra de cada uno de ellos con lo cual
se garantiza la representación de cada subgrupo
o estrato en la muestra final.
4. El muestreo estratificado muchas veces se emplea ( ) ( )
para reducir el costo de realizar un muestreo de una
población dispersa en una gran área geográfica.
5. El error de muestreo es la diferencia que se presenta ( ) ( )
entre los resultados obtenidos en el análisis de las
muestras respecto de los que en realidad
corresponden a la población.
6. El error de muestreo se presenta con mayor intensidad ( ) ( )
cuando las muestras no son representativas de la
población de la cual fueron extraídas.
7. El error de muestreo se presenta de forma azarosa y ( ) ( )
no hay forma de evitarlo, calcularlo o minimizarlo.
LO QUE APRENDÍ
Considera una distribución binomial con n=5, y y=2. Encuentra la
estimación de máxima verosimilitud correspondiente.
52
MESOGRAFÍA
Bibliografía sugerida
Bibliografía básica
53
Lind A. Douglas, Marchal G. William, Mason D. Robert. (2004). Estadística
para Administración y Economía. (11ª ed.) Madrid:
Alfaomega.
Bibliografía complementaria
54
Sitios de Internet
Sitio Descripción
http://ocw.upm.es/estadistica-e- Martín Fernández, Susana y Ayuga
investigacion- Téllez, Esperanza. (2008).
operativa/matematicas-y- Introducción al muestreo. Ciencias
estadistica- Ambientales, UPM
aplicada/contenidos/OCW/Tecni
cas-de-
muestreo/Mat_Clase/tec_muestr
eo.pdf
http://aulasvirtuales.wordpress.c Rodríguez, Manuel Luis. (2010).
om/2010/04/30/introduccion-al- “Introducción al muestreo”,
muestreo (30/04/10), Aulas Virtuales [blog]
http://www.itch.edu.mx/academi Torre, Leticia de la. (2003). “Teoría
c/industrial/estadistica1/cap01.h del Muestreo”, Estadística I, Instituto
tml Tecnológico de Chihuahua
http://www.eumed.net/libros/200 Ávila Baray, Héctor Luis. (2006).
6c/203/2l.htm “Introducción a la Teoría del
Muestreo”, Introducción a la
metodología de la investigación.
http://www.ub.edu/aplica_infor/s Alea, V. “Pruebas para dos
pss/cap6-3.htm muestras relacionadas”, SPSS
Análisis de datos, Estadística,
Universidad de Barcelona
55
UNIDAD 2
DISTRIBUCIONES MUESTRALES
OBJETIVO ESPECÍFICO
Al terminar la unidad el alumno identificará e interpretará los diferentes
tipos de distribuciones muestrales.
INTRODUCCIÓN
La distribución de la población de la cual extraemos la muestra con la
que trabajamos en estadística es importante para saber qué tipo de
distribución debemos aplicar en cada una de las situaciones que se nos
presenten en la práctica; en esta unidad veremos algunas de estas
distribuciones que se encuentran relacionadas con la distribución normal,
además de observar la distribución muestral para la media y para la
proporción y su relación con el teorema central del límite.
56
LO QUE SÉ
Elige la respuesta correcta a las siguientes preguntas:
b)
2
s (n 1)
c) 2
1 /2
s2 (n s2 (n 1)
b) /2 1 /2
(X X )2
c)
57
4. La distribución “t” de Student se utiliza cuando:
El investigador lo decide
cuando la desviación estándar de la población es desconocida
cuando no hay otra alternativa
(X X )2
a)
b)
(x )2
c)
a) n r
b) n r
n
c) F( X ) P)n x
x
58
Las combinaciones se utilizan cuando:
no importa el orden
si importa el orden
no hay otra opción
Normal
TEMARIO DETALLADO
(horas)
59
2.1. La distribución muestral de la
media
El estudio de determinadas características de una población se efectúa a
través de diversas muestras que pueden extraerse de ella.
60
Distribución muestral de medias
Cada muestra de tamaño n que podemos extraer de una población
proporciona una media. Si consideramos cada una de estas medias
como valores de una variable aleatoria podemos estudiar su distribución
que llamaremos distribución muestral de medias.
61
2.2. El teorema central del límite
El enunciado formal del teorema del límite central es el siguiente: si en
cualquier población se seleccionan muestras de un tamaño específico, la
distribución muestral de las medias de muestras es aproximadamente
una distribución normal. Esta aproximación mejora con muestras demayor
tamaño.
Ésta es una de las conclusiones más útiles en estadística pues nos permite
razonar sobre la distribución muestral de las medias de muestras sin contar
con información alguna sobre la forma de la distribuciónoriginal de la
que se toma la muestra. En otras palabras, de acuerdo con el teorema del
límite central, es válido aproximar la distribución deprobabilidad normal a
cualquier distribución de valores medios muestrales, siempre y cuando se
trate de una muestra suficientemente grande.
62
2.3. La distribución muestral de la
proporción
Hoy es bien sabido que si la investigación produce datos mensurables tales
como el peso, distancia, tiempo e ingreso, la media muestral es en
ocasiones el estadístico más utilizado, pero, si la investigación resulta en
artículos “contables” como por ejemplo: cuántas personas de una muestra
escogen la marca “Peñafiel” como su refresco, o cuántas personas de una
muestra tienen un horario flexible de trabajo, utilizar la proporción
muestral es generalmente lo mejor.
63
Ejemplo; supóngase que una comercializadora pretende establecer un
nuevo centro y desea saber la proporción del consumidor potencial que
compraría el principal producto que vende para lo cual realiza un estudio
de mercado mediante una encuesta a 30 participantes, lo cual permitirá
saber quiénes lo comprarían y quiénes no; se obtuvieron los siguientes
resultados:
_ _
estimar P es:
64
_
p muestral se
Es decir, de acuerdo con el teorema del límite central,
_
p muestral tendrá distribución normal con media P=0.30 y
En este caso
desviación estándar .
Dado que todas las muestras aleatorias que sean tomadas de una misma
población en general serán distintas y tendrán por ende diferentes valores
para sus estadísticos tales como la media aritmética o la desviación
estándar, entonces resulta importante estudiar la distribución de todos los
valores posibles de un estadístico, lo cual significa estudiar las
distribuciones muestrales para diferentes estadísticos (véase, Weimer,
1996, p. 353). La importancia de éstas distribuciones muestrales radica en
el hecho de que en estadística inferencial, las inferencias sobre poblaciones
se hacen utilizando estadísticas muestrales pues con el análisis de las
distribuciones asociadas con éstos estadísticos se da la confiabilidad del
estadístico muestral como instrumento para hacer inferencias sobre un
parámetro poblacional desconocido.
65
2.4. La distribución muestral de la
varianza
La varianza de las muestras sigue un proceso distinto a los de la media y
proporción. La causa es que el promedio de todas las varianzas de las
muestras no coincide con la varianza de la población s2. Se queda un
poco por debajo.
66
RESUMEN DE LA UNIDAD
El teorema central del límite es útil para entender que la distribución de
las medias de muestras tomadas de una misma población y del mismo
tamaño es aproximadamente normal y que esta aproximación mejora a
medida que se incrementa el tamaño de la muestra; dando pie al estudio
de la distribución muestral para la media y para la proporción y a la
elaboración de “intervalos de confianza” que se analizarán en el apartado
3.4., la proporción muestral es el mejor estadístico por utilizar cuando en
la investigación se trata de averiguar cuestiones tales como:
¿Cuántos integrantes de la población tienen una característica en particular
o una tendencia similar?
67
GLOSARIO DE LA UNIDAD
Distribución muestral
Es una distribución de probabilidades que consta de todos los valores
posibles de un estadístico de muestra.
Error estándar
Es la desviación estándar de un estimador puntual.
Muestras pareadas
Muestras en las que con cada dato de una muestra se forman parejas
con el dato correspondiente.
Parámetro
Es una característica numérica de una población, tal como la media
aritmética poblacional, la desviación estándar poblacional o la proporción
poblacional.
68
Teorema del límite central
También conocido como teorema central del límite, es un teorema que
permite usar la distribución de probabilidad normal para aproximar la
_ _
p cuando el tamaño de la muestra es
distribución de muestra de x y
grande.
ACTIVIDADES DE APRENDIZAJE
ACTIVIDAD 1
ACTIVIDAD 2
69
CUESTIONARIO DE
REFORZAMIENTO
1. ¿Qué es una distribución de muestreo?
2. Si el estadístico utilizado es la media muestral, ¿qué nombre recibe la
distribución de este estadístico?
3. ¿Qué es la distribución muestral de las medias de las muestras?
4. ¿Qué relación existe entre la media de las medias de la muestra y la
media de la población?
5. ¿Cómo es la dispersión de las medias de la muestra en comparación
con la de los valores de la población?
6. ¿Cómo es la forma de la distribución muestral de las medias de
muestras y la forma de la distribución de frecuencia de los valores de
la población?
7. ¿Cómo es la desviación estándar de las medias de las muestras
comparada con la desviación estándar de la población?
8. Para una población infinita ¿qué implicación tiene el hecho de que la
distribución de muestreo sea asintóticamente normal?
9. ¿Cómo es la distribución de muestreo de medias cuando la población de
origen está normalmente distribuida?
10. En una empresa se tienen 4 puestos de gerente nivel C disponibles y
7 candidatos que pueden ocupar esos puestos, ¿de cuántas formas
podemos tomar la decisión correspondiente?
70
EXAMEN DE AUTOEVALUACIÓN
1
Verdadera Falsa
1. El enunciado formal del teorema central del límite ( ) ( )
dice que si en cualquier población se seleccionan
muestras de un tamaño específico, la distribución
muestral de las medias de muestras es
aproximadamente una distribución normal y que
esta aproximación mejora con muestras de
mayor tamaño.
2. La conclusión del teorema central del límite es ( ) ( )
una de las conclusiones menos útiles en
estadística pues no permite razonar sobre la
distribución muestral de las medias de muestras
sin contar con información alguna sobre la forma
de la distribución original de la que se toma la
muestra.
71
3. El teorema central del límite permite aproximar la ( ) ( )
distribución de probabilidad normal a cualquier
distribución de valores medios muestrales,
siempre y cuando se trate de una muestra
suficientemente grande.
4. El teorema central del límite se aplica a la ( ) ( )
distribución muestral de las medias de muestras
y permite utilizar la distribución de probabilidad
normal para crear intervalos de confianza.
5. La media muestral es uno de los estadísticos ( ) ( )
más utilizados en estadística inferencial.
6. Para que un investigador pueda asignar un valor ( ) ( )
probabilístico a una media muestral, es
necesario que conozca la distribución muestral
de las medias.
N n ( ) ( )
x
8. N 1 es la fórmula para calcular la
72
EXAMEN DE AUTOEVALUACIÓN
2
73
3. Calcular el factor de corrección para la población finita de un inventario
que consta de 250 productos y a la cual se le efectuará un muestreo de
40%:
a) 0.881
b) 0.918
c) 0.819
d) 0.991
e) 0.989
74
6. Una población se compone de los siguientes cinco números 2, 3, 6, 8,
y 11. Calcula la media de la distribución muestral para tamaños de
muestra 2 con reemplazamiento:
a) 6.2
b) 5.7
c) 6.0
d) 6.1
e) 5.8
75
9. Se tiene una lista de 120 estudiantes, 60 de ellos son de Contaduría y
el resto de Administración. Si se toma una muestra al azar, halla la
probabilidad de que se escojan entre el 40% y el 60% de contadores
del tamaño de la muestra:
a) 98.5%
b) 96.7%
c) 95.8%
d) 97.7%
e) 99.1%
76
LO QUE APRENDÍ
Preocupado por la variabilidad aparente de dos máquinas exactamente
iguales y que fabrican el mismo tipo de botella para agua “ciel”, el dueño
de la fábrica solicita un estudio en el que se muestreen al azar 10
botellas para cada máquina, obteniendo los siguientes resultados:
77
MESOGRAFÍA
Bibliografía sugerida
Bibliografía básica
78
Lind, A. Douglas; Marchal, G. William; Mason, D. Robert. (2004).
Estadística para Administración y Economía. (11ª ed.)
México: Alfaomega.
Bibliografía complementaria
Sitios de Internet
Sitio Descripción
http://recursostic.educacion.es/de García Cebrian, María José.
scartes/web/materiales_didacticos (2001). “Distribuciones
/inferencia_estadistica/distrib_mue muestrales”, Estadística,
strales.htm Descartes 2D, Matemáticas
interactivas.
79
http://www.ugr.es/~ramongs/labor Gutiérrez Sánchez, Ramón.
ales/tema6.pdf (2007). “Distribuciones
muestrales”, Curso de
Estadística, Diplomatura en
Laborales, Universidad de
Granada.
http://www.uoc.edu/in3/emath/doc Juan, Ángel A.; Sedano, Máximo,
s/Distrib_Muestrales.pdf Vila, Alicia. (2002).
“Distribuciones muestrales”,
Proyecto e-Math, UOC.
http://www.itch.edu.mx/academic/i Torre, Leticia de la. (2003).
ndustrial/estadistica1/cap01.html “Teoría del Muestreo”,Estadística
I, Instituto
Tecnológico de Chihuahua
80
UNIDAD 3
ESTIMACIÓN DE PARÁMETROS
OBJETIVO ESPECÍFICO
Al terminar la unidad el alumno aprenderá los métodos de estimación de
parámetros y su interpretación.
INTRODUCCIÓN
En el momento de tomar decisiones el conocimiento de los parámetros de
población es de vital importancia, tal conocimiento generalmente solo se
puede tener al estimar el valor de dichos parámetros, sin embargo, la
estimación es mejor cuando se da un margen de confianza y uno de error,
siendo importante la correcta estimación de dichos parámetros a través de
la construcción de intervalos de confianza que puedan sustentar la toma
de decisiones de manera eficiente.
82
LO QUE SÉ
Elige la respuesta correcta a las siguientes preguntas.
b)
c)
83
84
TEMARIO DETALLADO
(10 horas)
85
3.1. Estimaciones por punto y
estimaciones por intervalo
Una estimación de un parámetro de la población dada por un solonúmero
se llama una estimación de punto del parámetro. No obstante, un
estimador puntual sólo refiere una parte de la historia. Si bien se espera
que el estimador puntual esté próximo al parámetro de la población, se
desearía expresar qué tan cerca está. Un intervalo de confianza sirve a
este propósito.
86
Existe una distinción técnica entre un estimador como una función de
variables aleatorias y una estimación como un único número. Tal distinción
se refiere al proceso en sí (estimador) y el resultado de dicho proceso (la
estimación.) Lo que en realidad importa de esta definición es que nosotros
sólo podemos definir buenos procesos (estimadores), mas no garantizar
buenos resultados (estimaciones).
(1)
87
Evidentemente, (1) y (2) son estimaciones de los parámetros para
distribuciones en las que tanto la media como la varianza aparecen
explícitamente como parámetros, tales como las distribuciones normal y
de Poisson. Aquí, podemos mencionar que (1) es un caso muy especial del
llamado método de los momentos, en la que los parámetros que vana
estimarse se expresan en términos de los momentos de la distribución en
las fórmulas resultantes (véase, Kreyszig, 2000[2], § 19.8); esos
momentos se reemplazan por los momentos correspondientes de la
muestra, lo cual proporciona las estimaciones deseadas.
Aquí, el k-ésimo momento de una muestra x1, x2,...xn, es:
1i n
mk (x ) k
i 1
88
La diferencia entre los términos “desviación estándar” y “error de
estándar” es que la primera se refiere a los valores originales, mientras
que la última está relacionada con valores calculados. Un estadístico es
un valor calculado, obtenido con los elementos incluidos en una muestra.
89
3.3. Propiedades de los
estimadores
Insesgadez. Un estimador es insesgado o centrado cuando verifica que
B( )= - E( )
90
En cambio la varianza muestral es un estimador sesgado de la varianza
es el parámetro a
estimar. Existe pues un sesgo que será
91
Por tanto la varianza muestral es un estimador sesgado pero
asintóticamente insesgado de la varianza de la población.
ECM( )=
92
no depende del parámetro a estimar . En términos
más simples: cuando se aprovecha toda la información muestral.
[CEACES, aquí]
Z= =
93
Donde Z = valor correspondiente a una área acumulada 1 - de la
distribución normal estandarizada, esto es, una probabilidad de la cola
superior de
94
Por ejemplo, si se desea conocer la media de la glucemia basal de una
población, con una seguridad del 95 % y una precisión de ± 3 mg/dl y se
tiene información a través un estudio piloto o de una revisión bibliográfica
que la varianza es de 250 mg/dl:
n= 1.962 X 250 / 32 = 106.7
=1
95
Para = -1.96, Tenemos
85 – 1.96
83.04
Para = 1.96, Tenemos
85 + 1.96
86.96
El intervalo de confianza es : 83.04 < < 86.96
Nos indica con el 95% de seguridad, que el promedio de las medias
muéstrales de las cuentas está entre 83.04 y 86.96.
96
Por ejemplo, si n=4 y
; y , entonces automáticamente
tenemos , así que sólo tres de los cuatro valores de
están libremen [sic.] te determinamos 3 grados de libertad.
[Torre, 2003]
97
El cual, de acuerdo con el teorema del límite central, tendrá distribución
normal estándar. En este caso, P es la proporción de la población con
proporción de las 250 acciones que tendrán una baja en precio al cierre
del día. Para ello se observa una muestra de las primeras 4 horas sobre 50
acciones operadas y se observó que la proporción que bajó de precio es el
0.10 (10%). En el día se estima que no se presenten turbulencias por
información importante o privilegiada. Se pide determinar el intervalo de
confianza para la proporción total de acciones a la baja con un nivel
de confianza del 90%.
98
Es decir aproximadamente entre el 3% y 17%.
99
Donde:
Donde:
N = Total de la población
Z = 1.962 (si la seguridad es del 95%)
p = proporción esperada (en este caso 5% = 0.05)
q = 1 – p (en este caso 1-0.05 = 0.95)
d = precisión (en este caso deseamos un 3%).
100
Si la seguridad Zα fuese del 95% el coeficiente sería 1.96
Si la seguridad Zα fuese del 97.5% el coeficiente sería 2.24
Si la seguridad Zα fuese del 99% el coeficiente sería 2.576.
101
Intervalo para estimar la media
De acuerdo con tablas de la distribución normal estándar el área bajo la
curva entre z=-1 y z=+1 es 0.6826; por consiguiente, y de acuerdo con
la definición de la función normal estándar de probabilidad, las
desigualdades siguientes se cumplen con probabilidad de 0.6826.
1 x 1
x
Por y por
Se tiene que:
102
68.42
Es decir: aquí, la media aritmética de la población
1
En términos generales, para encontrar un intervalo de cualquier porcentaje
de confianza, se hace lo siguiente:
103
(-1.96, +1.96)
Es, aproximadamente 0.95 o, en otra forma, las desigualdades:
-1.96 <z<+1.96
Se cumplen con probabilidad 0.95;
Y puesto que se sabe que la distribución de las medias de las muestras
es normal,
X 1.96s 1.96s
2
Como un intervalo con 0.95 de confianza para . Por lo tanto, se puede
afirmar con 95% de confianza que se encuentra dentro del intervalo:
1.96s 1.96s
X X
y
104
Por lo tanto, sustituyendo los valores de la media y de la desviación
estándar, así como del tamaño de la muestra para el ejercicio anterior
(media 69, desviación estándar 3.5 y tamaño de muestra 36) en 2 se tiene
que el intervalo con 95% de confianza es:
1.96 3.5 1.96 3.5
69 69
36 36
67.8 70.1
Ejemplo:
Considera el caso de estimar si no hay deficiencias en una máquina que
llena envases con capacidad de 500 ml.; para ello, se extrae una
muestra periódicamente; si la muestra indica que hay una variación de
±5 ml. alrededor de los 500 y con un nivel de confianza del 95%,
entonces se puede decir que el proceso está bajo control.
105
En este caso lo que importa es la variación en el llenado, pues el nivel
promedio de llenado se puede controlar programando la máquina. Por
ello, si la muestra arroja una variación arriba de 5 unidades, entonces el
proceso no estará bajo control.
(n
X 0.025 X 0.975
106
Despejando todas las constantes y dejar solo 2 se tiene el intervalo:
RESUMEN DE LA UNIDAD
Las inferencias acerca de una población que se obtienen del estudio de
una muestra pueden ser tan buenas como lo sean las estimaciones
obtenidas, aquí, el cuidado va evidentemente sobre la recolección de los
datos, pues existe una gran variedad de estimadores que pueden ser
utilizados dependiendo del contexto pero el éxito de la aplicación de un
estimador (estimación) dependerá necesariamente de la calidad de los
datos mismos, resulta evidente que esto es extensible a los intervalos de
confianza tanto para la media como para proporciones.
107
GLOSARIO DE LA UNIDAD
Distribución t
Es en realidad una familia de distribuciones de probabilidad que se emplea
para construir un intervalo de confianza para la media poblacional, siempre
que la desviación estándar se estime mediantela desviación estándar
muestral “s” y la población tenga una distribución de probabilidad normal
o casi normal.
Error muestral
Es el valor absoluto de la diferencia entre el valor de un estimador
_
Estimación de intervalo
Estimación de un parámetro de la población que define un intervalo dentro
del que se cree está contenido el valor del parámetro. Tiene la forma de:
Estimación puntual margen de error.
108
Grados de libertad
Es el número de observaciones independientes para una fuente de
variación menos el número de parámetros independientes estimado al
calcular la variación.
Margen de error
Es el valor sumado y restado a una estimación puntual a fin de
determinar un intervalo de confianza de un parámetro poblacional.
Nivel de confianza
Es la confianza asociada con una estimación de intervalo. Por ejemplo si
en un proceso de estimación de intervalo, el 90% de los intervalos
formados con este procedimiento contienen el valor del parámetro
buscado, se dice que éste es un intervalo de 90% de confianza.
ACTIVIDADES DE APRENDIZAJE
ACTIVIDAD 1
Ventajas Desventajas
Estimadores sesgados
Estimadores insesgados
Estimadores consistentes
Estimadores inconsistentes
109
ACTIVIDAD 2
ACTIVIDAD 3
110
CUESTIONARIO DE
REFORZAMIENTO
111
6. En una muestra aleatoria de 125 llantas para automóvil, se encontró
que la vida media fue de 35,000 km. y la desviación estándar de
4,000. Determina un intervalo con 68% de confianza para la vida
media.
7. Un estudio sobre ciertas acciones comunes permitió conocer que en una
muestra aleatoria de 100 acciones la rentabilidad anual promedio fue
de 4.2%, mientras que su desviación estándar es de 0.6%. Determina
un intervalo, con 95% de confianza, para la rentabilidad promedio.
8. ¿Cuál es la diferencia entre una estimación y un estimador?
9. ¿Qué es un intervalo de confianza?
10. Señala, ¿por qué son preferibles las estimaciones de intervalo a las
estimaciones puntuales?
EXAMEN DE AUTOEVALUACIÓN
Elige la respuesta correcta a las siguientes preguntas.
1. En este estimador su esperanza matemática es igual a parámetro en
cuestión:
a) robusto
b) insesgado
c) sesgado
112
3. Este tipo de estimaciones se usan con frecuencia a causa de la
relativa sencillez con que se obtienen algunas de ellas
a) consistentes
b) robustas
c) ineficientes
113
LO QUE APRENDÍ
Construye un intervalo de confianza de 95% para la vida media de los
neumáticos muestreados en la tabla mostrada a continuación. (Nota. Los
datos están dados en miles de kilómetros.)
114
MESOGRAFÍA
Bibliografía sugerida
Bibliografía básica
115
Bibliografía complementaria
Sitios de Internet
Sitio Descripción
http://www.itescam.edu.mx/principal/ Fernández, Pita. (1996).
sylabus/fpdb/recursos/r53794.PDF “Determinación del tamaño
muestral”, Cad Aten
Primaria 1996; 3: 138-14,
actualizado 06/03/01
http://www.uv.es/ceaces/tex1t/4%20e Martínez de Lejarza
stimacion/estimacion.html#2.Propied Esparducer, Juan y otros.
ades%20de%20los%20Estimadores (2011). “Inferencia
116
estadística / Estimación
puntual / propiedades de los
estimadores”, Contenedor
Hipermedia de Estadística
Aplicada a las Ciencias
Económicas y sociales”,
(Proyecto CEACES),
Universidad de Valencia.
http://www.itch.edu.mx/academic/ind Torre, Leticia de la. (2003).
ustrial/estadistica1/cap01.html “Teoría del Muestreo”,
Estadística I, Instituto
Tecnológico de Chihuahua
117
UNIDAD 4
PRUEBAS DE HIPÓTESIS
OBJETIVO ESPECÍFICO
Al terminar la unidad el alumno conocerá las pruebas de hipótesis y su
aplicación.
INTRODUCCIÓN
En esta unidad, el alumno investigará y analizará el concepto de prueba
de hipótesis y lo aplicará sobre varianzas, medias, etc.; ello le permitirá
percatarse de la importancia que tienen las pruebas de hipótesis para la
toma de decisiones dentro de las empresas.
118
Sabemos que cuando las personas toman decisiones, inevitablemente lo
hacen con base en las creencias que tienen en relación con el mundo
que los rodea; llevan en la mente una cierta imagen de la realidad, piensan
que algunas cosas son verdaderas y otras falsas y actúan en consecuencia,
así, los ejecutivos de empresas toman todos los días decisiones de
importancia crucial porque tienen ciertas creencias tales como:
De que un tipo de máquina llenadora pone al menos un kilogramo
de detergente en una bolsa.
De que cierto cable de acero tiene una resistencia de 100 kg o
más a la rotura.
De que la duración promedio de una batería es igual a 500 horas.
De que en un proceso de elaboración de cápsulas éstas
contengan precisamente 250 miligramos de un medicamento.
Que la empresa de transportes de nuestra competencia tiene
tiempos de entrega más rápidos que la nuestra.
De que la producción de las plantas de oriente contiene menos
unidades defectuosas que las de occidente.
En todos estos casos, y en muchos más, las personas actúan con base
en alguna creencia sobre la realidad, la cual quizá llegó al mundo como
una simple conjetura, como un poco más que una suposición informada;
una proposición adelantada tentativamente como una verdad posible es
llamada hipótesis.
119
Sin embargo, tarde o temprano, toda hipótesis se enfrenta a la evidencia
que la comprueba o la rechaza y, en esta forma, la imagen de la realidad
cambia de mucha a poca incertidumbre.
Por lo tanto, de una manera sencilla podemos decir que una prueba de
hipótesis es un método sistemático de evaluar creencias tentativas sobre
la realidad, dicho método requiere de la confrontación de tales creencias
con evidencia real y decidir, en vista de esta evidencia, si dichas creencias
se pueden conservar como razonables o deben desecharse por
insostenibles.
120
LO QUE SÉ
Elige la respuesta correcta a las siguientes preguntas.
x z
2 n
b) 2
x
z
c)
x z
n
a) 2
x
z
121
TEMARIO DETALLADO
(10 horas)
122
4.1. Planteamiento de las
hipótesis
1. Formulación de dos hipótesis opuestas
El primer paso para probar una hipótesis es siempre formular dos hipótesis
opuestas, que sean mutuamente excluyentes y, también colectivamente
exhaustivas, del experimento que estemos evaluando. Cada una de estas
hipótesis complementarias es una proposición sobre un parámetro de la
población tal que la verdad de una implique la falsedad de la otra. La
primera hipótesis del conjunto, simbolizada porH0, se denomina hipótesis
nula; la segunda, simbolizada por H1 o bien por Ha, es la hipótesis
alternativa.
123
Una regla de decisión es una regla para prueba de hipótesis que nos
permite determinar si la hipótesis nula debe ser aceptada o si debe ser
rechazada a favor de la alternativa.
Se dice que los valores numéricos del estadístico de prueba para los que
H0 es aceptada están en la región de aceptación y son considerados no
significativos estadísticamente.
124
4.2. Errores tipo I y tipo II
Error tipo I
En una prueba estadística, rechazar la hipótesis nula cuando es verdadera
se denomina error tipo I. Y a la probabilidad de cometer un error tipo I se
le asigna el símbolo (letra griega alfa).
Ejemplo
Incurrir en un riesgo α
Un fabricante de varillas de acero especial que son utilizadas en la
construcción de edificios muy altos ha contratado a un estadista para
que pruebe si sus varillas ciertamente tienen un promedio de resistencia
a la tensión de al menos 2000 libras ¿Cuáles son las implicaciones si el
nivel de significancia de la prueba de hipótesis se fija en: α = 0.08?
125
Solución:
Dadas las hipótesis: H0 : 0 2000 y H1 : 0 2000
Error Tipo II
En una prueba estadística, aceptar la hipótesis nula cuando es falsa se
denomina error tipo II. A la probabilidad de cometer un error de tipo II se
le asigna el símbolo (letra griega beta)
Ejemplo
Incurrir en un riesgo β
126
50
H0 : y H1 :
50
prueba.
Nivel de significancia
El nivel de significancia o significación es la probabilidad de cometer un
error tipo I, es decir, el valor que se le asigna a α.
Potencia de la prueba
Es posible determinar (Weimer, 1996, p. 461) la probabilidad asociada con
tomar una decisión correcta: no rechazar H0 cuando es verdadera o
rechazarla cuando es falsa. La probabilidad de no rechazar H0 cuando es
verdadera es igual a 1-
Como
P (rechazar Ho cuando es verdadera) =
Tenemos:
127
P (no rechazar Ho cuando es verdadera) = 1 -
Pero como:
Símbolo de la Definición
probabilidad
128
1- Nivel de confianza. Probabilidad de no rechazar H0
cuando es verdadera
Ejemplo
H0 : µ = 200
H1 : µ ≠ 200
129
En las pruebas de hipótesis para la media (μ), cuando se conoce
la desviación estándar (σ) poblacional, o cuando el valor de la
muestra es grande (30 o más), el valor estadístico de prueba es
z y se determina a partir de:
130
Distribución muestral del valor estadístico z, con prueba de una
cola a la derecha
Valor crítico: Es el punto de división entre la región en la que se
rechaza la hipótesis nula y la región en la que no se rechaza la
hipótesis nula.
131
4.4. Pruebas de hipótesis para
una media poblacional
Dentro de la inferencia estadística, un contraste de hipótesis
(también denominado test de hipótesis o prueba de significación)
es un procedimiento para juzgar si una propiedad que se supone
cumple una población estadística es compatible con lo observado
en una muestra de dicha población. Fue iniciada por Ronald Fisher
y fundamentada posteriormente por Jerzy Neyman y Karl Pearson.
132
4.5. Tres métodos para realizar
pruebas de hipótesis
Las pruebas de hipótesis se clasifican como direccionales o no
direccionales, dependiendo de cuando la hipótesis nula involucra o no el
signo de igualdad (=).
133
La estrategia básica en las pruebas de hipótesis es tratar de apoyar la
hipótesis alternativa “contradiciendo” la hipótesis nula.
134
Para contestar a esta pregunta se requiere conocer ladistribución
muestral del estadístico de la prueba. Los valores delestadístico de
la prueba que son sumamente improbables bajo la hipótesis nula
(tal como los determina la distribución muestral) forman una
región de rechazo para la prueba estadística.
135
* Un valor P es el nivel (de significancia) más bajo en el que el
valor observado de la estadística de prueba es significativo.
136
4.7. Pruebas de hipótesis sobre la
diferencia entre dos medias
Puesto que deseamos estudiar dos poblaciones, la distribución
de muestreo que nos interesa es la distribución de muestreo de
la diferencia entre medias muestrales.
137
4.8. Pruebas de hipótesis sobre la
diferencia entre dos poblaciones
Las pruebas de hipótesis a partir de proporciones se realizan
casi en la misma forma utilizada cuando nos referimos a las
medias, cuando se cumplen las suposiciones necesarias paracada
caso. Pueden utilizarse pruebas unilaterales o bilaterales
dependiendo de la situación particular.
La proporción de una población
Las hipótesis se enuncian de manera similar al caso de la media.
Ho: p = p0
H1: p ¹ p0
138
El objetivo de la prueba es comparar estas dos proporciones, como
estimadores
H1: p1 ¹ p2
Cociente F
S12
F=
S22
Donde:
S12 = Varianza de la muestra 1
S22 = Varianza de la muestra 2
139
El estadístico de prueba dado por la ecuación anteriormente
nombrado, es el cociente F. Si la hipótesis nula de varianzas
poblacionales iguales es cierta, la razón de las varianzas
muestrales se obtiene de la distribución F teórica. Al consultar la
tabla F se puede evaluar la probabilidad de este suceso.
RESUMEN DE LA UNIDAD
Las pruebas de hipótesis, como herramienta estadística, son importantes
porque nos indican el camino, al aceptar o desechar un hipótesis de
manera tentativa a favor de otra, sin embargo no aportan mayor
información; pero si apoyamos nuestra decisión con un intervalo de
confianza apropiado, podemos obtener datos que pueden ser
transformados en información y utilizarlos como sustento de una decisión
que generalmente en cualquier ámbito representa dinero. Evidentemente
se debe de tomar en consideración todos los errores posibles que se
puedan cometer durante el proceso, de donde nacen los errores tipo i y II
para las pruebas de hipótesis, además de la potencia de una prueba de
hipótesis para que nuestra opinión sea lo más certera posible.
140
GLOSARIO DE LA UNIDAD
Curva de la potencia de la prueba
Es la gráfica de la probabilidad de rechazar H0 para todos los valores
posibles del parámetro poblacional que no satisfacen la hipótesis nula.
Error tipo I
Es el error que se comete al rechazar H0 cuando ésta es verdadera.
Error tipo II
Es el error que se comete al aceptar H0 cuando ésta es falsa.
Estadístico de prueba
Es el estadístico cuyo valor se utiliza para determinar si se rechaza una
hipótesis nula.
141
Nivel de significancia
Es la probabilidad máxima de cometer un error tipo I.
Potencia de la prueba
Es la probabilidad de rechazar correctamente H0 cuando es falsa.
Región de rechazo
Es la zona de valores en la cual se rechaza la hipótesis H0.
Valor crítico
Es un valor contra el cual se compara el obtenido en el estadístico de
prueba para determinar si se debe rechazar o no la hipótesis nula.
Valor p
Es la probabilidad de que, cuando la hipótesis nula sea verdadera, se
obtenga un resultado de una muestra que sea al menos tan improbable
como el que se observa. También se le conoce como nivel observado de
significancia.
142
ACTIVIDADES DE APRENDIZAJE
ACTIVIDAD 1
ACTIVIDAD 2
CUESTIONARIO DE
REFORZAMIENTO
143
7. Un artículo de prensa señaló que la edad promedio de los accionistas
de empresas está decreciendo. El gerente de una de ellas decide realizar
una prueba de hipótesis para verificar si este señalamiento aplica a su
empresa. Se considera una desviación estándar de 12 años y una
muestra de tamaño 250, cuya media muestral es de 53 años. Para un
nivel de significancia del 5%, ¿cuál es el valor crítico para la prueba?
8. La Ingeniería de Control de Calidad probó un lote de tubos fluorescentes
y encontró una vida promedio de 1,570 horas con desviación estándar
de 120 horas. Con un nivel de significación del5%, determinar la
regla de decisión.
9. Se prueba un lote de un nuevo modelo experimental de 100 lámparas
de vapor de sodio; su vida es de 43,000 horas y su desviaciónestándar,
de 2,000 horas. Si la vida normal de las lámparas es de 40,000 horas.
Probar con un nivel de significación del 10%
10. En una planta embotelladora de leche se toma una muestra de 500
botellas; 40 de ellas se obtienen con impurezas. Si se supone que el
límite máximo de impurezas es 7%. Establece la regla de decisión para
un nivel de significancia del 4%
144
EXAMEN DE AUTOEVALUACIÓN
Elige la respuesta correcta a las siguientes preguntas.
1. Supón que formas parte de un grupo de protección al consumidor, y
estás interesado en determinar si el peso promedio de cierta marca de
arroz, empacado en paquetes de 1 kg, es menor que el peso anunciado;
para ello, eliges una muestra aleatoria de 50 bolsas, de las cuales
obtienes una media de 980 gr. y una desviación estándar de 70 gr. Para
un nivel de significancia es del 5%, la hipótesis nula se:
a) acepta
b) es indiferente
c) rechaza
d) debe replantear
145
3. Se sabe que los voltajes de una marca de pilas “AAA” para calculadora
se distribuyen normalmente con un promedio de 1.5 volts;se probó una
muestra aleatoria de 15 y se encontró que la media fue de 1.3 volts y
que la desviación estándar fue de 0.25 volts. Para un nivel de
significancia del 5%, la hipótesis nula se:
a) acepta
b) rechaza
c) es indiferente
d) replantea
LO QUE APRENDÍ
Elige un tipo de empresa comercial. Elabora una propuesta del
procedimiento general que se deberá realizarse para el desarrollo de un
software que lleve el control de sus ventas.
146
MESOGRAFÍA
Bibliografía sugerida
Bibliografía básica
147
Pfleeger, Shari Lawrence. (2002). Ingeniería de software, Teoría y
práctica. México: Prentice Hall.
Bibliografía complementaria
148
Kendall, Kenneth (1990). Análisis de diseño de sistemas. México:
Prentice Hall.
Sitios de Internet
Sitio Descripción
http://www.monografias.com/trabaj Cruz Ramírez, Armando Pedro.
os30/prueba-de-hipotesis/prueba- (2009). “Pruebas de hipótesis para
de-hipotesis.shtml una muestra”. Monografías
http://html.rincondelvago.com/anali Hereas, “Análisis de la varianza”,
sis-de-la-varianza_1.html Rincón del vago
http://www.mitecnologico.com/Main Mitecnológico, “Prueba hipótesis
/PruebaHipotesisParaProporcionYD para proporción y diferencia de
iferenciaDeProporciones proporciones”
http://www.mitecnologico.com/Main Mitecnológico (4.3.2) Prueba de
/PruebaDeHipotesisParaDiferencias hipótesis para diferencias de
DeMedias medias
http://html.rincondelvago.com/contr Muñoz, Gonzalo. (s/f). Contraste
aste-de-hipotesis_1.html de hipótesis. Rincón del vago.
149
http://www.itch.edu.mx/academic/in Torre, Leticia de la. (2003b). “Uso
dustrial/estadistica1/cap02c.html#u de valores P para la toma de
02usovaloresp decisiones”, Estadística I, Instituto
Tecnológico de Chihuahua
http://es.wikipedia.org/wiki/Contrast Wikipedia: “Contraste de hipótesis”,
e_de_hip%C3%B3tesis actualizado el 13/10/11
lc.fie.umich.mx/~jrincon/pruebas%2 Rincón Pasaye, José Juan. (2008)
0de%20hipotesis.ppt “Pruebas de hipótesis”,
Probabilidad y estadística,
[diapositivas] UMICH
www.cyta.com.ar/biblioteca/bddoc/ Ciencia y Técnica Administrativa.
bdlibros/guia_estadistica/modulo_9 (2005). “Módulo 9. Pruebas de
.htm hipótesis, muestras grandes”, Guía
de Estadísticas
http://www.geociencias.unam.mx/~r Zúñiga, F. Ramón. (2008). “Clase
amon/Estadistica/Clase5b.pdf 5. Pruebas de hipótesis”,
Estadística, Querétaro:
Geociencias, UNAM
http://uvigen.fcien.edu.uy/utem/gen “La prueba de Chi-cuadrado”,
men/06chi2.htm Genética Mendeliana, UVIGEN,
Universidad de la República,
Montevideo. (Traducción de
McClean, Phillip, 2000 *)
150
UNIDAD 5
INTRODUCCIÓN
En esta unidad, el alumno investigará y analizará el concepto de prueba
de hipótesis y lo aplicará sobre varianzas, medias, etc.; ello le permitirá
percatarse de la importancia que tienen las pruebas de hipótesis para la
toma de decisiones dentro de las empresas.
152
Sabemos que cuando las personas toman decisiones, inevitablemente lo
hacen con base en las creencias que tienen en relación con el mundo
que los rodea; llevan en la mente una cierta imagen de la realidad, piensan
que algunas cosas son verdaderas y otras falsas y actúan en consecuencia,
así, los ejecutivos de empresas toman todos los días decisiones de
importancia crucial porque tienen ciertas creencias tales como:
De que un tipo de máquina llenadora pone al menos un kilogramo
de detergente en una bolsa.
De que cierto cable de acero tiene una resistencia de 100 kg. o
más a la rotura.
De que la duración promedio de una batería es igual a 500 horas.
De que en un proceso de elaboración de cápsulas éstas
contengan precisamente 250 miligramos de un medicamento.
Que la empresa de transportes de nuestra competencia tiene
tiempos de entrega más rápidos que la nuestra.
De que la producción de las plantas de oriente contiene menos
unidades defectuosas que las de occidente.
En todos estos casos y en muchos más, las personas actúan con base
en alguna creencia sobre la realidad, la cual quizá llegó al mundo como
una simple conjetura, como un poco más que una suposición informada;
una proposición adelantada tentativamente como una verdad posible es
llamada hipótesis.
153
Sin embargo, tarde o temprano, toda hipótesis se enfrenta a la evidencia
que la comprueba o la rechaza y, en esta forma, la imagen de la realidad
cambia de mucha a poca incertidumbre.
Por lo tanto, de una manera sencilla podemos decir que una prueba de
hipótesis es un método sistemático de evaluar creencias tentativas sobre
la realidad, dicho método requiere de la confrontación de tales creencias
con evidencia real y decidir, en vista de esta evidencia, si dichas creencias
se pueden conservar como razonables o deben desecharse por
insostenibles.
154
LO QUE SÉ
Elige la respuesta correcta a las siguientes preguntas.
b)
2
s (n 1)
c) 2
1 /2
s2 (n s2 (n 1)
b) /2 1 /2
(X X )2
c)
155
TEMARIO DETALLADO
(8 horas)
156
5.1. La distribución ji cuadrada, χ2
En ocasiones los investigadores muestran más interés en la varianza
poblacional que en la proporción o media poblacionales y las razones llegan
desde el campo de la calidad total, por ejemplo, donde la importancia en
demostrar una disminución continua en la variabilidad de las piezas que la
industria de la aviación llega a solicitar es de vital importancia. Por ejemplo,
el aterrizaje de un avión depende de una gran cantidad de variables, entre
las que encontramos la velocidad y dirección del aire, el peso del avión, la
pericia del piloto, la altitud, etc.; si en el caso de la altitud, los altímetros
del avión tienen variaciones considerables, entonces podemos esperar con
cierta probabilidad unaterrizaje algo abrupto, por lo tanto la variabilidad
de estos altímetros debe mostrar un disminución continua; y qué decir de
los motores que impulsan al avión mismo, si las piezas que los conforman
son demasiado grandes, el motor puede incluso no poder armarse y si son
demasiado pequeñas, entonces los motores tendrán demasiada vibración
y en ambos casos las pérdidas de la industria son cuantiosas.
157
Y aquí debemos tener especial cuidado, pues la distribución Chi- cuadrada
es sumamente sensible a la suposición de que la población está
normalmente distribuida y por ejemplo construir intervalos de confianza
para estimar una varianza poblacional, puede que los resultados no sean
correctos dependiendo de si la población no está normalmente distribuida.
2
2
1)
158
En general y debido a que la distribución Chi-cuadrada ( 2) no es
simétrica a medida que se incrementa el número de grados de libertad,
la curva característica de la distribución se vuelve menos sesgada.
s2 (n 1)
Algebraicamente podemos manipular la fórmula anterior
con el objetivo de que nos sea de utilidad para construir intervalos de
confianza para varianzas poblacionales, quedando de la siguiente manera:
1) 1)
Ejemplo
159
Supóngase que una muestra de 7 pernos especiales utilizados en el
ensamblado de computadoras portátiles arrojó los siguientes resultados:
2.10 mm; 2.00 mm, 1.90 mm, 1.97 mm, 1.98 mm, 2.01 mm, 2.05 mm
X 2.00
160
2 1,90 -0,10 0,01029
3 1,98 -0,02 0,00046
4 2,05 0,05 0,00236
5 2,00 0,00 0,00000
6 1,97 -0,03 0,00099
7 2,01 0,01 0,00007
14,01 0,01 0,02389
por lo tanto:
1
s2 (0.02389)
7 1
161
grados de libertad serán: gl=7-1=6, si queremos que el intervalo sea del
90% de confianza, entonces el nivel de significancia será de 0.10 siendo
esta la parte del área bajo la curva de la distribución Chi-cuadrada que está
fuera del intervalo de confianza, esta área es importante porque los valores
de la tabla de distribución Chi-cuadrada están dados de acuerdo con el área
de la cola derecha de la distribución. Además en nuestro caso /2 =
0.05 es decir, 0.05 del área está en la cola derecha y 0.05 está en la cola
izquierda de la distribución.
162
el mismo procedimiento anterior para un área de 0.95 y 6 grados de
s2 (n s2 (n 1)
/2 1 /2
0.0034122(7 1) 2 0.0034122(7 1)
12.5916 1.63538
2
0.0001625 0.0125189
Este intervalo de confianza nos dice que con 90% de confianza, la varianza
de la población está entre 0.0001625 y 0.0125189.
Donde:
163
χ2 = valor estadístico de ji cuadrada.
fo = frecuencia observada.
fe = frecuencia esperada.
Pasos
1. Arreglar las categorías y las frecuencias observadas.
2. Calcular los valores teóricos esperados para el modelo experimental
o tipo de distribución muestral: normal, binomial y de Poisson.
3. Calcular las diferencias de las frecuencias observadas en el
experimento con respecto a las frecuencias esperadas.
4. Elevar al cuadrado las diferencias y dividirlas entre los valores
esperados de cada categoría.
5. Efectuar la sumatoria de los valores calculados.
164
6. Calcular los grados de libertad (gl) en función de número de
categorías [K]: gl = K - 1.
7. Comparar el estadístico X2 con los valores de la distribución de ji
cuadrada en la tabla.
8. Decidir si se acepta o rechaza la hipótesis X2c ³ X2t se rechaza Ho.
165
La varianza de un conjunto de datos se define como el cuadrado de su
desviación estándar; y la varianza muestral se utiliza para probar la
hipótesis nula que se refiere a la variabilidad y es útil para entender el
procedimiento de análisis de la varianza.
166
5.3. Prueba para la diferencia
entre n proporciones
Las pruebas de hipótesis a partir de proporciones se realizan casi en la
misma forma utilizada cuando nos referimos a las medias, cuando se
cumplen las suposiciones necesarias para cada caso. Pueden utilizarse
pruebas unilaterales o bilaterales dependiendo de la situación particular.
167
5.4. Pruebas de bondad de ajuste
a distribuciones teóricas
Una hipótesis estadística se definió como una afirmación o conjetura
acerca de la distribución f(x,q) de una o más variables aleatorias.
Igualmente se planteó que la distribución podía tener uno o más
parámetros desconocidos, que denotamos por q y que la hipótesis se
relaciona con este parámetro o conjunto de parámetros En otros casos,
se desconoce por completo la forma de la distribución y la hipótesis
entonces se relaciona con una distribución específica f(x,q) que podamos
asignarle al conjunto de datos de la muestra. El primer problema,
relacionado con los parámetros de una distribución conocida o supuesta
es el problema que hemos analizado en los párrafos anteriores. Ahora
examinaremos el problema de verificar si el conjuntode datos se puede
ajustar o afirmar que proviene de una determinada distribución. Las
pruebas estadísticas que tratan este problema recibenel nombre general
de “Pruebas de Bondad de Ajuste”.
168
Ambas pruebas están basadas en la hipótesis nula de que no hay
diferencias significativas entre la distribución muestral y la teórica. Ambas
pruebas están basadas en las siguientes hipótesis:
H0: f(x,q) = f0(x,q)
H1: f(x,q) ¹ f0(x,q)
169
5.4.1 Ajuste a una distribución normal
170
Tenemos unos datos que 'parece' que siguen una determinada
distribución, pero hay unas diferencias entre los datos que
tenemos (observados) y los que deberían de ser (esperados).
¿Son esas diferencias lo suficientemente grandes para que sean
provocadas por el azar. La respuesta a esta pregunta la
obtendremos con la prueba de bondad de ajuste.
171
Finalmente se suman todos estos valores y se busca dentro de
la función y comprobar si las diferencias que hemos encontrado
son lo suficientemente grandes o no para rechazar o no rechazar
la hipótesis nula. Este es un error muy común en la interpretación
de los resultados de prueba de este tipo. La
función tiene dos parámetros, el primero de ellos es el valor de
nuestra suma, y el segundo son los grados de libertad.
172
2. Calculamos los valores teóricos de p (X = r), multiplicándolos
por k para obtener los valores teóricos de cada posible valorde
la variable aleatoria en series de k datos.
3. Si la diferencia es "suficientemente pequeña" aceptamos como
buena la aproximación Binomial, si no, la rechazamos.
173
Para estudiar la dependencia entre la práctica de algún deporte y
la depresión, se seleccionó una muestra aleatoria simple de 100
jóvenes, con los siguientes resultados:
No. deportista 31 22 53
69 31 100
174
Nº niños Nº niños
Comunidad sin con
caries caries
A 38 87 125
B 8 117 125
C 30 95 125
D 44 81 125
E 64 61 125
F 32 93 125
216 534 750
175
RESUMEN DE LA UNIDAD
En esta unidad, se revisó el concepto de prueba de hipótesis aplicado
sobre varianzas, medias, etc.; lo que nos conlleva a hacer conciencia de
la relevancia de las pruebas de hipótesis en la toma de decisiones de las
empresas.
176
GLOSARIO DE LA UNIDAD
Curva de la potencia de la prueba
Es la gráfica de la probabilidad de rechazar H0 para todos los valores
posibles del parámetro poblacional que no satisfacen la hipótesis nula.
Error tipo I
Es el error que se comete al rechazar H0 cuando ésta es verdadera.
Error tipo II
Es el error que se comete al aceptar H0 cuando ésta es falsa.
Estadístico de prueba
Es el estadístico cuyo valor se utiliza para determinar si se rechaza una
hipótesis nula.
Nivel de significancia
Es la probabilidad máxima de cometer un error tipo I.
Potencia de la prueba
Es la probabilidad de rechazar correctamente H0 cuando es falsa.
177
Prueba no direccional o de dos colas
Prueba de hipótesis en la que la región de rechazo se ubica en ambos
extremos de la distribución muestral.
Región de rechazo
Es la zona de valores en la cual se rechaza la hipótesis H0.
Valor crítico
Es un valor contra el cual se compara el obtenido en el estadístico de
prueba para determinar si se debe rechazar o no la hipótesis nula.
Valor p
Es la probabilidad de que, cuando la hipótesis nula sea verdadera, se
obtenga un resultado de una muestra que sea al menos tan improbable
como el que se observa. También se le conoce como nivel observado de
significancia.
ACTIVIDADES DE APRENDIZAJE
ACTIVIDAD 1
178
CUESTIONARIO DE
REFORZAMIENTO
179
EXAMEN DE AUTOEVALUACIÓN
Elige la respuesta correcta a las siguientes preguntas, una vez que
concluyas, obtendrás de manera automática tu calificación.
180
3. Es el error que se comete al aceptar H0 cuando ésta es falsa:
a) Tipo I
b) Tipo II
c) Tipo III
d) Estándar
LO QUE APRENDÍ
Elabora un mapa conceptual sobre los tipos de pruebas desarrolladas en
esta unidad.
181
MESOGRAFÍA
Bibliografía sugerida
Bibliografía básica
182
Bibliografía complementaria
Sitios de Internet
Sitio Descripción
http://buzjss.blogspot.com/2008 Buzjss, “Estadística y apuestas
/10/la-distribucin-de-poisson- deportivas”, 16/10/08, [blog]
test-de.html
http://recursostic.educacion.es/ García Cebrian, María José. (2001).
descartes/web/materiales_didac “Distribuciones muestrales”,
ticos/distribuciones_probabilida Estadística y Probabilidad,
d/aplic_normal.htm Descartes 2D, Matemáticas
interactivas.
183
http://recursostic.educacion.es/ Martín Álvarez, Pablo Antonio.
descartes/web/materiales_didac (2001). “Ajuste de una serie de datos
ticos/Distribucion_binomial/bin a una distribución binomia”, La
omial.htm distribución nominal B (n, p),
Descartes 2D, Matemáticas
interactivas
http://www.mitecnologico.com/ Mitecnológico, “Prueba de hipótesis
Main/PruebaHipotesisParaProp para proporción”
orcion
http://www.mitecnologico.com/ Mitecnológico, “Prueba de bondad
Main/PruebaDeBondadDeAjuste de ajuste”
http://www.mitecnologico.com/ Mitecnológico, “Prueba de
Main/PruebaDeIndependencia independencia”
http://www.monografias.com/tra Pérez Leal, José. (2006). “Prueba
bajos15/prueba-de- de homogeneidad: Prueba de
independencia/prueba-de- independencia”, Monografías
independencia.shtml
http://html.rincondelvago.com/a “Prueba de la varianza con una
nalisis-de-la-varianza_1.html población”, Rincón del vago
184
UNIDAD 6
INTRODUCCIÓN
El uso de la regresión lineal simple es muy utilizado para observar el tipo de
relación que existe entre dos variables y poder llevar a cabo la toma de
decisiones correspondiente dependiendo de la relación entre dichas
variables, así por ejemplo, pudiera darse el caso en el que después de
aplicar la regresión lineal no exista relación entre las variablesinvolucradas
y en consecuencia la decisión podría ser buscar cuál es la variable
independiente que tiene influencia sobre la dependiente y volvera realizar
el estudio completo; pero si fuera el caso en el cual si existiera una relación
positiva entre las variables involucradas, la obtención del coeficiente de
correlación nos daría más información sobre el porcentaje de relación
existente y pudiendo determinar si es necesario la inclusión deotra variable
independiente en el problema mismo, para lo cual el análisis de regresión
ya sería del tipo múltiple.
186
LO QUE SÉ
Elige la respuesta correcta a las siguientes preguntas.
187
TEMARIO DETALLADO
(10 horas)
188
6.1. Ecuación y recta de regresión
Observando el diagrama de dispersión, podemos obtener una
primera idea de si existe relación o no entre las variables
estadísticas. Con el coeficiente de correlación podemos medir la
correlación lineal, en caso de existir. Vamos ahora a calcular las
líneas que mejor se aproximen a la nube de puntos. A estas
líneas se les llama líneas de regresión.
(Barrios, 2005)
189
6.2. El método de mínimos
cuadrados
Cualquier método estadístico que busque establecer una ecuación que
permita estimar el valor desconocido de una variable, a partir del valor
conocido de una o más variables, se denomina análisis de regresión.
190
Sin embargo, un resumen gráfico de la relación estocástica entre lavariable
independiente “x” y la variable dependiente “y” estará dado por una línea
de regresión, misma que reduce al mínimo los errores cometidos cuando
la ecuación de esa línea se utilice para estimar y a partir de x.
De esta gráfica podemos ver claramente que las ventas dadas en unidades
por mes (variable dependiente) en este caso, si guardan relación con los
gastos en publicidad y, que dicha relación puede ser denotada por la “recta
de regresión”.
191
Ecuación de la recta de regresión:
y i
b0 b1 Xi
En la que:
xi = es un valor dado de la variable independiente para el cual se
quiere estimar el valor correspondiente de la variable
dependiente
b0 = ordenada al origen de la línea estimada de regresión,
b1 = pendiente de la línea estimada de regresión,
Ŷi = valor estimado de la variable dependiente, para el i-ésimo valor
de la variable independiente
b1
b0
192
Antes de continuar, es necesario advertir que el análisis de regresión no
se puede interpretar como un procedimiento para establecer una relación
de causa a efecto entre variables. Sólo puede indicar cómo o hasta qué
grado las variables están asociadas entre sí. Cualquier conclusión acerca
de causa y efecto se debe basar en el juicio del o los individuos con más
conocimientos sobre la aplicación. Por ejemplo, un estadista puede llegar
a determinar que la relación entre las ventas y el presupuesto asignado a
mercadotecnia es positiva y que se tiene un coeficiente de correlación de
0.96, lo cual prácticamente nos indica que es recomendable incrementar
el presupuesto al departamento de mercadotecnia para obtener mejores
ingresos dentro de la compañía, sin embargo el director de operaciones
puede llegar a determinar que debido a condiciones internas del país en
el que se encuentre la empresa, o bien la aparición de una nueva ley que
regule los medios utilizados por el mencionado departamento de
mercadotecnia, pueden llegar a frenar o incluso generar conflictos dentro
de la empresa si incrementamos el presupuesto al departamento
correspondiente.
193
6.3. Determinación de la ecuación
de regresión
En estadística la regresión lineal o ajuste lineal es un método matemático
que modeliza la relación entre una variable dependiente Y,las variables
independientes Xi y un término aleatorio ε. Este modelo puede expresarse
como:
194
6.4. El modelo de regresión y sus
supuestos
Con frecuencia, nos encontramos en economía con modelos en
los que el comportamiento de una variable, Y, se puede explicar a
través de una variable X; lo que representamos mediante
Y = f (X ) (1)
t 1 2 t Y = β + β X (2)
Como quiera que las relaciones del tipo anterior raramente son
exactas, sino que más bien son aproximaciones en las que se han
omitido muchas variables de importancia secundaria, debemos
incluir un término de perturbación aleatoria, t u , que refleja todos
los factores – distintos de X -que influyen sobre la variable
endógena, pero que ninguno de ellos es relevante individualmente.
Con ello, la relación quedaría de la siguienteforma:
(Uriel, 2004, p. 1)
195
6.5. Inferencias estadísticas sobre
la pendiente de la recta de
regresión
y i
b0 b1 Xi
196
Donde b0 es en sí, el punto donde la recta corta al eje de las “x” y b1 nosda
el grado de inclinación de la recta, de tal forma que cuando lapendiente de
la recta es positiva, se dice que la relación que existe entre las dos variables
dependiente e independiente es de naturaleza positiva,es decir, que posee
una gráfica como la indicada a continuación:
197
Relación negativa entre dos variables en regresión lineal
198
Esto es, todos los puntos de datos están en una línea recta con pendiente
positiva. Un valor de –1 indica que las variables tienen una relación lineal
negativa perfecta, y que todos los puntos de datos están en una recta con
pendiente negativa. Los valores del coeficiente de correlación cercanos a
cero indican que las variables no tienen relación línea, (véase, Anderson,
Sweeney & Willimas, 1999, p. 555).
r (signodeb1 )
199
RESUMEN DE LA UNIDAD
En esta unidad se revisó el método de regresión lineal simple así como su
aplicación e interpretación, la importancia de este método radica en que se
utiliza para observar el tipo de relación que existe entre dos variables y
poder llevar a cabo la toma de decisiones correspondiente dependiendo
de la relación entre dichas variables. Si fuera el caso en el cual existiera una
relación positiva entre las variables involucradas, la obtención del
coeficiente de correlación nos daría más información sobre el porcentaje
de relación existente y con esto determinar si es necesario incluir otra
variable independiente en el problema mismo.
GLOSARIO DE LA UNIDAD
Análisis de residuales
Análisis que se aplica para determinar si los supuestos acerca del modelo
de regresión parecen válidos. También se usa para determinar
observaciones extraordinarias o influyentes.
Coeficiente de correlación
Medida de la intensidad de la relación lineal entre dos variables.
200
Coeficiente de determinación
Medida de la bondad del ajuste de la recta de regresión. Se interpreta como
la parte de la variación de la variable dependiente “y” que explica la recta
de regresión.
Diagrama de dispersión
Gráfica de datos de dos variables en la que la variable independiente está
en el eje horizontal y la variable dependiente en el eje vertical.
yi yi
es minimizar
Observación influyente
Observación que tiene una fuerte influencia sobre el efecto de los
resultados de la regresión.
Recta de regresión
Estimación hecha a partir de datos de una muestra aplicando el método
de mínimos cuadrados para la regresión lineal simple, la ecuación de
201
Residual i-ésimo
Diferencia entre el valor observado de la variable dependiente y el valor
predicho usando la recta de regresión; para la i-ésima observación, el
residual es: yi
Variable dependiente
Es la variable que se predice o se explica. Se representa
matemáticamente por “y”.
Variable independiente
Es la variable que sirve para predecir o explicar. Se representa
matemáticamente por “x”.
ACTIVIDADES DE APRENDIZAJE
ACTIVIDAD 1
ACTIVIDAD 2
202
CUESTIONARIO DE
REFORZAMIENTO
1. ¿Qué es el análisis de regresión lineal o bivariada?
2. ¿Cuándo se aplica la regresión múltiple?
3. ¿Qué es el método de los mínimos cuadrados?
4. ¿Quién propuso el método de los mínimos cuadrados?
5. ¿Qué es el coeficiente de determinación?
6. ¿Cuál es el rango del coeficiente de determinación?
7. ¿Qué es el coeficiente de correlación?
8. ¿Cuál es el rango del coeficiente de correlación?
9. ¿Quién desarrolló por primera vez los métodos estadísticos para el
estudio de la relación entre dos variables?
10. ¿Es el análisis de regresión un procedimiento para establecer una
relación de causa y efecto?
203
EXAMEN DE AUTOEVALUACIÓN
204
4. ¿Es el símbolo comúnmente utilizado para denotar a la pendiente de la
recta de regresión?:
a) b0
b) b1
c) b2
Consumidor 1 2 3 4 5 6 7 8 9 10 11 12
Ingreso 24.3 12.5 31.2 28 35.1 10.5 23.2 10 8.5 15.9 14.7 15
Consumo 16.2 8.5 15 17 24.2 11.2 15 7.1 3.5 11.5 10.7 9.2
b) r 2 -0.844740208
c) r 2 1.844740208
205
LO QUE APRENDÍ
Una tienda departamental está considerando otorgar tarjetas de crédito a
sus clientes, para lo cual realiza un estudio con el fin de observar el
comportamiento de sus gastos en función de su salario. Los datos obtenidos
en una muestra aleatoria de tamaño 11 se encuentran en la siguiente tabla.
Sueldo
del 18.0 15.0 19.0 9.2 8.6 12.0 10.7 14.3 17.8 16.0 15.0
cliente
Gastos
del 14.8 10.4 15.7 7.1 5.3 8.0 8.5 10.2 13.0 14.0 11.3
cliente
Nota: tanto el sueldo como los gastos del cliente son mensuales y están
dados en miles de pesos.
206
En conclusión, para este problema, entre más ganan los empleados,
más gastan.
MESOGRAFÍA
Bibliografía sugerida
Bibliografía básica
207
Bibliografía complementaria
Sitios de Internet
Sitio Descripción
http://recursostic.educacion.es/ Barrios Calmaestra, Luis. (2005).
descartes/web/materiales_didac “Regresión lineal”, Estadísticas II,
ticos/bidimensional_lbarrios/reg Distribuciones bidimensionales.
resion_est.htm Descartes 2D Matemáticas
interactivas.
http://www.uv.es/uriel/material/ Uriel Jiménez, Ezequiel. (2004).
Morelisi.pdf Modelos de regresión lineal
simple, UV.
208
UNIDAD 7
INTRODUCCIÓN
Una serie de tiempo es el conjunto de datos que se registran a través del
tiempo sobre el comportamiento de una variable de interés, generalmente
los registros se realizan en periodos iguales de tiempo.
LO QUE SÉ
a)
b)
c)
b)
c)
3. La fórmula para determinar la ordenada al origen de la recta de
regresión es:
b)
c)
a) r i1
n _
(Y
i1
i1
signo de b1 n _
(Y
i1
n _
i1
(Y
c) i 1
b)
b)
TEMARIO DETALLADO
(8 horas)
Estacionalidad (E)
La componente estacional muestra un comportamiento regular en los
mismos periodos de tiempo, reflejando costumbres o modas que se repiten
regularmente dentro del periodo de observación. En la gráfica la
estacionalidad quedaría representada por ejemplo por las variaciones
semanales en los rendimientos, no visibles por el periodo de información
que se está manejando.
14
Rendimiento %
12
10
1 2 3 4 5 6 7 8 9 1 11 1 1 1 15 1 17
Trimestre
En donde:
Yt tasa de rendimiento calculada
X tiempo, en este caso expresado en trimestres bo
valor de Y cuando el valor del tiempo es cero b1
pendiente de la recta de tendencia
Una vez definido el modelo, se procede a la determinación de los valores
de los coeficientes bo y b1 de la recta de regresión. En nuestro problema
en particular, la ecuación de regresión, que representa a la tendencia del
comportamiento de la tasa de rendimiento de los CETES a 90 días aplicando
las fórmulas correspondientes para el cálculo primero de “b1”
b1
( X )2
X2
b0
es:
Yt = 10.8553676 - 0.44595588 X
(y Y )2
r2
(Y Y )2
r (signodeb1)
Tenemos que el valor del coeficiente de correlación es de r = -0.8078, lo
que nos indica que el ajuste logrado con la recta de regresión es adecuado,
recordemos que el coeficiente de correlación es una medida de la
precisión lograda en el ajuste, valores del coeficiente de correlación iguales
a +1 ó -1 son la indicación de un ajuste perfecto, un valor igual a cero nos
dirá que este no existe. (nota: se deja al estudiante corroborarlos valores
obtenidos de “b1”, “b0” y “r”)
14
12
10
Rendimiento en %
Tasa real
Tendencia
8
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Trimestre
Supongamos ahora que nos interesa conocer la variación que han tenido
los rendimientos respecto de la tendencia, es decir la componente cíclica,
la cual queda representada en la gráfica (Gráfica de apreciación de la
componente cíclica de los CETES a 90 días) por los valores mayores y
menores respecto de la tendencia. Si deseamos conocer el valor numérico
de este comportamiento debemos proceder como sigue:
Y
100
Yt
En donde:
Y representa el rendimiento registrado.
Yt representa el rendimiento calculado con la ecuación de tendencia.
Las componentes cíclicas pueden ser graficadas para observar los posibles
patrones que se presentan, la línea de la tendencia corresponde en la
gráfica a la línea del 100%, observemos que la variación cíclica se presenta
hacia arriba y hacia abajo de la recta de tendencia.
150
140
130
120
Porcentaje
110
100
90
80
70
60
50
40
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Trimestre
(T )(C)(E)(I )
(T )(C)(E)
Rendimiento Componentes
Trimestre Real tendencia cíclica temporal Irregular
Yc C E I
1 14.03 10.41 134.78 96.52 103.61
2 10.69 9.96 107.29 100.96 99.05
3 8.63 9.52 90.68 91.46 109.34
4 9.58 9.07 105.60 95.98 104.19
5 7.48 8.63 86.72 96.52 103.61
6 5.98 8.18 73.11 100.96 99.05
7 5.82 7.73 75.26 91.46 109.34
8 6.69 7.29 91.80 95.98 104.19
9 8.12 6.84 118.68 96.52 103.61
10 7.51 6.40 117.42 100.96 99.05
11 5.42 5.95 91.09 91.46 109.34
12 3.45 5.50 62.68 95.98 104.19
13 3.02 5.06 59.71 96.52 103.61
14 4.29 4.61 93.02 100.96 99.05
15 5.51 4.17 132.26 91.46 109.34
16 5.02 3.72 134.94 95.98 104.19
17 5.07 3.27 154.85
Cálculo de la componente irregular
160
140
120
Porcentaje
100
80
60
40
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Trimestre
Componente estacional
Componente del modelo de una serie de tiempo que muestra un patrón
periódico de un año o menos.
Componente irregular
Componente del modelo de una serie de tiempo que refleja la variación
aleatoria de los valores de la serie de tiempo, adicionales a los que se
pueden explicar con los componentes de tendencia, cíclico y estacional.
Constante de suavizamiento
Parámetro del modelo de suavizamiento exponencial, con el que se calcula
el factor de ponderación asignado al valor más reciente de la serie de tiempo
en el cálculo del valor del pronóstico.
Elaboración de escenarios
Método cualitativo de pronóstico que consiste en formar un escenario
conceptual del futuro, basado en un conjunto bien definido de supuestos.
Error cuadrático medio
Es un método con el que se mide la precisión de un modelo de pronóstico.
Es el promedio de la suma de las diferencias entre los valores pronosticados
y los valores reales de la serie de tiempo estando elevadas al cuadrado esas
diferencias.
Modelo auto-regresivos
Modelo de serie de tiempo donde se usa una relación de regresiónbasada
en valores anteriores de la serie para predecir valores futuros dela misma.
Promedios móviles
Método de pronóstico o suavizamiento de una serie de tiempo, en el que
se promedia cada grupo sucesivo de puntos de datos.
Promedios móviles ponderados
Método de pronóstico o suavizamiento de una serie de tiempo con el que
se calcula un promedio ponderado de los valores de datos en el pasado.
La suma de los factores de ponderación debe ser igual a uno.
Pronóstico
Proyección o predicción de valores futuros de una serie de tiempo.
Serie de tiempo
Es un conjunto de observaciones medidas en puntos sucesivos en el
tiempo, o durante periodos sucesivos en el tiempo.
Suavizamiento exponencial
Técnica de pronóstico que emplea un promedio ponderado de una serie
de tiempo en el pasado para determinar valores de una serie de tiempo
suavizada, que se pueden usar para elaborar pronósticos.
Tendencia
Desplazamiento o movimiento de la serie de tiempo, a largo plazo,
observable a través de varios periodos.
ACTIVIDADES DE APRENDIZAJE
ACTIVIDAD 1
Elabora un cuadro comparativo de lo que representa cada una de las
cuatro componentes de una serie de tiempo.
Representa
Componente de
tendencia
Componente cíclica
Componente de
estacionalidad
Componente irregular
ACTIVIDAD 2
Elabora un resumen de la forma en que se separa la componente de
tendencia en una serie de tiempo.
CUESTIONARIO DE
REFORZAMIENTO
a)
y i
b0 b1 Xi
c
b)
Y
C
T E I
c)
4. En el cálculo de la componente cíclica para cada valor real, debemos
auxiliarnos con la ecuación:
a) de la recta de regresión
b) del modelo multiplicativo de una serie de tiempo
c) de tendencia de la serie de tiempo.
(T )(C)(E)(I )
6. En la expresión (T )(C) obtenida a partir del
Bibliografía básica
Bibliografía complementaria
Sitios de Internet
Sitio Descripción
http://ciberconta.unizar.es/LECC Arellano, M. (2001): "Introducción al
ION/seriest/100.HTM Análisis Clásico de Series de
Tiempo", [en línea] 5campus.com,
Estadística
http://maxsilva.bligoo.com/cont Silva Quiroz, Maximiliano. (2008).
ent/view/186499/Series-de- “Series de tiempo”, Estadística y
Tiempo.html empresa (13/05/08)
http://ciberconta.unizar.es/LECC Arellano, Mireya. (2001).
ION/seriest/inicio.html “Introducción al análisis clásico de
series de tiempo”, 5campus,com.
Estadística
http://www.eumed.net/cursecon/ Ruíz Muñoz, David. (2004). “Series
libreria/drm/1n.htm temporales: Determinación de las
variaciones estacionales”. Manualde
estadística. EUMED.
UNIDAD 8
PRUEBAS ESTADÍSTICAS NO
PARAMÉTRICAS
OBJETIVO ESPECÍFICO
Al terminar la unidad el alumno identificará las pruebas no paramétricas
más utilizadas.
INTRODUCCIÓN
En esta unidad se revisarán las pruebas no paramétricas y su utilidad sobre
todo cuando no se conoce la distribución de la cual provienen los datos, lo
cual impide hacer una estimación por intervalos de confianza o una prueba
de hipótesis.
243
La prueba de signos y rangos de Wilcoxon utilizada como una alternativa
no paramétrica cuando se trata de comparar los datos de 2 poblaciones o
de una misma población mediante una muestra apareada. Y la prueba de
los rangos con signo que usa los rangos de los valores absolutos de las
diferencias pareadas.
LO QUE SÉ
Elige la respuesta correcta a la siguiente pregunta:
a) z
b)
c)
244
TEMARIO DETALLADO
(6 horas)
245
8.1. Diferencias entre los métodos
estadísticos paramétricos y no
paramétricos
Las pruebas no paramétricas son útiles sobre todo cuando no se conoce
la distribución del cual provienen los datos y, por tanto, no se conoce la
distribución del estadístico para hacer una estimación por intervalos de
confianza o una prueba de hipótesis. Estas pruebas son útiles por ejemplo
cuando el tipo de datos es nominal u ordinal.
246
Paso 2. Elegir un nivel de significación ( ).
247
Paso 3. Elegir y calcular el estadístico de prueba
Paso 4. Establecer la regla de decisión.
248
Una importante aplicación de la prueba de rachas se encuentra en el
método de mínimos cuadrados en el análisis de regresión. Una propiedad
básica en estos modelos de regresión es que los errores son aleatorios.
n1 y n2
Si el número de datos en 2 categorías son mayores que 20, la
Desviación estándar:
z
Estadístico de prueba:
249
Las hipótesis son:
Ho :
La muestra es aleatoria.
H1 :
La muestra no es aleatoria.
z
Estadístico de prueba:
2n1n2 2 52 48
1 50.92
La media es: 52 48
La desviación estándar:
2n1n2 2n1n2 n1 n2
n1 n2 n1 n2
40 50.92
z 2.20
4.97
Por lo tanto:
zc
Nivel de significación: por lo que ya que es una
2.58
z zc
prueba de 2 colas. Como cae en la zona de aceptación se puede
250
8.3. La prueba del signo
En las estadísticas, la prueba de los signos se utiliza para probar la hipótesis
de que “no hay diferencia en las medianas entre las distribuciones continuas
de dos variables aleatorias X y Y, en la situación en la que podemos extraer
muestras de X y Y”.
Se trata de una prueba no paramétrica que hace unos pocos supuestos muy
cerca de la naturaleza de las distribuciones bajo prueba -esto significa que
tiene una aplicación muy general, pero pueden carecer de la potencia
estadística de otras pruebas como el dos a dos muestras de T (test).
251
8.4. La prueba de signos y rangos
de Wilcoxon
Se utiliza como una alternativa no paramétrica cuando se trata de
comparar los datos de 2 poblaciones o de una misma población mediante
una muestra apareada en la que cada unidad experimental genera 2
observaciones pareadas o ajustadas, una de la población 1 y una de la
población 2. Las diferencias entre las observaciones pareadas permiten
tener una buena perspectiva respecto de la diferencia entre las 2
poblaciones.
La prueba de los rangos con signo usa los rangos de los valores
absolutos de las diferencias pareadas, asignando el rango 1 a la
diferencia con valor absoluto mínimo, el rango 2 a la siguiente diferencia
con menor valor absoluto y así se procede sucesivamente. Se deben
descartar los rangos con diferencias de cero y en caso de valores
absolutos repetidos, a cada uno de ellos se les otorga el valor promedio
de los rangos ocupados por los valores repetidos. A cada uno de los
rangos positivos o negativos, se les asocia el signo correspondiente.
252
La suma de los rangos positivos se indica por T , la suma de los rangos
negativos se denota por T y el máximo valor entre estos 2 valores se escribe
solamente “T” y se utiliza generalmente como estadístico de
prueba. Si el número de diferencias es igual o mayor que 15 entonces la
distribución muestral de “T” es aproximadamente normal por lo que se
utilizará la variable parametrizada “z”. Si es menor se deberán utilizar tablas
especiales que proporcionan los valores críticos para la prueba de rangos
con signo.
n n 1
S
La suma de los rangos es: y deberá ser igual a T
n n 1 ¨2n 1
Desviación estándar: 24
z
y el estadístico de prueba es: .
253
Diferencias Rango Rangos
con
Número Puntaje Diferencia absolutas
signos
Antes Después
Empleado b-a ordenadas correctos
(a) (b)
1 18 15 -3 2 1 1
2 60 70 10 3 2 -2
3 81 75 -6 4 3 -3
4 15 20 5 5 4 4.5
5 20 50 30 5 5 4.5
6 17 40 23 6 6 -6
7 26 50 24 8 7 -7.5
8 11 30 19 8 8 7.5
9 20 40 20 9 9 -9
10 38 30 -8 10 10 10.5
11 80 85 5 10 11 10.5
12 59 86 27 11 12 12
13 12 72 60 19 13 13
14 87 98 11 20 14 15
15 88 79 -9 20 15 15
16 64 88 24 20 16 15
17 88 90 2 23 17 17
18 76 96 20 24 18 18.5
19 43 39 -4 24 19 18.5
20 90 98 8 27 20 20
21 40 60 20 30 21 21
22 50 60 10 60 22 22
254
Se obtienen las diferencias de los puntajes antes y después, sus diferencias,
las diferencias absolutas ordenadas, sus rangos y los rangos con signos
correctos.
S T T n n 1 22 22 1 253.0
Comprobación: 2 2
Por lo tanto T
z
Estadístico de prueba:
La media es:
255
La desviación estándar:
z
Por lo tanto:
zc
Nivel de significación: por lo que
2.33
z zc
Como cae en la zona de rechazo, se puede concluir que el
RESUMEN DE LA UNIDAD
En esta unidad se revisaron las pruebas no paramétricas más utilizadas,
cuando no se conoce la distribución de la cual provienen los datos, como
se pudo observar, las pruebas no paramétricas resultan más accesibles
de realizar y comprender ya que no requieren mediciones más exactas de
parámetros poblacionales.
256
GLOSARIO DE LA UNIDAD
Métodos no paramétricos
Métodos estadísticos que requieren muy pocos o ningún supuesto acerca
de las distribuciones de probabilidad de la población, y acerca del nivel de
medición. Estos métodos se pueden aplicar cuando se dispone de datos
nominales u ordinales.
Prueba de signo
Prueba estadística no paramétrica que permite identificar diferencias entre
dos poblaciones basándose en el análisis de datos nominales.
257
ACTIVIDADES DE APRENDIZAJE
ACTIVIDAD 1
Una manufacturera automotriz desea conocer la preferencia de los
clientes por los colores ocre o índigo del modelo de lujo, pues sólo uno
saldrá al mercado. Se invitó a los 20 mejores vendedores para queopinaran
y se encontró que doce prefirieron el color ocre, siete el índigo y uno
indeciso. En un nivel del 10% probar si:
H0: Cualquier color gustará por igual a los clientes
H1: Hay preferencia por alguno de los colores de los clientes
258
CUESTIONARIO DE
REFORZAMIENTO
259
4. ¿Pueden los vendedores considerarse igualmente efectivos? Prueba
con un nivel de significancia de 0.05.
A,A,B,A,A,B,B,A,A,A,A,B,B,A,A,B
A,B,A,B,B,B,A,B,A,B,B,B,A,B,B,B
6. Enumera las razones por las que elegirías un método no paramétrico para
analizar datos muestrales.
260
EXAMEN DE AUTOEVALUACIÓN
Elige la respuesta correcta a las siguientes preguntas, una vez que
concluyas, obtendrás de manera automática tu calificación.
261
4. Se utiliza como una alternativa no paramétrica cuando se trata de
comparar los datos de 2 poblaciones o de una misma población
mediante una muestra apareada
a) la prueba de signos y rangos de Wilcoxon
b) las pruebas no paramétricas
c) prueba de Mann-Whitney-Wilcoxon
LO QUE APRENDÍ
Explica la diferencia entre una prueba estadística paramétrica y una
prueba estadística no paramétrica.
262
MESOGRAFÍA
Bibliografía sugerida
Bibliografía básica
263
Bibliografía complementaria
264
Sitios de Internet
Sitio Descripción
http://www.itch.edu.mx/academic/indus Torre, Leticia, de la. (2003)
trial/estadistica1/cap04.html “Pruebas chi-cuadrada y
estadística no paramétrica”,
Curso de Estadística I,
Instituto Tecnológico de
Chihuahua.
http://scientific-european-federation- Scientific European
osteopaths.org/es/prueba-estadisticas Federation of Osteopaths.
(2012). “Las pruebas
estadísticas” Metodología de
la investigación científica.
http://www.uclm.es/actividades0708/cur Sánchez Sánchez, Fco.
sos/estadistica/pdf/descargas/SPSS_Pr (2008). “SPSS Pruebas no
uebasNoParametricas.pdf paramétricas”, Curso de
Estadística avanzada, UCLM,
http://scientific-european-federation- Scientific European
osteopaths.org/es/test-estadisticos Federation of Osteopaths.
(2012). “Los test estadísticos”
Metodología de la
investigación científica.
265