Procesamiento de Datos Bidimensionales Stat Graphics
Procesamiento de Datos Bidimensionales Stat Graphics
Procesamiento de Datos Bidimensionales Stat Graphics
Num_Unidad Tip_Defect
1
A
2
B
3
C
4
D
5
B
.
.
308
C
309
A
Turno
1
3
2
1
2
2
1
-2-
Fig. 51
Fig. 52
-3-
TOTAL
COLUMNA
D E
D E F E C T O
!
a
b
c
d
! ----------------------------------------------------|
15 |
21 |
45 |
13 |
|
|
|
|
|
----------------------------------------------------|
26 |
31 |
34 |
5 |
|
|
|
|
|
----------------------------------------------------|
33 |
17 |
49 |
20 |
|
|
|
|
|
----------------------------------------------------74
69
128
38
-4-
TOTAL
FILA
94
96
119
309
f 23 = 34.
Significa que hay 34 unidades que tienen el " tipo de defecto c " y que fueron
producidos durante el "turno 2"
74 . Significa hay 74 unidades que tienen el " tipo de defecto a " , cualesquiera
sea el turno
-5-
Fig. 56
-6-
The StatAdvisor
--------------This procedure constructs various statistics and graphs for a
two-way table. Of particular interest is the test for independence
between rows and columns, which you can run by choosing Chi-Square
Test on the list of Tabular Options.
Estando dentro de esta pantalla y activando la Tabular Options otendr una ventana
donde deber activar Frequency Table
Fig. 57
-7-
Column
Total
Def_A
Def_B
Def_C
Def_D
----------------------------------------------------|
15 |
21 |
45 |
13 |
|
4,85% |
6,80% |
14,56% |
4,21% |
----------------------------------------------------|
26 |
31 |
34 |
5 |
|
8,41% |
10,03% |
11,00% |
1,62% |
----------------------------------------------------|
33 |
17 |
49 |
20 |
|
10,68% |
5,50% |
15,86% |
6,47% |
----------------------------------------------------74
69
128
38
23,95%
22,33%
41,42%
12,30%
Row
Total
94
30,42%
96
31,07%
119
38,51%
309
100,00%
Cell contents:
Observed frequency
Percentage of table
Table Percentages : Los porcentajes que aparecen en la tabla estn en relacin al Total "n"
de datos de la tabla.
Row Percentages : Los porcentajes que aparecen en la tabla estn en relacin al Total por
fila. Es decir el total en cada fila , es el divisor de cada uno de los elementos que la componen.
Column Percentages: Los porcentajes que aparecen en la tabla estn en relacin al total por
columna. Es decir el total en cada columna, es el divisor de cada uno de los elementos que la
componen.
-8-
-9-
Barchart
50
Def_A
Def_B
Def_C
Def_D
frequency
40
30
20
10
0
1
TURNOS
Skychart
frequency
50
40
30
20
10
0
- 10 -
Def_D
Def_C
Def_B
Def_A
Fig. 60
- 11 -
Fig. 61
Entonces aparecer una columna slo con los valores numricos enteros, que
representan los cdigos
de los tramos o intervalos de clasificacin de la variable.
Seguidamente se procede a realizar el procedimiento de tabulacin cruzada de acuerdo a la
pantalla Fig. n 52.
Fig. 62
- 12 -
Row
Total
85
54,84%
26
16,77%
44
28,39%
155
100,00%
antes de imprimirlos o
Los grficos de barras y " skychart" se obtienen tal como se indic anteriormente.
Cuando se tiene una variable cualitativa o factor de clasificacin y otra variable
cuantitativa para una misma unidad de anlisis , podemos realizar clculos de Medidas de
Resumen por separado, es decir : Analizar la variable "mpg" slo para aquellos vehculo de
procedencia norteamericana. Lo cual significa tener estadsticas condicionadas a un cierto
nivel de clasificacin.
Para conseguir lo anterior, en las ventanas de dilogo de los diversos procedimientos
aparece frecuentemente un campo denominado Select, que tiene una variada gama de
aplicaciones o de enunciados lgicos:
Si la variable o factor que hace de filtro fuese un carcter entonces la condicin debe
de colocarse entre comillas. Por ejemplo : SEXO = "F" . Si fuese un integer o cdigo numrico
, entonces slo basta colocar , por ejemplo : ORIGEN = 1
Tambin haciendo uso del campo select se puede solicitar que se procesen, por
ejemplo, los ltimos 50 datos (last 50) ; o bien los primeros 30 datos (first 30)
- 13 -
Si lo que se desea es tener todas las estadsticas de resumen para la variable "mpg"
de coches que sean "Europeos o Japoneses " , entonces el campo Select debe completarse
de la siguiente forma :
- 14 -
Fig. 64
Los smbolos que se utilizan en el campo " ( Select ) " se logran activando el campo
select ( se ennegrece) y luego activando o pulsando "Transform" . Obtendr :
Fig. 65
Ejercicio de Aplicacin:
De la base de Datos "Prodemu" , que usted tiene ya creada, produzca el cruce en
Tablas de Asociacin de las variables:
a).- Estado Civil v/s Nmero de Hijos
b).- Estado Civil v/s Nivel de Escolaridad
c).- Nmero de Hijos v/s Nivel de Escolaridad
Para las tablas anteriores obtenga conclusiones respecto de las frecuencias marginales,
las frecuencias conjuntas.
Obtenga los grficos de barras agrupadas respectivos
- 15 -
N
Obs
X (%)
Y (%)
10
0.99
90.01
1.02
89.05
1.15
91.43
1.29
93.74
1.46
96.73
1.36
94.45
0.87
87.59
1.23
91.77
1.55
99.42
1.40
93.65
11
12
13
14
15
16
17
18
19
20
1.19
93.54
1.15
92.52
0.98
90.56
1.01
89.54
1.11
89.85
1.20
90.39
1.26
93.25
1.32
93.41
1.43
94.98
0.95
87.33
Para tener una idea a cerca del comportamiento conjunto de estas dos variable ,
debemos graficar este conjunto de puntos en el plano coordenado (X,Y). Se genera un grfico
denominado diagrama de dispersin o nube de puntos. El anlisis de este diagrama de
dispersin indica que , si bien una curva no pasa exactamente por todos los puntos , existe una
fuerte evidencia de que los puntos estn dispersos de manera aleatoria alrededor de un
modelo matemtico y = f (x). Es decir, el porcentaje de pureza del oxgeno (y) es funcin o
depende del nivel de hidrocarburo ( X ).
El modelo matemtico ms simple, es la "funcin lineal" o simplemente , la lnea recta.
Y=a+bX
- 16 -
- 17 -
Fig. 66
102
99
96
93
90
87
0,87
1,07
1,27
1,47
1,67
Hidrocarb (%)
La grfica de los datos anteriores o Diagrama de Dispersin se obtiene de la sgte.
manera:
1.- Cree el archivo correspondiente a los datos dados : Hidrocarb ; PurezaOxig
2.- Obtenga la siguiente pantalla
Fig. 67
- 18 -
Fig. 68
Una forma grfica de ajustar una recta al diagrama de dispersin de los datos de la
Fig.67 anterior, sera dibujar sobre la nube de puntos una recta de forma tal que se minimice al
mximo las desviaciones de los puntos respecto de la lnea recta trazada.
Si denotamos el valor pronosticado ( o de prediccin) de "y" por " y ", el cual se obtuvo
por la lnea de ajuste , la ecuacin de prediccin es :
y = a + bX
Los segmentos verticales que parten de la recta de prediccin a cada punto, son los
desvos de los puntos respecto del valor pronosticado de "y". As, la desviacin del i-simo
punto es
i = y i y i
donde
y i = a + bX i
Fig. 69
Recta de Ajuste
PurezaOxig (%)
102
99
96
93
90
87
0,87
1,07
1,27
1,47
Hidrocarb (%)
- 19 -
1,67
Debemos establecer un criterio para tratar de minimizar las desviaciones de los puntosa
con la recta que se ajusta mejor , es decir, establecer un criterio para " el mejor ajuste" que
parezca intuitivamente razonable , objetivo , y que segn ciertas condiciones , ofrezca la mejor
prediccin de "y" para un valor dado de "x".
Un criterio de "bondad" utilizado es el denominado principio de los mnimos
cuadrados.
Bsicamente consiste en escoger como la recta de mejor ajuste a la que :
1.- El promedio de los errores (desviaciones de los valores observados " y" respecto de los
pronosticados o estimados ) se igual a cero .
2.- La suma de los errores elevados al cuadrado sea mnima
i =n
SCE =
(y
i =1
y ) 2 sea mnima
[y (a + bX )]
i =n
SCE =
i =1
sea mnima
El mtodo para encontrar los valores numricos de a y b que minimicen la SCE est
basado en el clculo diferencial (derivadas parciales) . Con ello obtenemos las denominadas
ecuaciones normales.
i =n
i =n
yi = an + b X i
i =1
i =1
i =n
i =n
i=n
i =1
i =1
i =1
X i y i = a X i + b X i
b =
i =n i = n
yi xi
i=n
xi yi i =1 i =1
n
i =1
i =n
xi
i=n
2
xi i =1
n
i =1
a = Y bX
(
=
1 i=n
x i y i ) XY
n i =1
x2
y = a + bx
Ntese que cada par de observaciones satisface la relacin y i = a + bxi + i ; i = 1,2,3,....n
- 20 -
x y
i
i =1
rxy =
( X )(Y )
( x )( y )
-1 rxy +1
PurezaOxig
102
99
96
93
90
87
0,87
1,07
1,27
1,47
1,67
Hidrocarb
2.- Un valor negativo para rxy implica que la recta baja de izquierda a derecha en el diagrama de
dispersin
55
mpg
45
35
25
15
1700
2200
2700
3200
weight
- 21 -
3700
4200
4700
3.- Un valor de rxy a cero implica de que no hay correlacin lineal entre x e y.
(X 1000)
16
(X 1000)
16
price
12
price
12
8
4
0
0
30
60
90
120
150
180
horsepower
4
0
0
30
60
90
120
150
180
horsepower
58
48
38
28
18
0
12
16
X
A partir de la expresin matemtica inicial para calcular el rxy podemos colocarlo como
una funcin de :
rxy =
x b
y
- 22 -
y/x =
1 i=n
( y i y i ) 2
n i =1
y/x =
( yi
i =1
y i ) 2
n2
n
* y/x
n2
Para ms adelante , podremos cambiar el denominador " (n - 2 ) ", por uno ms general
que es ( n - p ) " , donde "p" indica el nmero de parmetros que se estimaron en el modelo.
(y
i =1
i =n
i=n
i =1
i =1
Y ) 2 = ( yi Yi ) 2 + (Yi Y ) 2
i =n
El trmino
(y
i =1
(Y Y )
- 23 -
(Yi Y ) 2
i =1
i=n
R2 =
0 R2 1
( yi Y ) 2
i =1
Se tiene que R2 = 1
(y
Yi ) 2
(y
Y )2
i =1
= 1
2 y/x
2y
(y
Y ) 2 ( y i Y ) 2
rxy =
R2
2 y/x
2y
y/x = y 1 r 2 xy
- 24 -
Las relaciones de regresin son vlidas slo para los valores del regresor que estn dentro del
rango de los datos originales. La relacin lineal supuesta de manera tentativa puede ser vlida
dentro del rango original de X , pero tal vez no lo sea al momento de la extrapolacin ( Es
decir , si se emplean valores de X que estn fuera del rango de los que fueron utilizados para la
regresin).
Esto es porque si se toman valores de X que estn fuera del rango de los colectados ,
menos certidumbre se tiene sobre la validez del modelo propuesto. Los modelos de
regresin no son necesariamente vlidos para fines de extrapolacin.
En primer lugar , acceda a cono Tabular Options y tendr una ventana con una serie
de posibilidades , que a continuacin sern descritas slo las que competen analizar hasta este
momento:
Analysis Summary :
Contiene un resumen de todas los indicadores cuantitativos que se pueden obtener al
buscar una relacin causal o funcional entre las variables : Estimacin de la ordenada en el
- 25 -
origen "a " (Intercept) , Estimacin de la pendiente (Slope) , Error estndar de la estimacin,
Coeficiente de Correlacin , Coeficiente de Determinacin ,etc. etc.
En el "Statdvisor" , tiene la ecuacin de la recta ajustada a los datos Mencin aparte
merece un tema denominado "Anlisis of Variance " , que luego analizaremos.
2.- Forecast :
Permite realizar estimaciones o predicciones para los valores promedios dados por el
modelo, como tambin para valores individuales.
Model
Correlation
R-Squared
-------------------------------------------------Reciprocal-Y
-0,9393
88,22%
Exponential
0,9382
88,03%
Square root-Y
0,9375
87,90%
Linear
0,9367
87,74%
Square root-X
0,9318
86,82%
Multiplicative
0,9285
86,21%
Logarithmic-X
0,9256
85,68%
Double reciprocal
0,9177
84,22%
S-curve
-0,9140
83,54%
Reciprocal-X
-0,9098
82,77%
Logistic
<no fit>
Log probit
<no fit>
-------------------------------------------------Entrega en orden descendente los valores del Coeficiente de correlacin y determinacin,
para decidir el mejor modelo que ajusta los datos.
- 26 -
Analysis of Variance
----------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
----------------------------------------------------------------------------Model
152,127
1
152,127
128,86
0,0000
Residual
21,2498
18
1,18055
----------------------------------------------------------------------------Total (Corr.)
173,377
19
Correlation Coefficient = 0,936715
R-squared = 87,7436 percent
Standard Error of Est. = 1,08653
The StatAdvisor
--------------The output shows the results of fitting a linear model to describe
the relationship between PurezaOxig and Hidrocarb. The equation of
the fitted model is
PurezaOxig = 74,2833 + 14,9475*Hidrocarb
Since the P-value in the ANOVA table is less than 0.01, there is a
statistically significant relationship between PurezaOxig and
Hidrocarb at the 99% confidence level.
The R-Squared statistic indicates that the model as fitted explains
87,7436% of the variability in PurezaOxig. The correlation
coefficient equals 0,936715, indicating a relatively strong
relationship between the variables. The standard error of the
estimate shows the standard deviation of the residuals to be 1,08653.
This value can be used to construct prediction limits for new
observations by selecting the Forecasts option from the text menu.
- 27 -
i =n
i =n
i =1
i =1
i =1
( yi Y ) 2 = ( yi Yi ) 2 + (Yi Y ) 2
El primer trmino del lado izquierdo de la ecuacin corresponde a la suma de
cuadrados del total (Variacin Total). Donde el primer trmino del lado derecho del ecuacin
nos entrega la suma de cuadrados de los Residuos o errores (Variacin no explicada ,
Residual).
El segundo trmino del lado derecho nos entrega la suma de los cuadrados de la
regresin debido al modelo utilizado. (variacin explicada por el modelo, Model).
Para entender de forma ms cabal los otros elementos o columnas de la tabla , todava
no se tienen los elementos tericos necesarios para su comprensin , pero que se vern ms
adelante cuando se traten temas relacionados con Inferencia Estadstica.
di =
i = 1 , 2 ,........n
- 28 -
Residual Plot
16
residual
11
6
1
-4
-9
-14
14
19
24
29
34
39
predicted mpg
Fig. (b)
22
Errores
12
2
-8
-18
28,75 28,76 28,77 28,78 28,79 28,8
28,81
44
Fig. (c)
60
Errores
40
20
0
-20
-40
-60
58
78
98
118
138
158
22
Errores
12
2
-8
-18
12
16
20
24
28
32
36
Los patrones de comportamiento como las " Fig. (b) , Fig. (c) , Fig. (d) " anteriores ,
representan anomalas.
1.- Si los residuos aparecen como en la "Fig. (b) ", la varianza de las observaciones puede
aumentar con el tiempo o con la magnitud de "yi " o " xi ".
Para eliminar este problema , comnmente se utiliza una transformacin de datos
sobre la respuesta "y ". Entre las transformaciones ms utilizadas para estabilizar la varianza
est el emplear "
y " , " ln y " , " 1/ y " como respuesta (Montgomery y Peck , 1992 ).
- 30 -
i =n
i =n
i =1
i =1
i =1
( yi Y ) 2 = ( yi Yi ) 2 + (Yi Y ) 2
El primer trmino del lado izquierdo de la ecuacin corresponde a la suma de
cuadrados del total. (Variacin Total). Donde el primer trmino del lado derecho del ecuacin
nos entrega la suma de cuadrados de los Residuos o errores (Variacin no explicada,
Residual).
El segundo trmino del lado derecho nos entrega la suma de los cuadrados de la
regresin debido al modelo utilizado. (variacin explicada por el modelo).
Para entender de forma ms cabal los otros elementos o columnas de la tabla, todava
no se tienen los argumentos tericos necesarios para su comprensin, pero que se vern ms
adelante cuando se traten temas relacionados con Inferencia Estadstica.
El Anlisis de Varianza sirve para decidir acerca de la significancia estadstica del
modelo (p-value), lineal en este caso, ajustado al conjunto de datos.
Esto es as porque los modelos de regresin se utilizan para ajustar los datos obtenidos
a una funcin de aproximacin, cuando se desconoce la verdadera relacin que existe entre las
variables "X" e "Y". (bondad del ajuste)
El anlisis de varianza , para este caso, nos permite decidir entre dos hiptesis:
H0 : El modelo de regresin lineal simple , es adecuado para ajustar a los datos
H1 : El modelo de regresin lineal simple , NO es adecuado para ajustar a los datos
3.3.5.- Modelos Lineales Reducibles a lineal
Una relacin entre dos variables puede ser aproximadamente lineal cuando se estudia
en un intervalo relativamente limitado, pero puede ser marcadamente curvilnea si se amplia
el intervalo. Un ejemplo de ello lo tenemos al obtener valores experimentales de la presin P
de una masa dada de gas , correspondiente a varios valores de volumen V. Es de suma
utilidad , representar los datos originales en un Diagrama de Dispersin , para darnos cuenta de
la existencia de alguna tendencia a alguna "curvatura".
La seleccin de la forma de la ecuacin de regresin que mejor expresa una relacin
curvilnea no siempre es problema simple. Existe un gran nmero de tipos de curvas que
pueden expresarse por ecuaciones matemticas.
Lo que debemos tener en cuenta para la eleccin del modelo que mejor interpreta a los
datos , es elegir del conjunto de ecuaciones dadas, aquel modelo que en trminos absolutos
tenga el mayor coeficiente de correlacin rxy , como tambin el mayor coeficiente de
determinacin R2 . Este criterio de seleccin est justificado por el hecho de que al
aumentar el coeficiente de correlacin ( en trminos absolutos ) , disminuye el error
estndar de la estimacin del modelo.
- 31 -
Recordemos que :
Polinomio Cuadrtico es
y = a 0 + a1 x + a 2 x 2
Polinomio Cbico es
y = a 0 + a1 x + a 2 x 2 + a3 x 3
Polinomio Curtico es
y = a 0 + a1 x + a 2 x 2 + a3 x 3 + a 4 x 4
- 32 -
Modelo no Lineal
e y = ax b
Modelo linealizado
y = ln a + b ln x
y = ab x
y = ax b
y=
1
a + bx
y=
1
k + ab x
y=
k1
k 2 + e a +bx
1
= a + bx
y
1
log( k ) = (log a ) + (log b) x
y
y
ln( k 2 ) = a + bx donde
k1
k1 , k2 representan asntotas horizontales
y = ab x + g
y = ax b + g
1
y = 0 + 1
x
y=
( 0 +1x)
y = 0 + 1 z donde z representa ( 1 / x )
1
ln
=
y
+ 1x
un Modelo
- 33 -
Fig. 71
Fig. 72
- 34 -
Univariate
Plot
XY Plot
- 35 -
Enero
Algas
72,0
Pescado 360,5
Moluscos 96,2
Crustac
0,7
Otras sp 10,2
Total
539,6
Febre
Marzo
Abril
Mayo
Junio
Julio
Agost
Septb
Octub
Novb
Dcbre
236,7
314,3
124
138,2
296,7
909,5
505,0
390,0
378,6
442,0
449,4
313,1
318,0
38,2
124,8
215,0
269,7
228,6
307,5
394,1
197,5
132,7
25,2
84,3
75,2
75,8
109,4
97,3
129,1
73,2
95,3
5,3
12,5
5,5
1,2
0,1
0,3
0,6
0,1
86,1
175,1
121,5
102,4
113,7
620
555,5
101,6
23,9
1,7
0,2
666,6
892,9
359
441,2
735,1
1896,5 1418,8
872,4
891,9
646,5
594,8
Si queremos graficar el Desembarco total por meses del ao 2000 , tenemos lo siguiente
(X 1000)
2
1,6
1,2
0,8
0,4
0
0
4 5 6 7 8 9 10 11 12
Meses del ao 2000
- 36 -
Univariate Plot
Mltiple XY Plot
Fig. 73
REGRESIN LINEAL
3.4.1.- El ndice de costes sanitarios en EE.UU para los aos 1976 1984, dado en la sgte tabla
Ao
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
Indice
184.7
202.4
219.4
239.7
265.9
294.5
328.7
357.3
378.0
390.0
400.0
Desembarco Mensual
Total Toneladas Mensuales
(X 1000)
2
Variables
algas
Crustaceos
Moluscos
Otras sp
Pescado
Total
1.6
1.2
0.8
0.4
0
0
Meses ao 2000
- 37 -
10
12
1.
2.
3.
4.
5.
6.
7.
8.
3.5.2.-- La siguiente tabla indica el censo de trabajadores agrcolas en un pas , cada 5 aos
Ao
1935
TrabAgric
12.7
(millones)
1940
1945
1950
1955
1960
1965
1970
1975
1980
1985
11.0
10.0
9.9
8.4
7.1
5.6
4.5
4.3
4.0
3.8
a).- Codifique los aos, de manera tal que 1960 sea el ao cero ( 0 ) y la suma de ellos sea
igual a cero
b).- Represente los datos grficamente en un Diagrama de Dispersin
c).- Determine la ecuacin de la recta mnimo cuadrtica que ajuste a los datos
d).- Interprete los parmetros de la recta ajustada
e).- Interprete el coeficiente de correlacin de los datos
f).- Estime el valor del ndice para cada ao
g).- Determine el error estndar de la estimacin
h).- Prediga la cantidad de trabajadores agrcolas con 95 % de confianza para el ao 1990
3.4.3.- El tiempo necesario para detener un coche despus de percibir un peligro, es el tiempo
de reaccin ( el tiempo entre la percepcin del peligro y la `aplicacin de los frenos) , ms el
tiempo de frenada ( lo que tarda en detenerse bajo la accin de los frenos ) . La tabla siguiente
muestra las distancias (Y) en pies , y las velocidades (X) de los coches en millas por hora
Velocidad (X)
Distancia Frenado
20
54
30
90
40
138
50
206
60
292
70
396
- 38 -
Sistema Fsico
Mediciones
Anlisis
Modelo
Variables Controladas
ENTRADA
S I S T E M A
SALIDA
Variables de Ruido
4.2.- Experimento Aleatorio:
Definicin
- 39 -
Puesto que los eventos o sucesos son subconjuntos, entonces es posible utilizar las
operaciones bsicas de conjuntos, tales como: unin, interseccin, complementos, diferencias,
etc. para formar otros sucesos de inters.
- 40 -
Ejemplo:
Se analizan 49 muestras de polibicarbonato plstico para determinar su
resistencia a las ralladuras y a los golpes obtenindose los siguientes resultados
Resistencia
a las
Ralladuras
Alta
Baja
- 41 -
Si el espacio muestral est formado por el conjunto de todos los tipos posibles de
vehculos cul es el nmero de resultados en el espacio muestral?
E1 E2 =
( E` )` = E
(A B) C = (A C) ( B C)
(A B) C = (A C) ( B C)
(A B)`
= A` B`
(A B)`
= A` B`
A B
= B A
A B
= B A
- 42 -
N de defectos
Cantidad
Proporcin
0
1
2
3
4 ms
1 500
50
20
10
5
0,9464
0,0315
0,0126
0,0063
0,0032
TOTAL
1 585
1,0000
P(X=0)=
1500
1585 = 0,9064
50
10
+
= 0,0315 + 0,0063 = 0,0378
1585 1585
- 43 -
P(1 x 3) = P( x = 1) + P( x = 2 ) + P( x = 3)
P(1 x 3) =
50
20
10
+
+
1585 1585 1585
(1)
P() = 1
(2)
0 P(E) 1
(3)
NO
SI
TOTAL
NO
514
68
582
SI
112
246
358
TOTAL
626
314
940
- 44 -
contaminacin y posicin
N de particulas Contaminantes
Centro
En la orilla
Totales
0
1
2
3
4
5 ms
0,30
0,15
0,10
0,06
0,04
0,07
0,10
0,05
0,05
0,04
0,01
0,03
0,40
0,20
0,15
0,10
0,05
0,10
TOTAL
0,72
0,28
1,00
Determine
1. Cul es la probabilidad de que al seleccionar al azar una oblea de este lote, sta haya
estado en el centro del instrumento de deposicin?
2. Cul es la probabilidad de que una oblea que contiene cuatro o ms partculas se haya
encontrado en la orilla del instrumento de deposicin?
3. Cul es la probabilidad de que una oblea se haya encontrado en la orilla de la
herramienta o que contenga cuatro o ms partculas?
4. Cul es la probabilidad de que una oblea contenga menos de dos partculas o de que
se haya encontrado en la orilla y contenga ms de cuatro partculas?
i# j
- 45 -
es mutuamente
P( A / B) = P (A B)
P(B)
SI
NO
TOTAL
NO
24
212
236
SI
12
18
30
TOTAL
36
230
266
Molcula 2 presente
no
Molcula 1 presente
*
si
Molcula 2 presente------------------------------------------------no
si
no
- 46 -
si
BA
BA`
A`
- 47 -
E1
E2
E3
E2
E4
E3
Contaminacin
0.3
0.2
alta
P(F/alta)
0.1
0.02
0.5
media
P(F`/alta)
0.9
0.18
P(F/media)
0.01
0.003
baja
P(F`/media)
0.99
0.297
P(F/baja)
0.001
0.0005
- 48 -
P(F`/baja)
0.999
0.4995
4.16.- Independencia
Definicin
Se dice que dos eventos son A ,B son independientes si y slo si
cualesquiera de las siguientes proposiciones es verdadera.
1.- P(A/B) = P(A)
2.- P(B/A) = P(B)
3.- P(A
B) = P(A)*P(B)
El punto (3) de la definicin anterior nos indica que dos sucesos A , B son
independientes cuando la probabilidad conjunta es igual al producto de las probabilidades
marginales.
La definicin anterior puede ser generalizada de la siguiente forma:
Los eventos E1, E2,.......... En son independientes si y slo si,
para cualesquier Subconjunto E i1, E i2,.......... E ik ,
0.99
0.95
0.9
- 49 -
Este es un resultado til pues permite determinar P(A / B) en trminos de P(B / A).
TEOREMA DE BAYES:
- 50 -
Marca
Total de Cajas
A
B
C
D
E
Total
200
300
1000
800
700
3000
50
40
300
80
30
500
P( A1)P
A1
A1
P =
B P( A1)P B + P( A2 )P B + P( A3 )P B + P( A4 )P B + P( A5 )P B
A1
A2
A3
200
A4
A5
50
x
A1
3000 200
P =
B 200 x 50 + 300 x 40 + 1000 x 300 + 800 x 80 + 700 x 30
3000 200
3000 300
3000 1000
3000 800
3000 700
50
50
A1
P = 300 =
= 0,1
500
500
B
3000
Rpta. La probabilidad de que la caja defectuosa sea de la marca A es 0,1.
- 51 -
Las variables aleatorias se denotan con una letra mayscula "X" y con letra minscula
el valor posible , x
El conjunto de todos los valores posible de la variable aleatoria X , recibe el nombre de
Rango de X o Recorrido de X
X ( )
Las variables aleatorias las podemos clasificar en dos grandes tipos : Discretas y
Continuas
- 52 -
Valor de la Variable x
aprobado
aprobado
0,64
aprobado
inaceptable
0,16
inaceptable
aprobado
0,16
inaceptable
inaceptable
0, 04
Definicin
El evento que est formado por todos los resultados para los que X = x
se denota como { X = x } , y la probabilidad de este evento como P (X = x )
La distribucin de probabilidad o distribucin de una variable aleatoria X es una
descripcin del conjunto de valores posibles de X (Rango de X ), junto con la probabilidad
asociada con cada uno de estos valores.
A menudo la distribucin de probabilidad de una variable aleatoria es el resumen ms
til de un experimento aleatorio.
La distribucin de probabilidad de una v. a. puede darse de varias maneras. Por
ejemplo como una tabla descriptiva , a travs de una frmula, etc.
Definicin
La funcin fx (x) = P(X = x) que va de l conjunto de los valores posibles de la
variable aleatoria discreta X al intervalo [ 0 , 1 ] recibe el nombre de funcin de
probabilidad.
Para una variable aleatoria X , fx (x) satisface las siguientes propiedades
1.- fx (x) = P(X = x)
2.- fx (x) 0
3.- fx (x) = 1
Ejemplo
x
Verifique que fx (x) = [ 2! / (x! (2-x)!)] (0,8
) ( 0,2 2 - x )
- 53 -
x = 0, 1, 2 es funcin de cuanta
Definicin :
Para una variable aleatoria discreta X , Fx (x) satisface las siguientes propiedades
Fx (x) Fy (y )
Valor de la
Variable X
0
1
2
3
= 0,0001
fi
Fi
0,8572
0,1356
0,0070
0,0001
0,8572
0,9928
0,9998
0,9999
- 54 -
= E(X) =
f ( xi )
x2 = E(X - x )2 =
(x
x2 o Var(X) es
x )2 f (xi )
- 55 -
Impurezas
3%
4%
1%
14
2%
57
x2
f ( xi ) = E(Impurezas) = 1
2
( xi x )2 f (xi ) = (1 1.7625)
19
61
+ 2
= 1.7625
80
80
19
61
+ (1 1.7625) 2
= 0.1811
80
80
0.4255
100% = 24.14%
1.7625
Impurezas
3%
4%
1%
10
2%
70
100
- 56 -
6.1.1.1.- Propiedades:
Supngase que X es una v.a discreta uniforme sobre los enteros consecutivos
a, a+1 , a+2 , , ............, b con a b
La media o promedio de X es x = E ( X) = ( b + a )
2
La desviacin estndar de X es x =
(b a + 1) 2 1
12
Si todos los valores del rango de la variable aleatoria se multiplican por una constante
"k" (sin cambiar ninguna de las probabilidades) , entonces la media y la desviacin estndar de
X quedan multiplicadas por la misma constante.
- 57 -
(19 15 + 1) 2 1
=2
12
Para hacer clculos de probabilidad , grficos ,etc. relacionados con esta funcin de
distribucin, utilizando Satagraphics , debe de realizar el siguiente procedimiento:
Distributions
- 58 -
Probability Distributions
Fig. 75
De esta ventana seleccione " Discrete Uniform " que significa en espaol, Uniforme
Discreta y proceda a llenar los campos solicitados en la siguiente ventana
Fig. 76
- 59 -
Posicionando el cursor del mouse en la ventana "Tabular Options" podr acceder a los
siguientes procedimientos
Fig. 77
1.- Anlisis Sumario : Permite definir la funcin a utilizar y agregar otras. Para ello
vaya a " pane options ".
2.- Funcin de Distribucin Acumulada : Permite calcular probabilidades para valores
de variable aleatoria especficos. Para ello vaya a " pane options ".
3.- Inversa de la Funcin de Distribucin Acumulada : Permite calcular valores de la
variable aleatoria , dada una probabilidad . Para ello vaya a " pane options ".
- 60 -
X
n!
p (1- p)n - x
fX (x ; p , n ) =
x!(n x)!
x = 0 ,1 , 2 , .n
P(X k ) =
n!
j!(n j )! p
(1 p) n j
j =1
- 61 -
Fig. 78
20!
0.1 2 (1- 0.1) 20 - 2
2
!
(
20
2
)!
P(X = 2) =
b)
P(X = 2 ) + P ( X = 3 ) + P ( X = 3 ) = P( 2 X 5 ) =
20!
j =2
c)
2)= 1 -[P(X=0)+P(X=1)+P(X=3) ] =
- 62 -
es V(X) = 2 =npq
20 j
N1 N 2
k nk
P( X = k ; n; N 1 ; N 2 ) =
N1 + N 2
N 1 + N 2 = N, tamao de la poblacin
E(X) = np
es V(x) =
= npq
( N n)
N
- 63 -
Fig. 79
P(X=1)=
4 16
1 3 1
P ( X = 1; n = 3; N 116; N 2 = 4) =
4 + 16
C14C216
C320
= 0.4211
b).- Cul es la probabilidad de que al menos un depsito de los que no cumplen la normativa
est en la muestra?
P( X 1 ) = 1 - P ( X = 0 ) = 1 - 0.4912 = 0.5088
- 64 -
Su funcin de cuanta es
P(X = k) =
k e
k!
donde es el parmetro que expresa el nmero esperado ( o promedio) por unidad de tiempo,
espacio , etc. " e " es un constante , cuyo valor aproximado es de 2,7183
La expresin anterior permite calcular " la probabilidad de que en la unidad analizada
hayan exactamente k xitos ".
P( X = 12) =
1012 e 10
= 0,095
12!
10 k e 10
= P(X=7) + P(X=8)+ P(X=9)+ P(X=10)+P(X=11)+P(X=12)=
k!
k =7
k =12
P(7 X 12) =
- 65 -
Fig. 80
- 66 -
f ( X = x; ; 2 ) =
2 2
( x )2
2 2
La forma grfica de esta distribucin es como la de una campana , por lo que tambin
se le conoce con el nombre de Campana de Gauss.
Probabilidad
0,4
0,3
0,2
0,1
0
-5
-3
-1
- 67 -
2 (medida de
Existen varias formas graficas segn sean las combinaciones que se tengan entre sus
dos parmetros:
1.- Igual promedio , distinta varianza.
2.- Distinto promedio , igual varianza.
3.- Distintos promedios , distintas varianzas.
La Distribucin Normal Tpica , representa todas las variables aleatorias normales .
Se logra estandarizar cualquier variable
realizando la siguiente transformacin,
denominado puntaje tpico o estndar.
Z=
xi
c)
44 45 X 45 47 45
) = P (-0,67 Z 1,33) =
1,5
1,5
1,5
X 45 43 45
) = P(Z -1,33 ) =
1,5
1,5
Si se elige un ctodo al azar de una cosecha, cul es la probabilidad de que su peso sea
superior a los 48 kgs ?
P ( X > 48 ) = P(
X 45 48 45
) = P ( Z 2) = 1 - P(Z 2) =
1,5
1,5
- 68 -
- 69 -
Fig. 82
X np
np(1 p )
es de manera aproximada , una variable aleatoria normal estndar
Ejemplo:
En proceso productivo, se sabe que aproximadamente el 5% de las unidades obtenidas
tienen contenidos de Pb, que sobrepasan una normativa internacional. El Cliente decide realizar
una inspeccin al azar de 150 unidades del producto.
a).- Si el cliente, de acuerdo con el fabricante, tienen establecido por contrato de que en
muestras de ese tamao, deben haber a lo ms 8 unidades que sobrepasen la normativa ,
Cul es la probabilidad de que el embarque sea aceptado ?
np = 150 * (0,05) = 7,5
Dado que se est calculando un valor de probabilidad para una variable discreta, por
medio de una funcin continua como es la distribucin normal utilizando la tabla estndar, P( X
8 ) la debemos remplazar por P ( X < 8,5 )
[ A esto se le denomina correccin de la continuidad, en media unidad de medida ]
P ( X 8) = P( X < 8,5 ) = (
X 8,5
7,125
- 70 -
8,5 7,5
7,125
) = P(Z 0,37 ) =
4,5 7,5
7,125
X 7,5
7,125
10,5 7,5
7,125
) = P ( -1,12 Z 1,12 ) =
c).- De acuerdo con el plan de muestreo , cual es el nmero mximo de unidades que
sobrepasan la normativa que debe contener la muestra, para aceptar el embarque con 95 % de
probabilidad ?
Ejemplo :
Suponga que el nmero de partculas de asbesto en una muestra de un centmetro
cuadrado de polvo es una variable aleatoria Poisson con promedio = 100.
a).-Cul es la probabilidad de que en 10 cm2 de polvo haya ms de 950 partculas de asbesto?
P ( X > 950 ) = P ( Z
950,5 1000
1000
) = P ( Z - 1,57 ) =
b).- Cul es la probabilidad de que en 10 cm2 de polvo haya entre 950 y 1100 partculas de
asbesto, inclusive ?
P ( 949,5 X 1100,5) =
c).-Qu cantidad de partculas de asbesto habr en 10 cm2 de polvo , el 90% central de las
veces ?
- 71 -
e x
si x > 0
f ( x) =
Por lo tanto:
f ( x )dx
=1
Distribucin Exponencial
0.1
Mean
10
0.08
0.06
0.04
0.02
0
0
10
20
30
- 72 -
40
50
60
xf ( x )dx =
1
2
1
x
La expresin
P( X > s + t / X > s) =
P ( X > s + t ) e ( s + t )
=
P( X > s)
e s
= e t
x = t + t
e x dx
P ( L < t + t / L > t ) =
x =t
e t
- 73 -
- 74 -
7.2.- Estimacin
Estimador , Estadstica
Un Estimador , Estadstica es cualquier funcin de las observaciones contenidas en
una muestra aleatoria
Estimacin Puntual.
Una estimacin puntual de algn parmetro de la poblacin es un valor
, en promedio,
2.- Mnima Varianza: Si se consideran todos los estimadores insesgados de del parmetro
,el que tiene la menor varianza recibe el nombre de estimador insesgado de varianza
mnima.
3.- Consistentes: A medida de que el tamao de la muestra aumenta, (n
estimador tiende a coincidir con el parmetro.
N), el
4.- Eficientes: Si se utilizan dos estadgrafos o estimadores del mismo parmetro, aquel
cuya distribucin muestral tenga menor error estndar, es un estimador ms eficaz que otro .
5.- Suficiente: Un estimador suficiente del parmetro , es aquel que agota toda la
informacin pertinente sobre de que se pueda disponer en la muestra.
Por ejemplo,
El promedio ( desconocido) de la Poblacin, puede ser estimado a travs del promedio
- 75 -
f X ( x; p ) =
px(1 - p)1 - x
x=0 ,1
0
en cualquier otro caso
L(p) = p x1 (1 p )1 x1 p x2 (1 p )1 x2 ................ p xn (1 p )1 xn =
i=n
L(p) =
Cp
i=n
xi
(1 p )
1 xi
xi
= p i =1 (1 p)
i=n
xi
i =1
i =1
ln L( p) = ( x i ) ln( p) + n x i ln(1 p )
i =1
i =1
n xi
d ln L( p ) i =1
i =1
1 p
dp
p
i=n
xi
p =
1 i =n
Xi
n i =1
- 76 -
x e
f (x) =
con x = 0 , 1 , 2 , 3, ..........
x!
i =n
i=n
Formamos la funcin L( ) =
i =1
e
xi
xi !
xi
i =1
e n
i =n
xi !
i =1
i =n
i =1
i =1
ln L( ) = ( xi ) ln( ) + (n ) ln xi !
Usando conceptos de "mximos y mnimos" de clculo en una variable , igualamos a
cero la expresin anterior , y despejamos " " , se tiene que
i =n
i=n
d ln L( )
=
d
x
i =1
x
=
i =1
=X
Por ejemplo,
La distribucin de probabilidad del promedio aritmtico
distribucin de muestreo (muestral) de la media.
X , se conoce como
- 77 -
" , si
es la
Z=
2
n
Cuando
Error Estndar
Por ejemplo
El promedio aritmtico X , tiene un error estndar de
- 78 -
S2
n
H0 : = 0
v/s
H1 : f 0
Hiptesis alternativa
unilateral derecha
H0 : = 0
v/s
H1 : < 0
Hiptesis alternativa
unilateral izquierda
H0 : = 0
v/s
H1 : 0
Hiptesis alternativa
bilateral
- 79 -
El Error Tipo I
se define como el rechazo de la Hiptesis nula H0 , cuando sta es verdadera.
Al utilizar una muestra para obtener conclusiones sobre una poblacin existe el riesgo de
llegar a una conclusin incorrecta.
Cuando se toma una decisin referente a una hiptesis basada en la teora de la
probabilidad, sta puede ser:
Decisin Correcta:
Se acepta una hiptesis cuando es verdadera.
Se rechaza una hiptesis cuando no es verdadera.
Decisin Incorrecta
Error Tipo I ().- Se rechaza un hiptesis que es verdadera, es decir, se rechaza la
Hiptesis Nula (H0) cuando en realidad es cierta.
Error Tipo II ().- Se acepta una hiptesis que no es verdadera, es decir, no se rechaza
la Hiptesis Nula (H0) cuando es falsa y se debiera rechazar.
Para mayor claridad observamos el siguiente cuadro:
Decisin Condicin
H 0 es (V)
H 0 es (F)
ACEPTAR
Decisin Correcta
1-
Error de Tipo II
- 80 -
RECHAZAR
Error de Tipo I
Decisin Correcta
1-
REGIN DE
ACEPTACIN
REGIN DE
RECHAZO
REGIN DE
RECHAZO
REGIN DE
ACEPTACIN
El nivel de significacin debe ser especificado antes de que una prueba sea hecha, de
otra manera, el resultado obtenido en la prueba puede influir en la decisin.
Los niveles de significacin ms utilizados son: = 0,05 y = 0,01
Al emplear un nivel de significacin del 5% tenemos la confianza del 95% de que hemos
tomado una decisin correcta, aunque pudimos estar equivocados en un 5%.
El error de Tipo II () se puede determinar solamente respecto a un valor especfico
incluido en el rango de la Hiptesis Alternativa (H1).
- 81 -
H0 : = 0
H1 : < 0
H1 : > 0
Estadstico de Prueba
H 1 : 0
Zobs =
X 0
2
n
Para rechazar H0 a favor de H1 , se debe cumplir que el valor del Estadstico de prueba
caiga en la zona de rechazo indicada por la hiptesis alternativa.
- 82 -
Tamao de la Muestra
n=
X - Z1 -
/2
X + Z1 -
/2
n
n=
(Z + Z ) 2 2
( - 0 ) 2
(Z / 2 + Z ) 2 2
( - 0 ) 2
- 83 -
Fig. 84
Instrucciones.
1.
2.
3.
4.
5.
Ejemplo:
Los sistemas de escape de emergencia para tripulaciones de aeronaves son impulsados
por un combustible slido. Una de las caractersticas importantes de este producto es la rapidez
de combustin. Las especificaciones requieren que la rapidez promedio de combustin sea
de a lo menos 50 cm/ sg.
Se sabe que la desviacin estndar de esta rapidez es = 2 cm/ sg.
- 84 -
Fig. 85
( X 1 X 2 ) ~ Normal (1 - 2 ,
- 85 -
12
n1
22
n2
H0 : 1 - 2
H1 : 1 - 2 <
H1: 1 - 2
>
Estadstico de Prueba
H1: 1 - 2
Zobs =
(X1 X 2 )
12
n1
Intervalo de confianza
( X1 X 2 ) Z 1 -
/2
12
n1
22
n2
Tamao de la muestra
22
n2
n
n
( Z + Z ) 2 ( 12 + 22 )
(1 2 ) 2
( Z / 2 + Z ) 2 ( 12 + 22 )
(1 2 ) 2
prueba unilateral
prueba bilateral
Fig. 86
- 86 -
Estando dentro de este procedimiento deber llenar los distintos campos que tiene la
siguiente pantalla, y que dicen relacin con la informacin muestral que usted posee y el tipo de
prueba de hiptesis que necesita realizar.
Fig. 87
- 87 -
7.4.2.3.- Prueba de hiptesis e intervalo de confianza acerca una proporcin "p ".
En muchos problemas de ingeniera, se tiene inters en una variable aleatoria que sigue
o se comporta como una distribucin Bernoulli. Por ejemplo, considrese un proceso productivo
que fabrica artculos que son clasificados como aceptables o defectuosos; o bien un proceso de
monitoreo que controla una variable especfica mediante una lectura muestral , y la muestra se
clasifica como contaminada ( + ) o no contaminada (- ). El parmetro binomial " p "
representa la proporcin de artculos ( o muestras ) defectuosos (contaminados)
producidos.
H0 : p = p0
H1 : p < p0
H1 : p > p0
Estadstico de prueba
H1: p p0
Z0bs =
( p p 0 )
p q
n
Intervalo de Confianza
para p de nivel (1 - )
Tamao de la muestra
Z
n=
p Z 1 / 2
p 0 (1 p 0 ) + Z
p p0
p(1 p )
prueba bilateral
p (1 p )
n
Z
p (1 p0 ) + Z p (1 p)
n = /2 0
p
0
prueba unilateral
- 88 -
1.- Ponga el cursor en el botn describe de la pantalla principal y luego seleccione Hiptesis
Test . Luego active enter
2.- Tendr una pantalla igual a la de la figura 85 , donde deber llenar los diferentes campos:
En la pantalla anterior ,en el campo de los parmetros, debe seleccionar Binomial
Proportion, que significa Proporcin Binomial
En la ventana Null Hiptesis , deber ingresar el valor de Hipteis a probar p 0
En la ventana Sample proportion deber ingresar el valor de la propocin en la
muestra.
En la ventana Sample Size , deber ingresar el tamao de la muestra.
Luego pulse OK
Fig. 89
Ver aparecer una pantalla como la de la Figura 91. Colocando el cursor en el sector
izquierdo de la figura anterior , y activando el sector derecho del mouse , tendr acceso a
Anlisis Options, desde donde podr definir la hiptesis alternativa H 1 y el error tipo I ( ).:
Luego aplique 0K y tendr :
- 89 -
Fig. 90
7.4.2.4.- Prueba de hiptesis acerca de la diferencia entre dos proporciones " p1 y p2 ".
Las pruebas de hiptesis del punto 6.4.2.2 pueden extenderse al caso donde existen dos
parmetros binomiales de inters ( por ejemplo p1 y p2 ) y se desea probar que son iguales o
que difieren en una cantidad .
Esta prueba de hiptesis, para asegurar la convergencia a la distribucin normal de los
parmetros muestrales, necesita que los tamaos de las respectivas muestras tomadas
independientemente en cada una de la poblaciones sean de tamao grande (preferentemente
superior o igual a 100 ).
Los estimadores de las proporciones poblacionales son p 1 =
X1
n1
p 2 =
X2
y que
n2
X1 + X 2
, donde X1 y X2 representan
n1 + n 2
las cantidades de unidades, en cada una de las muestras, que poseen la caracterstica en
estudio.
- 90 -
H0 : p1 - p2 =
H1: p1 - p2 <
H1 : p1 - p2 >
Estadstico de prueba
H1 : p1 - p2
( p 1 p 2 ) Z1 /2
(1 )(
1 1
+
n1 n2
ZObs =
( p 1 p 2 )
(1 )(
1
1
+ )
n1 n2
Tamao de la muestra
(Z
n=
( p1 + p 2 )(q1 + q 2 ) / 2 + Z
p1q1 + p 2 q 2
( p1 p 2 ) 2
La frmula que permite calcular el tamao muestral est dada en el caso de realizar una
prueba de hiptesis con alternativa unilateral. En el caso de que se desee realizar una prueba
bilateral ( ), entonces es necesario remplazar Z por Z /2
Para utilizar Statgraphics en la prueba de hiptesis acerca de la diferencia entre las
proporciones de dos poblaciones ,cuando usted ha procesado los datos y dispone de las
proporciones de cada muestra,se utiliza el siguiente procedimiento :
1 Ponga el cursor en el botn compare de la pantalla principal , luego seleccione two samples y Hiptesis Test Tendr el e par de pantallas indicadas como Fig. 87 , Fig.88
Si el inters del investigador estuviese en probar si la cantidad esperada de unidades, X,
que tienen una cierta caracterstica cuando se extrae de esa poblacin , lote , o proceso una
muestra de tamao "n" , entonces la estructura de la prueba de hiptesis sera:
H0 : np =n p0 = X0
H1 : n p < X0
H1 : n p > X0
Estadstico de prueba
H1 : n p X0
- 91 -
Z0bs =
( X np0 )
np0 (1 p0 )
H1 : < 0
H1 : > 0
Intervalo de
confianza
Estadstico de prueba
TObs
H1 : 0
( X u0
S 2
X T1 / 2,
S 2
n
valor = n - 1. Este smbolo nos indica los grados de libertad de la distribucin, los cuales estn
indicados en la fila de la tabla. Es igual al nmero de datos muestrales menos 1.
Para rechazar la hiptesis H0, a favor de H1,se debe cumplir que el valor del estadstico
de prueba caiga en la regin de rechazo indicada por la hiptesis alternativa H1
i =n
S 2 =
i =n
(X1 X )2
i =1
n 1
- 92 -
S2 =
(X
i =1
X )2
los
Ahora se considerar una prueba de hiptesis sobre la diferencia de los promedio 1 , de dos distribuciones normales donde las varianza 12 y 22 son desconocidas pero
H0 : 1 - 2
Estadstico de Prueba
( X1 X 2 )
(n1 1) S12 + (n2 1) S22 1 1
+
n1 + n2 2
n1 n2
Tobs =
H1 : 1 - 2 <
H1: 1 - 2
>
H1: 1 - 2
El valor del Estadstico de prueba se compara con valores obtenidos de una Tabla
Estadstica de la distribucin t-Student , adjunta al final del texto, segn se la hiptesis
alternativa H1 que se est utilizando. Los grados de libertad , son iguales al tamao de la
muestra menos 1.
El intervalo de confianza de nivel (1- ), para la diferencia entre los promedios
poblacionales 1 - 2 , est dado por
( X 1 X 2 ) T(1 / 2);
Los grados de libertad
1
1
+
n1 n2
= n1 + n2 2
- 93 -
Ejercicio de Aplicacin.
Dos proveedores fabrican un engranaje plstico utilizado en una impresora lser. Una
caracterstica importante de estos engranajes es la resistencia al impacto . la cual se mide en
pies-libras. Una muestra aleatoria de 10 engranajes suministrados por el proveedor "A" y de 15
engranajes suministrados por el proveedor "B" , entregan los siguientes resultados :
Proveedor
A
B
Tamao Muestra
10
15
Promedio
290
321
Desv. Estndar
12
15
a)
Existe evidencia que apoye la afirmacin de que los engranajes del proveedor "B"
los
En el caso las muestras obtenidas de cada poblacin son dependientes entre si , como
ejemplo , cuando la misma muestra es sometida a anlisis por laboratorios diferentes que
utilizan la misma metodologa ; la misma unidad muestreada es sometida a una medicin pre
y post ; puede ser tambin cuando las observaciones sobre las dos poblaciones de inters se
recopilan por pares , tomadas bajo condiciones homogneas , pero ests pueden cambiar
de un par a otro . Esta prueba recibe el nombre de prueba " t pareada " .
Se calcula la diferencia entre cada par de observaciones di = X i - Yi desde i = 1 , 2...n
Con los valores de di , se obtiene su promedio aritmtico
i =n
d =
di
i =1
i =n
, S d2 =
(d
i =1
n 1
H0 : 1 - 2
H1 : 1 - 2 <
H1: 1 - 2
d )2
>
Estadstico de Prueba
H1: 1 - 2
TObs =
(d )
S 2
d
- 94 -
El valor del Estadstico de prueba se compara con valores obtenidos de una Tabla
Estadstica de la distribucin t-Student, adjunta al final del texto, segn se la hiptesis
alternativa H1 que se est utilizando. Los grados de libertad, son iguales al tamao de la
muestra menos 1.
El intervalo de confianza de nivel (1- ), para la diferencia entre los promedios
poblacionales 1 - 2 , est dado por
d T1 / 2
S d2
1 - 2 d + T1 / 2
n
S d2
n
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15
265 240 258 295 251 245 287 314 260 279 283 240 238 225 247
229 231 227 240 238 241 234 256 247 239 246 218 219 226 233
a).- Estos datos apoyan la afirmacin de que la dieta baja en grasas y el ejercicio
aerbico son de gran valor en la disminucin de los niveles de colesterol total en la sangre ?
b).- Construya un intervalo de confianza del 95 % , para establecer la reduccin
promedio conseguida en el estudio , por los trabajadores
- 95 -
H1 : 2 > 02
Estadstico de prueba
H1 : 2 02
2
=
Obs
(n 1) S 2
02
El valor del Estadstico de prueba se compara con valores obtenidos de una Tabla
Estadstica de la distribucin Chi-cuadrado , adjunta al final del texto, segn se la hiptesis
alternativa H1 que se est utilizando.
Los grados de libertad, al igual que en la distribucin t Student , son iguales al tamao
de la muestra menos 1.
Un intervalo de confianza de nivel ( 1 - ) para la varianza de la poblacin est dado
por la expresin
(n 1) S 2
12 / 2
- 96 -
(n 1) S 2
2 / 2
Ejemplo :
La desviacin estndar de cierto proceso de produccin es de 4 pulgadas. Se sospecha que la
varianza se ha hecho demasiado grande( a aumentado ). Se toma una muestra de 9 partes
producidas en dicho proceso y sus medidas son :
50 , 57 , 52 , 54 , 58 , 59 , 58 , 56 , 55
La prueba de hiptesis, de forma simblica, tiene la siguiente estructura :
H0 : 2 = 4
3.- Una vez que se ha accedido al procedimiento, pulsando el sector derecho del mouse
podr seleccionar Anlisis Options y definir la estructura de la hiptesis H1. y el nivel de
sinificancia ( Fig. 91). Saldr un mensaje acerca de la decisin que se debe adoptar y el
intervalo de confianza para la desviacin estndar.
Observacin
Debemos tener en consideracin que en la mayora de las veces la preocupacin
fundamental est centrada en conocer el comportamiento de la desviacin estndar , como
medida de variabilidad. Por eso es que Statgraphics dedica esta ventana a tal medida de
variabilidad.
Adems el intervalo de confianza para la desviacin estndar tambin se obtiene cuando
se procesan datos numricos ,una sola variable al seleccionar desde la tabular Options , la
ventana "Confidence Intervals "
- 97 -
Es decir ,
f f
f23 = 2 3
n
Se probar la hiptesis H
respectiva frecuencia esperada.
El estadstico de prueba es :
( fij fij ) 2
=
f
j =1 k =1
J
2
( j 1)( k 1)
(Estadstico de Prueba )
ij
- 98 -
2
Observado
( f i fi ) 2
=
f
i =1
i =k
( ) tal vez no sea el mejor procedimiento, pero est ampliamente difundida su utilizacin.
Desde el desarrollo de aspecto tericos de la estadstica matemtica, se demuestra que
si la poblacin sigue o se distribuye segn el modelo de probabilidad propuesto, el valor de
2
Observado
tiene de manera aproximada una distribucin Chi-cuadrada con " k p 1 " grados de
libertad, donde k representa la cantidad de intervalos utilizados; p es el nmero de parmetros
estimados a partir de los datos muestrales. La aproximacin a la distribucin puede mejorar si el
tamao de la muestra aumenta.
2
> que el valor entregado
La hiptesis nula Ho es rechazada cuando el valor de Observado
2
Observaciones:
Este procedimiento de prueba est muy relacionado con la "magnitud o cantidad" de las
frecuencias esperadas. Si estas frecuencias son muy pequeas, entonces el estadstico de
2
prueba Observado
no reflejar cabalmente el alejamiento entre lo observado y lo esperado, sino
slo la pequea magnitud de las frecuencias esperadas.
No existe un acuerdo respecto de cual sera la cantidad mnima a aceptar como
frecuencia esperada, pero en general los valores 3, 4 y 5 son los que ms se utilizan como
mnimos. Algunos autores sugieren que la frecuencia esperada puede se tan pequea como 1 o
2, siempre y cuando que muchas de ellas en la tabla de distribucin de los datos resulten ser
mayores que 5.
Si una frecuencia esperada en un intervalo es pequea, entonces pueden juntarse con la
frecuencia esperada del intervalo adyacente. Las frecuencias observadas correspondientes
tambin se combinan, por lo que entonces el N " k " de intervalos tambin disminuye.
Tambin se debe destacar entonces de que no es necesario de que los intervalos tengan
la misma longitud o ancho.
- 99 -
Rendimiento
Excelente
Bueno
Regular
Enseanza HumanistaCientfica
10
30
10
Enseanza Tcnica
Profesional
40
30
30
Tcnica
Universitaria
10
20
20
Enseanza
Humanista-Cientfica
Enseanza Tcnica
Profesional
Tcnica
Universitaria
TOTAL
Excelente
Bueno
Regular
TOTAL
15 =(50 X60)/200
20=(50 X80)/200
15=(50 X60)/200
50
30=(100 X60)/200
40=(100 X80)/200
30=(100 X60)/200
100
15=(50 X60)/200
20=(50 X80)/200
15=(50 X60)/200
50
60
80
60
200
El Estadstico de Prueba es
2
Obs
=
C.C =
2
Obs
2
Obs
+N
Cuanto mayor es el valor del C.C , mayor es el grado de asociacin entre las variables
En este caso el C.C =
17.5
= 0,0897
17.5 + 200
- 100 -
Para tablas de contingencia con "i" filas y "j" columnas, el mayor valor que puede tomar
dicho coeficiente es
(k 1)
donde k = mnimo{ i, j}.
k
V=
En este ejemplo el V =
2
Obs
N (k 1)
17.5
200 (3 1)
= 0,2092
En el "Summary Statistics del botn " Tabular Options " de Statgraphics, se encuentran
los siguientes coeficientes aplicados a tablas de Contingencia
Summary Statistics
With Rows
With Columns
Statistic
Symmetric Dependent
Dependent
-----------------------------------------------------Lambda
0,0455
0,0833
0,0000
Uncertainty Coeff.
0,0405
0,0396
0,0415
Somer's D
0,0778
0,0800
0,0758
Eta
0,1581
0,1708
-----------------------------------------------------Statistic
Value
P-Value
Df
-----------------------------------------------------Contingency Coeff.
0,2837
Cramer's V
0,2092
Conditional Gamma
0,1190
Pearson's R
0,0913
0,0993
198
Kendall's Tau b
0,0778
0,2201
Kendall's Tau c
0,0750
-----------------------------------------------------Algunas explicaciones cualitativas son necesarias para entender estos coeficientes:
Lambda : Vara entre Cero y Uno. (Valores cercanos a cero indican que no hay asociacin
entre las variables. Valores prximos a Uno , indican una variable est relacionada o puede
predecir a la otra.
Uncertainty Coeff , Pearson's R : Muestran el grado de relacin lineal entre las dos variables
Somer's D : Para casos simtricos y asimtricos ( Con filas o columnas como variable
dependiente), muestra una medida simtrica de asociacin para las variables las cuales tienen
mediciones en escala ordinal .
- 101 -
Eta : Es una medicin aproximada de la asociacin entre dos variables, cuando la variable
dependiente tiene un escala de intervalos y la variable independiente tiene escala nominal o
ordinal. Este coeficiente es similar al coeficiente de correlacin de Pearson; sin embargo, es
asimtrico y no asume una relacin lineal entre las variables
Contingency Coeff: Es una medida del grado o fuerza de la dependencia entre dos
caractersticas .
Cramer's V , Conditional Gamma, son medidas de asociacin basadas en la distribucin
2.
Fig. 92
- 102 -
Categorical Data
Contingency Tables
Fig.- 93
4.- Utilizando los botones "Tabular Options " y " Graphical Options" tendr acceso a:
Con Tabular Options podr seleccionar "Chi-Square Test", que permite probar la hiptesis
Ho de Independencia. Tambin puede seleccionar "Summary Statistics", que le permitir
disponer de un conjunto de indicadores del grado de asociacin entre las variables.
Con Graphical Options tendr acceso a los grficos respectivos
- 103 -
32
15
0,75 0 e 0,75
= 0.472
0!
f1 = 0,472 60 = 28,32
P(X=1) =
0,751 e 0,75
= 0,354
1!
f2 = 0,354 60 = 21,24
P(X=2)=
0,75 2 e 0,75
= 0,133
2!
f3 = 0,133 60 = 7,98
f4 = 0,041 60 = 2,46
3 o ms
Frecuencia Observada f i
32
15
28,32
21,24
7,98
2,46
Frecuencia Esperada
fi
- 104 -
Dado que en la frecuencias fila de frecuencia esperadas tenemos un valor menor que
tres , se procede a juntar los dos ltimos intervalos, con lo que la tabla apartir de la cual se
calcula el estadstico de prueba es
0
32
1
15
2 o ms
13
28,32
21,24
10,44
Nmero de Defectos
Frecuencia Observada f i
Frecuencia Esperada
Y por lo tanto
2
Observado
fi
( f i fi ) 2
=
= 2,94
f
i =1
i =k
Luego se despliega una pantalla con una variada cantidad de modelos de probabilidad ,
tantos discretos o continuos , los cuales pueden ajustar a los datos.
- 105 -
Gripe
No gripe
Total
Ninguna inyeccin
24
289
313
Una inyeccin
9
100
109
Dos inyecciones
13
565
578
Total
46
954
1000
Presentan los datos suficiente evidencia para indicar una dependencia entre la clasificacin
segn la vacunacin y la ocurrencia o no de la gripe?
2.- Una compaa opera cuatro mquinas en tres turnos al da. De los registros de produccin ,
se obtienen los datos siguientes sobre el nmero de fallas.
Mquinas
TURNO
1
2
3
A
41
31
15
B
20
11
17
C
12
9
16
D
16
14
10
16
34
35
8
18
12
15
54
55 o ms
21
7
Indican los datos que ver violencia en la televisin depende de la edad del televidente?
Use =0,05
- 106 -
4.- El nmero de llamadas que se reciben en un tablero de central telefnica desde la 8:01 a las
8:01 de la maana durante un perodo de 100 das es el siguiente
Nmero de llamadas
Frecuencia
0
3
1
10
2
25
3
30
4
15
5
12
6
5
7
0
Total
100
Frecuencia
Observada
9
20
45
55
43
17
11
5
155
160
165
170
175
180
185
190
- 107 -