0% encontró este documento útil (0 votos)
128 vistas106 páginas

Procesamiento de Datos Bidimensionales Stat Graphics

Descargar como pdf o txt
Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1/ 106

III.

- Procesamiento de Datos Bidimensionales


3.- Datos Bidimensionales
En muchas oportunidades una "unidad de anlisis" es medida u observada desde
diferentes ngulos o puntos de vista. Es decir se observan ciertos atributos , como tambin se
miden ciertas variables. Ello genera una matriz de "n" filas y "k = 2 " columnas.
En muchos problemas existe una relacin inherente entre dos o ms variables, y resulta
necesario explorar la naturaleza de esta relacin. Al explorar esta relacin, podemos tener una
medicin cuantitativa de ella, la que depender de la naturaleza de las variables en estudio.
Puede darse el caso de que las dos variables en estudio u observacin sean cualitativas,
como es el caso de "origen de procedencia" y "color de la pintura" , por ejemplo.
Puede darse el caso de una de la variable sea cualitativa y la otra sea cuantitativa ,
como es el caso de "origen de procedencia" y "rendimiento", por ejemplo.
Puede ser de que ambas variables sean cuantitativas , como es el caso de
"Rendimiento" (mpg) " y "peso del vehculo".
Por lo tanto las posibilidades de formas de tabulacin, las medidas cuantitativas
asociadas y los grficos asociados dependern de la naturaleza de las variables en estudio.

3.1.- Ambas Variables son Cualitativas


Un problema que se encuentra frecuentemente en el anlisis de datos de conteos o
enumerativos , trata de la independencia de dos mtodos (variables) de clasificacin de los
eventos observados. Para ello en una primera instancia debemos tabular estos datos
bidimensionales, generando una tabla denominada tabla de asociacin o de contingencia. De
esta tabla puede extraerse una variada cantidad de informacin. Por ejemplo, queremos
clasificar los Tipos de Defectos encontrados en las unidades producidas en una planta
manufacturera ,segn el Turno de produccin. El archivo de datos tendra ms o menos la
siguiente presentacin

Num_Unidad Tip_Defect
1
A
2
B
3
C
4
D
5
B
.
.
308
C
309
A

Turno
1
3
2
1
2

2
1

Para producir una " tabla de contingencia o de asociacin", a partir de datos no


tabulados se debe estar en la siguiente pantalla

-2-

Fig. 51

Tendr acceso a la siguiente pantalla de dilogo:

Fig. 52

Luego active "OK"

-3-

La Tabla de Asociacin la obtendr activando el cono Tabular Options y dentro de


esta venta seleccionar Frecuency Table.
Fig. 53

Obtendr una Tabla bsica, la cual podr CAMBIAR ciertos contenidos en su


estructura interna, a travs de la ventana pane options , la cual es activada con el sector
derecho del mouse. Por ejemplo , porcentajes respecto del total de la tabla ; porcentajes
respecto de l total por columnas , porcentajes respecto del total `por filas. Valores
esperados en cada celda bajo supuesto de independencia estadstica , que se ver ms
adelante .etc.Tabla de frecuencia para Tipo de Defecto, segn Turno
T I P O
TURNO
1

TOTAL
COLUMNA

D E

D E F E C T O

!
a
b
c
d
! ----------------------------------------------------|
15 |
21 |
45 |
13 |
|
|
|
|
|
----------------------------------------------------|
26 |
31 |
34 |
5 |
|
|
|
|
|
----------------------------------------------------|
33 |
17 |
49 |
20 |
|
|
|
|
|
----------------------------------------------------74
69
128
38

-4-

TOTAL
FILA
94

96

119

309

El contenido en el interior de las celdas representa las frecuencias absolutas


Conjuntas
En los mrgenes de la tabla aparecen los totales por filas, y los totales por columnas
Interpretaciones:
f i j : Representa la frecuencia conjunta de la fila "i" con la columna "j".

f 23 = 34.

Significa que hay 34 unidades que tienen el " tipo de defecto c " y que fueron
producidos durante el "turno 2"

f j : Representa el total en la columna "j"


f .1
fi.

74 . Significa hay 74 unidades que tienen el " tipo de defecto a " , cualesquiera
sea el turno

: Representa el total en la fila "i"

f 2 . = 96 . Significa que hay 96 unidades defectuosas que fueron producidas durante el


Turno 2.
Existe una limitacin importante a considerar al utilizar statgraphics como soporte para
construir Tablas de Asociacin entre dos variables. Ello dice relacin con los niveles de
clasificacin de las variables en estudio, los que no deben exceder de 20.
Tambin puede darse el caso de que los datos ya estn tabulados y se necesiten
analizar. Se debe tener un archivo de datos donde las columnas identifiquen los niveles de
clasificacin de la variable, y sus valores deben ser nmeros enteros. Deber definirse en otra
columna, los niveles de clasificacin de la otra variable , que ser categrica.
A modo de ejemplo, haremos un archivo con los datos de la tabla anterior para mostrar
como que da la pantalla la pantalla principal.
Fig. 54

-5-

El ingreso de los datos se realiza partiendo desde la siguiente pantalla:


Fig. 55

Fig. 56

-6-

Obtendr la siguiente pantalla que est dentro de la Tabular Options


Analysis Summary
Column variables:
Def_A
Def_B
Def_C
Def_D
Number of observations: 309
Number of rows: 3
Number of columns: 4

The StatAdvisor
--------------This procedure constructs various statistics and graphs for a
two-way table. Of particular interest is the test for independence
between rows and columns, which you can run by choosing Chi-Square
Test on the list of Tabular Options.

Estando dentro de esta pantalla y activando la Tabular Options otendr una ventana
donde deber activar Frequency Table
Fig. 57

-7-

Obtendr la siguiente tabla

Column
Total

Def_A
Def_B
Def_C
Def_D
----------------------------------------------------|
15 |
21 |
45 |
13 |
|
4,85% |
6,80% |
14,56% |
4,21% |
----------------------------------------------------|
26 |
31 |
34 |
5 |
|
8,41% |
10,03% |
11,00% |
1,62% |
----------------------------------------------------|
33 |
17 |
49 |
20 |
|
10,68% |
5,50% |
15,86% |
6,47% |
----------------------------------------------------74
69
128
38
23,95%
22,33%
41,42%
12,30%

Row
Total
94
30,42%
96
31,07%
119
38,51%
309
100,00%

Cell contents:
Observed frequency
Percentage of table

Estando dentro de la pantalla anterior y pulsando el sector derecho del mouse se


accede a pane options , que le permitir una serie de modificaciones en cuanto al manejo de
la relacin porcentual entre columnas , filas ,respecto del total de la tabla, etc
Fig. 58

Table Percentages : Los porcentajes que aparecen en la tabla estn en relacin al Total "n"
de datos de la tabla.
Row Percentages : Los porcentajes que aparecen en la tabla estn en relacin al Total por
fila. Es decir el total en cada fila , es el divisor de cada uno de los elementos que la componen.
Column Percentages: Los porcentajes que aparecen en la tabla estn en relacin al total por
columna. Es decir el total en cada columna, es el divisor de cada uno de los elementos que la
componen.

-8-

3.1.1.- Grficos Relacionados a Tablas de Asociacin.


Ya sea que la tabla se haya obtenido a partir de datos no tabulados o sea simplemente
el ingreso de una tabla de datos con una estructura de archivo, los grficos ms importantes
son :
Barchart : Grfico de barras agrupadas. Grfico plano , bidimensional
Skychart : Grfico tridimensional , colocando como plano referencial, las dos
Variables en estudio.
Ambos tipos de grficos se obtienen activando el cono Graphical Options.
A continuacin se mostrar la secuencia de pantallas que se despliegan para obtener
dichos grficos.
Fig. 59

-9-

Barchart
50
Def_A
Def_B
Def_C
Def_D

frequency

40
30
20
10
0
1

TURNOS

Skychart

frequency

50
40
30
20
10
0

- 10 -

Def_D
Def_C
Def_B
Def_A

3.2.- Una Variable Cualitativa y Otra Cuantitativa.


Generalmente a la variable cualitativa , en estos casos , se le denomina factor. Por
ejemplo, se necesita saber " el rendimiento promedio" de los automviles segn su "origen" de
procedencia. Tambin podra interesarnos la "presin arterial sistlica" de las personas , segn
el "sexo". Etc. , etc.
Dado que la variable cuantitativa , ya sea continua o discreta , cada registro o valor
ocasiona un nivel de medicin sobrepasando habitualmente la cantidad de niveles permitidos
por Statgraphics que son 20 , es necesario definir intervalos de clasificacin para la variable
cuantitativa. Esto ltimo nos obliga a recodificar la variable . El procedimiento de recodificacin
es el siguiente :
1.- Copie en una nueva columna la variable cuantitativa que necesita recodificar
2.- Colocando la "cruz" sobre la palabra "Col_n " y activando el sector izquierdo del mouse y
luego pulsando el sector derecho del mouse tendr la ventana que le permitirprimeramente
modificar el nombre de la columna y definir el tipo de variable (entera) , y en segundo
lugar re-codificar la columna

Fig. 60

- 11 -

Fig. 61

Entonces aparecer una columna slo con los valores numricos enteros, que
representan los cdigos
de los tramos o intervalos de clasificacin de la variable.
Seguidamente se procede a realizar el procedimiento de tabulacin cruzada de acuerdo a la
pantalla Fig. n 52.
Fig. 62

- 12 -

Frequency Table for origin by Cod_peso


C O D I G O
D E
P E S O
ORIGEN !
1
2
3
4
---------!----------------------------------------------------1
|
18 |
40 |
24 |
3 |
|
11,61% |
25,81% |
15,48% |
1,94% |
----------------------------------------------------2
|
14 |
9 |
3 |
0 |
|
9,03% |
5,81% |
1,94% |
0,00% |
----------------------------------------------------3
|
34 |
10 |
0 |
0 |
|
21,94% |
6,45% |
0,00% |
0,00% |
----------------------------------------------------Column
66
59
27
3
Total
42,58%
38,06%
17,42%
1,94%

Donde los cdigos de Peso son :


1 : peso superior o igual a 1750 libras
2 : peso superior o igual a 2500 libras
3 : peso superior o igual a 3250 libras
4 : peso superior o igual a 4000 libras

Row
Total
85
54,84%
26
16,77%
44
28,39%
155
100,00%

e inferior a 2500 libras


e inferior a 3250 libras
e inferior a 4000 libras
e inferior a 4750 libras

Donde los cdigos de Origen son :


1 : de origen americano
2 : de origen europeo
3 : de origen japons.

La versin de Statgraphics 4.0 permite cambiar los textos


exportarlos a otro ambiente

antes de imprimirlos o

Los grficos de barras y " skychart" se obtienen tal como se indic anteriormente.
Cuando se tiene una variable cualitativa o factor de clasificacin y otra variable
cuantitativa para una misma unidad de anlisis , podemos realizar clculos de Medidas de
Resumen por separado, es decir : Analizar la variable "mpg" slo para aquellos vehculo de
procedencia norteamericana. Lo cual significa tener estadsticas condicionadas a un cierto
nivel de clasificacin.
Para conseguir lo anterior, en las ventanas de dilogo de los diversos procedimientos
aparece frecuentemente un campo denominado Select, que tiene una variada gama de
aplicaciones o de enunciados lgicos:
Si la variable o factor que hace de filtro fuese un carcter entonces la condicin debe
de colocarse entre comillas. Por ejemplo : SEXO = "F" . Si fuese un integer o cdigo numrico
, entonces slo basta colocar , por ejemplo : ORIGEN = 1
Tambin haciendo uso del campo select se puede solicitar que se procesen, por
ejemplo, los ltimos 50 datos (last 50) ; o bien los primeros 30 datos (first 30)

- 13 -

A modo de aplicacin , podemos calcular todas las estadsticas de resumen de


aquellos vehculos de procedencia norteamericana.
Se debe activar Describe
Numerical Data
One Variable Anlisis hasta
obtener la siguiente pantalla de dilogo para completar
Fig. 63

Summary Statistics for mpg


Count = 85
Average = 25,2624
Median = 24,3
Mode =
Geometric mean = 24,5516
Variance = 37,4512
Standard deviation = 6,11974
Standard error = 0,663779
Minimum = 15,5
Maximum = 39,0
Range = 23,5
Lower quartile = 20,2
Upper quartile = 29,0
Interquartile range = 8,8
Skewness = 0,458191
Stnd. skewness = 1,72457
Kurtosis = -0,790783
Stnd. kurtosis = -1,4882
Coeff. of variation = 24,2247%
Sum = 2147,3

Si lo que se desea es tener todas las estadsticas de resumen para la variable "mpg"
de coches que sean "Europeos o Japoneses " , entonces el campo Select debe completarse
de la siguiente forma :

- 14 -

Fig. 64

Los smbolos que se utilizan en el campo " ( Select ) " se logran activando el campo
select ( se ennegrece) y luego activando o pulsando "Transform" . Obtendr :
Fig. 65

Ejercicio de Aplicacin:
De la base de Datos "Prodemu" , que usted tiene ya creada, produzca el cruce en
Tablas de Asociacin de las variables:
a).- Estado Civil v/s Nmero de Hijos
b).- Estado Civil v/s Nivel de Escolaridad
c).- Nmero de Hijos v/s Nivel de Escolaridad
Para las tablas anteriores obtenga conclusiones respecto de las frecuencias marginales,
las frecuencias conjuntas.
Obtenga los grficos de barras agrupadas respectivos

- 15 -

3.3.- Dos Variables Cuantitativas


En muchos fenmenos o problemas existe una relacin inherente entre dos o ms
variables , y resulta necesario explorar la naturaleza de esta relacin . Por ejemplo , muchos de
los productos farmacuticos y alimenticios tienen fechas de expiracin estampadas en etiquetas
o estampadas en los envases. En el caso del pan , yogurt y de otros productos alimenticios , la
fecha de expiracin indica la fecha en la que el producto ya no est fresco y su consumo
ocasiona un riesgo para la salud de las de personas. En el caso de medicamentos como los
analgsicos o las medicinas contra el resfriado , la fecha de expiracin indica a partir de cuando
el producto comienza a perder su efecto para el propsito indicado.
Tambin , a modo de ejemplo , en un proceso qumico supngase que el rendimiento
del producto est relacionado con la temperatura de operacin del proceso. El poder de
detergencia de un detergente est relacionado con la temperatura del agua , et. Cmo se determina stas fechas de expiracin de los productos ? Cul es la
temperatura que maximiza el rendimiento ? La respuesta es con Anlisis de Regresin .

3.3.1.- Anlisis de Regresin.


El Anlisis de Regresin es una metodologa estadstica para la modelizacin e
investigacin de la relacin entre dos o ms variables. Permite hacer un resumen de los datos y
cuantificar la naturaleza y fuerza de la relacin entre una variable dependiente o respuesta (Y),
y una o ms variables independientes o predictoras (X).
A modo de ejemplo , considrense los datos de la tabla siguiente: y es la pureza del
oxgeno producido en un proceso de destilacin qumico; x es el porcentaje de hidrocarburos
presentes en el condensador principal de la unidad de destilacin
N
Obs
X (%)
Y (%)

N
Obs
X (%)
Y (%)

10

0.99
90.01

1.02
89.05

1.15
91.43

1.29
93.74

1.46
96.73

1.36
94.45

0.87
87.59

1.23
91.77

1.55
99.42

1.40
93.65

11

12

13

14

15

16

17

18

19

20

1.19
93.54

1.15
92.52

0.98
90.56

1.01
89.54

1.11
89.85

1.20
90.39

1.26
93.25

1.32
93.41

1.43
94.98

0.95
87.33

Para tener una idea a cerca del comportamiento conjunto de estas dos variable ,
debemos graficar este conjunto de puntos en el plano coordenado (X,Y). Se genera un grfico
denominado diagrama de dispersin o nube de puntos. El anlisis de este diagrama de
dispersin indica que , si bien una curva no pasa exactamente por todos los puntos , existe una
fuerte evidencia de que los puntos estn dispersos de manera aleatoria alrededor de un
modelo matemtico y = f (x). Es decir, el porcentaje de pureza del oxgeno (y) es funcin o
depende del nivel de hidrocarburo ( X ).
El modelo matemtico ms simple, es la "funcin lineal" o simplemente , la lnea recta.
Y=a+bX

- 16 -

Donde a : Es el intercepto o el valor de la ordenada en el origen , es decir el valor de Y


cuando X = 0.
b : Es la pendiente de la recta, y representa el cambio que experimenta la ordenada Y,
por unidad de cambio en la abcisa X.
El modelo anterior es un modelo matemtico de carcter determinista , puesto que al
sustituir un valor de X en la ecuacin , el valor de Y queda determinado y no se considera
margen alguno para el error.
Los modelos deterministas resultan apropiados para propsitos predictivos , slo cuando
lo errores de prediccin son pequeos.
Cuando los errores de prediccin son grandes, que es por ejemplo el caso de los
pronsticos en la administracin de negocios , hay que tomarlos en cuenta y reflejarlos en el
modelo , y adems , dar alguna idea de su magnitud.
El modelo Estadstico o matemtico probabilstico, contiene una o ms
componentes aleatorias , que se agregan a la parte determinista del modelo matemtico para
tomar en cuenta el error aleatorio o inexplicado de la prediccin.
Y=a+bX +
El modelo anterior recibe el nombre de Modelo de Regresin Lineal Simple , ya que
slo tiene una variable independiente o Regresor. En algunas ocasiones , los modelos de este
tipo surgen de una relacin terica . En otras, no hay ningn conocimiento terico de la relacin
existente entre "x" e "y", entonces la seleccin del modelo se basa en el anlisis del diagrama
de dispersin. En estos casos, el modelo de regresin se considera como un modelo emprico.
La variable aleatoria , supone las siguientes propiedades
1.- El valor esperado de , o su promedio , es igual a cero . = 0
2.- La varianza de la variable aleatoria es constante e igual a 2
3.- Cualquier par de errores aleatorios i j , correspondientes a dos observaciones yi yj ,
son independientes
En otras palabras , se supone que el promedio o valor esperado de "y" est
relacionado linealmente con "x" y que los valores observados de "y" se desviarn por
encima y por debajo de esta lnea en una cantidad aleatoria .
Adems , se ha considerado que la distribucin de los errores respecto a la lnea
recta ser idntica , sin que importe el valor de "x" , y que para cualquier par de errores hay
independencia entre s.

La grfica de los datos anteriores es:

- 17 -

Fig. 66

Pureza del Oxgeno V/S Hidrocarburo


PurezaOxig (%)

102
99
96
93
90
87
0,87

1,07

1,27

1,47

1,67

Hidrocarb (%)
La grfica de los datos anteriores o Diagrama de Dispersin se obtiene de la sgte.
manera:
1.- Cree el archivo correspondiente a los datos dados : Hidrocarb ; PurezaOxig
2.- Obtenga la siguiente pantalla
Fig. 67

- 18 -

Luego llene los campos de la siguiente pantalla, tal como lo indica :

Fig. 68

Una forma grfica de ajustar una recta al diagrama de dispersin de los datos de la
Fig.67 anterior, sera dibujar sobre la nube de puntos una recta de forma tal que se minimice al
mximo las desviaciones de los puntos respecto de la lnea recta trazada.
Si denotamos el valor pronosticado ( o de prediccin) de "y" por " y ", el cual se obtuvo
por la lnea de ajuste , la ecuacin de prediccin es :

y = a + bX

donde a , b son estimaciones de los parmetros a y b

Los segmentos verticales que parten de la recta de prediccin a cada punto, son los
desvos de los puntos respecto del valor pronosticado de "y". As, la desviacin del i-simo
punto es
i = y i y i
donde
y i = a + bX i
Fig. 69

Recta de Ajuste
PurezaOxig (%)

102
99
96
93
90
87
0,87

1,07

1,27

1,47

Hidrocarb (%)
- 19 -

1,67

Debemos establecer un criterio para tratar de minimizar las desviaciones de los puntosa
con la recta que se ajusta mejor , es decir, establecer un criterio para " el mejor ajuste" que
parezca intuitivamente razonable , objetivo , y que segn ciertas condiciones , ofrezca la mejor
prediccin de "y" para un valor dado de "x".
Un criterio de "bondad" utilizado es el denominado principio de los mnimos
cuadrados.
Bsicamente consiste en escoger como la recta de mejor ajuste a la que :
1.- El promedio de los errores (desviaciones de los valores observados " y" respecto de los
pronosticados o estimados ) se igual a cero .
2.- La suma de los errores elevados al cuadrado sea mnima
i =n

SCE =

(y
i =1

y ) 2 sea mnima

[y (a + bX )]

i =n

SCE =

i =1

sea mnima

El mtodo para encontrar los valores numricos de a y b que minimicen la SCE est
basado en el clculo diferencial (derivadas parciales) . Con ello obtenemos las denominadas
ecuaciones normales.
i =n

i =n

yi = an + b X i
i =1

i =1

i =n

i =n

i=n

i =1

i =1

i =1

X i y i = a X i + b X i

De este sistema de ecuaciones obtenemos las expresiones matemticas que permiten


realizar los clculos para obtener el valor de los estimadores a y b , obtenidos a partir de los
datos.

b =

i =n i = n
yi xi
i=n
xi yi i =1 i =1

n
i =1

i =n
xi
i=n
2
xi i =1

n
i =1

a = Y bX

(
=

1 i=n
x i y i ) XY
n i =1

x2

Por lo tanto , la lnea de regresin estimada o ajustada es

y = a + bx
Ntese que cada par de observaciones satisface la relacin y i = a + bxi + i ; i = 1,2,3,....n

Donde i tambin se denomina residuo.

- 20 -

3.3.2.- Anlisis de Correlacin


A veces se desea obtener un indicador de la intensidad o la fuerza de la relacin lineal
entre dos variables cuantitativas "x" e "y", que no dependa de sus respectivas escalas de
medicin. Se designar por medida de correlacin lineal entre x e y .
3.3.2.1.- Coeficiente de Correlacin Lineal de Pearson
La medida de correlacin lineal utilizada comnmente en Estadstica se llama
Coeficiente de correlacin lineal de Pearson.
La expresin de clculo matemtico es :
i =n

x y
i

i =1

rxy =

( X )(Y )

( x )( y )

Co var ianza entre X , Y


(Des.Est. de X) * (Des.Est. de Y)

-1 rxy +1

Debemos analizar el significado numrico del rxy


1.- Un valor positivo para rxy implica que la recta sube de izquierda a derecha en el diagrama de
dispersin .

PurezaOxig

102
99
96
93
90
87
0,87

1,07

1,27

1,47

1,67

Hidrocarb
2.- Un valor negativo para rxy implica que la recta baja de izquierda a derecha en el diagrama de
dispersin

55

mpg

45
35
25
15
1700

2200

2700

3200

weight
- 21 -

3700

4200

4700

3.- Un valor de rxy a cero implica de que no hay correlacin lineal entre x e y.

(X 1000)
16

(X 1000)
16

price

12

price

12

8
4

0
0

30

60

90

120

150

180

horsepower

4
0
0

30

60

90

120

150

180

horsepower

58

48
38
28
18
0

12

16

X
A partir de la expresin matemtica inicial para calcular el rxy podemos colocarlo como
una funcin de :
rxy =

x b
y

Es decir , el coeficiente de correlacin se puede colocar como un cuociente entre el


producto de la desviacin estndar de la variable X con el Regresor de la recta , dividido por la
desviacin estndar de la variable Y.

- 22 -

3.3.3.2.- Error Estndar de la Estimacin.


Si denotamos por y el valor de Y para valores dados de X , a travs del modelo
ajustado , una medida de la dispersin respecto de la Recta de Regresin de Y sobre X ,
viene proporcionada por la expresin :

y/x =

1 i=n
( y i y i ) 2

n i =1

El error estndar de la estimacin tiene propiedades anlogas a las de la Desviacin


Tpica o Estndar. Por ejemplo , si construimos rectas paralelas a la de Regresin de Y
sobre X, a distancias verticales respectivas y/x , 1,96 y/x , 3 y/x de ella, si "n" (tamao de
la muestra) es lo suficientemente grande , que estaran incluidos entre esas rectas
aproximadamente el 68 %, 95 % y 99 % de los puntos muestrales.
Para pequeas muestras , ser til un error tpico de estimacin modificado
i =n

y/x =

( yi
i =1

y i ) 2

n2

n
* y/x
n2

Para ms adelante , podremos cambiar el denominador " (n - 2 ) ", por uno ms general
que es ( n - p ) " , donde "p" indica el nmero de parmetros que se estimaron en el modelo.

3.3.2.3.- Coeficiente de Determinacin.


La variacin total en la variable respuesta se define como :
i =n

(y
i =1

i =n

i=n

i =1

i =1

Y ) 2 = ( yi Yi ) 2 + (Yi Y ) 2
i =n

El trmino

(y
i =1

Yi ) 2 se llama variacin no explicada (por el modelo). (pues se

comportan de un modo catico, impredecible


El trmino

(Y Y )

se llama variacin explicada

Significa entonces que la variacin total es igual a la suma entre la variacin


explicada y la variacin no explicada.

- 23 -

El Coeficiente de Determinacin, R2 , es el cuociente entre la variacin explicada y la


variacin total.
i =n

(Yi Y ) 2

i =1
i=n

R2 =

0 R2 1

( yi Y ) 2
i =1

Remplazando el numerador de la expresin anterior por


i=n

Se tiene que R2 = 1

(y

Yi ) 2

(y

Y )2

i =1

= 1

2 y/x
2y

(y

Y ) 2 ( y i Y ) 2

donde 2 y/x es la varianza de los errores

El valor de R2 multiplicado por 100% se interpreta como el porcentaje de la


variabilidad en la respuesta que es explicada por la variable predictora X a travs del modelo
de regresin. Tiene por lo tanto un carcter ms general que el coeficiente de correlacin
lineal.
La raz cuadrada de R2 , es el Coeficiente de Correlacin rxy

rxy =

R2

2 y/x
2y

y/x = y 1 r 2 xy

OBSERVACIN : Abusos comunes de la regresin


La Regresin se emplea mucho y , con frecuencia, de mala manera. Mencionaremos
brevemente algunos abusos comunes de la regresin. Debe tenerse cuidado al seleccionar las
variables con las que se construyen las ecuaciones de regresin , as como al determinar la
forma del modelo.
Es posible determinar relaciones estadsticas entre variables que no estn
relacionadas desde un punto de vista prctico. Por ejemplo , puede intentarse relacionar la
resistencia al esfuerzo de los puntos de soldadura con los valores da de un cierto tipo de
moneda. Incluso puede parecer que una lnea recta proporciona un "buen ajuste " de los datos,
pero la relacin es poco razonable. La observacin de una fuerte relacin entre variables
no necesariamente implica la existencia de una relacin causal entre ellas . Slo los
experimentos diseados son los nicos que ofrecen una va para determinar relaciones
causales.

- 24 -

Las relaciones de regresin son vlidas slo para los valores del regresor que estn dentro del
rango de los datos originales. La relacin lineal supuesta de manera tentativa puede ser vlida
dentro del rango original de X , pero tal vez no lo sea al momento de la extrapolacin ( Es
decir , si se emplean valores de X que estn fuera del rango de los que fueron utilizados para la
regresin).
Esto es porque si se toman valores de X que estn fuera del rango de los colectados ,
menos certidumbre se tiene sobre la validez del modelo propuesto. Los modelos de
regresin no son necesariamente vlidos para fines de extrapolacin.

Cul es el procedimiento a travs de Statgraphics , para saber cual es la lnea


recta ajustada , es decir , tener la estimacin de los parmetros "a" y "b" , coeficientes
de Correlacin y de Determinacin , valores predichos o estimados , etc. etc. ?
A modo de ejemplo , utilizaremos el archivo con los datos que tiene dos variables
cuantitativas : %Pureza Oxigeno (Y) ; %Hidrocarburos (X)
1.- Ponga el cursor en Relate y seleccione Simple Regresin
2.- Llene los campos de la Pizarra de Dilogo de la siguiente manera, para luego pulsar OK.
Fig. 70

En primer lugar , acceda a cono Tabular Options y tendr una ventana con una serie
de posibilidades , que a continuacin sern descritas slo las que competen analizar hasta este
momento:

Analysis Summary :
Contiene un resumen de todas los indicadores cuantitativos que se pueden obtener al
buscar una relacin causal o funcional entre las variables : Estimacin de la ordenada en el

- 25 -

origen "a " (Intercept) , Estimacin de la pendiente (Slope) , Error estndar de la estimacin,
Coeficiente de Correlacin , Coeficiente de Determinacin ,etc. etc.
En el "Statdvisor" , tiene la ecuacin de la recta ajustada a los datos Mencin aparte
merece un tema denominado "Anlisis of Variance " , que luego analizaremos.
2.- Forecast :
Permite realizar estimaciones o predicciones para los valores promedios dados por el
modelo, como tambin para valores individuales.

3.- Comparison of Alternative Models:

Model
Correlation
R-Squared
-------------------------------------------------Reciprocal-Y
-0,9393
88,22%
Exponential
0,9382
88,03%
Square root-Y
0,9375
87,90%
Linear
0,9367
87,74%
Square root-X
0,9318
86,82%
Multiplicative
0,9285
86,21%
Logarithmic-X
0,9256
85,68%
Double reciprocal
0,9177
84,22%
S-curve
-0,9140
83,54%
Reciprocal-X
-0,9098
82,77%
Logistic
<no fit>
Log probit
<no fit>
-------------------------------------------------Entrega en orden descendente los valores del Coeficiente de correlacin y determinacin,
para decidir el mejor modelo que ajusta los datos.

La siguiente es la pgina que entrega statgraphics , en el Anlisis Summary

- 26 -

Regression Analysis - Linear model: Y = a + b*X


----------------------------------------------------------------------------Dependent variable: PurezaOxig
Independent variable: Hidrocarb
----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------Intercept
74,2833
1,59347
46,6172
0,0000
Slope
14,9475
1,31676
11,3517
0,0000
-----------------------------------------------------------------------------

Analysis of Variance
----------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
----------------------------------------------------------------------------Model
152,127
1
152,127
128,86
0,0000
Residual
21,2498
18
1,18055
----------------------------------------------------------------------------Total (Corr.)
173,377
19
Correlation Coefficient = 0,936715
R-squared = 87,7436 percent
Standard Error of Est. = 1,08653

The StatAdvisor
--------------The output shows the results of fitting a linear model to describe
the relationship between PurezaOxig and Hidrocarb. The equation of
the fitted model is
PurezaOxig = 74,2833 + 14,9475*Hidrocarb
Since the P-value in the ANOVA table is less than 0.01, there is a
statistically significant relationship between PurezaOxig and
Hidrocarb at the 99% confidence level.
The R-Squared statistic indicates that the model as fitted explains
87,7436% of the variability in PurezaOxig. The correlation
coefficient equals 0,936715, indicating a relatively strong
relationship between the variables. The standard error of the
estimate shows the standard deviation of the residuals to be 1,08653.
This value can be used to construct prediction limits for new
observations by selecting the Forecasts option from the text menu.

- 27 -

Un tratamiento aparte , aunque muy breve, merece el "Anlisis of Variance". Significa


anlisis de la varianza. Es una metodologa de anlisis estadstico de los datos , que en este
caso , se utiliza para probar la significancia de una regresin. Como base para la prueba , el
procedimiento particiona la variabilidad total en la variable respuesta en componentes ms
simples y manejables , haciendo uso de la identidad:
i =n

i =n

i =n

i =1

i =1

i =1

( yi Y ) 2 = ( yi Yi ) 2 + (Yi Y ) 2
El primer trmino del lado izquierdo de la ecuacin corresponde a la suma de
cuadrados del total (Variacin Total). Donde el primer trmino del lado derecho del ecuacin
nos entrega la suma de cuadrados de los Residuos o errores (Variacin no explicada ,
Residual).
El segundo trmino del lado derecho nos entrega la suma de los cuadrados de la
regresin debido al modelo utilizado. (variacin explicada por el modelo, Model).
Para entender de forma ms cabal los otros elementos o columnas de la tabla , todava
no se tienen los elementos tericos necesarios para su comprensin , pero que se vern ms
adelante cuando se traten temas relacionados con Inferencia Estadstica.

3.3.3.- Evaluacin de la adecuacin del modelo de regresin.


La estimacin de los parmetros del modelo de regresin requiere del cumplimiento de las
siguientes la suposiciones para los errores
i = y i y i
1. Los errores son variables aleatorias no correlacionadas entre s
2. Los errores tienen un promedio igual a cero
3. La varianza de los errores es constante.
4. Los errores estn distribuidos o se comporten como una distribucin normal
5. Supone de que el grado del modelo ajustado es correcto (lineal, cuadrtico, cbico , etc).La persona que analiza los resultados debe considerar siempre la validez de estas
suposiciones como dudosas y realizar un anlisis para examinar cuan adecuado es el modelo
que se propone de manera tentativa.

3.3.3.1.- Anlisis residual.


Para verificar el supuesto que deben cumplir los errores podemos realizar algunas de las
siguientes indicaciones :
1.

Como comprobacin aproximada de la normalidad, el investigador puede calcular los


i, los que definirn una nueva variable numrica. Procesar los i , de manera de obtener un
Histograma de Frecuencias cuando existe una cantidad relativamente grande de datos; o
una grfica de probabilidad normal (normal probability plot) en el caso de tener pocos
datos (n < 30).
2.

Tambin es posible estandarizar los residuos , mediante el clculo

di =

i = 1 , 2 ,........n

- 28 -

Entonces los residuos estandarizados debieran mostrar grficamente un histograma o


un polgono de frecuencias, con un perfil semejante a una "campana". O tambin que
aproximadamente el 95 % de los residuos estandarizados estn dentro del intervalo (-2 , +2).
Los residuos estandarizados que se alejen mucho de este intervalo pueden indicar la presencia
de valores atpicos (outliers). Estas son observaciones cuyo valor no es comn con respecto
a los dems datos. Existen una variada gama de mtodos o reglas para su deteccin. Un
mtodo grfico es el Box and Wishkar Plot Sin embargo, en ocasiones los valores atpicos
proporcionan informacin importante sobre circunstancias poco usuales que son de inters
para los investigadores y que no deben descartarse.
A menudo es til hacer una grfica de los residuos:
1.- Como una secuencia en el tiempo (si es que sta se conoce),
2.- Contra las " y i " ,
3.- Contra la variable independiente "x" . Generalmente estas grficas tienen un aspecto similar
a alguno de los siguientes esquemas o patrones de comportamiento .
Fig. (a)

Residual Plot
16

residual

11
6
1
-4
-9
-14
14

19

24

29

34

39

predicted mpg
Fig. (b)

22

Errores

12
2
-8
-18
28,75 28,76 28,77 28,78 28,79 28,8

Valores Predichos (y)


- 29 -

28,81

44

Fig. (c)

60

Errores

40
20
0
-20
-40
-60
58

78

98

118

138

158

Valores Predichos (y)


Fig. (d)

22

Errores

12
2
-8
-18
12

16

20

24

28

32

36

Valores Predichos (y)

El patrn de comportamiento como la "Fig. (a)" anterior, representa una situacin ms o


menos ideal.

Los patrones de comportamiento como las " Fig. (b) , Fig. (c) , Fig. (d) " anteriores ,
representan anomalas.
1.- Si los residuos aparecen como en la "Fig. (b) ", la varianza de las observaciones puede
aumentar con el tiempo o con la magnitud de "yi " o " xi ".
Para eliminar este problema , comnmente se utiliza una transformacin de datos
sobre la respuesta "y ". Entre las transformaciones ms utilizadas para estabilizar la varianza
est el emplear "

y " , " ln y " , " 1/ y " como respuesta (Montgomery y Peck , 1992 ).

- 30 -

3.3.4.- Anlisis de la varianza:


Un tratamiento aparte , aunque muy breve, merece el "Anlisis of Variance". Significa
anlisis de la varianza. Es una metodologa de anlisis estadstico de los datos , que en este
caso , se utiliza para probar la significancia de una regresin. Como base para la prueba , el
procedimiento particiona la variabilidad total en la variable respuesta en componentes ms
simples y manejables , haciendo uso de la identidad:
i =n

i =n

i =n

i =1

i =1

i =1

( yi Y ) 2 = ( yi Yi ) 2 + (Yi Y ) 2
El primer trmino del lado izquierdo de la ecuacin corresponde a la suma de
cuadrados del total. (Variacin Total). Donde el primer trmino del lado derecho del ecuacin
nos entrega la suma de cuadrados de los Residuos o errores (Variacin no explicada,
Residual).
El segundo trmino del lado derecho nos entrega la suma de los cuadrados de la
regresin debido al modelo utilizado. (variacin explicada por el modelo).
Para entender de forma ms cabal los otros elementos o columnas de la tabla, todava
no se tienen los argumentos tericos necesarios para su comprensin, pero que se vern ms
adelante cuando se traten temas relacionados con Inferencia Estadstica.
El Anlisis de Varianza sirve para decidir acerca de la significancia estadstica del
modelo (p-value), lineal en este caso, ajustado al conjunto de datos.
Esto es as porque los modelos de regresin se utilizan para ajustar los datos obtenidos
a una funcin de aproximacin, cuando se desconoce la verdadera relacin que existe entre las
variables "X" e "Y". (bondad del ajuste)
El anlisis de varianza , para este caso, nos permite decidir entre dos hiptesis:
H0 : El modelo de regresin lineal simple , es adecuado para ajustar a los datos
H1 : El modelo de regresin lineal simple , NO es adecuado para ajustar a los datos
3.3.5.- Modelos Lineales Reducibles a lineal
Una relacin entre dos variables puede ser aproximadamente lineal cuando se estudia
en un intervalo relativamente limitado, pero puede ser marcadamente curvilnea si se amplia
el intervalo. Un ejemplo de ello lo tenemos al obtener valores experimentales de la presin P
de una masa dada de gas , correspondiente a varios valores de volumen V. Es de suma
utilidad , representar los datos originales en un Diagrama de Dispersin , para darnos cuenta de
la existencia de alguna tendencia a alguna "curvatura".
La seleccin de la forma de la ecuacin de regresin que mejor expresa una relacin
curvilnea no siempre es problema simple. Existe un gran nmero de tipos de curvas que
pueden expresarse por ecuaciones matemticas.
Lo que debemos tener en cuenta para la eleccin del modelo que mejor interpreta a los
datos , es elegir del conjunto de ecuaciones dadas, aquel modelo que en trminos absolutos
tenga el mayor coeficiente de correlacin rxy , como tambin el mayor coeficiente de
determinacin R2 . Este criterio de seleccin est justificado por el hecho de que al
aumentar el coeficiente de correlacin ( en trminos absolutos ) , disminuye el error
estndar de la estimacin del modelo.

- 31 -

Adems del criterio enunciado anteriormente para escoger la forma de la curva, es


deseable tener alguna teora dada por especialistas que trabajen en el campo de la
materia del tema por lo que se colectaron los datos. Adems , tambin es de mucha utilidad ,
revisar si se cumplen los supuestos enunciados anteriormente en lo errores para la validez de la
estimacin.
La relacin curvilnea entre las variables nos puede llevar a buscar :
a).- Modelos que no son lineales en los parmetros, pero que mediante una transformacin
(logartmica por ejemplo), se los hace lineales.
b).- Modelos que son lineales en los parmetros ,y entonces recurrimos a los polinomios de
grado dos o ms, en la variable independiente.
c).- Modelos intrnsecamente no lineales que son aquellos que no se pueden linealizar
mediante una transformacin. Los correspondientes anlisis se denominan regresiones no
lineales.

Una vez transformados los datos, es aconsejable realizar un nuevo diagrama de


dispersin y observar si ahora los datos presentan tendencia a alinearse en torno a una recta.
Las Transformaciones tienen por objetivo proporcionar un procedimiento ms fcil de
ajuste y/o procedimientos vlidos de estimacin y prueba.
En el caso de curvas polinmicas, el diagrama de dispersin de los datos originales
generalmente presenta cierto punto mximo, como tambin mnimo. Al ajustar curvas
polinomiales , el investigador se interesa usualmente en un segmento dado del intervalo total
representado por la ecuacin.

Recordemos que :
Polinomio Cuadrtico es

y = a 0 + a1 x + a 2 x 2

Polinomio Cbico es

y = a 0 + a1 x + a 2 x 2 + a3 x 3

Polinomio Curtico es

y = a 0 + a1 x + a 2 x 2 + a3 x 3 + a 4 x 4

A continuacin , a modo de ejemplo, se dar una lista de modelos no lineales en los


parmetros que haciendo uso de una transformacin podemos linealizarlos.

- 32 -

Modelo no Lineal
e y = ax b

Modelo linealizado
y = ln a + b ln x

y = ab x

log y = (log a ) + (log b) x

y = ax b

log y = (log a ) + b(log x)

y=

1
a + bx

y=

1
k + ab x

y=

k1
k 2 + e a +bx

1
= a + bx
y
1
log( k ) = (log a ) + (log b) x
y
y
ln( k 2 ) = a + bx donde
k1
k1 , k2 representan asntotas horizontales

y = ab x + g

log( y x) = (log a) + (log b) x

y = ax b + g

log( y g ) = (log a ) + b(log x)

1
y = 0 + 1
x

y=

( 0 +1x)

y = 0 + 1 z donde z representa ( 1 / x )

1
ln
=
y

+ 1x

El procedimiento para ajustar a un conjunto de datos bivariados


Polinmico consiste en :

un Modelo

1:- Posicionarse en la pantalla principal de Statgraphics.


2.- Picar el procedimiento Relate.
3.- Seleccionar Polynomial Regresin.
4.- Cuando aparezca la pizarra de dilogo ,ingrese en el campo Y , la variable Dependiente o
respuesta. En el campo X , ingrese su variable independiente o predictora. Pulse OK
Una vez que se ingresaron los datos, aparece en una primera instancia el modelo
cuadrtico.
5.- Seleccionando de la tercera lnea del men principal , el cono Tabular Options , ingrese a
la ventana Anlisis Summary, y obtendr la ecuacin del modelo cuadrtico ajustado a los
datos , con sus correspondientes parmetros. Desde aqu , pulsando el sector derecho del
mouse, acceder a pane options, que permite cambiar el grado del polinomio a ajustar

- 33 -

Fig. 71

Fig. 72

- 34 -

3.3.6.-.- Grficos con dos variables cuantitativas


Toda institucin , ya sea la familia , la escuela, la empresa , el gobierno, etc. tiene que
hacer planes para el fututo si ha de sobrevivir , mejorar y progresar.
La planificacin racional exige prever los sucesos del futuro que probablemente vayan
a ocurrir . La previsin, a su vez, se suele basar en lo que ocurri en el pasado. Es decir, es
muy importante el monitoreo permanente de las unidades de anlisis, para observar ciertas
tendencias y frente a ellas tomar ciertas acciones.
Un rol muy importante, en la etapa inicial, le cabe al grfico que representa esta
situacin, donde el tiempo de ocurrencia (variable temporal) resulta ser importante para poder
interpretar la medicin o registro realizado.
Este conjunto de datos recibe el nombre de "serie cronolgica " o " serie temporal".
Para confeccionar este grfico debemos usar la siguiente secuencia:
1.- Posicionar el cursor en la 1 lnea de procedimientos de Statgraphics, en la palabra PLOT.
2.- Seleccione los siguientes campos : Scaterplots

Univariate

Plot

XY Plot

3.- Al aparecer la pantalla de dilogo, en el campo Y , ingrese la variable dependiente. En el


campo X , ingrese los datos que representan el tiempo.

- 35 -

Desarrollo de Ejercicio de Aplicacin.


Se tiene los siguientes datos en una planilla que representan el desembarque Total por
especies (en toneladas), durante los doce meses del ao 2000., en el Litoral de la II regin

Enero

Algas
72,0
Pescado 360,5
Moluscos 96,2
Crustac
0,7
Otras sp 10,2
Total
539,6

Febre

Marzo

Abril

Mayo

Junio

Julio

Agost

Septb

Octub

Novb

Dcbre

236,7

314,3

124

138,2

296,7

909,5

505,0

390,0

378,6

442,0

449,4

313,1

318,0

38,2

124,8

215,0

269,7

228,6

307,5

394,1

197,5

132,7

25,2

84,3

75,2

75,8

109,4

97,3

129,1

73,2

95,3

5,3

12,5

5,5

1,2

0,1

0,3

0,6

0,1

86,1

175,1

121,5

102,4

113,7

620

555,5

101,6

23,9

1,7

0,2

666,6

892,9

359

441,2

735,1

1896,5 1418,8

872,4

891,9

646,5

594,8

Si queremos graficar el Desembarco total por meses del ao 2000 , tenemos lo siguiente

Desembarco Total por meses del ao


Total Toneladas

(X 1000)
2
1,6
1,2
0,8
0,4
0
0

4 5 6 7 8 9 10 11 12
Meses del ao 2000

Tambin se puede confeccionar un grafico que muestre varas lneas en forma


simultnea , que representan varias variables dependientes (Y), teniendo en el eje horizontal la
variable tiempo (meses del ao). Para ello debemos innovar el punto 2 en el procedimiento
anterior :
2.- Seleccione los siguientes Campos : Scaterplots

- 36 -

Univariate Plot

Mltiple XY Plot

Fig. 73

3.4.- Ejercicios de Aplicacin.

REGRESIN LINEAL

3.4.1.- El ndice de costes sanitarios en EE.UU para los aos 1976 1984, dado en la sgte tabla
Ao

1976

1977

1978

1979

1980

1981

1982

1983

1984

1985

1986

Indice

184.7

202.4

219.4

239.7

265.9

294.5

328.7

357.3

378.0

390.0

400.0

Desembarco Mensual
Total Toneladas Mensuales

(X 1000)
2

Variables
algas
Crustaceos
Moluscos
Otras sp
Pescado
Total

1.6
1.2
0.8
0.4
0
0

Meses ao 2000
- 37 -

10

12

1.
2.
3.
4.
5.
6.
7.
8.

Codifique los aos , de manera tal que 1976 sea el ao cero ( 0 )


Represente los datos grficamente en un Diagrama de Dispersin
Determine la ecuacin de la recta mnimo cuadrtica que ajuste a los datos
Interprete los parmetros de la recta ajustada
Interprete el coeficiente de correlacin de los datos
Estime el valor del ndice para cada ao
Determine el error estndar de la estimacin
Prediga el valor del ndice con un 95 % de confianza para el ao 1988

3.5.2.-- La siguiente tabla indica el censo de trabajadores agrcolas en un pas , cada 5 aos
Ao
1935
TrabAgric
12.7
(millones)

1940

1945

1950

1955

1960

1965

1970

1975

1980

1985

11.0

10.0

9.9

8.4

7.1

5.6

4.5

4.3

4.0

3.8

a).- Codifique los aos, de manera tal que 1960 sea el ao cero ( 0 ) y la suma de ellos sea
igual a cero
b).- Represente los datos grficamente en un Diagrama de Dispersin
c).- Determine la ecuacin de la recta mnimo cuadrtica que ajuste a los datos
d).- Interprete los parmetros de la recta ajustada
e).- Interprete el coeficiente de correlacin de los datos
f).- Estime el valor del ndice para cada ao
g).- Determine el error estndar de la estimacin
h).- Prediga la cantidad de trabajadores agrcolas con 95 % de confianza para el ao 1990
3.4.3.- El tiempo necesario para detener un coche despus de percibir un peligro, es el tiempo
de reaccin ( el tiempo entre la percepcin del peligro y la `aplicacin de los frenos) , ms el
tiempo de frenada ( lo que tarda en detenerse bajo la accin de los frenos ) . La tabla siguiente
muestra las distancias (Y) en pies , y las velocidades (X) de los coches en millas por hora
Velocidad (X)
Distancia Frenado

20
54

30
90

40
138

50
206

60
292

70
396

a) .- Represente los datos grficamente en un Diagrama de Dispersin


b).- Dados los modelos
a+b X
1) Y = a + b X
2)
3) Y =e
Cul de ellos elegira ? . Justifique su eleccin
c).- Determine los parmetros del modelo ajustado
e).- Interprete el coeficiente de correlacin de los datos
f).- Estime el valor de la distancia de frenado para cada valor de velocidad
g).- Determine el error estndar de la estimacin de su modelo).- Prediga la distancia necesaria
para frenar cuando el mvil se desplaza a una velocidad de 75millas por hora

IV.- INTRODUCCION A LA TEORIA DE LA PROBABILIDAD


Una forma de interpretar la realidad es a travs de los modelos matemticos, los que en
general pueden ser modelos determinsticos o modelos no determinsticos o aleatorios.
Los modelos determinsticos son aquellos que describen de alguna manera el principio
de causalidad, es decir, causa efecto. As tenemos que al lanzar una bola inflada a un
estanque con agua el resultado es que la bola queda flotando.

- 38 -

Los modelos no determinsticos o aleatorios son aquellos en que no es posible predecir


con certeza los resultados antes de realizado el experimento. As al aplicar un nuevo
tratamiento no sabemos exactamente a cuantos pacientes ser efectivo. A este tipo de
experimentos los denominaremos experimentos aleatorios.

4.1.- Espacios Muestrales Y Sucesos:

Sistema Fsico

Mediciones

Anlisis

Modelo

Variables Controladas

ENTRADA

S I S T E M A

SALIDA

Variables de Ruido
4.2.- Experimento Aleatorio:
Definicin

Un Experimento aleatorio es aquel que proporciona


diferentes resultados aun cuando sea repetido de la misma manera.

4.3.- Espacio Muestral.


Definicin:

- 39 -

Ejemplos de Experimentos Aleatorios:


1.- Supngase que se analiza un cilindro de aire, para detectar la presencia de una
partcula no deseada.
2.- El grado de Calidad de un producto que se fabrica en un proceso cualesquiera.
3.- Se produce un ensamblaje de dos componentes diferentes e independientes , para
formar una cierta pieza, y cada una de ellas debe clasificarse para verificar si cumplen
separadamente los requerimientos de calidad.
4.- Cada una hora se selecciona una parte moldeada por inyeccin, y se mide con
exactitud la longitud de ella.
5.- Cada diez minutos se debe verificar el volumen de llenado de los envases de un
cierto producto realizado por una mquina automtica, con la finalidad de determinar si las
latas cumplen con las especificaciones de volumen que deben contener. La evaluacin contina
hasta encontrar una lata que no cumpla con las especificaciones.

Los experimentos aleatorios generan espacios muestrales que pueden


contener un nmero FINITO o INFINITO de elementos

4.4.- Espacio Muestral Discreto:


Definicin

Cuando est formado por un conjunto finito o


infinito contable de resultados

4.5.- Suceso o Evento Aleatorio.


Definicin:

Es cualquier SUBCONJUNTO del Espacio Muestral asociado


a un Experimento Aleatorio

Puesto que los eventos o sucesos son subconjuntos, entonces es posible utilizar las
operaciones bsicas de conjuntos, tales como: unin, interseccin, complementos, diferencias,
etc. para formar otros sucesos de inters.

- 40 -

Ejemplo:
Se analizan 49 muestras de polibicarbonato plstico para determinar su
resistencia a las ralladuras y a los golpes obtenindose los siguientes resultados
Resistencia
a las
Ralladuras

Alta
Baja

Resistencia a los Golpes


Alta
Baja
40
4
2
3

Suceso A : La muestra tiene una alta resistencia a los golpes


Suceso A`: La muestra tiene una baja resistencia a los golpes
Suceso B : La muestra tiene una alta resistencia a la rayadura
Suceso B`: La muestra tiene una baja resistencia a la rayadura
Explicite gramaticalmente los siguientes sucesos y cuantifquelos. Use diagramas de Venn.
Suceso AB :
Suceso AB :
Suceso A` B
4.6.- Descripcin del Espacio Muestral.

Los espacios muestrales pueden describirse grficamente de


varias formas, pero una de las ms tiles y prcticas es el Diagrama
de Arbol.
Cuando un espacio muestral puede construirse en varios pasos
o etapas, entonces cada una de las ni maneras de completar el
primer paso puede representarse como una rama del rbol.
Cada una de las maneras de completar el segundo paso puede
representarse con n2 ramas que comienzan donde terminan las
ramas originales
4.6.1.- Ejercicios de Aplicacin.
4.6.1.1.- En un sistema de comunicacin digital, cada mensaje se clasifica segn llega o no
dentro del tiempo establecido por el diseo del sistema. Si se clasifican tres mensajes, donde
cada uno de ellos puede recibirse a tiempo o tarde, el diagrama de rbol tendr ocho ramas,
para todos los resultados posibles de estos tres mensajes.
4.6.1.2.- El fabricante de un automvil proporciona vehculos equipados con distintas opciones
que el cliente selecciona. Cada vehculo se puede solicitar:
Con o sin transmisin automtica
Con o sin aire acondicionado
Con o sin cierre centralizado de puertas
Con o sin alza vidrios elctricos
Con una de tres opciones posibles en cuanto a un sistema de sonido
En uno de cuatro colores exteriores

- 41 -

Si el espacio muestral est formado por el conjunto de todos los tipos posibles de
vehculos cul es el nmero de resultados en el espacio muestral?

4.7.- Principio Fundamental del Conteo


Definicin:

Si A1 , A2,........,An son n acciones distintas que se pueden realizar


de k1 , k2.....,kn maneras respectivamente, el total de maneras como se
pueden efectuar todas las acciones en sucesin, est dado por:
k1 * k2 * .........................................*kn

4.8.- Eventos Mutuamente Excluyentes


Definicin

Dos eventos E1 y E2 son M.E si

E1 E2 =

Resumen de operaciones conjuntistas:


a)
b)
c)
d)
e)
f)
g)

( E` )` = E
(A B) C = (A C) ( B C)
(A B) C = (A C) ( B C)
(A B)`
= A` B`
(A B)`
= A` B`
A B
= B A
A B
= B A

4.9.- Interpretacin de la Probabilidad


Como una idea intuitiva, cuantifica la posibilidad de que se presente un resultado.
La probabilidad de un resultado puede interpretarse como la probabilidad Subjetiva o
grado de creencia de que ocurra el resultado.
Basada en el modelo conceptual de la repeticin de la repeticin del exp. Aleatorio. La
probabilidad del resultado se interpreta como el valor lmite de la proporcin de veces
que el resultado aparece en n repeticiones del exp. Aleatorio.
Como frecuencia relativa: nmero de casos favorables dividido por el nmero de casos
posibles.

- 42 -

Cada vez que un espacio muestral est formado por N posibles


resultados, todos igualmente probables, la probabilidad de
cada uno de ellos ser de 1 / N

4.10.- Probabilidad de Un Suceso


Definicin

Para un espacio muestral discreto ,la probabilidad de un evento


E,denotada como P(E),es igual a la suma de las probabilidades
de los resultados en E

4.11.1.- Ejemplo de Aplicacin.


4.11.1.1.- La tabla siguiente muestra la distribucin del nmero de defectos en naranjas de la
variedad "navelina", que son colectadas para someterlas a un proceso de muestreo y tener una
idea de la distribucin del nmero de defectos de presentacin, por unidad.

N de defectos

Cantidad

Proporcin

0
1
2
3
4 ms

1 500
50
20
10
5

0,9464
0,0315
0,0126
0,0063
0,0032

TOTAL

1 585

1,0000

a). Cul es la probabilidad de qu una naranja no contenga defectos?

P(X=0)=

1500
1585 = 0,9064

b). Cul es la probabilidad de que una naranja tenga 1 o 3 defectos?


P (X = 1 ) + P ( X = 3 ) =

50
10
+
= 0,0315 + 0,0063 = 0,0378
1585 1585

c).-Cul es la probabilidad de que una naranja tenga entre 1 y 3 defectos?

- 43 -

P(1 x 3) = P( x = 1) + P( x = 2 ) + P( x = 3)
P(1 x 3) =

50
20
10
+
+
1585 1585 1585

P(1 x 3) = 0,0315 + 0,0126 + 0,0063


P(1 x 3) = 0,0504
4.11.- Axiomas de Probabilidad
La probabilidad es un nmero que se asigna a cada suceso o evento, asociado a un
espacio muestral de un exp. Aleatorio, y que satisface las siguientes propiedades:
Si es el espacio muestral del exp. Aleatorio y E es cualquier evento asociado a
dicho espacio, entonces:

(1)

P() = 1

(2)

0 P(E) 1

(3)

Para dos sucesos o eventos E1 y E2 con E1 E2 =


P(E1 E2) = P(E1) + P(E2)

4.12.- Reglas de Adicin de Probabilidades.


P(A
B) = P(A) + P(B) P(A
B)
4.12.1.-Ejemplos de Aplicacin.
4.12.1.1.- La tabla siguiente presenta la historia del control de calidad de 940 obleas de un
proceso de fabricacin de semiconductores, donde se registraron los resultados de la medicin
de dos variables: Contaminacin alta y ubicacin en el centro del instrumento de deposicin
electrnica.
Ubicacin en el Centro del Instrumento
Contaminacin Alta

NO

SI

TOTAL

NO

514

68

582

SI

112

246

358

TOTAL

626

314

940

- 44 -

Usando diagramas de Venn ,represente y calcule las siguientes probabilidades:


P(A B) ; P(A` B) ; P(A B)` ; P(A B`) ; P(A B)`

4.12.1.2.- A partir de la tabla siguiente, que muestra la clasificacin de obleas por

contaminacin y posicin

N de particulas Contaminantes

Centro

En la orilla

Totales

0
1
2
3
4
5 ms

0,30
0,15
0,10
0,06
0,04
0,07

0,10
0,05
0,05
0,04
0,01
0,03

0,40
0,20
0,15
0,10
0,05
0,10

TOTAL

0,72

0,28

1,00

Determine
1. Cul es la probabilidad de que al seleccionar al azar una oblea de este lote, sta haya
estado en el centro del instrumento de deposicin?
2. Cul es la probabilidad de que una oblea que contiene cuatro o ms partculas se haya
encontrado en la orilla del instrumento de deposicin?
3. Cul es la probabilidad de que una oblea se haya encontrado en la orilla de la
herramienta o que contenga cuatro o ms partculas?
4. Cul es la probabilidad de que una oblea contenga menos de dos partculas o de que
se haya encontrado en la orilla y contenga ms de cuatro partculas?

Si A y B son eventos mutuamente excluyentes, entonces P(A B) = P(A) + P(B)

Si A , B y C son tres eventos cualesquiera asociados a un espacio muestral, entonces


P (A B C) = P(A) + P(B) + P(C) P(A
B) - P(A
C) P(B
C) + P(A B C)

En general se dice que una coleccin de eventos E1, E2, ........En


excluyente, si ninguno de ellos se traslapa o intersecta con otro.
Ei Ej =

i# j

- 45 -

es mutuamente

Para una coleccin de eventos mutuamente excluyentes,


P(E1 E2 ........... Ek) = P(E1 ) + P(E2 ) + .................+ P(Ek )

4.13.- Probabilidad Condicional P( A / B).


La notacin anterior se lee como la probabilidad condicional de A dado B, y se
interpreta como la probabilidad de que ocurre el suceso A ,dado que ocurre el suceso B.
Definicin:

P( A / B) = P (A B)
P(B)

4.13.1.- Desarrollo Ejemplo de Aplicacin.


Los resultados de 266 muestras de aire se clasifican de acuerdo con la presencia de dos
molculas raras diferentes.
Molcula 1 presente

SI

NO

TOTAL

NO

24

212

236

SI

12

18

30

TOTAL

36

230

266

Molcula 2 presente

P(molcula 2 presente / molcula 1 presente)=P(B / A) =P(A B) / P(A)


Donde : P(A B)= 12/266 ; P(A)=36/266
Ntese que, en este ejemplo, las cuatro siguientes probabilidades son diferentes:
P(A) = 36/266 ; P(B) = 30/266 ; P(A/B)= 12/30 ; P(B/A) = 12/36
El problema anterior presentado en un diagrama de rbol

no

Molcula 1 presente
*

si

Molcula 2 presente------------------------------------------------no

si

no

- 46 -

si

4.14.- Reglas de Multiplicacin


La definicin de probabilidad condicional dada anteriormente puede re-escribirse de
modo tal que proporcione una expresin general para la probabilidad de la interseccin de dos
eventos.
P(AB) = P(A/B)* P(B) = P(B/A) * P(A) = P(BA)
La regla de multiplicacin es til para determinar la probabilidad de un evento que
depende de otros

BA

BA`

A`

Entonces el Conjunto B= (A B) (A`


B)
P(B) = P[(A B) (A`B)] = P(A B) + P( A`B) =
P(B) = P(B/A)*P(A) + P(B/A`)*P(A`)

4.14.1.- Ejemplo de Aplicacin:


Sea F el evento donde el producto falla
Sea A el evento donde el circuito est expuesto a altos niveles de contaminacin.
P(F/A) = 0.1 ; P(F/A`) = 0.005 ; P(A) = 0.2 y por tanto P(A`) = 0.8
P(F) = 0.1* 0.2 + 0.005* 0.8 = 0.024

El resultado anterior puede interpretarse como el promedio ponderado de las dos


probabilidades de falla.

- 47 -

4.15.- Regla de Probabilidad Total, para varios Eventos.


Supngase que E1,E2, ...........Ek, son k conjuntos mutuamente excluyentes y
colectivamente exhaustivos. Entonces

P(B) = P(BE1) + P(BE2) + P(BE3) + ...................+ P(BEk)


P(B) = P(B/E1)*P(E1) + P(B/E2)*P(E2) + .................... + P(B/Ek)*P(Ek)

E1

E2

E3
E2

E4
E3

Entonces el Conjunto "B" se puede expresar como B=(B


E1) + (B
E2) + (B
E3) + (B
E4)
P(B) = P(BE1) + P(BE2) + P(BE3) + P(BE4)
4.15.1.- Ejemplo de Aplicacin:
Supngase que 0.1 es la probabilidad de que un circuito integrado expuesto a Altos
Niveles de contaminacin durante el proceso de manufactura sea la
causa de falla del
producto; que 0.01 es la probabilidad de que falle cuando es expuesto a niveles de
contaminacin media; 0.001 es la probabilidad de falla cuando la contaminacin es baja. En una
corrida o tanda de produccin particular, el 20%,30% y 50% estuvieron expuestos a niveles
altos, medios y bajos de contaminacin, respectivamente

Contaminacin
0.3

0.2
alta
P(F/alta)
0.1

0.02

0.5

media
P(F`/alta)
0.9

0.18

P(F/media)
0.01

0.003

baja
P(F`/media)
0.99

0.297

P(F/baja)
0.001

0.0005

P(F) = P(F/E1)*P(E1) + P(F/E2)*P(E2) + P(F/E3)*P(E3) = 0.0235

- 48 -

P(F`/baja)
0.999

0.4995

4.16.- Independencia
Definicin
Se dice que dos eventos son A ,B son independientes si y slo si
cualesquiera de las siguientes proposiciones es verdadera.
1.- P(A/B) = P(A)
2.- P(B/A) = P(B)
3.- P(A
B) = P(A)*P(B)
El punto (3) de la definicin anterior nos indica que dos sucesos A , B son
independientes cuando la probabilidad conjunta es igual al producto de las probabilidades
marginales.
La definicin anterior puede ser generalizada de la siguiente forma:
Los eventos E1, E2,.......... En son independientes si y slo si,
para cualesquier Subconjunto E i1, E i2,.......... E ik ,

P(E i1 E i2,.......... E ik ) = P(E i1 ) * P(E i2 ) * ............* P(E ik )

4.16.1.- Ejemplo de Aplicacin.


El circuito siguiente trabaja slo si existe una trayectoria de dispositivos en
funcionamiento, de izquierda a derecha. La probabilidad de que cada dispositivo funcione
aparece en la figura adjunta. Supngase que los dispositivos fallan de manera independiente
Cul es la probabilidad de que el circuito trabaje?.
0.9
0.95
0.9

0.99
0.95

0.9

Con el empleo de la hiptesis de independencia, se tiene que :


(1 0.13) * (1 0.052) * (0.99) = 0.987

- 49 -

4.17.- Teorema de Bayes


En la definicin de probabilidad condicional se tiene que:
P(AB) = P(A/B)*P(B) = P(BA) = P(B/A)*P(A)

Si slo consideramos los trminos segundo y ltimo de la expresin anterior, entonces

P(A/B) = P(B/A)*P(A) / P(B)

Este es un resultado til pues permite determinar P(A / B) en trminos de P(B / A).

TEOREMA DE BAYES:

Si E1 , E2 ,..............Ek son K eventos exhaustivos y


mutuamente excluyentes, y B es un evento cualesquiera , entonces:
P(B/E1)*P(E1)
P(E1/B) = -----------------------------------------------------------------P(B/E1)*P(E1) +.....................+ P(B/Ek)*P(Ek)

4.17.1.- Ejercicios de Aplicacin:


Los clientes se encargan de evaluar los diseos preliminares de varios
productos. En el pasado, el 95% de los productos con mayor xito en el mercado recibieron
buenas evaluaciones, el 60% de los productos con xito moderado recibieron buenas
evaluaciones, y el 10% de productos de escaso xito recibieron buenas evaluaciones. Adems,
el 40% de los productos ha tenido mucho xito, el 35% un xito moderado, y el 25 % una baja
aceptacin.
a).- Cul es la probabilidad de que un producto obtenga una buena evaluacin?
b).- Si un nuevo diseo obtiene una buena evaluacin,Cul es la probabilidad de que se
convierta en un producto de gran xito?
c).- Si un producto no tiene una buena evaluacin, cul es la probabilidad de que se convierta
en un producto de gran xito?

- 50 -

4.17.2.- Desarrollo de Ejercicios de Aplicacin


En un depsito hay 3000 cajas de lpices de las marcas A,B,C,D,E. De ellas hay 500
cajas de lpices deterioradas. Las cajas se distinguen de la manera siguiente:

Marca

Total de Cajas

Total de Cajas Defectuosas

A
B
C
D
E
Total

200
300
1000
800
700
3000

50
40
300
80
30
500

Se elige en forma aleatoria una caja y se le encuentra defectuosa . Determinar la


probabilidad de que la caja defectuosa sea de la marca A.

P( A1)P


A1
A1
P =
B P( A1)P B + P( A2 )P B + P( A3 )P B + P( A4 )P B + P( A5 )P B





A1

A2

A3

200

A4

A5

50

x
A1
3000 200
P =
B 200 x 50 + 300 x 40 + 1000 x 300 + 800 x 80 + 700 x 30
3000 200

3000 300

3000 1000

3000 800

3000 700

50
50
A1
P = 300 =
= 0,1
500
500
B
3000
Rpta. La probabilidad de que la caja defectuosa sea de la marca A es 0,1.

- 51 -

V.- VARIABLES ALEATORIAS


En varios de los ejemplos de experimentos aleatorios considerados hasta el momento ,
el espacio muestral slo es una descripcin de los posibles resultados. En algunos casos
las descripciones de los resultados son suficientes , pero en otros es til asociar un nmero en
cada resultado del espacio muestral. Ya que el resultado de un experimento no se conoce con
anticipacin , sucede lo mismo con el valor de la variable.
Definicin
Una variable aleatoria es una funcin que asigna un nmero real a cada resultado
en el espacio muestral de un experimento aleatorio

Las variables aleatorias se denotan con una letra mayscula "X" y con letra minscula
el valor posible , x
El conjunto de todos los valores posible de la variable aleatoria X , recibe el nombre de
Rango de X o Recorrido de X
X ( )
Las variables aleatorias las podemos clasificar en dos grandes tipos : Discretas y
Continuas

5.1.-- Variables Aleatorias Discretas .


Cuando realizan un conteo en el espacio muestral . Sus valores numricos son los
nmeros enteros.
Ejemplos :
1.- Nmero de naranjas fuera de calibre en un cajn de 100 unidades
2.- Nmero de rboles infectados en una plantacin
3.- Se evala un proceso para mejorar dos cualidades en una especie: Coloracin y
reduccin del tamao del cuesco.
4.- Nmero de defectos por milln (dpm)
5.- Cantidad de ndulos en un ctodo de cobre, obtenido en un proceso electroltico.
Las variables aleatorias discretas pueden tener Rango Finito o Infinito Contable

- 52 -

5.1.1.- Distribuciones y Funciones de Probabilidad a partir de una tabla descriptiva


A menudo , el inters recae en la probabilidad de que una variable aleatoria tome un
valor particular:
Coloracin Reduccin Tamao Probabilidad

Valor de la Variable x

aprobado

aprobado

0,64

aprobado

inaceptable

0,16

inaceptable

aprobado

0,16

inaceptable

inaceptable

0, 04

Definicin

El evento que est formado por todos los resultados para los que X = x
se denota como { X = x } , y la probabilidad de este evento como P (X = x )
La distribucin de probabilidad o distribucin de una variable aleatoria X es una
descripcin del conjunto de valores posibles de X (Rango de X ), junto con la probabilidad
asociada con cada uno de estos valores.
A menudo la distribucin de probabilidad de una variable aleatoria es el resumen ms
til de un experimento aleatorio.
La distribucin de probabilidad de una v. a. puede darse de varias maneras. Por
ejemplo como una tabla descriptiva , a travs de una frmula, etc.
Definicin
La funcin fx (x) = P(X = x) que va de l conjunto de los valores posibles de la
variable aleatoria discreta X al intervalo [ 0 , 1 ] recibe el nombre de funcin de
probabilidad.
Para una variable aleatoria X , fx (x) satisface las siguientes propiedades
1.- fx (x) = P(X = x)
2.- fx (x) 0

para todo valor de x

3.- fx (x) = 1

Ejemplo
x
Verifique que fx (x) = [ 2! / (x! (2-x)!)] (0,8

) ( 0,2 2 - x )

- 53 -

x = 0, 1, 2 es funcin de cuanta

Definicin :

La funcin de distribucin acumulada


denotada por Fx (x) , es

de una variable aleatoria discreta X,

Fx (x) = P(X x) = f (xi )


xi x

Para una variable aleatoria discreta X , Fx (x) satisface las siguientes propiedades

1.- Fx (x) = P(X x) = f (x i )


xi x
2.- 0 Fx (x) 1
3.- Si x y , entonces

Fx (x) Fy (y )

5.1.1.1.- Ejercicio de Aplicacin:


La produccin diaria es envasada en lotes que contienen 1000 unidades cada uno.
Cada uno de ellos debe contener alrededor de 50 unidades que no cumplen con los
requerimientos del cliente. Del lote se escogen tres unidades al azar, sin reemplazo. Sea la
variable aleatoria "X", el nmero de partes de la muestra que no cumplen con los
requerimientos.
a). Cul es la funcin de probabilidad de X?
P(X=0) = (950/1000)*(949/999)*(948/998) = 0,8572
P(X=1) = 3 (950/1000)*(949/999)*(50/998) = 0,1356
P(X=2) = 3 (950/1000)*(50/999)*(49/998) = 0,0070
P(X=3) = (50/100)*(49/999)*(48/998)

Valor de la
Variable X
0
1
2
3

= 0,0001

fi

Fi

0,8572
0,1356
0,0070
0,0001

0,8572
0,9928
0,9998
0,9999

- 54 -

5.1.2.- Valor esperado de una variable aleatoria


Definicin

La media o valor esperado de una variable aleatoria discreta X ,


denotada por x o E(X) , es
x

= E(X) =

f ( xi )

Esta es una medida de tendencia central.


Ejemplo: Calcule e interprete el valor esperado para la variable aleatoria anterior

5.1.3.- Varianza de una Variable Aleatoria


Definicin
La varianza de una variable aleatoria X , denotada por

x2 = E(X - x )2 =

(x

x2 o Var(X) es

x )2 f (xi )

Esta es una medida de variabilidad o dispersin


5.1.4.- Desviacin estndar de una Variable Aleatoria
Definicin

La desviacin estndar de una variable aleatoria X , denotada por x , es


La raz cuadrada de la varianza x2
La desviacin estndar cuando es dividida por la esperanza matemtica o promedio
aritmtico, genera una estadstica de resumen denominada coeficiente de variacin, que
sirve para comparar el grado de homogeneidad entre diversas variables aleatorias.
Mientras mayor es el valor de este coeficiente , ms heterognea es la variable.
Ejemplo:
Calcule la Desviacin Estndar y el Coeficiente de Variacin del ejemplo anterior.
Observacin: Debemos destacar que a partir una tabla de distribucin de probabilidades de
carcter descriptivo , como las que hemos venido analizando hasta ahora, se obtienen todas
las estadsticas de resumen que se estudian en la denominada Estadstica Descriptiva.

- 55 -

5.1.5.- Ejemplos de Aplicacin


5.1.5.1.- Las muestras de cierta materia prima se clasifican de acuerdo con su contenido de
humedad e impurezas , redondeado ste al porcentaje ms cercano.
Contenido de humedad

Impurezas

3%

4%

1%

14

2%

57

a) Cul de las dos variables es ms homognea?


x = E(X) =

x2

f ( xi ) = E(Impurezas) = 1

2
( xi x )2 f (xi ) = (1 1.7625)

19
61
+ 2
= 1.7625
80
80

19
61
+ (1 1.7625) 2
= 0.1811
80
80

Entonces el Coeficiente de Variacin para la variable impurezas es

0.4255
100% = 24.14%
1.7625

Utilizando el mismo procedimiento para la variable Contenido de humedad, obtendr


una valor promedio de 3.225 y una desviacin estndar de 0.4176.
0.4176
100% = 12.94 %.
Por lo tanto Coeficiente de Variacin para sta variable es
3.225
Comparando los Coeficientes de Variacin de ambas variables, concluimos que el
Contenido de humedad es la variable ms homognea

5.1.5.2.- Las muestras que tienen un 4% de Humedad necesitan un calentamiento adicional


durante su procesamiento, y las que tienen niveles de impureza de 2% requieren de un filtrado
adicional. La tabla siguiente contiene los costos, adicionales asociados con estas operaciones
extras.
Contenido de humedad

Impurezas

3%

4%

1%

10

2%

70

100

a) Determine el promedio y la desviacin estndar.

- 56 -

VI.- MODELOS DE PROBABILIDAD


Las variables aleatorias generan o inducen modelos de probabilidad. Dado que existen
dos tipos de variables aleatorias: Discretas y Continuas, tendremos entonces Modelos de
Probabilidad Discretos y Modelos de Probabilidad Continuos.
6.1.- Modelos Tericos de Funciones de Probabilidad de variables aleatorias discretas
Es posible modelar los resultados de muchos sistemas fsicos con experimentos
aleatorios y variables aleatorias idnticos o similares. Puede analizarse la distribucin de las
variables aleatorias que aparecen en cada uno de estos sistemas comunes , y es factible utilizar
los resultados del anlisis en aplicaciones y ejemplos diferentes.
En este punto analizaremos varios experimentos aleatorios y variables aleatorias
discretas que aparecen con frecuencia en diversas aplicaciones. Se omitir el estudio del
espacio muestral del experimento aleatorio , y se describir directamente la distribucin de una
variable aleatoria en particular.
6.1.1.- Distribucin Uniforme Discreta
Definicin :

Una variable aleatoria X es una variable aleatoria discreta


Uniforme si cada uno de los "n" valores que estn en el rango
De sta , x1, x2 , ...........x n tienen la misma probabilidad .
Entonces:
f X (x i ) = 1/n

6.1.1.1.- Propiedades:
Supngase que X es una v.a discreta uniforme sobre los enteros consecutivos
a, a+1 , a+2 , , ............, b con a b
La media o promedio de X es x = E ( X) = ( b + a )
2

La desviacin estndar de X es x =

(b a + 1) 2 1
12

Si todos los valores del rango de la variable aleatoria se multiplican por una constante
"k" (sin cambiar ninguna de las probabilidades) , entonces la media y la desviacin estndar de
X quedan multiplicadas por la misma constante.

- 57 -

6.1.1.2.- Ejercicio de Aplicacin: Se mide el espesor de la cscara ( recubrimiento) de un


fruto y se toman varias mediciones , en dcimas de mm. Supngase que las mediciones estn
distribuidas de manera uniforme, con valores : 1.5 , 1.6 , 1.7, 1.8, 1.9 . Para este proceso ,
calcule la media y la desviacin estndar del espesor de la cscara.
Los datos originales los multiplicaremos por "10" y haremos uso de la propiedad descrita
en un prrafo anterior. Es decir : 15 , 16 , 17 , 18 , 19
El promedio de los nuevos datos es igual a 17 .
El promedio de los datos originales es 1,7.
La desviacin estndar de los nuevos datos es x =

(19 15 + 1) 2 1
=2
12

La desviacin estndar de los datos originales es igual a 0,2

Para hacer clculos de probabilidad , grficos ,etc. relacionados con esta funcin de
distribucin, utilizando Satagraphics , debe de realizar el siguiente procedimiento:

Posicionar en cursor en Describe

Distributions

Tendr la siguiente pantalla


Fig. 74

- 58 -

Probability Distributions

Fig. 75

De esta ventana seleccione " Discrete Uniform " que significa en espaol, Uniforme
Discreta y proceda a llenar los campos solicitados en la siguiente ventana
Fig. 76

- 59 -

Posicionando el cursor del mouse en la ventana "Tabular Options" podr acceder a los
siguientes procedimientos
Fig. 77

1.- Anlisis Sumario : Permite definir la funcin a utilizar y agregar otras. Para ello
vaya a " pane options ".
2.- Funcin de Distribucin Acumulada : Permite calcular probabilidades para valores
de variable aleatoria especficos. Para ello vaya a " pane options ".
3.- Inversa de la Funcin de Distribucin Acumulada : Permite calcular valores de la
variable aleatoria , dada una probabilidad . Para ello vaya a " pane options ".

- 60 -

6.1.2.- Distribucin Binomial


La base de esta distribucin son los ensayos Bernoulli , que es un experimento
aleatorio que tiene slo dos resultados posibles , denotados por "xito" (p ) y "fracaso"(q) .
Definicin

Un experimento binomial es un experimento aleatorio que consiste de "n"


ensayos tipo bernoulli repetidos , que posee las siguientes propiedades
1.- Los ensayos son independientes
2.- Cada ensayo tiene slo dos resultados posibles , denominados "xito" (p)
y " Fracaso" (q = 1 - p )
3.- La probabilidad de xito en cada ensayo , permanece constante

La variable aleatoria X , es igual al nmero de ensayos donde el resultado es un xito ,


tiene una distribucin binomial con parmetros p (valor entre cero y uno) y n = 1 , 2 , 3 , .
La funcin de probabilidad de X es

X
n!
p (1- p)n - x
fX (x ; p , n ) =
x!(n x)!

x = 0 ,1 , 2 , .n

La funcin de probabilidad acumulada es :


j =k

P(X k ) =

n!

j!(n j )! p

(1 p) n j

j =1

El procedimiento usando Statgraphics es a travs de las pantallas Fig. 74 , Fig. 75


(seleccione la Opcin Binomial ). Luego tendr pantallas como las Fig. 76 , Fig. 77
Se define esta distribucin de probabilidad , obteniendo la siguiente pantalla , ingresando
por "sumario estadstico"., luego "Analysys options "
En la ventana "Event Probability" debe ingresar el valor de la probabilidad de xito "p" en
cada ensayo.
En la ventana " Trials " deber ingresar el nmero " n " de ensayos o pruebas a realizar

- 61 -

Fig. 78

6.1.2.1.- Desarrollo Ejercicio Aplicacin:


La probabilidad de que cada muestra de agua esta contaminada con una cierta "sustancia
rara" es de un 10%. Suponga que las muestras son independientes con respecto a la presencia
de dicha sustancia. Se toman 20 muestras en oportunidades diferentes.
a)

Calcule la probabilidad de exactamente dos muestras estn contaminadas.

20!
0.1 2 (1- 0.1) 20 - 2
2
!
(
20

2
)!

P(X = 2) =
b)

= 190 0.01 0.150095 = 0.2852

Calcule la probabilidad de que hayan entre 2 y 5 muestras inclusive , contaminadas


j =5

P(X = 2 ) + P ( X = 3 ) + P ( X = 3 ) = P( 2 X 5 ) =

20!

j!(20 j )! 0.1 (1 0.1)


j

j =2

0.2852 + 0.1901 + 0.0898 + 0.0319 = 0.597

c)

Calcule la probabilidad de que hayan tres o ms muestras contaminadas.


P ( X 3 ) = 1 - P( X

2)= 1 -[P(X=0)+P(X=1)+P(X=3) ] =

El valor esperado de una Variable Aleatoria Binomial es E(X) = np.


La Varianza de una Variable Aleatoria Binomial

- 62 -

es V(X) = 2 =npq

20 j

6.1.3.- Distribucin Hipergeomtrica.


La Distribucin Binomial est basada en el supuesto de que el tamao N de la Poblacin
es Infinito y de que la muestra aleatoria se toma con reemplazo, de manera de que las
observaciones posibles sean independientes entre s.
La probabilidad de xito en cada ensayo o prueba permanece as invariable para toda
observacin sucesiva.
Cuando la poblacin es de tamao finito conocido , "N" y la muestra aleatoria se
toma sin reemplazo, la probabilidad de xito , "p", cambiar para cada nueva
observacin. En tales circunstancias, se tendr una distribucin de probabilidad que se
llama Distribucin Hipergeomtrica.
Si se sacan "n" elementos sin reemplazo de una Poblacin o Lote que contiene N1
elementos de una clase y N2 elementos de otra clase, y estas dos clases son mutuamente
excluyentes y colectivamente exhaustivas , entonces:

N1 N 2

k nk

P( X = k ; n; N 1 ; N 2 ) =
N1 + N 2

N 1 + N 2 = N, tamao de la poblacin

Representa la probabilidad de tener exactamente k objetos en la muestra de tamao n,


que provienen de la clase N1 .
Las expresiones entre los parntesis representan las combinaciones posibles de
obtener, desde el punto de vista del anlisis combinatorio.
El valor esperado de una Variable Aleatoria Hipergeomtrica es :
La Varianza de una Variable Aleatoria Hipergeomtrica

E(X) = np

es V(x) =

= npq

( N n)
N

El procedimiento usando Statgraphics es a travs de las pantallas Fig. 74, Fig. 75


(seleccione la Opcin Hypergeometric). Luego tendr pantallas como las Fig. 76 , Fig. 77
Se define esta distribucin de probabilidad , obteniendo la siguiente pantalla e
ingresando por "sumario estadstico"., luego "Analysys options."

- 63 -

Fig. 79

En la ventana "Event Probability" debe ingresar el valor de la probabilidad de xito "p" en


cada ensayo.
En la ventana " Trials " deber ingresar el nmero "n " de ensayos o pruebas a realizar
En la ventana "Population Size ", debe ingresar el tamao de la poblacin " N = N 1 + N 2
6.1.3.1.- Desarrollo ejercicio Aplicacin:
Un embarque de sustancias qumicas llega en 20 depsitos , de los cuales hay cuatro
que no cumplen con normativas vigentes. Si se eligen tres depsitos para hacer una inspeccin
de la pureza del producto,
a).- Cul es la probabilidad de que la muestra contenga un depsito que no cumple la
normativa?

P(X=1)=

4 16

1 3 1
P ( X = 1; n = 3; N 116; N 2 = 4) =
4 + 16

C14C216
C320

= 0.4211

b).- Cul es la probabilidad de que al menos un depsito de los que no cumplen la normativa
est en la muestra?
P( X 1 ) = 1 - P ( X = 0 ) = 1 - 0.4912 = 0.5088

- 64 -

6.1.4.- Distribucin de Poisson.


Este modelo es aplicable a muchos procesos en los que hay un "recuento" por unidad
de tiempo, espacio o rea , volumen . Por ejemplo el nmero de defectos por unidad
observada; el nmero de vehculos que pasan por un lugar en una cierta unidad de tiempo; el
nmero de partes por milln en una muestra de As en una muestra de agua; el nmero
promedio de personas que un cajero atiende cada 15 minutos; el nmero de partes defectuosas
por lote embarcado desde la fbrica para ensamblaje; El nmero de defectos de aislamiento del
alambre elctrico por cada diez metros.
Todos los procesos anteriores se caracterizan por el nmero de xitos esperados
por unidad de tiempo , espacio , volumen, etc.

Su funcin de cuanta es

P(X = k) =

k e

k!

donde es el parmetro que expresa el nmero esperado ( o promedio) por unidad de tiempo,
espacio , etc. " e " es un constante , cuyo valor aproximado es de 2,7183
La expresin anterior permite calcular " la probabilidad de que en la unidad analizada
hayan exactamente k xitos ".

6.1.4.1.- Ejercicio de Aplicacin.


La contaminacin es un problema en la fabricacin de discos de almacenamiento ptico.
El nmero de partculas contaminantes que aparecen en un disco ptico tiene una distribucin
Poisson, y el nmero promedio de partculas por centmetro cuadrado de superficie del medio
de almacenamiento es 0,1. El rea de un disco bajo estudio es de 100 centmetros cuadrados.
a).- Cul es la probabilidad de encontrar 12 partculas en el rea del disco?
El nmero esperado de partculas en un rea de 100 cm2 es igual a
100*0,1 = 10 partculas / cm2
Este es el valor de en la distribucin de Poisson. Entonces:

P( X = 12) =

1012 e 10
= 0,095
12!

b).- Cul es la probabilidad de encontrar entre 7 y 12 partculas en el rea de l disco?

10 k e 10
= P(X=7) + P(X=8)+ P(X=9)+ P(X=10)+P(X=11)+P(X=12)=

k!
k =7

k =12

P(7 X 12) =

0,0901 + 0,1126 + 0,1251 + 0,1251 + 0,1137 + 0,0948 = 0,6614

- 65 -

c).- Cul es la probabilidad de encontrar 3 o ms partculas en el rea del disco ?


P(X 3 ) = 1 - P( X 2) = 1 - [ P(X=0) + P(X=1) + P(X=2) ] =
1 - [0,000045 + 0,000454 + 0,002270] = 0,99723
El valor esperado de una Variable Aleatoria Poisson es E(X) =
La Varianza de una Variable Aleatoria Poisson es = V(x)= 2 =
En algunos casos es posible calcular probabilidades de una variable aleatoria binomial ,
a travs de la Distribucin de Poisson. Ello ocurre cuando el tamao de la muestra "n" es
grande y el valor de La probabilidad de xito en cada ensayo "p" es pequeo . Entonces se
calcula = np . La aproximacin es aconsejable cuando = np 5 .
El procedimiento usando Statgraphics es a travs de las pantallas Fig. 74 , Fig. 75
(seleccione la Opcin Poisson). Luego tendr pantallas como las Fig. 76 , Fig. 77
Se define esta distribucin de probabilidad , obteniendo la siguiente pantalla , ingresando por
"sumario estadstico"., luego "Analysys options "

Fig. 80

En el campo mean de la ventana de la figura anterior , debe ingresar el valor de

- 66 -

6.2.- Modelos de Probabilidad de variable aleatoria continua


6.2.1 Distribucin de Probabilidades Normal
Existen muchos modelos de probabilidad de variable aleatoria continua. Uno de los
modelos es la Distribucin Normal de Probabilidades , que ocupa un lugar destacado en la
Inferencia Estadstica.
La importancia de la Distribucin Normal se puede resumir en estas consideraciones
esenciales:
1. Numerosas variables observadas en la naturaleza se ajustan a este modelo de probabilidad.
2. Se ha encontrado que ciertos componentes , partes y montajes de maquinarias tienen
3. distribucin normal, en cuanto a las medidas de su fiabilidad.
4. La distribucin muestral de muchos estadgrafos muestrales, como el promedio aritmtico
por ejemplo, tiene una distribucin aproximadamente normal e independientemente de la
configuracin de la distribucin de la poblacin. Esto hace que en determinado momento se
prefiera tomar muestras de un tamao relativamente grande, para invocar con ello la normalidad
estadstica.
5. La funcin normal es una excelente aproximacin a otras varias distribuciones muestrales.
Por ejemplo , la Binomial , Poisson se aproximan a la normal al aumentar "n"
Su Funcin de densidad es la expresin:

f ( X = x; ; 2 ) =

2 2

( x )2
2 2

La forma grfica de esta distribucin es como la de una campana , por lo que tambin
se le conoce con el nombre de Campana de Gauss.

Distribucin Normal Estndar

Probabilidad

0,4

Promedio; Desv. Est


0,1

0,3
0,2
0,1
0
-5

-3

-1

- 67 -

La forma grafica de la distribucin depende de sus dos parmetros:


El promedio (medida de tendencia central) y la varianza
variabilidad).

2 (medida de

Existen varias formas graficas segn sean las combinaciones que se tengan entre sus
dos parmetros:
1.- Igual promedio , distinta varianza.
2.- Distinto promedio , igual varianza.
3.- Distintos promedios , distintas varianzas.
La Distribucin Normal Tpica , representa todas las variables aleatorias normales .
Se logra estandarizar cualquier variable
realizando la siguiente transformacin,
denominado puntaje tpico o estndar.
Z=

xi

Sus parmetros quedan como E(Z) = = 0 y V(Z) = z2 = 1 .


Este valor de Z vara aproximadamente entre 5 y +5, segn se ve en la figura a anterior.
Para el calculo de probabilidades, se utiliza una tabla denominada Distribucin Normal
Tpica, que contiene valores de probabilidad acumulada (ver al final del texto de este curso).
Ello evita tener que resolver una integral definida para calcular la probabilidad de que la variable
aleatoria se encuentre dentro de un cierto intervalo dado.

6.2.1.1.- Ejercicio de Aplicacin.


En una Planta de E.W, se obtienen ctodos de cobre con un peso promedio de 45 Kgs y
una desviacin estndar de 1,5 Kgs. Suponiendo que el peso de los ctodos se comporta como
una distribucin normal ,
a)
Si se elige un ctodo al azar de una cosecha, cul es la probabilidad de que su peso
est entre 44 y 47 Kgs ?
P( 44 X 47 ) = P(
b)

Si se elige un ctodo al azar de una cosecha, cul es la probabilidad de que su peso


sea inferior a 43 Kgs ?.
P( X 43 ) = P(

c)

44 45 X 45 47 45
) = P (-0,67 Z 1,33) =

1,5
1,5
1,5

X 45 43 45

) = P(Z -1,33 ) =
1,5
1,5

Si se elige un ctodo al azar de una cosecha, cul es la probabilidad de que su peso sea
superior a los 48 kgs ?
P ( X > 48 ) = P(

X 45 48 45
) = P ( Z 2) = 1 - P(Z 2) =

1,5
1,5

- 68 -

El procedimiento usando Statgraphics es a travs de las pantallas Fig. 74 , Fig. 75


(seleccione la Opcin Normal). Luego tendr pantallas como las Fig. 76 , Fig. 77
Se define esta distribucin de probabilidad, obteniendo la siguiente pantalla, ingresando
por "sumario estadstico"., luego "Analysys options "
Fig. 81

En el campo mean de la ventana de la figura anterior , debe ingresar el valor del


promedio aritmtico de la variable ( X ). Hay espacio para trabaja cinco distribuciones
normales de forma simultnea.
La tecla tabular options permite la opcin de los siguientes clculos estadsticos:
Funcin de Distribucin Acumulada : Permite calcular probabilidades para valores de
la variable aleatoria especficos. Para ello vaya a " pane options ".
Inversa de la Funcin de Distribucin Acumulada : Permite calcular valores de la
variable aleatoria , dada una probabilidad . Para ello vaya a " pane options ".
La tecla Graphical options permite la opcin de los siguientes grficos estadsticos:.
Funcion de Densidad
Funcin de distribucin Acumulada
Funcin de Sobrevivencia (Inversa de la CDF)

- 69 -

Fig. 82

6.2.2.- Aproximacin a la Distribucin Normal de las Distribuciones Binomial y Poisson.


6.2.2.1.- Aproximacin de la Distribucin Binomial a la Normal

Si X es una variable aleatoria binomial , entonces Z =

X np

np(1 p )
es de manera aproximada , una variable aleatoria normal estndar
Ejemplo:
En proceso productivo, se sabe que aproximadamente el 5% de las unidades obtenidas
tienen contenidos de Pb, que sobrepasan una normativa internacional. El Cliente decide realizar
una inspeccin al azar de 150 unidades del producto.
a).- Si el cliente, de acuerdo con el fabricante, tienen establecido por contrato de que en
muestras de ese tamao, deben haber a lo ms 8 unidades que sobrepasen la normativa ,
Cul es la probabilidad de que el embarque sea aceptado ?
np = 150 * (0,05) = 7,5

np(1 - p) = 150*(0,05)*(0,95) = 7,125

Dado que se est calculando un valor de probabilidad para una variable discreta, por
medio de una funcin continua como es la distribucin normal utilizando la tabla estndar, P( X
8 ) la debemos remplazar por P ( X < 8,5 )
[ A esto se le denomina correccin de la continuidad, en media unidad de medida ]
P ( X 8) = P( X < 8,5 ) = (

X 8,5
7,125

- 70 -

8,5 7,5
7,125

) = P(Z 0,37 ) =

b).-Cul es la probabilidad de que el nmero de unidades fuera de especificacin est entre


5 y 10, inclusive ?
P( 5 X 10 ) = P (

4,5 7,5
7,125

X 7,5
7,125

10,5 7,5
7,125

) = P ( -1,12 Z 1,12 ) =

c).- De acuerdo con el plan de muestreo , cual es el nmero mximo de unidades que
sobrepasan la normativa que debe contener la muestra, para aceptar el embarque con 95 % de
probabilidad ?

6.2.2.2.- Aproximacin de la Distribucin de Poisson a la Normal

Si X es una variable aleatoria Poisson con E( X ) = y V( X ) = , entonces


Z=

es de manera aproximada , una variable aleatoria Normal Estndar

Ejemplo :
Suponga que el nmero de partculas de asbesto en una muestra de un centmetro
cuadrado de polvo es una variable aleatoria Poisson con promedio = 100.
a).-Cul es la probabilidad de que en 10 cm2 de polvo haya ms de 950 partculas de asbesto?
P ( X > 950 ) = P ( Z

950,5 1000
1000

) = P ( Z - 1,57 ) =

b).- Cul es la probabilidad de que en 10 cm2 de polvo haya entre 950 y 1100 partculas de
asbesto, inclusive ?
P ( 949,5 X 1100,5) =
c).-Qu cantidad de partculas de asbesto habr en 10 cm2 de polvo , el 90% central de las
veces ?

- 71 -

6.2.3.- La distribucin Exponencial.


Anteriormente vimos una distribucin que modeliza el comportamiento discreto de
fenmenos que ocurren por unidad de tiempo , espacio, rea, etc. , denominada distribucin de
Poisson. La distancia ( tiempo ) entre la ocurrencia de estos fenmenos ( tiempo entre fallos)
, es una variable aleatoria continua que a menudo es de inters , sobre todo en estudios que
dicen relacin con la fiabilidad o confiabilidad de partes o sistemas , y proporciona una valiosa
ayuda en la planificacin de la mantencin o de la mantencin preventiva.
Definicin: Se dice que una variable aleatoria continua X que toma valores no
negativos tiene una distribucin exponencial con parmetro (positivo) si su funcin de
densidad de probabilidad est dada por :

e x

si x > 0

f ( x) =

0 en cualquier otra parte

Por lo tanto:

f ( x )dx

=1

Distribucin Exponencial
0.1

Mean
10

0.08
0.06
0.04
0.02
0
0

10

20

30

- 72 -

40

50

60

6.2.3.1.-Propiedades de la Distribucin Exponencial :

1.- El valor esperado de X o promedio de la variable es igual a E ( X ) =

xf ( x )dx =

2.- La varianza de X es V ( X ) = E ( x 2 ) [E ( x )]2 =

1
2

Es por ello, que en trminos prcticos, la de estimacin de estos parmetros se hace a


partir de los datos registrados , calculando u promedio aritmtico .
Entonces la estimacin de es

1
x

y de aqu tambin podemos estimar la

varianza de la distribucin , y de esta forma podemos realizar clculos de probabilidades.


Carencia de memoria

La expresin

P( X > s + t / X > s) =

P ( X > s + t ) e ( s + t )
=
P( X > s)
e s

= e t

Expresa la probabilidad de que una componente que lleva funcionando un tiempo s,


dure o funcione un tiempo adicional t.
Esta propiedad no es sorprendente si se considera el desarrollo de un proceso Poisson,
en el cual se supone que el intervalo o unidad puede subdividirse en intervalos independientes
ms pequeos ( o ampliarse a intervalos mayores ).
La distribucin exponencial se emplea frecuentemente en estudios de confiabilidad,
como modelo para el tiempo transcurrido hasta el fallo de un dispositivo. Por ejemplo, el tiempo
de vida media de una ampolleta puede modelarse como una variable aleatoria exponencial, con
una media de 1000 hrs (por ejemplo). La propiedad de carencia de memoria de la distribucin
exponencial implica que la ampolleta no se desgasta. Esto es , sin importar cuanto tiempo haya
funcionando , la probabilidad de que falle dentro de las cincuenta prximas horas , es la misma
que la probabilidad de fallar dentro de las primeras cincuenta horas.
Sin embargo la probabilidad de que un dispositivo sufra desgaste mecnico debido a su
funcionamiento, como un rodamiento o poln de correa transportadora por ejemplo, puede
modelarse mejor con una distribucin tal que P ( L < t + t / L > t ) aumente a medida que se
incrementa t. Este tipo de situaciones o de comportamientos es reflejado de mejor forma por
otra distribucin de variable aleatoria continua , denominada distribucin de Weibull.

x = t + t
e x dx

P ( L < t + t / L > t ) =

x =t
e t

El procedimiento usando Statgraphics es a travs de las pantallas Fig. 74, Fig. 75


(seleccione la Opcin Exponential). Luego tendr pantallas como las Fig. 76 , Fig. 77
Se define esta distribucin de probabilidad, obteniendo la siguiente pantalla, ingresando
por "sumario estadstico", luego "Analysys options ".

- 73 -

VII.- INFERENCIA ESTADSTICA PARAMTRICA


7.1.- Definiciones Preliminares
El campo de la inferencia estadstica est formado por los mtodos utilizados para tomar
decisiones o para obtener conclusiones sobre una Poblacin , Lote , Proceso. Estos mtodos
utilizan la informacin contenida en una muestra de la Poblacin , Lote, Proceso para obtener
conclusiones.
La inferencia estadstica la podemos dividir en dos grandes reas:
1).- Estimacin de parmetros
2).- Prueba de hiptesis
De lo anterior , podemos desprender de que la calidad de la informacin obtenida , como
tambin la acertividad de la decisin tomada , dependen esencialmente de la muestra. ( que es
de donde obtenemos los datos ).
Poblacin , Lote , Proceso
Est formado por la totalidad de las observaciones
en las cuales se tiene cierto inters

En muchos problemas estadsticos , es necesario utilizar una muestra de observaciones


tomadas de la poblacin de inters con objeto de obtener conclusiones acerca de ella
Muestra
Es un subconjunto de observaciones colectadas bajo rigurosos mtodos de
seleccin, que permiten asegurar la representatividad de la muestra , respecto de la
Poblacin
Para que las inferencias sean vlidas, la muestra debe ser representativa de la
poblacin. Un mecanismo de seleccin que asegura la representatividad es la aleatorizacin.
En consecuencia la seleccin de una muestra es un experimento aleatorio , y cada
observacin de la muestra es el valor observado de una variable aleatoria. Las observaciones
en la poblacin determinan la distribucin de probabilidad de la variable aleatoria.
La calidad de las medida(s) o valor(es) obtenidos de las muestras dependen, entre
otros factores, de los equipos de medicin ( exactitud , precisin , capacidad, etc.) . Una
muestra representativa , evita que se produzca una informacin sesgada.

Las variables aleatorias ( X1 , X2 ,..........., Xn) constituyen una muestra aleatoria de


tamao "n" si :
1.- Las Xi son variables aleatorias independientes
2.- Todas las Xi tienen la misma distribucin de probabilidad

- 74 -

7.2.- Estimacin
Estimador , Estadstica
Un Estimador , Estadstica es cualquier funcin de las observaciones contenidas en
una muestra aleatoria
Estimacin Puntual.
Una estimacin puntual de algn parmetro de la poblacin es un valor

numrico obtenido con los datos muestrales

7.2.1.- Propiedades de los estimadores:


1.- Insesgado: Un estimador debe arrojar
verdadero valor del parmetro.

, en promedio,

valores muy prximo al

2.- Mnima Varianza: Si se consideran todos los estimadores insesgados de del parmetro

,el que tiene la menor varianza recibe el nombre de estimador insesgado de varianza
mnima.
3.- Consistentes: A medida de que el tamao de la muestra aumenta, (n
estimador tiende a coincidir con el parmetro.

N), el

4.- Eficientes: Si se utilizan dos estadgrafos o estimadores del mismo parmetro, aquel
cuya distribucin muestral tenga menor error estndar, es un estimador ms eficaz que otro .
5.- Suficiente: Un estimador suficiente del parmetro , es aquel que agota toda la
informacin pertinente sobre de que se pueda disponer en la muestra.
Por ejemplo,
El promedio ( desconocido) de la Poblacin, puede ser estimado a travs del promedio

aritmtico de la muestra, X ; tambin puede ser estimado por la Mediana de la muestra, X .


~
~
Pero X tiene menor varianza que X .( Es decir, X es ms eficiente que X )
Uno de los mejores mtodos para obtener un estimador puntual de un parmetro es el
mtodo de Mxima Verosimilitud. Tal como su nombre lo seala , el estimador ser el valor
del parmetro que maximiza la funcin de verosimilitud.

- 75 -

Supngase que X es una variable aleatoria con distribucin de probabilidad f (x, ),


donde es un parmetro desconocido.
Sean x1 , x2 , ........, xn los valores observados en una muestra aleatoria de tamao "n".
La funcin de verosimilitud de la muestra es
L( ) = f(x1, )* f(x2, )*.....................................* f(xn, )
Ntese que la funcin de verosimilitud es ahora una funcin del parmetro desconocido .

El estimador de mxima verosimilitud de , que es , maximiza la funcin de


verosimilitud L( )

7.2.2.- Ejercicios de Aplicacin.


7.2.2.1.- Sea X una variable aleatoria de Bernoulli . La funcin de probabilidad es

f X ( x; p ) =

px(1 - p)1 - x
x=0 ,1
0
en cualquier otro caso

donde "p" es el parmetro por estimar.

La funcin de verosimilitud de una muestra de tamao "n" es

L(p) = p x1 (1 p )1 x1 p x2 (1 p )1 x2 ................ p xn (1 p )1 xn =
i=n

L(p) =

Cp

i=n

xi

(1 p )

1 xi

xi

= p i =1 (1 p)

i=n

xi
i =1

i =1

Luego aplicamos logaritmo natural a L(p) y obtenemos


i=n
i =n

ln L( p) = ( x i ) ln( p) + n x i ln(1 p )
i =1
i =1

Seguidamente se deriva la expresin anterior, respecto del parmetro de inters, obteniendo


i=n

n xi
d ln L( p ) i =1
i =1

1 p
dp
p
i=n

xi

Usando conceptos de "mximos y mnimos" de clculo en una variable , igualamos a


cero la expresin anterior , y despejamos "p" , se tiene que

p =

1 i =n
Xi
n i =1

Recordemos que en esta expresin la variable X i , toma el valor 1 , si la muestra


resulta positiva ; toma el valor 0 , si la muestra resulta negativa.

- 76 -

7.2.2.2.- Considrese la distribucin de Poisson

x e

f (x) =

con x = 0 , 1 , 2 , 3, ..........

x!

, basado en una muestra aleatoria de

Encuentre el estimador mximo verosmil de


tamao "n"

i =n

i=n

Formamos la funcin L( ) =

i =1

e
xi

xi !

xi
i =1

e n

i =n

xi !
i =1

Luego aplicamos logaritmo natural a L( ) y obtenemos


i=n

i =n

i =1

i =1

ln L( ) = ( xi ) ln( ) + (n ) ln xi !
Usando conceptos de "mximos y mnimos" de clculo en una variable , igualamos a
cero la expresin anterior , y despejamos " " , se tiene que
i =n

i=n

d ln L( )
=
d

x
i =1

x
=

i =1

=X

7.3.- Distribuciones de muestreo.


La distribucin de probabilidad de un estimador o estadstica se llama
Distribucin de muestreo

Por ejemplo,
La distribucin de probabilidad del promedio aritmtico
distribucin de muestreo (muestral) de la media.

X , se conoce como

La distribucin de muestreo de una estadstica depende de la distribucin de la


poblacin , del tamao de muestra y del mtodo utilizado para seleccionar la muestra.

- 77 -

Teorema del Lmite Central


Si X1 , X2 , X3,..........., Xn

es una muestra aleatoria de tamao "

poblacin (finita o infinita ) , con promedio "

" tomada de una

" y varianza finita "

" , si

es la

media muestral , entonces la forma lmite de la distribucin del promedio X es :

Z=

2
n

Cuando

, es la Distribucin Normal Estndar

Error Estndar

El error estndar de un estimador o estadstica es la


desviacin estndar de su distribucin de muestreo .
Si el error estndar involucra parmetros desconocidos cuyos valores pueden
estimarse, la sustitucin de estas estimaciones en el error estndar da como
resultado un error estndar estimado

Por ejemplo
El promedio aritmtico X , tiene un error estndar de

Pero en muchas oportunidades el parmetro

debe ser estimado por la varianza

muestral, obtenindose entonces un error estndar estimado igual a


El error estndar da alguna idea sobre la precisin de la estimacin

- 78 -

S2
n

7.4.- Prueba de Hiptesis e intervalo de confianza


En muchos problemas de Ingeniera, Ciencias Naturales, Ciencias Sociales,
Administracin y Negocios, etc . requieren que se tome una decisin entre aceptar o rechazar
una proposicin sobre algn parmetro. Esta proposicin recibe el nombre de Hiptesis, y el
procedimiento de toma de decisin sobre la hiptesis se conoce como Prueba de Hiptesis.
Este es uno de los aspectos ms tiles de la inferencia estadstica, puesto que muchos
tipos de problemas de toma de decisiones, pruebas o experimentos en el mundo de la
Ingeniera , pueden formularse como problemas de prueba de hiptesis.
Es conveniente considerar la prueba de hiptesis estadsticas como la etapa de anlisis
de datos de un experimento comparativo, en el que el ingeniero est interesado , por
ejemplo, en mejorar un rendimiento promedio en un proceso ,despus de haber hecho una
innovacin en el mismo. La finalidad es probar hiptesis con respecto a los parmetros de las
dos situaciones.
Una hiptesis estadstica es una proposicin sobre los parmetros de una o ms
Poblaciones , Lotes , Procesos ,etc.

En la prueba de hiptesis intervienen siempre dos hiptesis denominadas como:


H0 : conocida como hiptesis nula o hiptesis de prueba.
H1 : denominada hiptesis alternativa
La estructura general de una Prueba de Hiptesis, la podemos resumir en la sgte. tabla.

H0 : = 0
v/s
H1 : f 0
Hiptesis alternativa
unilateral derecha

H0 : = 0
v/s
H1 : < 0
Hiptesis alternativa
unilateral izquierda

H0 : = 0
v/s
H1 : 0
Hiptesis alternativa
bilateral

Los procedimientos de pruebas de hiptesis dependen del empleo de la informacin


que se obtiene al procesar los datos contenidos en una muestra aleatoria de la poblacin
de inters.
Es por esto que la verdad o falsedad de una hiptesis en particular nunca puede
conocerse con certidumbre, a menos que pueda examinarse a toda la poblacin. Usualmente
esto es imposible en muchas situaciones prcticas.
Dado que estamos trabajando con informacin muestral para aceptar o rechazar la
hiptesis de prueba , es que debemos asumir que podemos cometer alguno de estos dos tipos
de errores denominados: Error Tipo I , Error Tipo II

- 79 -

El Error Tipo I
se define como el rechazo de la Hiptesis nula H0 , cuando sta es verdadera.

Este error generalmente se designa por


y flucta 0 < 0,1.
En muchos experimentos industriales se usa = 0,05 , denominado nivel de significancia.
Este es el tipo de Error con el que usualmente se realiza la prueba de Hiptesis

El Error Tipo II,


se define como la probabilidad de aceptar la hiptesis nula H0 cuando sta es falsa.

y flucta entre 0 < 0,1


Este error generalmente se designa por

La Potencia de una prueba estadstica es la probabilidad de rechazar la hiptesis nula


H0 , cuando la hiptesis alternativa es verdadera ( con probabilidad 1 ).
Es en realidad su poder de discriminar correctamente.

Al utilizar una muestra para obtener conclusiones sobre una poblacin existe el riesgo de
llegar a una conclusin incorrecta.
Cuando se toma una decisin referente a una hiptesis basada en la teora de la
probabilidad, sta puede ser:
Decisin Correcta:
Se acepta una hiptesis cuando es verdadera.
Se rechaza una hiptesis cuando no es verdadera.
Decisin Incorrecta
Error Tipo I ().- Se rechaza un hiptesis que es verdadera, es decir, se rechaza la
Hiptesis Nula (H0) cuando en realidad es cierta.
Error Tipo II ().- Se acepta una hiptesis que no es verdadera, es decir, no se rechaza
la Hiptesis Nula (H0) cuando es falsa y se debiera rechazar.
Para mayor claridad observamos el siguiente cuadro:
Decisin Condicin
H 0 es (V)
H 0 es (F)

ACEPTAR
Decisin Correcta
1-
Error de Tipo II

- 80 -

RECHAZAR
Error de Tipo I

Decisin Correcta
1-

De estos dos errores el ms frecuente es , pero el ms difcil de controlar; de


ah que el ms usado en la prctica es .
La regin crtica o de rechazo es la medida del resultado del proceso de una
muestra es mayor o igual que un valor fijado (Valor Crtico), entonces
se rechaza la hiptesis nula (H0); como tambin
se rechaza en el caso que la medida menor que un valor fijado.

REGIN DE
ACEPTACIN

REGIN DE
RECHAZO

REGIN DE
RECHAZO

REGIN DE
ACEPTACIN

El nivel de significacin () es la mxima probabilidad de cometer un error de


Tipo I especificado en una prueba de hiptesis.

El nivel de significacin debe ser especificado antes de que una prueba sea hecha, de
otra manera, el resultado obtenido en la prueba puede influir en la decisin.
Los niveles de significacin ms utilizados son: = 0,05 y = 0,01
Al emplear un nivel de significacin del 5% tenemos la confianza del 95% de que hemos
tomado una decisin correcta, aunque pudimos estar equivocados en un 5%.
El error de Tipo II () se puede determinar solamente respecto a un valor especfico
incluido en el rango de la Hiptesis Alternativa (H1).

- 81 -

7.4.1.- Etapas bsicas a considerar en la prueba de hiptesis :


A continuacin se enunciarn un conjunto secuenciados de procedimientos a tener en
consideracin , para prueba de hiptesis en el caso de muchos problemas prcticos.
1.- Del contexto del problema , identificar el parmetro de inters.
2.- Establecer la hiptesis nula , H0.
3.- Establecer una apropiada hiptesis alternativa , H1.
4.- Seleccionar un nivel de significancia , para probar la hiptesis H0.
5.- Establecer una estadstico de prueba apropiado.
6.- Establecer la Regin de Rechazo para el estadstico de prueba, que est sealada por
la hiptesis alternativa ( < , > , ).
7.- Calcular todas las cantidades o estimadores a partir de los datos muestrales, para
sustituirlas en la expresin del estadstico de prueba , obtener el valor correspondiente.
8.- Decidir si debe o no rechazarse H0 y expresar o redactar esto , en el contexto del
problema.

7.4.2.- Aplicaciones de la Distribucin Normal en la Prueba de Hiptesis y la construccin


de intervalos de confianza.
En forma muy general, podemos decir que la distribucin normal se aplica en temas
relacionados con la inferencia estadstica cuando la Variable en estudio tiene un
comportamiento que es modelado por esta distribucin, se conoce el valor del parmetro
denominado varianza, o el tamao de la muestra es suficientemente grande, como para
invocar que el estadgrafo muestral tiene un comportamiento normal.

7.4.2.1.- Prueba de hiptesis e intervalo de confianza para el promedio

H0 : = 0

H1 : < 0

H1 : > 0

Estadstico de Prueba

H 1 : 0

Zobs =

X 0

2
n

Para rechazar H0 a favor de H1 , se debe cumplir que el valor del Estadstico de prueba
caiga en la zona de rechazo indicada por la hiptesis alternativa.

- 82 -

Intervalo de confianza para

Tamao de la Muestra

n=
X - Z1 -

/2

X + Z1 -

/2

n
n=

(Z + Z ) 2 2
( - 0 ) 2
(Z / 2 + Z ) 2 2
( - 0 ) 2

para prueba unilateral

para prueba bilateral

Uso de valores de P en la prueba de Hiptesis.


Una manera de notificar los resultados de una prueba de hiptesis es establecer que la
hiptesis nula fue o no rechazada con un valor especificado de o nivel de significancia.
Para evitar dificultades respecto del manejo del valor , en la prctica ha sido adoptado
por la totalidad de los softwares de aplicacin estadstica, el enfoque del valor P, que aparece
casi siempre con La denominacin de p value .
Este valor es el nivel de significancia ms pequeo que conduce al rechazo de
la hiptesis nula H0 .
Para utilizar Statgraphics en la prueba de hiptesis acerca del promedio en la poblacin,
cuando usted ha procesado los datos y dispone del promedio y de la desviacin
estndar ,se utiliza el siguiente procedimiento :
Primero, ponga el cursor en el botn describe de la pantalla principal y luego seleccione
Hiptesis Test . Tendr el siguiente par de pantalla.
Fig . 83

- 83 -

Fig. 84

Instrucciones.

1.
2.
3.
4.
5.

En la pantalla anterior ,en el campo de los parmetros, debe seleccionar normal


mean, que significa promedio normal
En la ventana Null Hiptesis , deber ingresar el valor de Hiptesis a probar 0
En la ventana Sample mean deber ingresar el valor del promedio de la muestra
En la ventana Sample sigma , deber ingresar el valor de la desviacin estndar
de la muestra.
En la ventana Sample Size , deber ingresar el tamao de la muestra

Ejemplo:
Los sistemas de escape de emergencia para tripulaciones de aeronaves son impulsados
por un combustible slido. Una de las caractersticas importantes de este producto es la rapidez
de combustin. Las especificaciones requieren que la rapidez promedio de combustin sea
de a lo menos 50 cm/ sg.
Se sabe que la desviacin estndar de esta rapidez es = 2 cm/ sg.

El experimentador decide especificar una probabilidad para el error tipo I ( ) = 0, 05.


Selecciona una muestra aleatoria de tamao 16, y obtiene en la muestra una rapidez
promedio muestral de combustin de 51,3 A qu conclusiones debe llegar?
Con los datos anteriores, llene la pantalla de la Fig. 85 y obtendr una pantalla como la
siguiente:

- 84 -

Fig. 85

Colocando el cursor en el sector izquierdo de la figura anterior, y activando el sector


derecho del mouse, tendr acceso a Anlisis Options, desde donde podr definir la hiptesis

alternativa H 1 y el error tipo I ( ).: Luego aplique 0K y tendr.

El intervalo de confianza para la rapidez promedio de combustin del producto.


La decisin acerca de la prueba de hiptesis
La curva de potencia de la prueba o test

7.4.2.2.- Prueba de hiptesis e intervalo de confianza para la diferencia entre promedios.


Supngase que se tienen dos poblaciones de inters . La primera tiene un promedio
desconocido 1 y varianza conocida 12 ; mientras que la segunda poblacin tiene un promedio
desconocido 2 y varianza conocida 22 .
El inters est en probar la hiptesis de que los dos promedios poblaciones son iguales
(en este caso = 0 ) o que su diferencia es igual a un valor > 0.
Debemos suponer que ambas poblaciones tienen un comportamiento normal, y que en
caso de que no lo fuesen se aplican las condiciones del Teorema del Lmite Central, enunciado
anteriormente.
Se toma una muestra aleatoria de tamao n1 de la primera poblacin, y otra muestra
aleatoria de tamao n2 de la segunda poblacin. Ambas muestras son independientes entre s.
La prueba estadstica est sustentada en el hecho de que la distribucin de la diferencia
entre los promedios muestrales se distribuye:

( X 1 X 2 ) ~ Normal (1 - 2 ,

- 85 -

12
n1

22
n2

H0 : 1 - 2

H1 : 1 - 2 <

H1: 1 - 2

>

Estadstico de Prueba

H1: 1 - 2

Zobs =

(X1 X 2 )

12
n1

Intervalo de confianza

( X1 X 2 ) Z 1 -

/2

12
n1

22
n2

Tamao de la muestra

22
n2

n
n

( Z + Z ) 2 ( 12 + 22 )
(1 2 ) 2
( Z / 2 + Z ) 2 ( 12 + 22 )
(1 2 ) 2

prueba unilateral
prueba bilateral

Para utilizar Statgraphics en la prueba de hiptesis acerca de la diferencia entre los


promedios de dos poblaciones ,cuando usted ha procesado los datos y dispone de los
promedios y de las desviaciones estndar de cada muestra, se utiliza el siguiente
procedimiento :
1.- Ponga el cursor en el botn compare de la pantalla principal, luego seleccione two samples y Hiptesis Test . Tendr el siguiente par de pantallas

Fig. 86

- 86 -

Estando dentro de este procedimiento deber llenar los distintos campos que tiene la
siguiente pantalla, y que dicen relacin con la informacin muestral que usted posee y el tipo de
prueba de hiptesis que necesita realizar.
Fig. 87

Si usted dispone de los datos originales colectados por su sistema de medicin,


entonces deber acceder a la siguiente pantalla , llenando los respectivos campos solicitados
por el Software Stagraphics.
Fig. 88

Habiendo ingresado sus columnas de datos o variables, ellos son procesados y se


entregan diversos tipos de resultados cuantitativos como grficos explicativos

- 87 -

7.4.2.3.- Prueba de hiptesis e intervalo de confianza acerca una proporcin "p ".
En muchos problemas de ingeniera, se tiene inters en una variable aleatoria que sigue
o se comporta como una distribucin Bernoulli. Por ejemplo, considrese un proceso productivo
que fabrica artculos que son clasificados como aceptables o defectuosos; o bien un proceso de
monitoreo que controla una variable especfica mediante una lectura muestral , y la muestra se
clasifica como contaminada ( + ) o no contaminada (- ). El parmetro binomial " p "
representa la proporcin de artculos ( o muestras ) defectuosos (contaminados)
producidos.
H0 : p = p0

H1 : p < p0

H1 : p > p0

Estadstico de prueba

H1: p p0

Z0bs =

( p p 0 )

p q
n

El valor p es la proporcin de unidades con la caracterstica buscada.


Entonces X = n p es la cantidad de unidades muestrales con la caracterstica buscada.
El valor p0 es la proporcin que hipotticamente existe en la poblacin.
El valor " n p0 " representa entonces el valor esperado de unidades con la caracterstica
buscada , en la muestra de tamao "n ".

Intervalo de Confianza

para p de nivel (1 - )

Tamao de la muestra

Z
n=

p Z 1 / 2

p 0 (1 p 0 ) + Z
p p0

p(1 p )
prueba bilateral

p (1 p )
n

Z
p (1 p0 ) + Z p (1 p)

n = /2 0

p
0

prueba unilateral

Para utilizar Statgraphics en la prueba de hiptesis acerca de la proporcin en la


poblacin ,cuando usted ha procesado los datos y dispone de la proporcin muestral ,el
tamao de la muestra, se utiliza el siguiente procedimiento :

- 88 -

1.- Ponga el cursor en el botn describe de la pantalla principal y luego seleccione Hiptesis
Test . Luego active enter
2.- Tendr una pantalla igual a la de la figura 85 , donde deber llenar los diferentes campos:
En la pantalla anterior ,en el campo de los parmetros, debe seleccionar Binomial
Proportion, que significa Proporcin Binomial
En la ventana Null Hiptesis , deber ingresar el valor de Hipteis a probar p 0
En la ventana Sample proportion deber ingresar el valor de la propocin en la
muestra.
En la ventana Sample Size , deber ingresar el tamao de la muestra.
Luego pulse OK
Fig. 89

Ver aparecer una pantalla como la de la Figura 91. Colocando el cursor en el sector
izquierdo de la figura anterior , y activando el sector derecho del mouse , tendr acceso a

Anlisis Options, desde donde podr definir la hiptesis alternativa H 1 y el error tipo I ( ).:
Luego aplique 0K y tendr :

- 89 -

Fig. 90

El intervalo de confianza para la verdadera proporcin poblacional.


La decisin acerca de la prueba de hiptesis
La curva de potencia de la prueba o test

7.4.2.4.- Prueba de hiptesis acerca de la diferencia entre dos proporciones " p1 y p2 ".
Las pruebas de hiptesis del punto 6.4.2.2 pueden extenderse al caso donde existen dos
parmetros binomiales de inters ( por ejemplo p1 y p2 ) y se desea probar que son iguales o
que difieren en una cantidad .
Esta prueba de hiptesis, para asegurar la convergencia a la distribucin normal de los
parmetros muestrales, necesita que los tamaos de las respectivas muestras tomadas
independientemente en cada una de la poblaciones sean de tamao grande (preferentemente
superior o igual a 100 ).
Los estimadores de las proporciones poblacionales son p 1 =

X1
n1

p 2 =

X2
y que
n2

tienen distribuciones aproximadamente normales.


Para probar la hiptesis H0 , se debe calcular =

X1 + X 2
, donde X1 y X2 representan
n1 + n 2

las cantidades de unidades, en cada una de las muestras, que poseen la caracterstica en
estudio.

- 90 -

H0 : p1 - p2 =

H1: p1 - p2 <

H1 : p1 - p2 >

Estadstico de prueba

H1 : p1 - p2

Intervalo de confianza de nivel (1 - )

( p 1 p 2 ) Z1 /2

(1 )(

1 1
+
n1 n2

ZObs =

( p 1 p 2 )

(1 )(

1
1
+ )
n1 n2

Tamao de la muestra

(Z
n=

( p1 + p 2 )(q1 + q 2 ) / 2 + Z

p1q1 + p 2 q 2

( p1 p 2 ) 2

La frmula que permite calcular el tamao muestral est dada en el caso de realizar una
prueba de hiptesis con alternativa unilateral. En el caso de que se desee realizar una prueba
bilateral ( ), entonces es necesario remplazar Z por Z /2
Para utilizar Statgraphics en la prueba de hiptesis acerca de la diferencia entre las
proporciones de dos poblaciones ,cuando usted ha procesado los datos y dispone de las
proporciones de cada muestra,se utiliza el siguiente procedimiento :
1 Ponga el cursor en el botn compare de la pantalla principal , luego seleccione two samples y Hiptesis Test Tendr el e par de pantallas indicadas como Fig. 87 , Fig.88
Si el inters del investigador estuviese en probar si la cantidad esperada de unidades, X,
que tienen una cierta caracterstica cuando se extrae de esa poblacin , lote , o proceso una
muestra de tamao "n" , entonces la estructura de la prueba de hiptesis sera:
H0 : np =n p0 = X0
H1 : n p < X0

H1 : n p > X0

Estadstico de prueba
H1 : n p X0

- 91 -

Z0bs =

( X np0 )
np0 (1 p0 )

7.4.3.- Aplicaciones de la Distribucin t - Student en la Prueba de Hiptesis y la


construccin de intervalos de confianza.
Cuando se prueban hiptesis a cerca del promedio de una poblacin cuando 2 es
desconocida, es posible utilizar los procedimientos antes descritos , siempre y cuando el
tamao de la muestra sea grande. Sin embargo, cuando la muestra es pequea y 2 es
desconocida, debe plantearse una hiptesis sobre la forma de la distribucin subyacente con
la finalidad de obtener un procedimiento de prueba.
En muchos casos, una hiptesis razonable es que la distribucin que modela el
comportamiento de los datos, es normal. Pero en el caso de muestras pequeas y varianza
desconocida, se ha desarrollado una distribucin denominada t de Student .
Tambin se origina como el cuociente de dos distribuciones, donde una de ellas es la
distribucin normal. De hecho , la distribucin t de Student tiene una forma muy parecida a
la Normal. (Tabla al final del texto)
Muchas de las poblaciones que se encuentran en la prctica, quedan bien aproximadas
por la distribucin normal, razn por la cual esta hiptesis conduce a un procedimiento de
prueba de gran aplicabilidad.
Un alejamiento moderado de la normalidad estadstica tiene poco efecto sobre la validez
de la prueba. Cuando la hiptesis no es razonable, entonces puede especificarse otra
distribucin (Exponencial, Weibull, lognormal, etc.) y usar algn mtodo general para la
construccin de pruebas de hiptesis con la finalidad de obtener un procedimiento vlido, o
tambin pueden utilizarse pruebas no- paramtricas que son vlidas para cualquier
distribucin estadstica.

7.4.3.1.- Prueba de hiptesis e intervalo de confianza para el promedio


Supngase que la poblacin tiene una distribucin normal con media y varianza 2 ,
con ambos parmetros desconocidos.
Se desea probar la hiptesis de que es igual a una constante 0. Necesitamos la
informacin muestral del promedio aritmtico X y la varianza muestral S2.
H0 : = 0

H1 : < 0

H1 : > 0

Intervalo de
confianza

Estadstico de prueba
TObs

H1 : 0

( X u0
S 2

X T1 / 2,

S 2
n

T1 - /2 , , es un valor obtenido de una tabla que contiene la distribucin t - student y el

valor = n - 1. Este smbolo nos indica los grados de libertad de la distribucin, los cuales estn
indicados en la fila de la tabla. Es igual al nmero de datos muestrales menos 1.
Para rechazar la hiptesis H0, a favor de H1,se debe cumplir que el valor del estadstico
de prueba caiga en la regin de rechazo indicada por la hiptesis alternativa H1
i =n

Adems , recordemos que

S 2 =

i =n

(X1 X )2
i =1

n 1

- 92 -

S2 =

(X
i =1

X )2

Para utilizar Statgraphics en la prueba de hiptesis acerca del promedio , cuando


usted ha procesado los datos y dispone del promedio y la desviacin estndar muestral,
se utiliza el siguiente procedimiento :
1.- Ponga el cursor en el botn describe de la pantalla principal y luego seleccione
Hiptesis Test . Tendr el siguiente par de pantalla como lo indican la Fig. 84 y 85 .

7.4.3.2.- Prueba de hiptesis e intervalo de confianza para la diferencia entre


promedio de dos distribuciones , muestras independientes

los

Ahora se considerar una prueba de hiptesis sobre la diferencia de los promedio 1 , de dos distribuciones normales donde las varianza 12 y 22 son desconocidas pero

iguales , estimadas a travs de sus respectivas varianzas muestrales S12 y S 22 .


Las muestras obtenidas de cada poblacin son independientes entre si . Tal como se
indic en la prueba homnima en puntos anteriores, se requiere la hiptesis de normalidad para
desarrollar el procedimiento de prueba, pero los alejamientos o distanciamientos moderados de
la normalidad estadstica no tendrn efectos adversos sobre el procedimiento (Concepto de
prueba robusta ).

H0 : 1 - 2

Estadstico de Prueba

( X1 X 2 )
(n1 1) S12 + (n2 1) S22 1 1
+
n1 + n2 2
n1 n2

Tobs =
H1 : 1 - 2 <

H1: 1 - 2

>

H1: 1 - 2

El valor del Estadstico de prueba se compara con valores obtenidos de una Tabla
Estadstica de la distribucin t-Student , adjunta al final del texto, segn se la hiptesis
alternativa H1 que se est utilizando. Los grados de libertad , son iguales al tamao de la
muestra menos 1.
El intervalo de confianza de nivel (1- ), para la diferencia entre los promedios
poblacionales 1 - 2 , est dado por

( X 1 X 2 ) T(1 / 2);
Los grados de libertad

(n1 1) S12 + (n2 1) S 22


n1 + n 2 2

para la distribucin son

1
1
+
n1 n2

= n1 + n2 2

Para realizar esta prueba de hiptesis ,utilizando statgraphics, se debe realizar un


procedimiento como lo indican las pantallas de las Figuras 87 a 89

- 93 -

Ejercicio de Aplicacin.
Dos proveedores fabrican un engranaje plstico utilizado en una impresora lser. Una
caracterstica importante de estos engranajes es la resistencia al impacto . la cual se mide en
pies-libras. Una muestra aleatoria de 10 engranajes suministrados por el proveedor "A" y de 15
engranajes suministrados por el proveedor "B" , entregan los siguientes resultados :

Proveedor
A
B

Tamao Muestra
10
15

Promedio
290
321

Desv. Estndar
12
15

a)

Existe evidencia que apoye la afirmacin de que los engranajes del proveedor "B"

tienen una mayor resistencia promedio al impacto ?. Utilice = 0,05.


b)
Los datos apoyan la afirmacin de que la resistencia promedio al impacto de los
engranajes del proveedor "B" es al menos 20 pies-libra mayor que la del proveedor "A" ?
c)
Construya un intervalo de confiabilidad del 95 % ,para la diferencia promedio entre las
resistencias de los engranajes suministrados por ambos proveedores.

7.4.3.3.- Prueba de hiptesis e intervalo de confianza para la diferencia entre


promedio de dos distribuciones , muestras dependientes.

los

En el caso las muestras obtenidas de cada poblacin son dependientes entre si , como
ejemplo , cuando la misma muestra es sometida a anlisis por laboratorios diferentes que
utilizan la misma metodologa ; la misma unidad muestreada es sometida a una medicin pre
y post ; puede ser tambin cuando las observaciones sobre las dos poblaciones de inters se
recopilan por pares , tomadas bajo condiciones homogneas , pero ests pueden cambiar
de un par a otro . Esta prueba recibe el nombre de prueba " t pareada " .
Se calcula la diferencia entre cada par de observaciones di = X i - Yi desde i = 1 , 2...n
Con los valores de di , se obtiene su promedio aritmtico
i =n

d =

di
i =1

i =n

, S d2 =

(d
i =1

n 1

H0 : 1 - 2

H1 : 1 - 2 <

H1: 1 - 2

d )2

>

para remplazarlos en el estadstico de prueba

Estadstico de Prueba

H1: 1 - 2

TObs =

(d )
S 2
d

- 94 -

El valor del Estadstico de prueba se compara con valores obtenidos de una Tabla
Estadstica de la distribucin t-Student, adjunta al final del texto, segn se la hiptesis
alternativa H1 que se est utilizando. Los grados de libertad, son iguales al tamao de la
muestra menos 1.
El intervalo de confianza de nivel (1- ), para la diferencia entre los promedios
poblacionales 1 - 2 , est dado por

d T1 / 2

S d2
1 - 2 d + T1 / 2
n

S d2
n

7.4.3.4.- Desarrollo de Ejercicios de Aplicacin


Quince hombres adultos trabajadores de una Empresa Minera de la II Regin, cuyas
edades fluctan entre los 35 y 50 aos , participaron en un estudio aerbico para evaluar el
efecto de la dieta y el ejercicio sobre los niveles de colesterol en la sangre . El colesterol total
fue medido al inicio del estudio en cada trabajador, y tres meses despus de participar en el
estudio y de haber cambiado la alimentacin a una dieta baja en grasas, se obtuvieron los
siguientes resultados :

Nivel de Colesterol Total en la Sangre


Sujeto
Antes
Despus

1
2
3
4
5
6
7
8
9 10 11 12 13 14 15
265 240 258 295 251 245 287 314 260 279 283 240 238 225 247
229 231 227 240 238 241 234 256 247 239 246 218 219 226 233

a).- Estos datos apoyan la afirmacin de que la dieta baja en grasas y el ejercicio
aerbico son de gran valor en la disminucin de los niveles de colesterol total en la sangre ?
b).- Construya un intervalo de confianza del 95 % , para establecer la reduccin
promedio conseguida en el estudio , por los trabajadores

Para utilizar Statgraphics en la prueba de esta hiptesis ,se utiliza el siguiente


procedimiento :
1.- Ponga el cursor en el botn Compare de la pantalla principal . Luego seleccione
Two -Samples ". Finalmente seleccione "Paired Sample Comparision.
2.- Llene los dos campos que se presentan en la pantalla de dilogo.
3.- Seleccionando desde "Tabular Options", usted tendr acceso a Probar la
Hiptesis formulada y el respectivo intervalo de confianza para la diferencia promedio

- 95 -

7.4.4.- Aplicaciones de la Distribucin Chi-Cuadrado.


La distribucin de probabilidad Chi-cuadrado, o distribucin 2 , fue descrita por primera
vez por Karl Pearson alrededor del ao 1900. Es una variable aleatoria y que a la vez se
utiliza como estadgrafo de contraste o de prueba , al igual que las distribuciones Normal, t de
Stdudent. Tiene amplias aplicaciones y variadas utilizaciones , las que entre las ms frecuentes
se cuentan:
o
o
o

Prueba de hiptesis e intervalos de confianza para la varianza de la poblacin


Prueba de Independencia en tablas de contingencia o de asociacin
Prueba de la Bondad de Ajuste

7.4.4.1.- Prueba de hiptesis e intervalos de confianza


poblacin.

para la varianza de una sola

En algunas oportunidades se necesitan pruebas sobre la varianza o la desviacin


estndar de una poblacin (dispersin) o distribucin.
Supngase que se desea probar la hiptesis de la varianza de una poblacin normal
2
es igual aun valor especfico ,
Por ejemplo, 02 . De una muestra aleatoria de tamao "n" extrada de la poblacin, se
calcula el valor S 2
H0 : 2 = 02
H1 : 2 < 02

H1 : 2 > 02

Estadstico de prueba
H1 : 2 02

2
=
Obs

(n 1) S 2

02

El valor del Estadstico de prueba se compara con valores obtenidos de una Tabla
Estadstica de la distribucin Chi-cuadrado , adjunta al final del texto, segn se la hiptesis
alternativa H1 que se est utilizando.
Los grados de libertad, al igual que en la distribucin t Student , son iguales al tamao
de la muestra menos 1.
Un intervalo de confianza de nivel ( 1 - ) para la varianza de la poblacin est dado
por la expresin

(n 1) S 2

12 / 2

- 96 -

(n 1) S 2

2 / 2

Ejemplo :
La desviacin estndar de cierto proceso de produccin es de 4 pulgadas. Se sospecha que la
varianza se ha hecho demasiado grande( a aumentado ). Se toma una muestra de 9 partes
producidas en dicho proceso y sus medidas son :
50 , 57 , 52 , 54 , 58 , 59 , 58 , 56 , 55
La prueba de hiptesis, de forma simblica, tiene la siguiente estructura :
H0 : 2 = 4

v / s H1 : 2 > 4 a un nivel de significancia = 0,05

Para probar esta hiptesis utilizando statgraphics, debemos calcular previamente la


desviacin estndar de los datos y realizar los siguientes pasos.
1.- Posicionar el cursor en Describe. Luego seleccionar en la ventana , Hypothesis Tests.
2.- Deber llenar los campos de la pantalla de la siguiente manera , y finalmente pulsar OK
Fig. 91

3.- Una vez que se ha accedido al procedimiento, pulsando el sector derecho del mouse
podr seleccionar Anlisis Options y definir la estructura de la hiptesis H1. y el nivel de

sinificancia ( Fig. 91). Saldr un mensaje acerca de la decisin que se debe adoptar y el
intervalo de confianza para la desviacin estndar.
Observacin
Debemos tener en consideracin que en la mayora de las veces la preocupacin
fundamental est centrada en conocer el comportamiento de la desviacin estndar , como
medida de variabilidad. Por eso es que Statgraphics dedica esta ventana a tal medida de
variabilidad.
Adems el intervalo de confianza para la desviacin estndar tambin se obtiene cuando
se procesan datos numricos ,una sola variable al seleccionar desde la tabular Options , la
ventana "Confidence Intervals "

- 97 -

7.4.4.2.- Prueba de Independencia en tablas de contingencia o de asociacin


En muchas ocasiones, los "n" elementos de una muestra tomada de una poblacin
pueden clasificarse de forma conjunta de acuerdo con dos criterios o variables diferentes. Sea
estas variables " R " y " C ". Es decir, podemos observar en cada elemento dos variables, que
generalmente tiene como respuesta una caracterstica cualitativa o atributo.
La tabla estadstica que se genera se denomina tabla de contingencia o de asociacin,
que tiene " i " filas y " j " columnas Resulta de inters saber si existe algn grado de
dependencia o de asociacin entre los niveles de clasificacin de las variables.
Por ejemplo ,
Se desea averiguar si hay alguna asociacin estadsticamente significativa entre "Nivel
de Formacin Acadmica "y el "Rendimiento Laboral". Si existe alguna asociacin
estadsticamente significativa entre el " Ausentismo Laboral " y la " Edad " , etc
La hiptesis nula a probar es la de que las Variables " R " y " C " son independientes.
Esto es de que no hay asociacin o relacin entre las dos variables. La hiptesis alternativa es
la negacin de la hiptesis nula .
Bajo el contexto de la hiptesis H 0 , es decir de independencia entre las variables , es
de esperar que la Probabilidad Conjunta entre las variables se igual al producto de las
probabilidades Marginales de cada una de ellas, es decir
P ( Ri , Cj ) = P ( Ri ) x P ( Cj)
Los valores de las frecuencias conjuntas en cada una de las casillas , se comparan con
los valores esperados para cada casilla.
Los valores esperados para cada casilla se calculan multiplicando los totales en cada fila
por los totales en cada columna y luego este producto se divide por el total " n " de la tabla
Por ejemplo el valor esperado conjunto en la columna 2 , fila 3 ( f23 ) se obtiene
multiplicando el total de fila 2 por el total en la columna 3 . Luego dividir por el total de datos

Es decir ,

f f
f23 = 2 3
n

Se probar la hiptesis H
respectiva frecuencia esperada.

comparando cada frecuencia conjunta observada con su

El estadstico de prueba es :

( fij fij ) 2
=
f
j =1 k =1
J

2
( j 1)( k 1)

(Estadstico de Prueba )

ij

Aqu el contraste es unilateral y el valor del estadstico de prueba se compara con el


valor obtenido de una tabla de Distribucin Chi-cuadrado con grados de libertad igual al
producto (nmero de filas - 1)x( nmero de columnas - 1 ) , para un nivel de confianza
especfico

- 98 -

7.4.4.3.- Prueba de la Bondad de Ajuste


El procedimiento de prueba requiere de una muestra aleatoria de tamao " n "
proveniente de la poblacin la cual tiene una distribucin de probabilidad desconocida. Estas "n"
observaciones se ubican en los " k " intervalos reales , cada uno de ellos conteniendo una
cantidad "f i ". Seguidamente se representan grficamente en un histograma de frecuencia . Se
supone o propone una distribucin de probabilidad, bajo la cual se calculan las frecuencias
esperadas para cada uno de los intervalos, las que se denotan por " fi ".
Hiptesis Ho es: " Los datos muestrales se distribuyen segn la distribucin propuesta"
Hiptesis nula H 1 es " Los datos muestrales no se ajustan o no provienen de la
distribucin propuesta ".
El estadstico de prueba es

2
Observado

( f i fi ) 2
=
f
i =1
i =k

La prueba de Bondad del Ajuste es slo una de varios procedimientos utilizados


para tal efecto. Cuando se trabaja con variables aleatorias continuas , la prueba chi-cuadrada
2

( ) tal vez no sea el mejor procedimiento, pero est ampliamente difundida su utilizacin.
Desde el desarrollo de aspecto tericos de la estadstica matemtica, se demuestra que
si la poblacin sigue o se distribuye segn el modelo de probabilidad propuesto, el valor de
2
Observado
tiene de manera aproximada una distribucin Chi-cuadrada con " k p 1 " grados de
libertad, donde k representa la cantidad de intervalos utilizados; p es el nmero de parmetros
estimados a partir de los datos muestrales. La aproximacin a la distribucin puede mejorar si el
tamao de la muestra aumenta.
2
> que el valor entregado
La hiptesis nula Ho es rechazada cuando el valor de Observado
2

por la tabla con un nivel de confianza " 1 y k p 1 " grados de libertad.


Existe una tcnica grfica para probar si Ho se cumple . Esto se realiza por medio de la
"grafica de probabilidad ". Si el modelo de probabilidad propuesto ajusta a los datos,
entonces el grfico de probabilidad mostrar que los datos tendern a alinearse en torno a una
lnea recta.
2

Observaciones:
Este procedimiento de prueba est muy relacionado con la "magnitud o cantidad" de las
frecuencias esperadas. Si estas frecuencias son muy pequeas, entonces el estadstico de
2
prueba Observado
no reflejar cabalmente el alejamiento entre lo observado y lo esperado, sino
slo la pequea magnitud de las frecuencias esperadas.
No existe un acuerdo respecto de cual sera la cantidad mnima a aceptar como
frecuencia esperada, pero en general los valores 3, 4 y 5 son los que ms se utilizan como
mnimos. Algunos autores sugieren que la frecuencia esperada puede se tan pequea como 1 o
2, siempre y cuando que muchas de ellas en la tabla de distribucin de los datos resulten ser
mayores que 5.
Si una frecuencia esperada en un intervalo es pequea, entonces pueden juntarse con la
frecuencia esperada del intervalo adyacente. Las frecuencias observadas correspondientes
tambin se combinan, por lo que entonces el N " k " de intervalos tambin disminuye.
Tambin se debe destacar entonces de que no es necesario de que los intervalos tengan
la misma longitud o ancho.

- 99 -

7.4.4.4.- Desarrollo de Ejercicios de Aplicacin.


Supngase , que se desea averiguar si hay alguna asociacin significativa entre el nivel
de formacin acadmica y el rendimiento laboral

Rendimiento
Excelente
Bueno
Regular

Enseanza HumanistaCientfica
10
30
10

Enseanza Tcnica
Profesional
40
30
30

Tcnica
Universitaria
10
20
20

En primer lugar se debe construir la tabla con las frecuencias esperadas


Rendimiento

Enseanza
Humanista-Cientfica

Enseanza Tcnica
Profesional

Tcnica
Universitaria

TOTAL

Excelente
Bueno
Regular
TOTAL

15 =(50 X60)/200
20=(50 X80)/200
15=(50 X60)/200
50

30=(100 X60)/200
40=(100 X80)/200
30=(100 X60)/200
100

15=(50 X60)/200
20=(50 X80)/200
15=(50 X60)/200
50

60
80
60
200

El Estadstico de Prueba es
2
Obs
=

(10 15) 2 (40 30) 2 (10 15) 2


(20 15) 2
= 17,5
+
+
+ ..........+
15
30
15
15
En la tabla de distribucin

al final del texto, encontramos que para un nivel de

confianza del 95 % y con grados de libertad


= (nmero de filas - 1) x( nmero de columnas - 1) =
2 x 2 = 4 el valor es de 9,48773.
Por lo tanto se debe rechazar la hiptesis nula de que no existe relacin significativa
entre la formacin acadmica de los empleados y su rendimiento laboral
El Coeficiente de Contingencia es una medida del grado de interrelacin, asociacin o
dependencia de las clasificaciones en una tabla de contingencia que se calcula de la siguiente
forma

C.C =

2
Obs

2
Obs
+N

donde N es el Total de datos

Cuanto mayor es el valor del C.C , mayor es el grado de asociacin entre las variables
En este caso el C.C =

17.5
= 0,0897
17.5 + 200

Este coeficiente vara entre cero y uno.

- 100 -

Para tablas de contingencia con "i" filas y "j" columnas, el mayor valor que puede tomar
dicho coeficiente es

(k 1)
donde k = mnimo{ i, j}.
k

La Correlacin de Atributos es una medida del grado de dependencia, asociacin o


interrelacin entre los niveles de medicin (atributos o clasificaciones) de las variables que
definen la tabla. Un coeficiente de esta naturaleza es el Coeficiente V de Cramer`s

V=

En este ejemplo el V =

2
Obs

N (k 1)

donde k = mnimo { i , j}.

17.5
200 (3 1)

= 0,2092

En el "Summary Statistics del botn " Tabular Options " de Statgraphics, se encuentran
los siguientes coeficientes aplicados a tablas de Contingencia

Summary Statistics
With Rows
With Columns
Statistic
Symmetric Dependent
Dependent
-----------------------------------------------------Lambda
0,0455
0,0833
0,0000
Uncertainty Coeff.
0,0405
0,0396
0,0415
Somer's D
0,0778
0,0800
0,0758
Eta
0,1581
0,1708
-----------------------------------------------------Statistic
Value
P-Value
Df
-----------------------------------------------------Contingency Coeff.
0,2837
Cramer's V
0,2092
Conditional Gamma
0,1190
Pearson's R
0,0913
0,0993
198
Kendall's Tau b
0,0778
0,2201
Kendall's Tau c
0,0750
-----------------------------------------------------Algunas explicaciones cualitativas son necesarias para entender estos coeficientes:
Lambda : Vara entre Cero y Uno. (Valores cercanos a cero indican que no hay asociacin
entre las variables. Valores prximos a Uno , indican una variable est relacionada o puede
predecir a la otra.
Uncertainty Coeff , Pearson's R : Muestran el grado de relacin lineal entre las dos variables
Somer's D : Para casos simtricos y asimtricos ( Con filas o columnas como variable
dependiente), muestra una medida simtrica de asociacin para las variables las cuales tienen
mediciones en escala ordinal .

- 101 -

Eta : Es una medicin aproximada de la asociacin entre dos variables, cuando la variable
dependiente tiene un escala de intervalos y la variable independiente tiene escala nominal o
ordinal. Este coeficiente es similar al coeficiente de correlacin de Pearson; sin embargo, es
asimtrico y no asume una relacin lineal entre las variables
Contingency Coeff: Es una medida del grado o fuerza de la dependencia entre dos
caractersticas .
Cramer's V , Conditional Gamma, son medidas de asociacin basadas en la distribucin

2.

Kendall's Tau b y c, medidas relativas al grado de acuerdo, concordancia o desacuerdo entre


las dos variables.
Para utilizar Statgraphics en este procedimiento ,se deber tomar la siguiente ruta :
1. - Crear un archivo colocando cuatro columna, en este caso, que contenga: Rendimiento, y
los tipos de formacin acadmica

Fig. 92

- 102 -

2.- Seleccionar Describe

Categorical Data

Contingency Tables

Fig.- 93

3.- Llenar los campos respectivos


Fig.- 94

4.- Utilizando los botones "Tabular Options " y " Graphical Options" tendr acceso a:
Con Tabular Options podr seleccionar "Chi-Square Test", que permite probar la hiptesis
Ho de Independencia. Tambin puede seleccionar "Summary Statistics", que le permitir
disponer de un conjunto de indicadores del grado de asociacin entre las variables.
Con Graphical Options tendr acceso a los grficos respectivos

- 103 -

2.- En un proceso de embalaje de manzanas de calidad 1 , que se exportan a la Comunidad


Econmica Europea , se realiza un muestre en 60 cajas . Se observan la totalidad de manzanas
envasadas y se cuentan cuantas de ellas resultan "disconformes " con la definicin de calidad 1
y por lo tanto se les considera defectuosa.
Nmero de Defectos
Frecuencia
Observada

32

15

La cantidad de manzanas defectuosas por cajas se distribuye o proviene de una distribucin


de Poisson ?
Ho : La cantidad de manzanas defectuosas por cajas se distribuye o proviene de una
distribucin de Poisson
H 1 : La cantidad de manzanas defectuosas por cajas NO se distribuye o NO proviene de
una distribucin de Poisson

Dado que el parmetro de la distribucin de Poisson se estima a travs del promedio


de los datos muestrales entonces
= 0.75 Manzanas defectuosas por caja. Con este valor se
determinan las probabilidades esperadas en cada intervalo y que multiplicado por el total de
cajas n = 60 , se obtiene la respectiva frecuencia esperada en el intervalo . a continuacin se
detalla el procedimiento a seguir.
P(X=0)=

0,75 0 e 0,75
= 0.472
0!

f1 = 0,472 60 = 28,32

P(X=1) =

0,751 e 0,75
= 0,354
1!

f2 = 0,354 60 = 21,24

P(X=2)=

0,75 2 e 0,75
= 0,133
2!

f3 = 0,133 60 = 7,98
f4 = 0,041 60 = 2,46

P ( X 3 ) = 1 - P (X=0) - P(X=1) - P(X=2) = 0,041

Tenemos entonces que


Nmero de Defectos

3 o ms

Frecuencia Observada f i

32

15

28,32

21,24

7,98

2,46

Frecuencia Esperada

fi

- 104 -

Dado que en la frecuencias fila de frecuencia esperadas tenemos un valor menor que
tres , se procede a juntar los dos ltimos intervalos, con lo que la tabla apartir de la cual se
calcula el estadstico de prueba es
0
32

1
15

2 o ms
13

28,32

21,24

10,44

Nmero de Defectos
Frecuencia Observada f i
Frecuencia Esperada

Y por lo tanto

2
Observado

fi

( f i fi ) 2
=
= 2,94
f
i =1
i =k

El valor de tabla Chi-cuadrado, con nivel de confianza del 95 % y grados de libertad


igual a 3-1- 1 = 1 es de 3,84.
Como el valor de Chi-cuadrado observado es menor que el valor de tabla ,entonces
concluimos de que no es posible rechazar la hiptesis nula Ho, con cual podemos afirmar con
95 % de confianza que la cantidad de manzanas defectuosas por cajas se comporta segn el
modelo de probabilidad Poisson.
Cuando se trabaja con Stagraphics , el tema de Bondad de Ajuste se hace con los datos
colectados originalmente , es decir, sin tabular.
En este caso se debe proceder de la forma como lo indica la figura siguiente:
Fig.- 95

Luego se despliega una pantalla con una variada cantidad de modelos de probabilidad ,
tantos discretos o continuos , los cuales pueden ajustar a los datos.

- 105 -

7.4.4.5.- Ejercicios de Aplicacin Propuestos


1.- Se realiz una encuesta para evaluar la eficacia de una nueva vacuna contra la gripe y el
resfro, que fue aplicada en una ciudad, en el perodo de otoo La vacuna se proporcion de
forma gratuita en una secuencia de dos inyecciones en un perodo de dos semanas a quienes
desearan aprovecharla. Algunas personas recibieron las dos inyecciones , otras se presentaron
solamente a la primera inyeccin y otras no recibieron ninguna inyeccin.
Una encuesta aplicada a 1000 personas de la ciudad al inicio del perodo de verano,
proporcion la siguiente informacin.

Gripe
No gripe
Total

Ninguna inyeccin
24
289
313

Una inyeccin
9
100
109

Dos inyecciones
13
565
578

Total
46
954
1000

Presentan los datos suficiente evidencia para indicar una dependencia entre la clasificacin
segn la vacunacin y la ocurrencia o no de la gripe?
2.- Una compaa opera cuatro mquinas en tres turnos al da. De los registros de produccin ,
se obtienen los datos siguientes sobre el nmero de fallas.
Mquinas
TURNO
1
2
3

A
41
31
15

B
20
11
17

C
12
9
16

D
16
14
10

Pruebe la hiptesis ( con = 0,05 ) de que el nmero de fallas es independiente de l turno.


3.- Un estudio que se realiz con una muestra de 81 personas referente a la relacin entre la
cantidad de violencia vista en la televisin y la edad del televidente entreg los siguientes
resultados.
E D A D
Grado de violencia
vista en televisin
Poca violencia
Mucha violencia

16

34

35

8
18

12
15

54

55 o ms
21
7

Indican los datos que ver violencia en la televisin depende de la edad del televidente?
Use =0,05

- 106 -

4.- El nmero de llamadas que se reciben en un tablero de central telefnica desde la 8:01 a las
8:01 de la maana durante un perodo de 100 das es el siguiente
Nmero de llamadas
Frecuencia

0
3

1
10

2
25

3
30

4
15

5
12

6
5

7
0

Total
100

A un nivel de significancia =0,05 , pruebe la hiptesis de la frecuencia observada proviene de :


a).- Una distribucin de Poisson
b) .- Una distribucin Binomial
5.- La estatura de 205 empleados en una industria presenta la siguiente distribucin de
frecuencia
Estatura ( cm )
150
155
160
165
170
175
180
185

Frecuencia
Observada
9
20
45
55
43
17
11
5

155
160
165
170
175
180
185
190

A un nivel de significancia =0,05 , pruebe la hiptesis de la frecuencia observada proviene de


una distribucin Normal:

- 107 -

También podría gustarte