Guia Del Curso Estadistica PDF
Guia Del Curso Estadistica PDF
Guia Del Curso Estadistica PDF
Profesores:
INTRODUCCIN A LA ESTADISTICA
La nocin de estadstica procedi primitivamente del vocablo estado, porque ha sido ocupacin
tradicional de todos los gobiernos de la civilizacin llevar registros de las poblaciones que dominaban o
gobernaban, entre eso registros se pueden mencionar: los nacimientos, las defunciones, los censos
poblacionales, cosechas, impuestos y muchas otras clases de cosas y actividades que eran y son de
importancia para un gobernante. Contar y medir estos hechos generan muchas clases de datos
numricos. Esta se ha convertido en un instrumento cotidiano de todos los tipos de profesionales que
se ponen en contacto con datos cuantitativos o extraen conclusiones de ellos. Tales tcnicos requieren
con urgencia familiarizarse con los principios bsicos de los mtodos estadsticos para poder evaluar los
informes numricos y otro gran cmulo de informacin para as evitar malos usos comunes de la
estadstica como lo es la generalizacin e inferencia que es bsica en el razonamiento estadstico. Los
estudiantes de diversas reas del conocimiento deberan tener un conocimiento prctico de los mtodos
estadsticos.
Son heterogneos los vocablos que se citan como antecedentes del trmino estadstica. Sin intentar
ser exhaustivos, pero si indagando para describir los de mayor mencin, se pueden nombrar los
siguientes:
STATERA (griego), que quiere decir balanza, ya que la estadstica mide o pesa hechos.
STAAT (alemn), que se refiere a estado como expresin de unidad poltica superior.
En las ciencias sociales, administrativas, polticas, medicas, en educacin y en otras ciencias permite
analizar algunos de los factores casuales en sucesos complejos y que de alguna manera confundiran a
un investigador determinado. De acuerdo a lo antes planteado los mtodos estadsticos son por lo tanto
los compaeros constantes de los que realizan investigacin. La estadstica y su aplicacin, ha
avanzado de tal forma en los ltimos aos, que hoy da se ha hecho imprescindible en todas las
investigaciones cientficas sea cual fuere el carcter de esta ultima.
RAMAS DE LA ESTADSTICA
ESTADSTICA DESCRIPTIVA: Describe, analiza y representa un grupo de datos utilizando mtodos
numricos y grficos que resumen y presentan la informacin contenida en ellos. Se puede definirse
como aquel mtodo que contiene la recoleccin, organizacin, presentacin y resumen de una serie de
datos. El mencionado resumen puede ser tabular, grfico o numrico. El anlisis que se realiza se limita
en s mismo a los datos recolectados y no se puede realiza inferencia alguna o generalizaciones alguna,
acerca de la poblacin de donde provienen esos datos estadsticos.
La Estadstica Descriptiva es la parte de la estadstica que conocemos desde los cursos de educacin
secundaria, que se ensea en los siguientes niveles y que, por lo general, no pasa a ser un anlisis ms
profundo de la informacin. Es un primer acercamiento a la informacin y, por esa misma razn, es la
manera de presentar la informacin ante cualquier lector, ya sea especialista o no. Sin embargo, lo
anterior no quiere decir que carezca de metodologa o algo similar, sino que, al contrario, por ser un
medio accesible a la mayora de la poblacin humana, resulta de suma importancia considerar para as
evitar malentendidos, tergiversaciones o errores.
La estadstica descriptiva analiza, estudia y describe a la totalidad de los individuos de una poblacin,
su finalidad es obtener informacin, analizarla, elaborarla y simplificarla lo necesario para que pueda ser
interpretada cmoda y rpidamente y, por tanto, pueda utilizarse eficazmente para el fin que se desee.
El proceso que sigue la estadstica descriptiva para el estudio de una cierta poblacin consta de los
siguientes pasos:
Mediante encuesta o medicin, obtencin del valor de cada individuo en los caracteres
seleccionados.
Obtencin de parmetros estadsticos, nmeros que sintetizan los aspectos ms relevantes de una
distribucin estadstica.
Por ejemplo: si un investigador aplica un test de aptitud a un grupo de graduados de un instituto superior
recientemente contratados por una empresa; entre lo que puede hacer con las puntuaciones que
resultan del test valindose de la estadstica descriptiva, estn los aspectos siguientes: arreglar las
puntuaciones o clasificarlas de manera que con solo dar un vistazo a los datos se pueda obtener una
imagen general de los mismos, construir tablas, grficas y cuadros estadsticos para visualizar el
comportamiento de los datos o bien convertir las puntuaciones brutas en rangos o en percentiles para
realizar comparaciones, etc.
estadstica que hace posible la estimacin de una caracterstica de una poblacin o la toma de una
decisin referente a una poblacin, fundamentndose slo en los resultados de la muestra.
La estadstica Inferencial, por otro lado, se refiere a la rama de la estadstica que trata de los procesos
inferenciales, la que a su vez vislumbra la teora de estimacin y prueba de hiptesis. Uno de los
primordiales aspectos de la inferencia estadstica es el proceso que radica en utilizar estadsticos
mustrales para adquirir conclusiones sobre los verdaderos parmetros de la poblacin.
Se pueden observar con albor estas ideas en el ejemplo de una encuesta poltica. Si el encuestador
desea estimar el porcentaje de votos que un candidato obtendr en una eleccin especfica, no
entrevistara a cada uno de los millares (o inclusive millones) de votantes. Ms bien, seleccionara una
muestra de los votantes. Tomando como base el resultado de la muestra, obtendra conclusiones
acerca de la poblacin total de votantes. A estas conclusiones se les asociara un planteamiento de
probabilidad que especfica la esperanza o la confianza que se tiene de que los resultados de la
muestra reflejen la verdadera conducta de los votantes de toda la poblacin.
La fidelidad de cualquier estimacin tiene una importancia enorme. Esta precisin depende en gran
parte de la forma de tomar la muestra y de la atencin que se ponga en que esta muestra suministre
una imagen fiable de la poblacin, pero casi nunca la muestra representa la poblacin en toda su
plenitud, y de ello resultar un error muestral.
Todo lo que hasta apartadamente tiene que ver con la recoleccin, procesamiento, anlisis e
interpretacin de datos numricos pertenece al dominio de la estadstica, comprende, por ejemplo, el
clculo del aumento, en promedio, de las utilidades de una importante compaa de ventas de artculos
por Internet los ltimos tres aos; la recoleccin y presentacin anual de la deuda a corto plazo de tres
compaas de electricidad, as como un porcentaje de su deuda a largo plazo; la evaluacin de la
eficacia de dos diferentes programas de computacin, destinado reducir el nmero de accidentes
personales en una empresa, el tiempo perdido en trabajo de alto riesgo; y el anlisis de las variaciones
que ocurren de cuando en cuando en serie de datos econmicos, ventas al menudeo, precios al
consumidor y al mayoristas, y distribucin de dinero, precios de productos comunes, productividad del
sector agrcola, etctera.
La palabra estadstica, por s sola se utiliza en varias formas. En un contexto, significa un conjunto de
datos como los que se pueden encontrar en las pginas financieras de los diarios o en los compendios
estadsticos. Pero, en otro mbito, se refiere a la totalidad de los mtodos que se aplican en la
recoleccin, organizacin, presentacin, anlisis e interpretacin de cualquier tipo de datos. En este
ltimo sentido, la estadstica es una rama de las matemticas aplicadas, y es este campo de las
matemticas el que constituye el tema central de este curso.
Una de las manifestaciones ms comentado en los ltimos aos del pasado siglo y del presente milenio,
ha sido el desarrollo de mtodos y conceptos estadsticos. Durante muchos aos, a la estadstica le
concernan principalmente la recoleccin de datos y su presentacin en tablas y grfica; hoy da ha
evolucionado hasta el punto en que su impacto se percibe en casi todas las reas de trabajo del ser
humano. Esto es debido a que la estadstica posmoderna est relacionada directamente con el
problema de la toma decisiones en condiciones de incertidumbre. Sin necesidad de entrar en detalles,
existen elementos de incertidumbre en casi todo lo que el ser humano realiza actualmente.
caso si calculamos el crecimiento % correspondiente de una dcada a la siguiente. Sin embargo; ste
no sera el caso si empleramos tales datos para percibir la poblacin del pas en tres aos ms o el
crecimiento porcentual en una dcada.
No obstante, siempre que se haga una inferencia estadstica (una generalizacin que escape a los
lmites de nuestras observaciones) se debe proceder con mucha precaucin. De hecho, hay que
considerar concienzudamente si resulta posible hacer algunas generalizaciones vlidas del todo y, si lo
es, hasta donde se puede generalizar. Sin embargo, algunas veces aunque se actu cautelosamente al
generalizar, se puede errar por completo en las generalizaciones y encontrarse con algunas dificultades.
CONCEPTO BSICOS
POBLACIN: En estadstica el concepto de poblacin va ms all de lo que comnmente se conoce
como tal. En trminos estadsticos, poblacin es un conjunto finito o infinito de personas, animales o
cosas que presentan caractersticas comunes, sobre los cuales se quiere efectuar un estudio
determinado. En otras palabras, la poblacin se define como la totalidad de los valores posibles
(mediciones o conteos) de una caracterstica particular de un grupo especificado de personas, animales
o cosas que se desean estudiar en un momento determinado. As, se puede hablar de la poblacin de
habitantes de un pas, de la poblacin de estudiantes universitarios del Departamento de Lambayeque,
de la poblacin de casas de la Urbanizacin Las Brisas de la ciudad de Chiclayo, el nmero de carros
marca Toyota de la ciudad de Lambayeque, la estatura de un grupo alumnos de la USAT, la talla, etc.
La poblacin es el conjunto formado por todos los valores posibles que puede asumir la variable objeto
de estudio, ya que constituye la totalidad del grupo que se quiere estudiar los que van a poseer una
caracterstica de ese grupo especfico de individuos, animales o cosas. Es la coleccin de todos los
elementos que se estn estudiando, acerca de los cuales se intenta sacar conclusiones, el cual puede
ser un conjunto finito o infinito de personas, animales o cosas que presentan caractersticas comunes.
As por ejemplo, en un estudio sobre la preferencia de los electores que participaran en una eleccin
presidencial, la poblacin consiste en todos los participantes registrados para votar en ese proceso.
Pero el trmino no slo est asociado a la coleccin de seres humanos y organismos, tambin pueden
ser cosas no vivientes tales como: el estudio de mercado que se realiza para determinar las ventas
anuales de los supermercados de una zona determinada de una ciudad, luego, las ventas anuales de
todos los supermercados constituyen as mismo la poblacin.
La muestra debe ser representativa ya que debe contener las caractersticas relevantes de la poblacin
en las mismas proporciones en que estn incluidas en tal poblacin, es decir, contiene las
caractersticas ms importantes de esa coleccin de elementos que representan la poblacin bajo
estudio, a fin de investigar alguna o algunas de las propiedades de la poblacin de la cual procede; y las
conclusiones que se obtengan de dicha muestra slo podrn referirse a la poblacin en referencia.
Muestreo Probabilstico: Es aquel que se selecciona utilizando mtodos aleatorios en los que se
utilizan las probabilidades matemticas. Entre estos se pueden mencionar: Muestreo aleatorio
simple, muestreo estratificado, muestreo por conglomerado o por rea y muestreo sistemtico.
PARMETROS.- Son cualquier caracterstica que se pueda medir y cuya medicin se lleve a cabo sobre
todos los elementos que integran una poblacin determinada, los mismos suelen representarse con letras
griegas. El valor de un parmetro poblacional es un valor fijo en un momento dado.
UNIDAD DE ANLISIS: es el objeto o elemento indivisible que ser estudiado en una poblacin, sobre los
cuales se van a obtener datos. Es el que genera el fenmeno estudiado y proporciona datos concretos.
DATO: es el valor o respuesta que adquiere la variable en cada unidad de anlisis. Es el resultado de la
observacin, entrevista o recopilacin en general. Son la materia prima de la estadstica. Es el elemento
primario de toda observacin o bsqueda.
VARIABLE
La variable es una magnitud que puede tener un valor cualquiera de los comprendidos en un conjunto
de valores de un estudio o investigacin determinada. Son todos aquellos datos u observaciones que
pueden ser expresados mediante nmeros, es decir, son caractersticas de una poblacin determinada,
susceptible de medicin. Son caractersticas que pueden ser observadas en determinado fenmeno
natural, social, econmico, poltico etc. Las mismas son susceptibles de adoptar distintos valores o ser
expresadas en varias categoras.
En los estudios estadsticos que se realizan se busca investigar acerca de una o varias caractersticas
de la poblacin observada. Para un correcto manejo de la informacin, estas caractersticas deben ser
tomadas en cuenta de acuerdo a su tipo para poder aplicar algunas de las operaciones que son
necesarios llevar a cabo. Existen muchas definiciones de variables, entre las cuales tenemos:
Son aquellos datos u observaciones que pueden ser expresados cuantitativamente, es decir, son
caractersticas de una poblacin especfica, en las cuales se realiza una investigacin en un momento
dado. Las variables por lo general se representan con letras maysculas y sus valores particulares con
minsculas, es decir, si se hace referencia a los salarios devengados por un grupo de trabajadores la
variable salario estara representado por una letra mayscula, en este caso Xi y varios salarios de
diferentes trabajadores en particular, estaran representados con la letra minscula correspondiente,
as: x1 = 180.000, x2 = 190.000, x3 = 480.00, etctera.
Es aquella caracterstica de una poblacin que puede tomar diferentes valores en un estudio
determinado. Son smbolos tal como X, Y, Z, A, B, etc., que puede tomar un valor cualquiera de una
caracterstica especificada de un estudio determinado. Por lo tanto, son caractersticas que pueden ser
observadas en determinado fenmeno natural, social, poltico, econmico, etc. Las mismas son
susceptibles de adoptar distintos valores o ser expresadas en varias categoras.
Por ejemplo, la estatura de las personas, la talla de un grupo de trabajadores petroleros, la edad de un
conjunto de estudiantes universitarios, el ndice acadmico de los estudiantes de la USAT, son
variables. En otras palabras, una variable es una funcin que asocia a cada elemento de la poblacin la
medicin de una caracterstica, particularmente de aquella que se desea observar.
TIPO DE VARIABLES
Ejemplos: sexo, nacionalidad, marcas de auto, grado de satisfaccin con la universidad, causas de
accidentes, lugar de nacimiento, estado civil, etc.
Ejemplos: peso al nacer, tiempo de servicios, horas trabajadas, ingreso mensual, temperatura,
etc.
MEDICIN: La asignacin o magnitud que se aplica a las categoras o clases de acuerdo a ciertas
reglas o smbolos. Consiste en la recopilacin de datos y su utilizacin mediante el empleo de una serie
de normas de tipo estadstico; es la representacin simblica de un dato o serie de datos obtenidos por
algn tipo de observacin.
ESCALA DE MEDICIN: Una escala de medicin es una asignacin de valores numricos a las
caractersticas de una muestra o una poblacin, se mide bsicamente en proporcin de escala. Las
escalas de medicin son el conjunto de los posibles valores que determinada variable puede tomar. Por
tal razn, los tipos de escala de medicin estn ntimamente ligados con los tipos de variables a
estudiar. Las magnitudes de las observaciones cuantitativas se conocen como los valores que una
variable puede asumir. Consiste entonces, en una serie de graduaciones que permiten darle un valor
numrico a las caractersticas que estamos midiendo; para hacer ms comprensible y que adquiera un
significado mediante un arreglo ordenado para establecer un anlisis estadstico. Son denominaciones
o clasificaciones de individuos o caractersticas. Las escalas de medicin es el alma fundamental de
toda investigacin Cientfica, puesto que, slo a travs de ellas es como se pueden calibrar los
fenmenos, sus relaciones, entre otros.
Se refieren habitualmente a las asignaciones de nmeros a observaciones, de una forma tal que los
nmeros sean susceptibles de anlisis por medio de manipulaciones u operaciones; estas escalas
permiten asignarle un valor numrico a las caractersticas que se estn midiendo. Por lo general
proceden de las medidas de una o ms variables. Dependiendo de la medicin y de la esencia de las
variables, se obtienen diversas clases de datos que originan diferentes escalas. Resulta intensamente
conocer el tipo de escala que representan los datos, debido a que, de su esencia dependen las tcnicas
estadsticas que se debern aplicar para su anlisis. Para lograr estadsticas confiables hay que
manipular cuantiosos datos estadsticos, los cuales poseen determinadas caractersticas.
Por ejemplo, si los datos son alumnos, entre algunas de ellos se puede sealar el peso, la estatura, el
sexo, el rendimiento acadmico, entre otros. Al elaborar estadsticas con datos y su caracterstica es
necesario contarlas, jerarquizarlas y medirlas, es por ello que, se utilizan las escalas de medicin como
el proceso de asignar nmeros o establecer una correspondencia uno a uno entre objetivos y
observaciones.
Las escalas de medicin s clasifican de la siguiente forma: Escala Nominal, Escala Ordinal, Escala de
Intervalos y Escalas de razn o Proporcin.
Escala de Medicin Nominal: Es aquella en la que los nmeros slo se emplean para diferenciar
los objetos de distintas categoras o cuando se emplean nombres. Se dice que los datos que se
obtienen para una variable cualitativa se miden en una escala nominal. Si los datos observados
simplemente se clasifican en distintas categoras que no implican orden, se tiene un nivel de
medicin nominal. Ejemplos de nmeros, esta caracterstica son las que usan los jugadores de
bisbol, los nmeros telefnicos, los nmeros de las Cedulas de Identidad, etctera. Se usa una
escala nominal cuando se distribuyen conjuntos de objetos, personas o caractersticas entre dos o
ms categoras. La Escala Nominal se utiliza como medida de identidad. Los nmeros pueden servir
como indicativos o etiquetas para identificar objetos o clases, pues se usa cuando un objeto se
diferencia de otro solamente por la nominacin con que se conoce. La escala nominal es la forma
ms dbil de medicin porque no se puede intentar el conteo de las diferencias dentro de una
categora determinada o especificar cualquier orden o direccin a lo largo de las diversas
categoras. Sin embargo, no se intenta medir diferencias entre los valores clasificados dentro de una
categora determinada.
Ejemplos:
(1) Cristianos;
(2) Judos;
(3) Musulmanes;
(4) Otros; y
(5) Sin Creencia alguna.
O bien podran clasificarse segn el sexo, el color de los ojos, algn partido poltico, etctera.
Otros ejemplos de escala nominal puede ser el nmero de placa de los vehculos, los nmeros de
los telfonos de una ciudad, la Cedula de Identidad de los habitantes de un pas, etctera.
Escala de Medicin Ordinal: Es aquella en la que los nmeros se utilizan para diferenciar en orden
de supremaca de acuerdo con cierto criterio jerrquico, como son los nmeros que se emplean
para clasificar los distintos estratos socio-econmicos o para designar preferencias. Si los datos
observados se clasifican en categoras distintas en las que existe algn orden, se obtiene un nivel
de medicin ordinal Cuando los objetos son medidos en escala ordinal los que tengan la misma
asignacin se consideran iguales; pero los que tengan asignaciones diferentes pertenecen a
categoras distintas. La diferencia entre dos nmeros ordinales no tiene significado cuantitativo, slo
expresan, por ejemplo, que una situacin es mejor que otra, pero no cuanto. La escala ordinal es
una forma un tanto ms fuerte de medicin que la nominal, porque se dice que un valor observado
que se clasifica en una categora posee ms la propiedad que se mide que algn valor observado
que se clasifica en otra categora.
Tambin, la escala ordinal siegue siendo una forma de medicin dbil porque no se pueden hacer
planteamientos numricos significativos con respecto a las diferencias entre las categoras. Es decir,
la ordenacin establece slo cul categora es mayor, mejor o preferida; y no se habla cunto
es mayor, mejor o ms preferida. Esta escala se emplea, cuando un estudio esta basado en
ciertas normas que se asignan a un conjunto de objetos, personas o caractersticas o a un conjunto
de categoras ordenadas. Las categoras de la escala se ordenan d acuerdo con la cantidad de
rasgos o caractersticas que representan cada una de ellas ya que la escala ordinal distingue los
diferentes valores de la variable, ubicando las caractersticas en orden, desde la ms alta hasta la
ms baja.
Se pueden clasificar los habitantes de una ciudad de acuerdo a su situacin econmica, a los
estudiantes tomando en cuenta a su rendimiento acadmico, etctera. Aunque la escala ordinal
resulta en cierta forma ms precisa que la nominal, no alcanza el grado de precisin deseado en
una investigacin.
Otro ejemplo, el orden jerrquico de los militares (Subteniente, Teniente, Capitn, Mayor, Teniente
Coronel, Coronel, General) y la clasificacin acadmica de los profesores universitarios (Instructor,
Asistente, Agregado, Asociado, Titular) son ejemplos de escala ordinal.
En la escala ordinal las unidades de las subclases guardan una cierta relacin entre s, esto se pone
de manifiesto cuando existe la posibilidad de establecer la relacin menor que o mayor que,
respecto a las caractersticas de las unidades escaladas. Por ejemplo, El grado militar de A es el de
Subteniente y el de B es el de Teniente, luego el grado de B es mayor que el de A (BA)
Otro ejemplo de medicin con la escala ordinal es el referido al de la escala de dureza de los
minerales, es decir, la resistencia que oponen los minerales al ser rayados, los cuales van del uno al
diez. El talco se asocia con el valor uno porque no raya a ninguno, el diamante se asocia con el
valor diez porque no es raya por ningn otro, pero si puede rayar al resto de los minerales, etctera.
Escala de Medicin de Intervalos: Es una escala ms especializada que las dos anteriores,
puesto que es posible ordenar las mediciones y expresar adems en cunto difiere una situacin
de la otra. Por Ejemplo, en las mediciones de temperatura ambiental no slo se puede afirmar hoy
hace ms calor que ayer, si no que de la misma forma se puede expresar hoy la temperatura es
cuatro grados Centgrados ms alta que la de ayer a la misma hora. Esta escala se caracteriza por
tener una unidad de medida y un origen (cero) arbitrario. La distancia entre dos mediciones tiene un
significado preciso. La escala de intervalos a diferencia de la nominal y ordinal, es una escala
efectivamente cuantitativamente. Una escala de intervalo es una escala ordenada en la cual la
diferencia entre las mediciones es una cantidad significativa.
Un ejemplo de esta escala lo constituyen las escalas utilizadas para medir temperatura, bien sea en
grados Centgrados o Fahrenheit. En estas escalas la diferencia entre 80 y 85 es igual a la que
existe entre 90 y 95 o entre dos puntos cualesquiera de la escala. La escala de intervalo tiene
carcter cuantitativo y esto le permite el clculo de las medidas estadsticas ms comunes (medias,
desviaciones tpicas o estndar, coeficientes de correlacin de Pearson, entre otros), esto confirma
l por que muchos valores estadsticos se utilizan con las escalas de intervalos.
Escala de Medicin de Razn o Proporcin: Esta constituye el nivel ms alto de medicin, posee
todas las caractersticas de las escalas nominales, ordinales y de intervalos; adems tiene un cero
absoluto o natural que tiene significado fsico. Si en ella la medicin es cero, significa ausencia o
inexistencia total de la propiedad considerada. Son posibles todas las operaciones aritmticas. Los
nmeros indican los valores concretos de la propiedad que s esta midiendo; peso, estatura,
ingresos monetarios y gastos directos, son ejemplos de medidas con una escala de razn.
Meses N de televisores
Octubre 4.000
Noviembre 6.000
Diciembre 15.000
Generalmente, se supone que los datos que se obtienen para una variable cuantitativa se miden en
escalas de intervalo o de razn. Estas escalas constituyen los niveles ms elevados de medicin.
Son formas ms fuertes de medicin que la escala nominal y ordinal, porque permiten comprender
no slo cul de los valores de un estudio es mayor o menor, sino por cuntas unidades de medida.
Las escalas de razn son medidas de Longitud, peso, capacidad, etc., los nmeros reflejan razones
entre particularidades y los datos obtenidos segn tales escalas pueden ser sometidos a cualquier
tratamiento estadstico
FUENTES DE DATOS
Es el lugar, la institucin, las personas o elementos donde estn o poseen los datos que se necesitan
para cada una de las variables o aspectos de la investigacin o estudio.
FUENTES PRIMARIAS
FUENTES SECUNDARIAS
Informacin recogida con anterioridad a una investigacin en curso, pero que es de utilidad por su
contenido en el desarrollo de sta. Las fuentes de informacin pueden ser externas a la empresa
(publicaciones de todo tipo, estudios de instituto de investigacin, bancos de datos, etc.) o internas
(estudios anteriores, registros internos, etc.).
Los datos secundarios son aquellos datos publicados que se recolectaron con propsitos diferentes
de las necesidades especficas de la investigacin que se est desarrollando. Los datos
secundarios internos se encuentran disponibles dentro de la organizacin, mientras que los datos
secundarios externos se han obtenido de fuentes externas a la organizacin.
Deben buscarse las fuentes de datos secundarios internos antes de requerir las fuentes externas.
Los datos secundarios externos se pueden obtener de dos fuentes principales:
Fuentes sindicalizadas. Son servicios que recolectan datos tipificados para satisfacer las
necesidades de un grupo de clientes. Estos datos son costosos y su disponibilidad puede estar
restringida a ciertos clientes.
Muy pocas veces los datos secundarios llenarn los requisitos de datos de un proyecto de
investigacin.
La principal ventaja es el ahorro en costos y tiempo en comparacin con las fuentes de datos
primarios. Aunque es raro que los datos secundarios satisfagan completamente las exigencias de
datos de un proyecto de investigacin, usualmente pueden:
c. Servir como fuente de datos comparativos mediante la cual pueden interpretarse y evaluarse
los datos primarios.
Otra ventaja de los datos secundarios es que la recoleccin de datos puede estar ms all de los
medios de una organizacin tpica.
a. El grado en que se ajustan a las necesidades de informacin del proyecto. Puesto que los
datos secundarios se recolectan con propsitos diferentes a los del proyecto de investigacin,
rara vez satisfacen completamente las necesidades de informacin del proyecto. El grado de
ajuste puede oscilar desde completamente inadecuado hasta muy cercano. Este grado de
ajuste est influenciado por: las unidades de medicin, la definicin de las clases sociales y la
actualidad de la publicacin.
b. La exactitud de los datos. Una seria limitacin de los datos secundarios es la dificultad para
evaluar su exactitud. Existen numerosas fuentes de error en las etapas de muestreo,
recoleccin de datos, anlisis de los datos e informes del proceso de investigacin que influyen
en la exactitud de los datos. La falta de participacin en el proceso de investigacin de ninguna
manera reduce la responsabilidad del investigador en la evaluacin de la exactitud de los datos
empleados. Se pueden utilizar los siguientes criterios para evaluar la citada exactitud:
Fuente. Los datos secundarios pueden estar aseverados por la fuente original o por una
fuente adquirida. La fuente original es la que origin los datos, mientras que la fuente
adquirida es aquella que obtuvo los datos de una fuente original. Una regla fundamental en
la utilizacin de los datos secundarios es la obtencin de los datos directamente de la
fuente original. Esto es as porque la fuente original es en muchos casos el nico lugar
donde se describen los detalles del proceso de recoleccin y anlisis de datos; y porque la
fuente original generalmente es ms detallada y de mayor exactitud que la fuente adquirida
(errores de trascripcin, falta de reproduccin de los pies de pgina y otros comentarios
textuales).
Propsito de la publicacin. Son sospechosas las fuentes publicadas para promover las
ventas y hacer nfasis en los intereses de un grupo industrial. Usualmente son
sospechosos los datos publicados en forma annima o por una organizacin que est a la
defensiva o bajo condiciones que sugieren una controversia.
Evidencia relacionada con la calidad. Se debe tener cautela si la fuente primaria no revela
los detalles del diseo de investigacin. Cuando se revelan los detalles del diseo de
investigacin, se deben evaluar reas como: el plan de muestreo, el procedimiento de
recoleccin de datos, la calidad del entrenamiento de campo, las tcnicas de elaboracin
de cuestionarios y los procedimientos de anlisis de datos. Se debe incluir una seccin
sobre las limitaciones del diseo y de los datos de investigacin. El investigador an puede
evaluar la calidad del informe, si faltan estos datos. En estos casos, son importantes
algunos elementos como los ttulos de tablas y figuras, la consistencia interna de los datos
y su apoyo a las conclusiones del informe.
Libros.
Peridicos.
Informes de investigacin.
Al evaluar la calidad de los datos identificados, el investigador debe estar consciente del origen de
los datos y del diseo de la investigacin. A veces, esto puede ser difcil de determinar. Los datos
bibliogrficos se originan de un conjunto de fuentes, como gobiernos, provinciales y locales,
escuelas superiores universitarias y universidades, asociaciones comerciales, cmaras de
comercio, organizaciones comerciales, fundaciones y empresas editoriales. Algunas publicaciones
presentan los resultados de la investigacin original, otras resumen los hallazgos de la
investigacin de terceros y algunas presentan, en su mayor parte, interpretaciones y conclusiones
relacionadas con los hallazgos de la investigacin de otros.
Las notas deben contener todos los datos que permitan identificar el da, el lugar y la hora
de la observacin, as como las circunstancias, los actores, etctera, que estuvieron
involucrados.
Asimismo, las notas deben ser clasificadas y ordenadas para permitir su manejo ms gil,
adems de evitar que se pierdan, se confundan con otras partes de la observacin, se
traspapelen, etctera.
LA ENCUESTA
De lo misma forma, al disear la encuesta y confeccionar el cuestionario hay que tomar en cuenta
los recursos (tanto humanos como materiales) de los que se disponen, tanto para la recopilacin
como para la lectura de la informacin, para as lograr un diseo funcionalmente eficaz.
La encuesta es el mtodo que ms se usa pero requiere una planeacin minuciosa puesto que
debe tenerse especial cuidado al preparar el cuestionario, as tenemos:
VENTAJAS
Son menos costosas y requieren de corto tiempo
Se obtiene rpida informacin
Se contacta a personas importantes y difciles de encontrar.
Fcil de llegar
DESVENTAJAS
Difcil obtener informacin precisa y completa
VENTAJAS
Fcil llegar a todas las personas por el sistema postal econmico
No hay presin del encuestador
DESVENTAJAS
Poca colaboracin
Influencia de terceros
Muy bajo nivel de respuestas
No puede calificarse ni clasificarse al encuestado
Debe darse premios o recompensas para motivar a cooperar.
Es necesario determinar la fecha de entrega
VENTAJAS
La principal es la flexibilidad que se obtiene.
Suele obtenerse ms informacin.
Se obtiene un mayor grado de cooperacin con relacin a los otros mtodos.
Se obtiene informacin sobre los hogares participantes, los niveles de vida aparentes
Puede calificarse y clasificarse al encuestado.
Puede ayudarse de imgenes y muestras
Las respuestas son espontneas
Existe poca influencia de terceros
Permite profundizar y aclarar
DESVENTAJAS
Muy costoso y requiere mucho tiempo
En ocasiones hay reducida colaboracin
Puede alterarse la informacin frecuentemente
La presencia del encuestador muchas veces impulsa a dar una informacin errada.
Es difcil de supervisar
d) ENCUESTA ONLINE: Las encuestas online son una excelente opcin para conocer las
opiniones y actitudes de un mercado meta.
VENTAJAS
Bajo costo: Se prescinde de todo personal encuestador y de la utilizacin de papel para
respaldar la data, siendo ms econmicas que mediante los mtodos tradicionales.
Es posible incrementar el tamao de la muestra, sin que el precio se incremente
proporcionalmente
Rapidez: La entrada y procesamiento de la data es casi inmediata.
Exactitud: Se eliminan los errores asociados a la introduccin de la data gracias a
encuestas inteligentes.
Naturaleza interactiva: Permite la inclusin de elementos multimedia como imgenes,
sonidos y videos
Respuestas Honestas: Al eliminar la presencia del encuestador los usuarios son ms
honestos y abiertos cuando estn en frente de una computadora, y se expresa sin
temores.
DESVENTAJAS
Autenticidad: Una misma persona puede hacerse pasar por otra para poder llenar ms
encuestas.
LA ENTREVISTA
La entrevista es muy utilizada en investigacin social, y sus caractersticas son similares a las del
cuestionario, siendo la principal diferencia el hecho de que es el encuestador u observador quien
anota las respuestas a las preguntas.
La utilizacin de este instrumento requiere de una mayor habilidad por parte del encuestador u
observador para llevar el tema de la entrevista, debido a que las respuestas son por lo general
abiertas y admiten implementar nuevas preguntas no vislumbradas por el encuestador
inicialmente. Esto facilita la ventaja de explotar temas no contemplados inicialmente o ahondar en
algunos de los contemplados. No obstante, tiene la desventaja de que, si no se tiene la suficiente
habilidad para mantener el tema, la entrevista se "pierde" e, incluso, puede invalidarse; por lo
tanto, el entrevistador debe poseer aptitudes especficas para utilizar el arte de la entrevista
Las recomendaciones y caractersticas sugeridas, son las mismas que se utilizan para el caso del
cuestionario, sin embargo, se debe utilizar una grabadora (de audio o de vdeo) para la posterior
copia de los dilogos.
La entrevista cerrada: Es aquel tipo en la que las alternativas de contestacin a que debe
someterse el encuestado estn predeterminadas.
La entrevista semiestruturada: Es aquella en la que, si bien hay una gua para las
preguntas, las respuestas son libres, y su ventaja radica en que permiten obtener informacin
complementaria.
La entrevista es una de las tcnicas ms utilizada en la investigacin. Mediante sta, una persona,
el entrevistador solicita informacin a otra, el entrevistado. La entrevista puede ser uno de los
instrumentos ms valiosos para obtener informacin y aunque aparentemente no necesita estar
muy preparada, es posible definirla como el arte de escuchar y captar informacin, esta habilidad
requiere de capacitacin, ya que no toda persona puede ser un buen entrevistador. Adems, es
una manera de interactuar socialmente puesto que es a travs del dilogo como el investigador
obtiene los datos que requiere para su estudio.
Las escalas son una forma especial de cuestionario; se caracteriza porque las preguntas y sus
diferentes respuestas tienen atribuido un valor numrico, lo que permite cifrar cuantitativamente y en
cierta forma medir el nivel que alcanza en cada caso la actitud o aspecto investigado.
El diseo del cuestionario habr de fundamentarse en el marco terico, la hiptesis, sus variables y los
objetivos de la investigacin. Cada pregunta que se incluya deber estar relacionada con las variables
indicadoras. Es muy conveniente que cuando se elabore el cuestionario se tenga a la mano la
operatividad de las variables, para asegurarse de que todos los indicadores estn siendo investigados.
ESTO ES
CLAVE Y
6 Determinar las caractersticas fsicas TENGO QUE
ANOTARLO
7 Someterlo a la prueba piloto
Podr y querr el
encuestado
Es realmente aportar la Abarca
necesaria la informacin que adecuadamente la
pregunta? pregunta el rea de
contenido de la cual
es responsable?
Tipos de preguntas
No estructuradas
(Abiertas)
Tipos Mixtas
Dicotmicas
Estructuradas
(Cerradas) Simples
(100%)
De opcin
mltiple
Respuestas
mltiples
No Estructuradas/ Abiertas
ESO ES FCIL
Libertad al encuestado para responder con sus propias palabras
Fciles de formular pero difciles de codificar
Expresan actitudes y opiniones
Tienen menor influencia de tendencias aunque hay potencial influencia del entrevistador
No deben usarse en autoadministradas
Preguntas mixtas
Son aquellas que incluyen tanto las preguntas estructuradas como las no estructuradas
Podra decirme qu diarios lee habitualmente?
Estructuradas/ Cerradas
Exige que el encuestado seleccione una o ms respuestas de una lista de alternativas que se le
presentan
Tener en cuenta:
El nmero de alternativas
El Sesgo de posicin
Estructuradas/dicotmicas
Permite polarizar
Ocasionalmente pueden aceptar opciones espontneas (no s, ambos, ninguno)
Incluir una opcin neutral, si es que se espera una proporcin importante que tenga esa posicin
Aprueba o desaprueba la gestin del alcalde de Chiclayo?
Tiene 3 o ms opciones.
Tomar en cuenta el nmero de alternativas a incluir y la tendencia por el orden o la posicin
Normalmente las categoras de respuesta deben ser colectivamente exhaustivas
Si son simples -slo aceptan una respuesta- las alternativas deben ser mutuamente excluyentes
Si son mltiples aceptan ms de una respuesta
Es imposible fijar un conjunto inalterable de normas que automticamente nos den secuencia
ptima de las preguntas.
Formular primero las preguntas de ndole general para pasar luego a las ms especficas.
Agrupar las preguntas por temas o cuestiones afines.
Las preguntas ms delicadas o difciles van al final del cuestionario.
Redaccin de preguntas
Instrucciones escritas
Material de apoyo
Alternativas de respuestas
Castaeda Jimnez sugiere que se tomen en cuenta las siguientes previsiones en la elaboracin de un
cuestionario:
3. Cuentan los informantes con los datos necesarios para contestar la pregunta?
4. Necesita la pregunta ser ms concreta, especfica e ntimamente ligada con la experiencia personal
del informante?
6. Expresan las preguntas actitudes generales y son tan especficas como suenan?
7. Est el contenido de la pregunta polarizado o cargado en una direccin sin preguntas acompaantes
que equilibren el nfasis?
11. Es engaosa la pregunta por culpa de asunciones no establecidas o de implicaciones que no se ven?
12. Est polarizada la redaccin? Est cargada emocionalmente o inclinada hacia un tipo particular de
contestacin?
16. Puede contestarse mejor la pregunta con un impreso que exija la contestacin por una marca (o
contestacin corta de una o dos palabras, o un nmero), de respuesta libre o por una marca con
contestacin ampliatoria?
17. Si se usa la contestacin por una marca, cul es el mejor tipo de cuestin: dicotmica, de eleccin
mltiple, o de escala?
18. Si se usa una lista de comprobacin, cubre adecuadamente todas las alternativas significativas sin
solaparse y en un orden definible? Es de una longitud razonable? Es la redaccin de los tems
imparcial y equilibrada?
20. Puede verse influida por el contenido de las cuestiones precedentes la contestacin a la pregunta?
21. Est dirigida la pregunta en una forma natural? Est en correcto orden psicolgico?
22. Aparece la pregunta demasiado pronto o demasiado tarde desde el punto de vista de despertar inters
y recibir la atencin suficiente?
En el trabajo estadstico, siempre se dispone de muchos datos que, definitivamente tienen que ser
clasificados, ordenados y presentados adecuadamente, de tal manera que facilite la comprensin,
descripcin y anlisis del fenmeno estudiado, y obtener conclusiones vlidas para la toma de decisiones.
En general, la organizacin y presentacin de los datos estadsticos, supone realizar los siguientes pasos:
a) Evaluacin y crtica: consiste en inspeccionar la validez y confiabilidad de los datos, para corregir
los errores y omisiones de acuerdo a ciertas reglas fijas. A partir de datos incorrectos no se pueden
obtener buenos resultados.
b) Codificacin: es una tcnica mediante la cual los datos o respuestas (numrica o verbal) se
convierte en un nmero, smbolo o lenguaje que permita su procesamiento o tabulacin.
Fundamentalmente se usa la forma tabular, los grficos se utilizan complementariamente para ilustrar
mediante figuras el comportamiento de las variables y facilitar la comprensin de los fenmenos estudiados.
TABLAS ESTADSTICAS
Presentan ordenadamente los datos estadsticos en filas y columnas, clasificados y agrupados de acuerdo a
un criterio especfico. Los datos presentados en tablas constituyen la informacin estadstica. Esta
informacin no slo es un valor numrico sino que adems merece una interpretacin de tipo cualitativo
segn el contexto que lo origin. Una tabla estadstica es el resultado de trabajos previos (planeamiento,
recopilacin, tabulacin, clculos, etc.), son las que se incluyen frecuentemente en el cuerpo de los estudios
de las investigaciones o de los informes.
Son esquemas organizados en los que se registran los datos estadsticos en forma organizada con la
frecuencia de cada uno de estos, los mismos se observan en columnas y filas con la finalidad de presentar
la informacin recopilada de una investigacin o estudio determinado. Por lo tanto, las tablas estadsticas
es una ordenacin de datos numricos en filas y columnas con las especificaciones correspondientes
acerca de la naturaleza de los datos. Constituye una forma til de presentar los datos estadsticos obtenidos
en una investigacin a travs de cuadros, tablas y grficos. Esta puede presentar la informacin para
referencias generales o para un uso especfico o particular.
La ordenacin de datos en tablas estadsticas, denominada forma tabular o tabulacin, estn constituidos
por datos cuantitativos y stos a su vez estn en filas y columnas de acuerdo con las especificaciones de
los datos. La tabulacin es una presentacin sistemtica de los datos estadsticos de una investigacin
determinada, estos se presentan en forma resumida a travs de las tablas o cuadros estadsticos.
1. Ttulo.
2. Encabezamiento.
4. Cuerpo.
5. Notas de Encabezado
6. Nota de Pie
7. Fuente de Datos
1. Ttulo: Es una descripcin del contenido de la tabla. Debe ser compacta y completa. Este comprende las
siguientes partes:
Numeracin de la tabla: cuando las tablas forman parte de un texto o de un grupo deben ser
numerados en la parte superior central de la hoja.
- Se debe ubicar centrado en la parte superior de la tabla, y usando letras maysculas para todo el
enunciado.
- Se debe redactarse con precisin y que exprese brevemente los datos que se presentan en el
cuadro.
2. Encabezado: Es el ttulo de la parte de una columna o columnas. Las tablas ms simples pueden
consistir solamente de dos columnas y dos encabezados: Una para los conceptos y otra para los datos.
Debe disponerse en la parte superior del cuadro y las designaciones que comprenden debern escribirse
en lo posible horizontalmente, debiendo ser preciso y breves, as mismos se dispondr en un orden
lgico de izquierda a derecha. Otra observacin para la elaboracin del encabezamiento, es que tanto l
como las diversas columnas deben separarse con rayas, cerrando el cuadrado por la parte superior e
inferior con una raya gruesa o una doble raya, en la actualidad existe la preferencia de no rayar
verticalmente el encabezamiento.
3. Concepto o Columnas Matriz: La descripcin en hilera de la tabla son llamados conceptos; y estos son
colocados al lado izquierdo de la tabla. La naturaleza de las clasificaciones es indicada por los
encabezados de las columnas, incluyendo la columna matriz. Es bueno Recordar que los datos
estadsticos pueden referirse a clasificaciones cualitativas, cuantitativas, cronolgicas o geogrficas;
recordar esto es importante puesto que la naturaleza de los datos tomando en cuenta esta clasificacin
determinar en parte el arreglo en que se lleven stos a la columna matriz. Existen variadas formas de
arreglo de los datos en la columna matriz. Es permisible disponerlos en orden alfabtico, mtodo que se
usa habitualmente cuando los datos se clasifican geogrfica o cualitativamente. Pueden ordenarse
tambin segn clases fijadas por la costumbre: casado, soltero, divorciado, viudo. Es factible observar
que si las diferentes nominaciones son ordenadas alfabticamente, se hace muy sencillo localizarlas.
Cuando se trata de clasificaciones cuantitativas, el arreglo puede hacerse en orden ascendente o
descendente. Cuando se refiere a clasificaciones cronolgicas, se ordenan los aos en sentido
ascendente: 1995, 1996, 1997, 1998, y cuando se trate de meses se comienza por el mes de Enero.
4. Cuerpo del cuadro: El cuerpo del cuadro es la parte que contiene los datos estadsticos presentados en
ste. Cada dato individual ocupa en el cuadro un lugar que corresponde a la interseccin de una fila y
una columna dada; por tanto, el significado de los datos en un lugar est indicado por las
especificaciones o partidas combinadas de la columna y la fila que se interceptan. Cuando el valor de uno
de los lugares del cuerpo del cuadro sea cero es conveniente marcar ese lugar con un guin, si no existe
el dato, si es estimado, o si la cifra indica alguna consideracin distinta a la del resto de los otros, debe
indicarse con una llamada y su respectiva aclaratoria al pie del cuadro. La representacin efectiva de los
datos en la tabla depende de los arreglos de las columnas en hileras.
5. Nota de Encabezado: Son usualmente escritas justamente arriba de los encabezados y debajo de los
ttulos. Son usados para explicar ciertos puntos relacionados con la tabla completa que no han sido
incluidos en el ttulo ni en los encabezados ni en los conceptos.
6. Nota de Pie: Las notas de pie son usualmente colocadas debajo de los conceptos. Son usados para
clarificar algunas partes incluidas en la tabla que no son explicadas en otras partes, tal como las notas de
pie en la tabla. Las notas al pie de los cuadros se utilizan para hacer aclaratorias sobre uno o varios
elementos en particular. La nota sobre la fuente de los datos debe indicar el origen de la informacin
presentada en el cuadro.
7. Fuentes: Las fuentes de datos o simplemente fuentes, es usualmente escrita debajo de las notas de pie.
Si los datos fueron recopilados y presentados por la misma persona, es costumbre no establecer la
fuente en la tabla. El objeto de la indicacin de las fuentes de los datos es el de proporcionar el debido
reconocimiento a la persona u organismo que recopil y /o public los datos, adems de indicar, a
quienes deseen ampliar la informacin, el origen de la misma
Uso de porcentajes: En las tablas estadsticas, normalmente se utilizan porcentajes. Existen cuadros que
slo poseen datos en forma de porcentajes, mientras que otros vienen expresados tanto en valores
absolutos como en porcentajes. La finalidad del uso de los porcentajes en los cuadros es facilitar la
comparacin, de tal manera que las relaciones que puedan existir se perciban. Cuando se usan estos es
necesario recalcar las bases sobre las cuales se han establecido dichos porcentajes; esto tiene como
propsito indicar al lector cual es la base que s esta utilizando para determinar el mismo.
o El tamao de la tabla debe crearse de tal manera que no sea ni muy largo y angosto, ni muy ancho o
corto.
o Las notas que se encuentran al pie de los cuadros deben incluir las descripciones en forma precisa.
Ejemplo de tabla:
Nmero de cuadro
Tabla N 1
Total 74 100.0
DISTRIBUCIONES DE FRECUENCIA
Despus de la recopilacin de los datos, es necesario resumirlos y presentarlos en forma tal, que faciliten su
comprensin y su posterior anlisis y utilizacin. Para ello, se ordenan en cuadros numricos y luego se
presentan en grficos.
C1 n1 h1 p1
C2 n2 h2 p2
Ck nk hk pk
La frecuencia absoluta ni, es el nmero de datos observados en cada categora o modalidad. La suma de
todas las frecuencias absolutas es igual al total n de datos observados.
La frecuencia relativa hi, se define en cada categora por hi = ni / n. La suma de todas las frecuencias
relativas es igual a uno.
La frecuencia relativa porcentual se define en cada fila por hi %= hi x 100%. El total de las frecuencias
porcentajes es igual a cien.
Ejemplo:
Sea x1, x2,..., xn un conjunto de n observaciones discretas y sean y1, y2, ..., ym el conjunto de valores
diferentes que toman las observaciones originales (m n).
En general para construir una tabla de distribucin de frecuencias requiere realizar las siguientes
operaciones:
Clasificacin: que consiste en determinar las categoras, que son los distintos valores que toman las
variables o los intervalos de clase.
Tabulacin: que consiste en distribuir las observaciones en las respectivas categoras de la variable. Aqu
se contabiliza cuantos elementos hay en cada categora, es decir, determinar cuantas veces se repite
(frecuencia) cada valor distinto o categora de la variable.
Cuando es grande el nmero de datos observados de una variable discreta, su organizacin es muy
engorrosa. En este caso para resumir los datos y poder calcular las medidas descriptivas, es conveniente
seguir el mtodo de organizacin de variable continua por intervalos.
Se llama frecuencia absoluta, al nmero de veces que aparece este valor en el conjunto de observaciones
y se representa por ni, i= 1, 2, ..., m.
La suma de todas las frecuencias absolutas simple es igual al nmero total de observaciones.
y1 n1 h1 h1%
y2 n2 h2 h2%
ym nm hm hm%
Total Nm 1 100
ni
hi
n
La suma de todas las frecuencias relativas es igual a la unidad.
Ejemplo:
Cantidad de Artculos
N Lotes hi hi%
defectuosos
1 5 0.05 5
2 14 0.14 14
3 18 0.18 18
4 25 0.25 25
5 20 0.20 20
6 10 0.10 10
7 5 0.05 5
8 3 0.03 3
En general para construir una tabla de distribucin de frecuencias requiere realizar los siguientes pasos:
R = xmx xmin
m = 1 + 3.32 log(n)
C=R/m
4. Construir los intervalos de clase partiendo de x min luego se va sumando la amplitud de clase. Los
extremos de un intervalo deben estar preferentemente definidos, de modo que no exista duda o
ambigedad en el momento de la tabulacin. Un valor x i slo puede pertenecer a un intervalo y
slo uno. En este caso denominaremos el intervalo Li-Ls que significa que es cerrado por la
izquierda y abierto por la derecha.
5. Luego se calcula la marca de clase, que es el punto medio del intervalo denotado por yi.
Li Ls
yi Donde: Li es el lmite inferior del intervalo
2
Ls es el lmite superior del intervalo
6. Luego obtener la frecuencia absoluta (ni ) que es el procedimiento que consiste en distribuir las
observaciones en los diferentes intervalos.
7. Calcular las frecuencias absolutas acumuladas (N i), que es la suma de las frecuencias absolutas
hasta la i-sima frecuencia absoluta.
i
N i n1 n 2 ... n i n
j1
j
ni
hi
n
La suma de todas las frecuencias relativas es igual a la unidad.
9. Calcular la frecuencia relativa acumulada, que es la suma de las frecuencias absolutas hasta la i-
sima frecuencia relativa.
i
H i h1 h 2 ... h n h j
j1
tambin:
Ni
Hi
n
Y0 y1 y1 n1 N1 h1 H1 h1%
y1 y2 y2 n2 N2 h2 H2 h2%
Totales n 1 100
Ejemplo:
Ingresos
yi ni Ni hi Hi %
($)
El fin que persigue todo grfico es el de dar una idea rpida de la situacin que en ese momento se est
investigando. Por tal motivo, la presentacin de los datos por medio de grficos debe ser de una forma
simple y de una compresin fcil. Es preferible construir un conjunto de grficos en donde cada uno de
ellos presente un aspecto sencillo de una situacin determinada, que presentar un solo grfico en el cual se
observen demasiadas relaciones que se haga difcil estudiar de una forma efectiva. Por lo tanto, no debe
sobrecargarse un grfico para tratar de mostrar demasiadas categoras, ya que, la simplicidad es una de la
caracterstica bsica de estos.
Existe una gran variedad de tipos de grficos entre los que se pueden mencionar los pictogramas,
cartogramas, de cuadrados, de tringulos y crculos proporcionales, de sectores circulares, de barras,
lineales, estereogramas, polares, etc., pero los ms utilizados y de interpretacin sencilla son los: Los
grficos de barras, los de sectores circulares y los lineales. En esta asignatura solo se estudiaran las
siguientes grficas:
1. Diagrama de Barras.
3. Histograma.
4. Polgono de Frecuencia.
5. Diagrama de Lneas.
Los diagramas de lneas, el histogramas, el polgono de frecuencia y la ojiva son grficos cartesianos por
que para su construccin requieren del plano cartesiano, a estos se le denominan en trminos generales
grficos de lneas. El diagrama de barras y el de pastel se les denomina grficos de sectores, puesto que,
no requieren del plano cartesiano para su construccin.
Diagrama de Barras
Los diagramas de barras son grficas que se utilizan con mucha frecuencia para representar datos de
una investigacin determinada, son de fcil interpretacin para cualquier lector. Estos grficos estn
constituidos por una serie de rectngulos o barras. La longitud y anchura de cada barra representa un
fenmeno.
18
16
14
12
Frecuencias
10
8 16
6 12
4 9
7
2 4 4 5
3
0
3 4 5 6 7 8 9 10 11 12
Aos de servicio
o distancias iguales entre barras. Es recomendable, que las barras no sean ni excesivamente cortas y
anchas, ni demasiado largas y angostas, esto es con el objeto de dar una visin objetiva de la
investigacin en estudio. Las barras se pueden graficar tanto verticalmente como horizontalmente. Se
pueden elaborar barras compuestas y barras agrupadas. Ejemplo:
La grfica de pastel (grfico de sectores) es un tipo de grfica que consiste en representar por medio de
la circunferencia o un crculo las magnitudes que expresan los datos de un estudio determinado. Este
tipo de grfica considera la circunferencia como representante de los datos estadsticos de una
investigacin cualquiera. Por tal motivo, se dividir en tantos sectores como variables tenga la
investigacin en estudio; la magnitud de cada sector se encontrar en relacin directa con la magnitud
de la variable a representar, tomando en cuenta que toda la investigacin se representa con 360. En
general, los datos que se representan por medio de este diagrama son partes componentes de un total.
circunferencia deben ser proporcionales a la magnitud de cada componente representado por las
variables.
Ejemplo: Sea la siguiente tabla sobre la Razn de falla en el sistema de cajeros automticos del Banco
UAW
Total 74 100.0
Conexin fsica
2.7%
Servidor sin Software del
memoria servidor
disponible 40.5%
43.2%
Histograma
El histograma es un diagrama en forma de columna, muy parecido a los grficos de barras. Se define
como un conjunto de rectngulos paralelos, en el que la base representa la clase de la distribucin y su
altura la magnitud que alcanza la frecuencia de la clase correspondiente. Son barras rectangulares
levantadas sobre el eje de las abscisas del plano cartesiano utilizando escalas adecuadas para los
valores que asume la variable en la distribucin de frecuencia. El ancho de la base de los rectngulos
es proporcional a cada clase de la distribucin, de tal manera que, cuando la distribucin tiene clases de
igual el tamao de todos los rectngulos tendr bases iguales. Los lados del rectngulo se levantan
sobre los puntos del eje de las x que corresponden a los limites de cada clase y la longitud de los
mismos ser igual a la frecuencia que tenga esa clase, los lados por lo tanto corresponden a la
frecuencia de cada clase de la distribucin de frecuencia.
Cuando se elaboran grficas estadsticas en el plano cartesiano es recomendable que en el eje de las
ordenadas se representen las frecuencias y en el eje de las abscisas las variables independiente. El eje
de las y que representa las frecuencias debe empezar siempre en cero. Es importante sealar que la
longitud del eje de las y que representa la altura tenga el 75 % de la longitud del eje de las x, es decir, si
las variable independientes ocupan en el eje x 8 cm, la mxima altura que ocuparan las frecuencias en
el eje y tendr que ser de 6 cm.
1. Se trazan dos ejes de coordenadas, el de abscisas y el de ordenada. Se coloca sobre el eje de las
x los limites inferiores de cada clase y el ultimo limite superior de la distribucin, y sobre el eje de
las y se coloca la magnitud de la frecuencia de cada clase.
Marca de
Clases N
clase (yi)
20 24 8 22
25 29 15 27
30 34 16 32
35 39 21 37
40 44 16 42
45 49 4 47
50 54 6 52
55 59 11 57
60 64 3 62
Total 100
2. Se trazan perpendiculares por los limites de cada clase, la altura de las perpendiculares ser igual a
la frecuencia de cada clase; y para finalizar se unen las dos perpendiculares que representan a
cada clase, el resultado final ser el histograma.
25
21
20
16 16
15
Frecuencias
15
11
10 8
6
5 4
3
0
0
15 20 25 30 35 40 45 50 55 60 65
Polgono de frecuencia
Es un diagrama de lneas que representa los puntos medios y las respectivas frecuencias de una
distribucin de frecuencia de clase. Es una representacin grfica cerrada de una distribucin de
frecuencia. Es otra de las formas de graficar los valores de una distribucin de frecuencia de clase.
No existe ninguna razn estadstica para seleccionar los polgonos de frecuencia en vez de los
histogramas o viceversa, los histogramas simplemente representan una manera de graficar y los
polgonos de frecuencia otra; la diferencia entre ambos radica en que una barra vertical rectangular
representa una clase y su frecuencia en el histograma y un punto cumple la misma funcin en el
polgono de frecuencia.
2. Se traza sobre el eje de las abscisas, a distancias iguales, los puntos medios de las diferentes
clases de la distribucin de frecuencia.
3. Se levantan perpendiculares por cada una de las marcas de clase, con una longitud igual a la
frecuencia de cada una de las clases que integran la distribucin de frecuencia. Al final de cada
perpendicular se marca un punto.
4. Los puntos resultantes se unen por medio de una lnea recta obtenindose una lnea poligonal.
5. Con la finalidad de cerrar la lnea poligonal se agrega una clase imaginaria con frecuencia cero a
cada extremo de la distribucin de frecuencia, por tal motivo ambos extremos del polgono se cortan
con el eje de las abscisas.
Observe que los puntos medios, 17 y 67 del polgono son imaginarios, se utilizan para cerrar la lnea
poligonal, lo que da origen al polgono de frecuencia.
21
20
Frecuencias
16 16
15 15
11
10
8
6
5
4
3
0 0 0 0 0
17 22 27 32 37 42 47 52 57 62 67
Puntos Medios
Diagrama de Lnea
El diagrama de lnea es una grfica que se representa en el plano cartesiano, con los datos de un
fenmeno determinado para el cual se ha elaborado un cuadro estadstico. En trminos generales se
puede decir que so aquellas lneas que se dibujan en los ejes cartesianos, siguiendo algunos criterios.
1. La utilizacin de la escala que se utilizar en el plano cartesiano puede variar tomando en cuenta el
fenmeno que se va graficar. No es necesario que las abscisas (ejes x) y las ordenadas (eje y) del
plano cartesiano lleven la misma escala; sin embargo, cuando las magnitudes de las variables no se
diferencian sustancialmente, es recomendable utilizar escalas iguales para obtener un grfico de
mayor precisin.
2. Cuando un a de las variables en estudio se inicia con valores muy altos es recomendable no
comenzar el eje por el origen cartesiano sino por un valor prximo o por el mismo valor por donde
comienza la variable.
3. Es costumbre representar en el eje de las x del plano cartesiano la variable independiente del
estudio que se realiza y en el eje de las y la variable dependiente. En aquellos casos que se dificulta
distinguir el tipo de variable se recomienda colocar en la ordenada del plano cartesiano las
frecuencias de las variables en estudio y sobre la abscisa la variable cronolgica (aos, meses,
semanas, das, horas, etc.).
Ejemplo: Los datos que se presenta a continuacin corresponden a los aos de servicios de 60
empleados de una empresa
4 3 4 5 6 7 8 9 10 8 4 8 6 3 8 10 7 10 9 10
8 3 5 7 8 6 10 9 7 8 5 3 8 7 8 10 8 10 8 7
7 9 8 7 6 5 7 10 8 9 8 10 7 6 7 8 6 7 6 8
Luego se marc en el eje de las x los aos de servicio con la frecuencia correspondiente en el
eje de las y. Luego, esos puntos se unieron mediante lneas y el resultado fue la grfica de
lnea de los aos de servicio de los empleados de la empresa
20
18
16
14
Frecuencias
12
10
0
3 4 5 6 7 8 9 10
Aos de servicio
MEDIDAS DESCRIPTIVAS.
INTRODUCCIN
La naturaleza de los datos permite, en muchos casos, cierto tipo de anlisis a partir de los grficos de la
distribucin. Sin embargo, tambin es necesario considerar resmenes numricos que permitan tener una
mejor idea de la manera como los datos estn distribuidos a lo largo de la recta. Estas caractersticas
numricas se llaman estadgrafos.
Algunas de estas medidas dependen de todas las observaciones y son muy sensibles a las fluctuaciones de
stas; otras sin embargo, no dependen de todas las observaciones, siendo resistentes ante los cambios de
los valores extremos.
La mayor parte de los conjuntos de datos muestran a agruparse alrededor de un valor central. Estos
valores, que de alguna manera tipifican al conjunto, se llaman medidas de posicin. Entre estas medidas se
tiene: la media aritmtica, la mediana, la moda y los percentiles
Adems de las medidas de tendencia central estn las medidas que indican la dispersin que se produce en
torno de la media de los datos. Entre estas medidas se tiene: la varianza, la desviacin estndar, el
coeficiente de variacin.
La manera como estn distribuidos los datos de un conjunto puede resumirse en lo que se llama la
asimetra y el apuntamiento de la curva que los describe.
La medida de tendencia central con la cual probablemente est usted ms familiarizado es la media
aritmtica; se conoce tambin como media o promedio; se representa como x y se conoce como "x barra".
Aunque la media es una excelente medida de resumen de una serie de datos, stos deben seguir una
distribucin aproximadamente normal.
A la media se le llama "el centro de gravedad" de una distribucin de frecuencias. Esto significa que la
media acta como el punto de apoyo en una balanza, como se ve en la figura.
Fig: La media es el centro de gravedad de la distribucin
Simbologa:
Tamao
Media aritmtica
(nmero de datos)
Muestra n x : media muestral
Poblacin N : media poblacional
x x2 ... xn x i
x 1 i 1
n n
Se lee as: la media es igual a la suma de las xs dividido por n.
Ejemplo: La siguiente tabla muestra el nmero de reclamos y quejas presentadas por clientes de una tienda
a lo largo de una semana. Si se elige al azar un da de la semana cuntos reclamos se espera tener?
Reclamos / da 8 10 5 12 10 15
x i
8 10 5 12 10 15 60
x i 1
10 reclamos
n 6 6
Interpretacin: Se espera que los clientes de esta tienda realicen 10 reclamos por da.
y n y 2 n 2 ... y m n m y n
i 1
i i
y 1 1 ; yi : marca de clase i
n n
Ejemplo: La distribucin de frecuencias siguiente, representa los puntajes obtenidos en una evaluacin del
desempeo, aplicado al personal tcnico de una empresa. Si se elige al azar un tcnico Qu puntaje se
espera que tenga en su evaluacin de desempeo?
11 - 16 (11+16)/2 = 13.5 4
16 - 21 18.5 8
21 - 26 23.5 15
26 - 31 28.5 23
31 - 36 33.5 10
Total 60
Nota: La media aritmtica como estadgrafo de posicin de una distribucin, proporciona una idea de la
posicin de los valores alrededor de la media, La media es un promedio, por tanto no significa:
Que todos los valores observados resultan ahora ser iguales.
Que la media se ubica exactamente en el centro de la distribucin, excepto si la distribucin es
simtrica. Entonces, la media aritmtica en general no divide a la distribucin.
Ejercicio: En una pequea empresa de 10 trabajadores se hizo una prueba de razonamiento y otra de
habilidad. Se obtuvieron las siguientes calificaciones.
Razonamiento 48 38 65 56 16 55 28 62 32 48
Habilidad 36 18 54 47 21 56 68 70 72 38
Es la medida que divide en dos subconjuntos a los datos, de tal manera que 50% de los datos es menor a la
mediana y el otro 50% es mayor a la mediana.
La mediana es el valor central de la variable, es decir, supuesta la muestra ordenada en orden creciente o
decreciente, el valor que divide en dos partes la muestra.
Ejemplo: Los siguientes datos se refieren al nmero de clientes atendidos durante los ltimos 9 das en una
tienda. 14, 12, 7, 17, 10, 13, 15, 10, 12
Primero se ordenan los datos:
7, 10, 10, 12, 12 13, 14, 15, 17
Cuando el nmero de datos es par, la mediana es igual al promedio de los valores centrales
xn / 2 xn / 2 1
Me =
2
Ejemplo: Se tienen los siguientes datos 14, 26, 12, 20, 25, 26, 34, 36, 10
10 12 14 20 25 26 34 36
n
2 N i 1
Me l i c
ni
Donde:
Li : lmite inferior del intervalo mediano
c : amplitud del intervalo mediano
ni : frecuencia del intervalo mediano
Ni-1 : frecuencia acumulada antes del intervalo mediano
Para determinar el intervalo mediano se debe calcular el valor de n/2 y ubicar en la columna de frecuencias
acumuladas la frecuencia que supera al valor de n/2, en ese lugar se ubicar el intervalo mediano.
Ejemplo: La tabla siguiente muestra la experiencia profesional (aos) del personal tcnico que labora en una
empresa.
Experiencia
N de tcnicos
profesional Ni
(ni)
(aos)
0 - 3 4 4
3 - 7 12 16 35 16
Me 7 4 10.2
aos
7 - 11 24 40 IMe 24
11 - 15 16 56
15 - 19 10 66
19 - 23 4 70
Total 70
Interpretacin: El 50% de los profesionales tcnicos que laboran en esta empresa tienen una experiencia
laboral igual o menor a 10 aos 2 meses. El otro 50% de los profesionales tiene una experiencia laboral
igual o mayor a 10 aos y 2 meses.
Ventajas
La mediana es ms recomendable que la media aritmtica, cuando:
La mediana no est afectada por los valores extremos como sucede con la media.
Se puede determinar para datos cualitativos, susceptibles de ordenarse de acuerdo a rangos,
calificaciones o categoras.
Desventajas
Como valor central, se debe ordenar primero la serie de datos.
Para una serie amplia de datos no agrupados, el proceso de ordenamiento de los datos demanda
tiempo y usualmente provoca equivocaciones.
La moda es el valor de la variable que tenga mayor frecuencia absoluta, la que ms se repite, es la nica
medida de centralizacin que tiene sentido estudiar en una variable cualitativa, pues no precisa la
realizacin de ningn clculo.
Por su propia definicin, la moda no es nica, pues puede haber dos o ms valores de la variable que
tengan la misma frecuencia siendo esta mxima. En cuyo caso tendremos una distribucin bimodal o
polimodal segn el caso
1
Mo l i c
1 2
Donde:
Ejemplo: La tabla siguiente muestra los errores de facturacin durante un mes, en una empresa
comercializadora.
Errores de
Das
facturacin
6
Mo 3 4 5.4
03 6 6 4
37 12
15 19 1
Total 30
= Me = Mo
Mo < Me <
< Me < Mo
LOS CUANTILES
Cuando los valores ordenados de una variable han de ser divididos en grupos homogneos en cuanto al
tamao, se suelen utilizar los cuantiles.
Los cuantiles ms usados en el anlisis estadstico son: cuartiles, deciles y percentiles. Los cuantiles se
usan frecuentemente para describir el comportamiento de una poblacin. Los valores se dan a menudo en
tanto por ciento.
Trabajaremos con lo percentiles por lo que da informacin acerca de cmo se distribuyen los valores sobre
el intervalo, desde el menor hasta el mayor. El percentil se define como sigue:
El p-simo percentil es un valor tal que por lo menos p por ciento de las
observaciones son menores o iguales que este valor y por lo menos (100 p) por
ciento de las observaciones son mayores o iguales que este valor.
Para calcular del p-simo percentil se aplica el siguiente mtodo:
1 Ordenar los datos de manera ascendente
p
2 Calcule un ndice i n , en donde p es el percentil de inters y n es la cantidad de observaciones.
100
3 Si i no es entero, se redondea. El valor entero inmediato mayor que i indica la posicin del p-simo
percentil.
Si i es entero, el p-simo percentil es el promedio de los valores de los datos ubicados en los lugares i e i+1
Ejemplo: Se tienen los siguientes valores 27, 25, 20, 15, 30, 34, 28 y 25.
Encuentre el percentil 50 y 85
Se ordena: 15 20 25 25 27 28 30 34
Para calcular el percentil 50
p 50
Se calcula i n = 8 4
100 100
15 20 25 25 27 28 30 34
P50
p 85
Se calcula i n = 8 6.8 7
100 100
P85
15 20 25 25 27 28 30 34
P85 = 30
( p / 100)n N i 1
Pp li c
ni
Donde:
[li ls) : el intervalo que contiene dicho percentil
c : la amplitud del intervalo
ni : frecuencia del intervalo
Ni-1 : frecuencia acumulada antes del intervalo
Ejemplo: Los siguientes datos es el nmero de piezas fabricadas por 110 de trabajadores en una semana.
a. Cul es la cantidad de piezas como mximo que fabrica el 25% de trabajadores con menor produccin?
b. Cul es la cantidad de piezas como mnimo que fabrica el 25% de trabajadores con mayor produccin?
N de piezas N de
Ni
fabricadas trabajadores
20 25 5 5
25 30 7 12
30 35 9 21
35 40 14 35 P25
40 45 20 55
45 50 26 81
50 55 18 99 P75
55 60 11 110
Total 110
p 25
Calculamos n = 110 27.5
100 100
27.5 21
P25 35 5 43.1
14
El 25% de trabajadores con menor produccin fabrican como mximo 43.1 piezas.
p 75
Calculamos n = 110 82.5
100 100
82.5 81
P75 50 5 50.4
18
El 25% de trabajadores con mayor produccin fabrican como mnimo 43.1 piezas.
MEDIDAS DE DISPERSIN
Las medidas de posicin central son los valores que de una manera condensada representan una serie de
datos, pero realmente no son suficientes para caracterizar una distribucin de frecuencia. Para describir una
distribucin de frecuencia o serie de datos es necesario, por lo menos otra medida que indique la dispersin
o variabilidad de los datos, es decir, su alejamiento de las medidas de posicin central. Estas medidas de
posicin central no tienen ningn valor si no se conoce como se acercan o se alejan esos valores con
respecto al promedio, en otras palabras es conocer como se dispersan o varan esos valores con respecto
al promedio de una distribucin de frecuencia.
La dispersin o variabilidad se entiende como el hecho de que los valores de una serie difieran uno de otro,
es decir, como se estn dispersando o distribuyendo en la distribucin. De acuerdo con esto es necesario
encontrar una medida que indique hasta que punto los valores de una variable estn dispersos en relacin
con el valor tpico. Las medidas de variabilidad son nmeros que expresan la forma en que los valores de
una serie de datos cambian alrededor de una medida de posicin central la cual por lo general es la media
aritmtica.
Se llama Variacin o Dispersin de los datos, el grado en que los valores de una distribucin o serie
numrica tienden a acercarse o alejarse alrededor de un promedio. Cuando la dispersin es baja indica
que la serie de valores es relativamente homognea mientras que una variabilidad alta indica una serie de
valores heterognea.
Cuando los valores observados de una serie estn muy concentrados alrededor del promedio, se dice que
ese promedio es o ser muy representativo; pero si estn muy dispersos con relacin al promedio, es decir
muy esparcidos con respecto al promedio, entonces ese promedio es poco representativo de la serie o
distribucin, puesto que no representan adecuadamente los datos individuales de esa distribucin. Es
importante obtener una medida que indique hasta qu punto las observaciones de una serie de valores
estn variando en relacin con el valor tpico de la serie.
Es la medida de dispersin ms utilizada en las investigaciones por ser la ms estable de todas, ya que
para su clculo se utilizan todos los desvos con respecto a la media aritmtica de las observaciones, y
adems, se toman en cuenta los signos de esos desvos. Se le designa con la letra castellana S cuando se
trabaja con una muestra y con la letra griega minscula (Sigma) cuando se trabaja con una poblacin. Es
importante destacar que cuando se hace referencia a la poblacin l nmero de datos se expresa con N y
cuando se refiere a la muestra l nmero de datos se expresa con n. La desviacin tpica se define como:
La raz cuadrada positiva del promedio aritmtico de los cuadrados de los desvos de las observaciones
con respecto a su media aritmtica.
Es una medida de bastante precisin, que se encarga de medir el promedio de la dispersin de las
observaciones de una muestra estadstica. Las influencias de las fluctuaciones del azar, al momento de
seleccionar la muestra la afectan muy poco. Le da gran significacin a la media aritmtica de la serie de
valores. Es siempre una cantidad positiva.
Para datos no agrupados
(x i x) 2
n xi2 xi
2
s i 1
s
n 1 n(n 1)
Es importante recordar que cuando se trabaja con la frmula para datos no agrupados y se trata de
una muestra se utilizar como denominador n1, para corregir el sesgo, pero si en la muestra n
50, entonces se utilizar n, simplemente.
Para calcular la desviacin tpica en datos agrupados existen varios criterios en relacin a la
correccin del sesgo que se produce al tomar una muestra, en este estudio se considerar la
formula que corrige el sesgo de aquellas muestras en estudio; sin embargo, cuando n sea mayor
que 50, no es necesario tal correccin. Existen muchas frmulas matemticas para calcular la
desviacin tpica, queda a juicio del estudiante utilizar la formula que l considere ms fcil,
siempre y cuando su aplicacin sea valedera.
( y i y ) 2 ni y n 2
s y 2
i ni
i i
n 1 s n
n 1
VARIANZA
Es otra de las variaciones absolutas y la misma se define como el cuadrado de la desviacin tpica; viene
expresada con las mismas letras de la desviacin tpica pero elevada al cuadrado, as S y . Las frmulas
2 2
para calcular la varianza son las mismas utilizadas por la desviacin tpica, exceptuando las respectivas
races, las cuales desaparecen al estar elevados el primer miembro al cuadrado.
yn
y n
2
2 i i
i i
s2 n
n 1
s
n(n 1)
n = 7; x i 3144 ; x 2
i 1412140
Reemplazando:
71412140 3144
2
s 2.41gr
7(7 1)
Ejemplo: Calcular la varianza y la desviacin estndar de la resistencia a la tensin, en libras por pulgada
cuadrada (psi), de 80 muestras de una nueva aleacin de aluminio y litio.
Como el tamao de muestra es mayor a 50 no es necesario utilizar la correccin n-1
Entonces reemplazando en la frmula tenemos:
y n 2
13080 2
y 2
i ni
n
i i
2226400
80
s 33.13 psi
n 80
Resistencia a la
2 2
tensin yi ni yi ni yi yi ni
(psi)
70 90 80 2 160 6400 12800
90 110 100 3 300 10000 30000
110 130 120 6 720 14400 86400
130 150 140 14 1960 19600 274400
150 170 160 22 3520 25600 563200
170 190 180 17 3060 32400 550800
190 - 210 200 10 2000 40000 400000
210 230 220 4 880 48400 193600
230 250 240 2 480 57600 115200
Total 80 13080 254400 2226400
Las medidas de variabilidad, estudiadas hasta ahora, solo permitan medir las dispersiones absolutas de los
trminos de la muestra. Las medidas, tomadas en esas condiciones, sern de utilidad, slo cuando se trata
de analizar una sola muestra; pero, cuando hay que establecer comparaciones entre distintas muestras,
ser necesario expresar tales medidas en valores relativos, que pueden ser proporciones o porcentajes.
Las medidas de dispersin relativas permiten comparar grupos de series distintas en cuanto a su variacin,
independientemente de las unidades en que se midan las diferentes caractersticas en consideracin.
Generalmente las medidas de dispersin relativas se expresan en porcentajes, facilitando as el estudio con
medidas procedentes de otras series de valores. La dispersin relativa viene a ser igual a la dispersin
absoluta dividida entre el promedio.
Existen varias medidas de dispersin relativa, pero, la ms usada es el coeficiente de variacin de Pearson,
este es un ndice de variabilidad sin dimensiones, lo que permite la comparacin entre diferentes
distribuciones de frecuencias, medidas en diferentes unidades. El coeficiente de variacin de Pearson se
designa con las letras CV. La formula matemtica es:
s
CV 100
x
Ejemplo: Un fabricante de tubos de televisin dispone de dos tipos de tubos, A y B. Los tubos tienen una
duracin media de 1495 h. y 1875 h. respectivamente. Las desviaciones tpicas son 280 para A y 310 para
B. Determinar qu tubo presenta mayor dispersin absoluta y cul presente mayor dispersin relativa.
Podemos decir directamente que el tipo B presenta mayor dispersin absoluta, ya que la desviacin tpica
es una medida de dispersin.
Para ver la dispersin relativa debemos calcular el Coeficiente de Variacin de Pearson (CV):
Por tanto, ser el tubo A el que presente mayor dispersin relativa en su duracin.
( X Mo)
SK1
S
Se tiene otro coeficiente de asimetra utilizando la mediana que se le denomina segundo coeficiente de
asimetra de Pearson, este es ms preciso que el primero
3( X Md )
SK 2
S
Si en una serie de valores la X Me Mo, entonces la distribucin de frecuencia presenta una curva
X =Me = Mo = 0, la curva de la distribucin es simtrica; y si la distribucin
asimtrica positiva; si la
presenta una curva en la que el Mo Me X , entonces se dice que la curva de la distribucin asimtrica
negativa.
Si la curva de una distribucin de frecuencia es sesgada, la media tratar de ubicarse hacia el extremo o
lado opuesto, de la serie de valores, donde se concentran los datos. Es bueno hacer referencia que en una
asimetra positiva la X Me y en una asimetra negativa la X Me.
COEFICIENTE DE KURTOSIS
Ejemplo: El jefe en control industrial de una empresa somete a un test de fiabilidad 100 dispositivos
electrnicos idnticos y anota su duracin (tiempo hasta el fallo en horas). La recogida de datos lleva a la
distribucin de frecuencias siguiente:
3( X Md ) 3(456 377.778)
SK 2 0.663
S 353.927
El coeficiente de asimetra nos indica que el tiempo de duracin de los dispositivos sigue una distribucin
marcadamente positiva; es decir que el tiempo de duracin de los dispositivos est por debajo del tiempo
esperado.
PROBABILIDAD
INTRODUCCIN.
Como ya se ha visto, la Estadstica es una Ciencia con la que se pretende buscar las regularidades
existentes en el comportamiento de los datos. Sabemos que la Estadstica se puede clasificar en dos
grandes bloques: Estadstica Descriptiva e Inferencia Estadstica. Con el primero lo que se hace es dar un
conjunto de mtodos y herramientas que permiten estudiar esas regularidades cuando lo que observamos
es toda la poblacin. Es decir admitimos que es posible realizar esa operacin de recuento exhaustivo. En
tal caso lo que realizamos con la estadstica es estudiar, describir, el comportamiento de una variable
determinada. Esa observacin exhaustiva nos permite realizar afirmaciones categricas sobre las distintas
caractersticas de la variable, tales como cual es su media, su dispersin, la forma de la distribucin, etc.
Pero esa posibilidad de observacin exhaustiva no siempre es posible. En la gran mayora de los casos nos
vemos limitados a realizar una observacin parcial de la variable. Con ese conjunto limitado de datos
intentaremos conocer las caractersticas de toda la poblacin, es decir, intentaremos inferir su
comportamiento. As una empresa antes de lanzar un nuevo producto estar interesada en conocer cual
puede ser su cuota de mercado, para lo cual realizar un sondeo de opinin entre algunos de sus
potenciales clientes. Pero el resultado de ese sondeo, basado en una muestra (observacin parcial), no le
permite concluir cual ser su verdadera cuota de mercado. La decisin que tome respecto a ese producto
estar marcada por un cierto grado de incertidumbre.
Pero que duda cabe que, en esas situaciones, nuestras afirmaciones ya no pueden ser categricas y las
decisiones que se tomen puede que no sean las ms acertadas como consecuencia de la informacin no
contenida en la muestra. Ms bien al contrario debemos admitir que nuestras conclusiones estn sujetas a
un margen de incertidumbre que es la consecuencia de nuestra observacin parcial de la realidad.
Ante tales circunstancias nuestro objetivo ser doble: por un lado estudiar el comportamiento de la variable
y de otro reducir en la medida de lo posible ese margen de incertidumbre o, al menos, intentar cuantificar
esa falta de certeza en relacin a las caractersticas de las variables. Una forma de cuantificar esa
incertidumbre es haciendo uso del concepto de probabilidad. De hecho la probabilidad es un concepto con
el que convivimos de forma diaria, incluso sin percatarnos de l. Cada vez que hacemos uso de las
expresiones quizs, tal vez, es probable, puede que, etc. estamos implcitamente hablando en trminos
probabilsticos. La incertidumbre es una acompaante inseparable de todas las ciencias sociales e incluso
de las fsicas como seal Heisenberg con el enunciado del principio de incertidumbre de la mecnica
cuntica.
La aficin al juego fue lo que impuls el desarrollo de la probabilidad. En un esfuerzo por aumentar sus
ganancias pidieron a los matemticos que les proporcionaran las estrategias ptimas para varios juegos de
azar. Como resultado de este primer desarrollo de la teora de la probabilidad, se extiende junto con la
estadstica a muchos campos, como la poltica, los negocios, la prediccin del clima, y la investigacin
cientfica.
Experimento Determinstico: Es aquel experimento en el que es posible predecir el resultado final de ese
proceso aun sin haberlo realizado. Ej. Cuando los qumicos combinan oxigeno ms hidrgeno el resultado
es agua; este experimento no es necesario realizarlo para conocer el resultado.
Experimento aleatorio: Es todo proceso que consiste de la ejecucin de un acto (o prueba) uno o ms
veces, cuyo resultado en cada prueba depende del azar y en consecuencia no se puede predecir con
certeza.
Ejemplo: lanzar un dado y observar su resultado, contar objetos defectuosos producidos diariamente por
cierto proceso, etc.
Espacio muestral: se denomina espacio muestral al conjunto de todos los resultados posibles de un
experimento dado. Este conjunto se denotara por . Cada resultado posible de un experimento aleatorio es
un elemento del espacio muestral, que se le conoce como punto muestral.
Ejemplo:
Experimento aleatorio: lanzar una moneda dos veces: = CC, CS, SC, SS.
Experimento aleatorio: lanzar una moneda tres veces: = CCC, CCS, CSC, CSS, SCC, SCS, SSC,
CSS.
Evento o suceso: Es cada resultado del experimento aleatorio o una combinacin de resultados. Tambin
se dice que es un subconjunto del espacio muestral. Los eventos se denotan por letras maysculas:
Ejemplos:
Experimento Aleatorio: se hace rodar un dado y se observa el nmero que aparece en la cara superior.
= 1, 2, 3, 4, 5, 6
Experimento aleatorio: lanzar una moneda dos veces: = CC, CS, SC, SS.
Experimento aleatorio: arrojar una moneda cuatro veces y contar el nmero de sellos obtenidos
= 0, 1, 2, 3, 4, 5, 6.
= (1,1), (1,2), (1,3), (1,4), (1,5), (1,6), (2,1), (2,2), (2,3), (2,4), (2,5), (2,6),
(3,1), (3,2), (3,3), (3,4), (3,5), (3,6), (4,1), (4,2), (4,3), (4,4), (4,5), (4,6),
(5,1), (5,2), (5,3), (5,4), (5,5), (5,6), (6,1), (6,2), (6,3), (6,4), (6,5), (6,6)
= (2,1), (3,1), (3,2), (4,1), (4,2), (4,3) (5,1), (5,2), (5,3), (5,4), (6,1), (6,2), (6,3), (6,4), (6,5)
Eventos Mutuamente Excluyentes: Son aquellos eventos que no pueden ocurrir simultneamente al
realizar una sola vez un experimento. Se dice que dos eventos A y B son mutuamente excluyentes si y solo
si, su interseccin es el conjunto vaco, es decir AB = . Ej. El resultado obtenido al lanzar un dado, si
sale una cara con un 3, no puede salir otro nmero en este mismo lanzamiento.
Eventos Dependientes: Son aquellos sucesos en los que el conocimiento de la verificacin de uno de ellos
altera la probabilidad de verificacin del otro. Se dice que dos o ms eventos son dependientes si la
ocurrencia de uno cualquiera de ellos afecta la probabilidad de la ocurrencia de alguno de los otros eventos.
Ej. Consideremos la probabilidad de obtener 2 cartas de basto al sacar sucesivamente 2 cartas de una
baraja de 40 cartas. Al sacar la primera carta la probabilidad de obtener basto es de 10/40 y al no sustituirla
quedaran en el paquete 39 cartas de las cuales 9 son de basto, en la segunda extraccin la probabilidad de
obtener basto es de 9/39, en este caso la segunda extraccin depende de la primera que tena como
probabilidad 10/40 y la segunda extraccin tendr ahora 9/39 como se puede observar la probabilidad de la
segunda extraccin es afectada por la primera.
Eventos Independientes: Se dice que dos ms eventos son independientes si la ocurrencia de uno
cualquiera de ellos no afecta la probabilidad de la ocurrencia de ninguno de los otros sucesos. Ej. El evento
de obtener simultneamente un 2 al lanzar un dado y sello al tirar una moneda, esta compuesto de 2
sucesos independientes, puesto que la ocurrencia de un 2 en el dado no afecta la probabilidad de la
aparicin de sello en la moneda y viceversa.
Eventos complementarios: Dos eventos A y son complementarios si y solo si, se cumple que: P(A) +
P() = P(), es decir, son eventos mutuamente excluyentes y su unin es el espacio muestral, entonces
tenemos, P(A) + P() = P(S), pero P() = 1, entonces,
Eventos no Mutuamente Excluyentes.- Son aquellos eventos que pueden verificarse simultneamente. A
estos eventos tambin se les llaman Sucesos Compatibles.
REGLAS DE CONTEO
La capacidad de identificar y contar los puntos muestrales de un experimento es un paso importante para
comprender lo que puede suceder en l. Veamos un experimento que consiste en lanzar dos monedas,
donde los resultados experimentales se definen en funcin de comportamiento de casa y sellos que dan
hacia arriba de las monedas. Cuntos resultados experimentales (o puntos muestrales) son posibles en
este experimento?
Podemos considerar que el experimento de lanzar dos monedas se lleva a cabo en dos etapas: la etapa 1
corresponde a lanzar la primera moneda, y la etapa 2 a lanzar la segunda. El diagrama de rbol es un
dispositivo grfico til para visualizar un experimento de varias etapas y enumerar los resultados
experimentales.
C CC
C
S CS
C SC
S
S SS
Se observa que hay cuatro resultados experimentales del hecho de lanzar dos monedas, y el espacio
muestral del mismo se puede presentar mediante:
Regla de conteo para experimentos de etapas mltiples: Una regla til para determinar la cantidad de
puntos muestrales para un experimento de varias etapas es la siguiente:
Si un experimento se puede describir como una sucesin de k etapas, en las que hay n1 resultados en la
primera etapa, n2 en la segunda, etc., la cantidad total de resultados experimentales es igual a (n 1)(n2)(nk).
Esto es, la cantidad de resultados del experimento total es el producto de las cantidades de resultados en
cada etapa.
Regla de conteo para combinaciones: La cantidad de combinaciones de N objetos tomando n a la vez es:
N!
CnN
n!( N n)!
Ejercicios:
1. Un experimento consiste en hacer tres llamadas de venta. En cada una habr compra o no compra.
a. Trace un diagrama de rbol de este experimento.
b. Identifique cada punto muestral y el espacio muestral. cuntos puntos muestrales hay?
c. Cuntos puntos muestrales habra si el experimento consistiera en cuatro llamadas?
2. En la ciudad de Milford, las aplicaciones de cambio de zonificacin siguen un proceso de dos etapas:
una revisin por la comisin de planeacin, y una decisin final por el consejo ciudadano. En el paso 1
la comisin de planeacin revisa la peticin de cambio de zonificacin y emite una recomendacin
positiva o negativa acerca del cambio. En el paso 2 en consejo ciudadano revisa la recomendacin de la
comisin de planeacin y vota aprobndola o rechazndola. En algunos casos el voto del consejo
ciudadano concord con la recomendacin de dicha comisin. El constructor de un complejo de
viviendas acaba de presentar una solicitud de cambio de zonificacin. Considere que el procesamiento
de la solicitud es un experimento.
a. Cuntos puntos muestrales hay para este experimento? Haga una lista de ellos.
b. Trace un diagrama de rbol de este experimento.
4. Un inversionista que revisa el desempeo de seis acciones seleccionar dos de ellas para invertir
Cuntas combinaciones alternativas de dos acciones debe tomar en cuenta el inversionista.
5. Prez y Compaa formar un comit de planeacin a largo plazo, con el encargo de desarrollar un plan
quinquenal estratgico para que la empresa ingrese al mercado de un nuevo producto. El presidente ha
identificado a siete gerentes capaces como candidatos para el comit. De cuntas maneras se puede
formar el comit de tres miembros?
6. Un inspector de control de calidad eligi una pieza fabricada para probarla. Posteriormente se establece
si la parte se acepta, se repara, o se desecha. Despus se prueba otra. Mencione todos los posibles
resultados de este experimento.
7. Un joven tiene cuatro camisas de los siguientes colores: roja (R), blanca (B), negra (N) y verde
Los eventos o sucesos son conjuntos, en consecuencia se pueden combinar eventos para formar nuevos
eventos, para el efecto se realizan diferentes operaciones con conjuntos.
AB AB A
Ejemplo:
En el experimento de lanzar dos monedas y un dado
= CC1, CC2, CC3, CC4, CC5, CC6, CS1, CS2, CS3, CS4, CS5, CS6,
SC1, SC2, SC3, SC4, SC5, SC6, SS1, SS2, SS3, SS4, SS5, SS6
Es decir:
F = CC1, CC3, CC5, CS1, CS2, CS3, CS4, CS5, CS6, SC1, SC2
SC3, SC4, SC5, SC6, SS1, SS2, SS3, SS4, SS5, SS6
PROBABILIDAD DE UN EVENTO
Diariamente se escuchan afirmaciones que llevan implcito el concepto de probabilidad como por ejemplo
los pronsticos del tiempo que indican las probabilidades de lluvia; los galenos indican la probabilidad que
tiene un enfermo de curarse si realiza al pie de la letra sus tratamientos farmacolgicos, los docentes
especulan sobre las posibilidades de xito del estudiantado si dedican ms tiempo al estudio, las compaas
encuestadoras predicen las oportunidades que tienen los polticos de ganar una eleccin determinada, etc.
La Teora de la Probabilidad es una rama de las matemticas que se encarga de los eventos que se
realizan al azar o fenmenos aleatorios, como a menudo se les denominan. Se define la probabilidad como
un nmero comprendido entre 0 y 1, que se le asigna a un evento para sealar su posibilidad de ocurrencia.
Por lo general las probabilidades se expresan en porcentajes, tambin se pueden expresar con nmeros
decimales. Es una condicin de esta ctedra que siempre s resuelvan las fracciones con que se expresan
las probabilidades de un problema dado; los resultados de esos cocientes deben tener por lo menos 4
decimales y el mismo se representa en porcentaje. La probabilidad de cualquier evento se representa con la
letra P.
Se le asigna la probabilidad de 1 al evento que con certeza ocurrir y se le asigna la probabilidad de 0 a un
suceso que no puede ocurrir; se le asigna una probabilidad de 0.5 a un fenmeno que tenga la misma
posibilidad de suceder o de no suceder. Se le asigna una probabilidad 0 P 0.5, a un fenmeno que
tenga ms posibilidades de no suceder que de suceder; y se le asigna una probabilidad 0.5 P 1 a un
evento que tenga ms posibilidades de suceder que de no suceder.
La probabilidad es una caracterstica que interviene en todos los trabajos experimentales. Es necesario
obtener un procedimiento lgicamente slido para que dichos enunciados tengan validez cientfica. En otras
palabras, en virtud de que la probabilidad en definitiva, es un cuantificador o medida de la posibilidad de
ocurrencia de un suceso al que se le asocia un grado de incertidumbre, se debe estudiar la forma en que
esta medida puede ser obtenida.
b. P() = 1
c. P() = 0
Probabilidad Clsica:
Llamada tambin probabilidad a priori debido a que es posible conocer el resultado con anterioridad, es
decir sin llevar a cabo el experimento y slo basado en un razonamiento lgico.
Se calcula a travs de
Esta definicin se basa en el supuesto de que todos los resultados probables de un experimento aleatorio
son igualmente probables; es decir, cada uno de los elementos del espacio muestral tiene la misma
probabilidad de salir.
As por ejemplo; si lanzamos un dado normal, debe considerarse que hay igual posibilidad que salga
cualquiera de los nmeros del espacio muestral = {1, 2, 3, 4, 5, 6} entonces la probabilidad de que salga
cualquier nmero ser 1/6.
En general si un experimento aleatorio tiene n resultados posibles, los n elementos del espacio muestral
tendran la misma probabilidad de salir. En consecuencia la probabilidad de que salga cualquiera de ellos es
1/n.
Este enfoque surge por la necesidad de asignar probabilidades a aquellos eventos considerados no
simtricos. Los seguidores de esta corriente afirman que solo a partir de experimentos realizados varias
veces en las mismas condiciones, es posible asignar probabilidades a los eventos de un experimento
aleatorio. En trminos generales el empeo de esta teora es destacar que cuando el nmero de
experimentos aumenta, la frecuencia relativa del evento se estabiliza y se acerca bastante a un valor
determinado que podra ser prcticamente igual a la probabilidad del evento con un elevado grado de
certeza. Se halla a travs de:
N ( A) n A
P( A) Nmero de veces que ocurri el evento A ____
N () n
Nmero total de veces que se repiti el experimento
La probabilidad de frecuencia relativa, es llamada tambin probabilidad emprica o a posteriori, debido a que
se obtiene el resultado despus de llevar a cabo el experimento un gran nmero de veces.
Ejemplo: En una encuesta realizada a 500 profesores de la ciudad de Chiclayo, se encontr que 320 de
ellos se encuentran trabajando en escuelas no estatales. Hallar la probabilidad que al seleccionar
aleatoriamente un profesor, est trabajando en una escuela no estatal.
Sea el evento A: profesor que trabaja en una escuela no estatal
# Veces que ocurri A = 320
# Total de veces que se repiti el experimento = 500
Luego: N ( A) 320
P( A) 0.64 64.0%
N () 500
Probabilidad subjetiva
Existen varios sucesos de sumo inters cuyas probabilidades no se pueden calcular tomando en cuenta los
mtodos de frecuencia relativa ni con la teora de la probabilidad clsica. Surge entonces, el punto de vista
subjetivo el cual hace hincapi en la probabilidad que resulta de una opinin, creencia, o juicio personal
sobre una situacin determinada. El enfoque subjetivo denominado tambin probabilidad personal, asigna a
los eventos probabilidades, aun cuando los datos experimentales sean escasos o imposibles de obtener.
Los que toman decisiones utilizando este tipo de probabilidad se fundamentan en sus propias experiencias
personales y en muchos casos en presentimientos. Este enfoque de la probabilidad personal se aplica a
problemas de toma de decisiones tales como construcciones de plantas, compras de equipos, licitaciones
de contratos, etc. La probabilidad personal se ha vuelto sistemticamente popular entre los tericos de la
toma de decisiones. Los defensores de esta corriente tratan de buscar soluciones a la asignacin de
probabilidades de aquellos eventos que solo ocurren una vez o que no pueden estar sometidos a
experimentos repetidos. La asignacin de probabilidades a un evento en estas condiciones, ms que un
juicio arbitrario, es un juicio de valor.
Ejercicios:
9. Una en un grupo de 34 estudiantes de una escuela de administracin, revel la siguiente seleccin de
carrera profesionales:
10. Se venden 500 billetes para realizar una lotera. Los talones de los billetes se mezclan bien y el ganador
es quien tiene el boleto del taln elegido aleatoriamente al efectuar el sorteo. Si alguien compr 25
billetes, Cul es la probabilidad de que gane?
11. Sea x el nivel de xito de un nuevo programa de televisin. En la tabla siguiente se observan las
probabilidades subjetivas asignadas a cada x para un nuevo programa particular, segn fueron
otorgadas por personas que laboran en tres distintos medios de difusin. cules de estos conjuntos de
probabilidades son inapropiadas? Explique su respuesta.
Juez
Grado de xito (x)
A B C
REGLAS DE LA PROBABILIDAD
REGLA DE LA SUMA DE PROBABILIDADES
Se usa cuando se desea averiguar la probabilidad de ocurrencia de uno u otro evento.
Si los eventos A y B son mutuamente excluyentes, la probabilidad de ocurrencia de A o de B es:
Donde:
Eventos Mutuamente excluyente: La ocurrencia de un evento implica que ninguno de los otros
eventos pueden ocurrir al mismo tiempo
Solucin:
A: Alumno desaprob Matemtica P(A) = 20/100 = 0.20
B: Alumno desaprob Estadstica P(B) = 32/100 = 0.32
C: Alumno desaprob Teologa P(C) = 18/100 =0.18
REGLA DE LA MULTIPLICACIN
Se utiliza para calcular la probabilidad de ocurrencia simultnea de dos o ms eventos
Si los eventos A y B son dependientes, entonces la ocurrencia de un evento tiene efecto sobre la
probabilidad de ocurrencia del otro evento, por lo tanto la ocurrencia simultnea de los eventos es:
Ejemplo: Suponga que se extrae dos cartas, una a la vez sin reemplazo, de una baraja ordinaria. Cul
es la probabilidad de que ambas cartas sean ases?
A: un as en la primera extraccin
B: un as en la segunda extraccin
Ejemplo: Supongamos que se extrae al azar dos frutas, de una bolsa que contiene 4 manzanas, 6 naranjas
y 5 duraznos. Se obtiene una muestra sin reemplazo. Cul es la probabilidad de que se obtenga una
naranja y una manzana, en ese orden?
A: Extraer una naranja en la primera extraccin
B: Extraer una manzana en la segunda extraccin dada una naranja en la primera extraccin
Si los eventos A y B son independientes, entonces la ocurrencia de un evento no tiene efecto sobre la
probabilidad de ocurrencia del otro, por lo tanto la ocurrencia simultnea de los eventos es
Ejemplos: Supongamos que lanzamos un par de dados legales una sola vez. Cul es la probabilidad de
obtener un 2 en el primer dado y un 4 en el segundo?
A: Obtener 2 en el primer dado
B: Obtener 4 en el segundo dado
Ejemplos: Supongamos que se extrae una muestra aleatoria de una bolsa de frutas. La bolsa contiene 4
manzanas, 6 naranjas y 5 duraznos. Si se selecciona 2 frutas, una a la vez, con reemplazo. Cul es la
probabilidad de que se obtenga una naranja y una manzana en ese orden?
A: Obtener una naranja
B: Obtener una manzana
PROBABILIDAD CONDICIONAL
La probabilidad de que ocurra un evento B cuando se sabe que ha ocurrido algn otro evento A, se
denomina PROBABILIDAD CONDICIONADA y se designa como P(B/A). l smbolo P(B/A) se lee como la
probabilidad de que ocurra B sabiendo que ocurri A o sencillamente probabilidad de B dado A Las
probabilidades condicionadas estn relacionadas a probabilidades asociadas a los eventos definidos en
subpoblaciones o espacios mustrales reducidos.
Se dice que la probabilidad de ocurrencia de un evento dado es condicionada, si esta se afecta por la
ocurrencia de otro evento presente.
P( B A) P( BA)
P(B/A) = , si P(A) 0
P( A) P( A)
Ejemplo: Un profesor de matemticas da clases en una seccin matutina y una vespertina de introduccin
al clculo.
Sea A = {el profesor da una mala conferencia matutina} y
B = {el profesor da una mala conferencia vespertina}.
Si P(A) = 0.3, P(B) = 0.2 y P(AB) = 0.1, calcule las siguientes probabilidades.
c c
a) P(B/A) b) P(B /A) c) P(B/A )
P( BA) 0.1
a) P( B / A) 0.33
P( A) 0.3
P( B c A) P( A) P( AB ) 0.3 0.1
b) P( B c / A) 0.67
P( A) P( A) 0.3
P( BA c ) P( B) P( AB ) 0.2 0.1
c) P( B / Ac ) 0.14
P ( Ac ) P( Ac ) 0.7
TEOREMA DE BAYES
Es un mtodo que nos permite calcular la probabilidad de que un evento que ya ocurri (o efecto) sea
resultante de alguna causa.
Si A1, A2, , An son sucesos n mutuamente excluyentes, de los cuales al menos unos de los A i (i = 1, 2, ...,
n) debe ocurrir, y sea B un suceso cualesquiera en , la probabilidad condicional de la ocurrencia de Ai
cuando el evento B ha ocurrido es:
P( Ai ) P( B / Ai ) P(A )P(B / Ai )
P(Ai/B) = = n i
P ( A1 ) P( B / A1 ) P( A 2 ) P( B / A 2 ) ... P( A n ) P( B / A n ) P(Ai )P(B / Ai )
i 1
Ejemplo:
En una empresa del total de trabajadores, se tiene que el 50% son ingenieros, el 30% son abogados y el
20% son administrativos; adems se tiene que el 8% de los ingenieros, el 9% de los abogados y el 10% de
los administrativos son provincianos (nacidos fuera de la capital).
a. Supongamos que se selecciona un trabajador al azar y resulta ser provinciano. Hallar la probabilidad
de que el trabajador sea ingeniero.
b. Supongamos que se selecciona un trabajador al azar y resulta ser provinciano. Hallar la probabilidad
de que el trabajador sea abogado.
c. Supongamos que se selecciona un trabajador al azar y resulta ser provinciano. Hallar la probabilidad
de que el trabajador sea abogado.
d. Supongamos que se selecciona un trabajador al azar y resulta ser no provinciano. Hallar la
probabilidad de que el trabajador sea ingeniero.
P(B/A1) = 0.08
Solucin:
A1 = Trabajador ingeniero
P(A1)=0.50
A2 = Trabajador abogado P(B/A1) = 0.92
B = Trabajador provinciano
P(A2)=0.30
B = Trabajador no provinciano P(B/A2) = 0.91
P(A3)=0.20
P(B/A3) = 0.90
a. P(A1/B) =
P ( A1 ) P ( B / A1 )
=
P ( A1 ) P ( B / A1 ) P ( A 2 ) P ( B / A 2 ) P ( A 3 ) P ( B / A 3 )
0.50(0.08)
0.4798
0.50(0.08) 0.30(0.09) 0.20(0.10)
P( A 2 ) P( B / A 2 )
b. P(A2/B) =
P ( A1 ) P ( B / A1 ) P ( A 2 ) P ( B / A 2 ) P ( A 3 ) P ( B / A 3 )
0.30(0.09)
0.3103
0.50(0.08) 0.30(0.09) 0.20(0.10)
P( A 3 ) P( B / A 3 )
c. P(A3/B) =
P ( A1 ) P ( B / A1 ) P ( A 2 ) P ( B / A 2 ) P ( A 3 ) P ( B / A 3 )
0.20(0.10)
0.2299
0.50(0.08) 0.30(0.09) 0.20(0.10)
P ( A2 ) P ( B ' / A2 )
d. P(A2/B) =
P ( A1 ) P ( B ' / A1 ) P ( A2 ) P ( B ' / A2 ) P ( A3 ) P ( B ' / A3 )
0.30(0.91)
0.2990
0.50(0.92) 0.30(0.91) 0.20(0.90)
DISTRIBUCIONES DE PROBABILIDAD
INTRODUCCIN
Cuando se habla de los tipos de probabilidad, decimos que esta se clasifica en tres:
1. Probabilidad clsica
2. Probabilidad de frecuencia relativa
3. Probabilidad subjetiva
La distribucin de probabilidades esta muy relacionado con el tipo de variables. Nosotros conocemos dos
tipos de variables:
a. Variable discreta, y
b. Variable contina.
Estudiaremos las principales distribuciones de variables discretas. Una distribucin de probabilidades para
una variable aleatoria discreta es un listado mutuamente excluyente de todos los resultados numricos
posibles para esa variable aleatoria tal que una probabilidad especfica de ocurrencia se asocia con cada
resultado.
El valor esperado de una variable aleatoria discreta es un promedio ponderado de todos los posibles
resultados, donde las ponderaciones son las probabilidades asociadas con cada uno de los resultados.
N
E ( X ) X i P( X i)
i 1
2
La varianza de una variable aleatoria discreta (s ) se define como el promedio ponderado de los cuadros de
las diferencias entre cada resultado posible y su media (los pesos son las probabilidades de los resultados
posibles).
N 2
X i E ( X ) P( X i )
2
i 1
DISTRIBUCIN BINOMIAL
La distribucin Binomial se utiliza para calcular probabilidades de variables discretas. Se aplica en aquellos
experimentos aleatorios que tienen slo dos resultados mutuamente excluyentes. Ejemplo:
Al llevar a cabo un experimento aleatorio, siempre estamos interesados en que suceda uno de los dos
resultados, si el resultado que esperbamos efectivamente sucede, diremos que hubo XITO. Si el
resultado que esperbamos efectivamente no sucede, entonces diremos que hubo FRACASO. Es decir:
La distribucin Binomial es una distribucin de probabilidades que surge al cumplirse cinco condiciones:
Cuando se cumple estas condiciones, la distribucin Binomial proporciona cada resultado posible de los N
ensayos y la probabilidad de obtener cada uno de estos resultados.
n!
P( x) cx . p x .(1 p) n x p x (1 p) n x
n
x!(n x)!
Donde:
P(X) = probabilidad de X xitos dados los parmetros n y p
n = tamao de la muestra / nmero de ensayos
p = probabilidad de xito
1 p = probabilidad de fracaso
X = numero de xitos en la muestra ( X = 0, 1, 2, .. n)
n x
El trmino p (1 p)
x
indica la probabilidad de obtener X xitos de n observaciones en una secuencia
n!
especfica. En trmino indica cuantas combinaciones de los X xitos entre n observaciones son
x!(n x)!
posibles.
Por eso que llegamos a la funcin matemtica que representa esta distribucin.
Propiedades
: V(x) = = npq
2
La varianza de la distribucin Binomial es
10!
p( x 6) c6 (0,5) 6 (1 0,5) 106 (0,5) 6 (1 0,5) 106
10
6! (10 6)!
Luego,
P (x = 6) = 0,205
Es decir, se tiene una probabilidad del 20,5% de obtener 6 caras al lanzar 10 veces una moneda.
La tabla contiene probabilidades binomiales acumulativas, es decir, cada valor de la tabla es la probabilidad
desde un valor X = x hasta inclusive (X x).
a) 5 o ms alumnos aprueben: x 5
Aqu nos piden hallar la probabilidad desde 5 hasta 20
= p (x 5) = 0.9490 = 94.90%
P(x > 10) = p(x 11) = p(x = 11) + p(x = 12) + p(x = 13) ++ p(x = 20) =0.1275 = 12.75%
Ejercicios:
1. Un experimento Binomial contiene n = 5, p = 2/5. Hallar
a. La distribucin de probabilidad para este experimento
b. La media aritmtica y desviacin estndar de esta distribucin Binomial.
3. Aproximadamente 2/5 de las familias de una cierta comunidad, viven en extrema pobreza. cul es la
probabilidad de que en una muestra aleatoria de 5 personas:
a. 3 de ellos vivan en extrema pobreza?
b. Ninguno viva en extrema pobreza?
c. 3 o ms vivan en extrema pobreza?
4. Un vendedor de seguros vende plizas a 5 personas, todas de la misma edad y con buena salud.
De acuerdo con tablas actuariales, la probabilidad de que una persona de sta viva 30 aos ms es 2/3.
Hallar la probabilidad de que al cabo de 30 aos vivan:
a. Las 5 personas
b. Al menos 3 personas
c. Solamente 2 personas
d. Al menos una persona
5. El 75% de la mercadera que recibe un comerciante del fabricante A es de calidad excepcional, mientras
que el 80% de la mercadera que recibe del fabricante B es de calidad excepcional. El 60% del total de
la mercadera lo adquiere de A y el resto de B. Si se selecciona 4 unidades de la mercadera, qu
probabilidad hay que se encuentren 2 unidades que sean de calidad excepcional?
6. El American Almanac of Jobs and Salaries, 1994-95 informa que el 25% de los contadores tienen
empleo en contadura pblica. Suponga que este porcentaje se aplica a un grupo de 15 egresados de
universidades que van a ejercer la profesin de contador. Cul es la probabilidad de que cuando
menos tres egresados tengan empleo en contadura pblica?
DISTRIBUCIN DE POISSON
La Distribucin de Poisson mide la probabilidad de un evento aleatorio sobre algn intervalo de
tiempo. Son necesarios dos supuestos para la aplicacin de la distribucin de Poisson:
La probabilidad de ocurrencia del evento es constante para dos intervalos cualesquiera de tiempo o
espacio.
e x
p(x; ) = x = 0, 1, 2, ......
x!
Donde: = nmero promedio de ocurrencia por unidad de tiempo o espacio x = nmero de veces que
ocurre el evento e = 2.71828, la base del logaritmo natural
Ejemplo: En una gran empresa el nmero de accidentes de trabajo sigue un promedio de tres por semana.
Calcular:
e 3 30 e 3 33
1. P(x=0) = P(0) = 0.0498 2. P(x = 3) = P(3) = 0.224
0! 3!
e x
x0 x! P(0) P(1) P(2) P(3) P(4) 0.8152
4
3. P(x 4) = F(4) =
e x
4. P(x > 5) = 1 F(5) = 1 - 1 P(0) P(1) P(2) P(3) P(4) P(5) 0.084
5
x 0
x!
Ejercicios:
7. Se tiene una distribucin de p probabilidades de Poisson con =3
a. Escriba la funcin correcta de probabilidades de Poisson
b. Calcule:
P(x = 2) P(x 2)
P(x = 4) P(3 x 6)
9. El profesor Bradley anima a sus estudiantes de estadstica a actuar de forma prudente consultando al
tutor si tienen alguna pregunta mientras se preparan par el examen final. Parece que la llegada de los
estudiantes a la oficina del tutor se ajusta a una distribucin de Poisson, con un promedio de 5.2
estudiantes cada 20 minutos. El profesor Bradley est preocupado porque si muchos estudiantes
necesitan los servicios del tutor, puede resultar un problema de congestin.
a. El tutor debe determinar la probabilidad de que cuatro estudiantes lleguen durante cualquier
intervalo de 20 minutos, lo cual podra causar el problema de congestin que tiene el profesor
Bradley. Si la probabilidad excede del 20%, se contratar un segundo tutor.
b. El tutor debe calcular la probabilidad de que ms de cuatro estudiantes lleguen durante algn
perodo de 20 minutos. Si es mayor que el 50%, las horas de oficina del tutor se aumentarn,
permitiendo a los estudiantes extender el horario en las que vienen a ver el tutor.
c. Si la probabilidad de que ms de siete estudiantes lleguen durante un perodo cualquiera de 30
minutos excede 50%, el mismo profesor Bradley ofrecer tutora adicional.
12. Durante la poca de reservaciones telefnicas en una universidad local, las llamadas entran con una
frecuencia de una cada dos minutos.
a. Cul es la cantidad esperada de llamadas en una hora?
b. Cul es la probabilidad de tres llamadas en cinco minutos?
c. Cul es la probabilidad de que no hay llamadas en un periodo de cinco minutos?
13. Los pasajeros de las aerolneas llegan a l azar e independiente a la seccin de documentacin en una
gran aeropuerto internacional. La frecuencia promedio de llegada es de 10 pasajeros por minuto.
a. Cul es la probabilidad de no llegadas en un intervalo de un minuto?
b. Cul es la probabilidad de que lleguen tres pasajeros o menos en un intervalo de un minuto?
c. Cul es la probabilidad de no llegada en un perodo de 15 segundos?
d. Cul es la probabilidad de al menos una llegada en un perodo de 15 segundos?
14. La compaa Aritmos ha observado que sus calculadoras fallan y necesitan reemplazarlas con una
frecuencia de tres cada 25 das.
a. Cul es la cantidad esperada de calculadoras que fallan en 30 das?
b. Cul es la probabilidad de que fallen al menos dos en 50 das?
c. Cul es la probabilidad de que fallen exactamente tres en 10 das?
15. Un banco atiende todos los das de 8 a.m. a 4 p.m. y se sabe que el nmero de clientes por da que van
a solicitar un prstamo por ms de $10000 tiene una media de 3.
a. Cul es la probabilidad de que hasta el medioda no se haya producido una solicitud de prstamo
por ms de $10000?
b. Cul es la probabilidad de que hasta en dos das se hayan producido ms de 3 solicitudes de
prstamo por ms de $10000?
16. Los pasajeros de las aerolneas llegan al azar e independientemente a la seccin de documentacin en
un gran aeropuerto internacional. La frecuencia promedio de llegadas es de 10 pasajeros por minuto.
cul es la probabilidad de:
a. No llegadas en un intervalo de un minuto?
b. Que lleguen tres pasajeros o menos en un intervalo de un minuto?
c. No llegadas en un intervalo de 15 segundos?
d. Al menos una llegada en un periodo de 15 segundos?
DISTRIBUCIN HIPERGEOMTRICA
Los experimentos que tienen este tipo de distribucin tienen las siguientes caractersticas:
a) Al realizar un experimento con este tipo de distribucin, se esperan dos tipos de resultados.
b) Las probabilidades asociadas a cada uno de los resultados no son constantes.
c) Cada ensayo o repeticin del experimento no es independiente de los dems.
d) El nmero de repeticiones del experimento (n) es constante.
Se toma una muestra de tamao n, al azar (sin reemplazo) de entre N objetos, donde K K yn N. Sea
la variable aleatoria X el nmero de xitos en la muestra. Entonces, X tiene una distribucin
Hipergeomtrica y
C xK .CnNxk
p( x; N , K , n)
CnN
N n
E(X) = np, V ar(X) = npq
N 1
Si llamamos X a la variable aleatoria que representa el nmero de mujeres seleccionadas, esta variable
sigue una distribucin hipergeomtrica donde N = 20, K = 5, N K = 15, n = 6.
C25 .C415
P(X = 2) = 0.35217
C620
C05 .C615
P(X = 0) = 0.12913
C620
C x5 .C615 x
P(x) = , x 0,1,2,3,4,5
C620
Ejercicios:
17. Entre las 20 celdas solares que se presentan en una expresin comercial, 12 son celdas planas y las
otras son celdas de concentracin. Si una persona que visita la exposicin selecciona al azar 6 de las
salas solares para revisarlas. Cul es la probabilidad de que 3 de estas sean planas?
18. Entre 12 hombres que soliciten un trabajo en el servicio postal, las esposas de los 9 trabajan. Si se
seleccionan aleatoria mente a 2 de los solicitantes para una consideracin adicional, cuales son las
probabilidades de que
a) La esposa de ninguno trabaje
b) Solo la esposa de uno trabaje
c) Las esposas de ambos trabajen
19. Un inspector de aduanas decide revisar 3 de 16 embarques provenientes de Madrid por la va area. Si
la seleccin es aleatoria y 5 de los embarques contienen contrabando encuentre las probabilidades de
que el inspector de aduanas
a) No encuentre ningn embarque con contrabando
b) Encuentre uno de los embarques con contrabando
c) Encuentre dos de los embarques con contrabando
d) Encuentre tres de los embarques con contrabando
20. Para pasar una inspeccin de control de calidad, se seleccionan al azar 2 piezas de cada lote de 12
acumuladores para automvil, y se acepta el lote solo si ningn acumulador tienen ningn defecto; de
otra manera se revisan todos los acumuladores del lote. Si la seleccin de los acumuladores es
aleatoria, obtenga las probabilidades de que un lote
a) Pase la instruccin con uno de los 12 acumuladores defectuoso
b) No pase la inspeccin con 3 de los acumuladores con defectosc) No pase la inspeccin con 6 de los
acumuladores con defectos
21. Entre las 12 casas que hay para venta en un fraccionamiento, 9 tienen aire condicionado, si se
22. El encargado de una oficina de correos debe enviar 6 de 15 paquetes a Europa por correo areo, pero
los revuelve y pone por correo al azar de los seis paquetes. Cul es la probabilidad de que solo tres de
los paquetes que se supone que se deben de enviar por correo areo se enven por esta clase de
correo?
23. Entre16 camiones de entrega de una tienda departamental, 5 emiten cantidades excesivas de
contaminantes. Si se seleccionan al azar 8 de los camiones para una inspeccin Cul es la
probabilidad de que esta muestra incluya por lo menos 3 de los camiones que emiten cantidades
excesivas de contaminantes?
24. En una prisin federal, 120 de 300 internos estn purgando condenas por delitos contra la salud. Si se
selecciona aleatoria mente a 8 de los internos para comparecer ante un comit legislativo Cul es la
probabilidad de que 3 de los 8 estn purgando condenas por delitos contra la salud?
DISTRIBUCIN NORMAL
Abordaremos ahora el estudio de la ms importante de las distribuciones de tipo contnuo, la
distribucin normal, cuya funcin de probabilidad tiene una representacin grfica (denominada para
variables contnuas, curva de densidad) que se caracteriza por la forma de campana invertida (Fig).
Hemos hablado con anterioridad de lo importantes que son
y de la frecuencia con que aparecen en estadstica este tipo
de distribuciones. Corresponde a fenmenos en los que
existen unos pocos datos en los extremos, y estos
aumentan paulatinamente hasta la parte central donde est
la mayora de ellos. Se presenta en fenmenos tan
dispares, como la longitud de una pieza fabricada por una mquina o el efecto que una misma dosis de
un frmaco produce en diferentes individuos. Son de este tipo, la mayora de los caracteres
morfolgicos de las poblaciones (tallas, pesos,...), sociolgicos (consumo de productos, valoracin de
un mismo fenmeno,...), psicolgicos (coeficiente de inteligencia, grado de adaptacin al medio,...)
fsicos (resistencia a la rotura de una pieza, duracin de una pila,.....) y en general todas aquellas
caractersticas que se obtengan como suma de muchos factores.
Ante este tipo de fenmenos, existe un modelo matemtico que nos permite el tratamiento de todos
ellos, la curva o campana de Gauss. Veremos ahora las caractersticas ms importantes de este
modelo, y como usarlo para calcular probabilidades. Diremos que una variable aleatoria tiene una
distribucin normal si su curva de densidad es simtrica, con forma de campana invertida (fig. 1).
Cada distribucin normal tiene dos parmetros que son los que la determinan: su media y su desviacin
tpica. Por ello, se suele denotar por N( m,s). En la siguiente figura, vemos diferentes distribuciones
normales
Como se puede observar, la media indica el eje de simetra de la distribucin, mientras la desviacin
tpica es la que determina el recorrido de la misma. Ya dijimos que para distribuciones de tipo discreto,
la suma de todos los valores de la probabilidad deba ser 1. Para el caso de las distribuciones de tipo
contnuo esta condicin se transforma en que el rea total
bajo la curva ha de ser 1. La clave de este tipo de
distribuciones est en que existe una correspondencia entre
rea y probabilidad, de forma que la probabilidad de que la
variable est entre dos valores a y b es exactamente el rea
marcada en la figura.
La distribucin normal es en forma de campana,
habitualmente llamada distribucin de Gauss. Es simtrica en torno a su media (); la media, mediana y
modo son iguales; el rea total de la curva por encima del eje basal x es la unidad del rea = 1, por lo
tanto cada sector de derecha e izquierda tiene un valor de 0,5. Si se trazan lneas perpendiculares a un
desvo estndar () de distancia de la media, se obtiene un 68% del rea de la curva. Dos desvos
estndar encierran un 95% y tres un 99,7% de la curva.
Esta distribucin es frecuentemente utilizada en las aplicaciones estadsticas. Es propio que ciertos
fenmenos tienden a parecerse en su comportamiento a esta distribucin. Muchas variables aleatorias
continuas presentan una funcin de densidad cuya grfica tiene forma de campana.
En resumen, la importancia de la distribucin normal se debe principalmente a que hay muchas variables
asociadas a fenmenos naturales que siguen el modelo de la normal.
Caracteres morfolgicos de individuos (personas, animales, plantas,...) de una especie, p.ejm. tallas,
pesos, envergaduras, dimetros, permetros,...
Caracteres fisiolgicos, por ejemplo: efecto de una misma dosis de un frmaco, o de una misma
cantidad de abono.
Caracteres sociolgicos, por ejemplo: consumo de cierto producto por un mismo grupo de individuos,
puntuaciones de examen.
La Distribucin Normal Estndar es una Distribucin Normal terica que utiliza un sistema numrico comn.
Cuando se estudia la variable de peso de los nios al nacer, o el grueso de tornillos, o el nmero de frutos
daados en un rbol, aun cuando las distribuciones de datos muestren la misma forma, las unidades
mtricas son variables, por tanto, para poderlas comparar con una distribucin patrn es necesario referirlas
en la misma unidad de medida. Esta unidad de medida es la desviacin estndar (se ver ms adelante), de
esta manera, sean pesos de bebes, grueso de tornillos o frutos de rboles, transformados a una unidad
estndar, estaremos hablando en la misma escala. Cuando se diga por ejemplo, entre el punto A y el punto
B hay k desviaciones estndar, sin importar las unidades en que fueron medidos los datos, kilos, micras o
unidades para el ejemplo. Por tanto, al comparar las magnitudes entre el punto A y el punto B en los tres
anlisis con las unidades de la Distribucin Normal Estndar, se podr deducir entre otras cosas, la
magnitud relativa entre el punto A y el punto B. Debe quedar claro que las comparaciones nicamente son
posibles en poblaciones similares, nios con nios, tornillos con tornillos, etc.
Puesto que hay un nmero infinito de combinaciones para los dos parmetros, hay un nmero infinito de
curvas normales diferentes. Este problema se ha resuelto prcticamente al transformar los valores de todas
las distribuciones normales a los valores de una distribucin normal estandarizada (tipificada) representada
por la curva normal estandarizada.
Las puntuaciones estandarizadas (tipificadas) se logran restando la media a cada observacin y dividiendo
entre la desviacin estndar. La unidad estndar o tipificada se llama Z y se obtiene mediante la
x
formula: Z . Donde es la media de la distribucin y su desviacin estndar.
En muchas ocasiones se quieren comparar puntuaciones que pertenecen a dos distribuciones normales
diferentes. La diferencia entre las dos distribuciones radica en que las medias y las desviaciones estndar
no son iguales. Sin embargo la comparacin se hace posible si se convierten las puntuaciones de ambas
distribuciones a puntuaciones z que corresponden a la distribucin normal estandarizada o tipificada.
x
Z
Si la variable X es N(,) entonces la variable tipificada de X es y
sigue tambin una distribucin normal pero de = 0 y = 1, es decir, N(0,1)
Funcin de distribucin:
t2
1 z
F ( z ) P( Z z ) ( z )
2 e
2
dt
La curva normal estndar tiene = 0 y = 1. Recordamos que la probabilidad equivale al rea bajo la
curva, que el rea bajo toda la curva es 1 y que el rea bajo cada mitad de la curva es 0.5. Para calcular
probabilidades en una curva normal no estndar, usamos la frmula de conversin z. Cuando la media de la
distribucin normal es 0 y la varianza es 1 se denomina "normal tipificada", y su ventaja reside en que hay
tablas donde se recoge la probabilidad acumulada para cada punto de la curva de esta distribucin.
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
3.6 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.8 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
La tabla contiene valores de la funcin de distribucin de una variable aleatoria N(0,1) desde 0 a 3.99 en
intervalos de una centsima. Por ejemplo si queremos hallar: F(2.34) = P(z 2.34) usamos la tabla. Como
2.34 = 2.3 + 0.04, localizamos el valor que aparece en la fila que comienza en 2.3 y en la columna
encabezada con 0.04. Este valor resulta ser 0.9904, por lo que concluimos que: F(2.34) = P(z 2.34) = P(z
< 2.34) = 0.9904.
Ejemplo: La duracin media de un televisor de una determinada marca es de 8 aos con una desviacin
tpica de medio ao y se distribuye normalmente.
Si quisiramos calcular la proporcin de ellos que durarn ms de 9 aos, tendramos:
9 8
p(X > 9) = p Z = p(Z > 2) = 1 - p(Z < 2) = 1 - 0,9772 = 0,0228 ~ 22, 8%
0,5
Ejemplo: Una mquina produce ejes de acero con una longitud media de 1.005 m y una desviacin tpica
de 0.01 m = 1 cm. Slo son vlidos los ejes que midan 1 0.02 m. Suponiendo que la longitud de los ejes
producidos se distribuye de acuerdo con una distribucin normal, qu porcentaje de ejes de acero se
espera que haya que desechar?
Hay que calcular: P(0.98 < x < 1.02) con una N(1.005, 0.01)
Entonces:
F(1.02) = P(x 1.02) = P(z (1.021.005)/0.01) = P(z 1. 5) = 0.9332
F(0.98) = P(x 0.98) = P(z (0.981.005)/0.01) = P(z 2.5) =1 P(z 2.5) =1 0.9938 = 0.0062
Por lo tanto
P(0.98 < x < 1.02) = F(1.02) F(0.98) = 0.9332 0.0062 = 0.9270
Se espera que el 92.7 % sern vlidos y el 7.3 % sern desechables.
Dentro de este contexto, ser necesario asumir un estadstico o estimador como una variable aleatoria con
una determinada distribucin, y que ser la pieza clave en las dos amplias categoras de la inferencia
estadstica: la estimacin y el contraste de hiptesis.
El concepto de estimador, como herramienta fundamental, se caracteriza mediante una serie de
propiedades que servirn para elegir el mejor para un determinado parmetro de una poblacin, as como
algunos mtodos para la obtencin de ellos, tanto en la estimacin puntual como por intervalos.
La tarea fundamental de la estadstica inferencial, es hacer inferencias acerca de la poblacin a partir de
una muestra extrada de la misma.
Las tcnicas estadsticas para ser utilizados requieren datos, cuya adquisicin es un compromiso difcil. La
teora de muestras o muestreo tiene por objeto proporcionar una metodologa que gue los problemas de
recogida de datos, es decir, cmo se hace para recoger esos datos. Por lo tanto, El muestreo es una
herramienta de la investigacin cientfica. Su funcin bsica es determinar que parte de una realidad en
estudio (poblacin o universo) debe examinarse con la finalidad de hacer inferencias sobre dicha poblacin.
El error que se comete debido a hecho de que se obtienen conclusiones sobre cierta realidad a partir de la
observacin de slo una parte de ella, se denomina error de muestreo. Obtener una muestra adecuada
significa lograr una versin simplificada de la poblacin, que reproduzca de algn modo sus rasgos bsicos.
UNIVERSO: Es un conjunto finito o infinito de elementos, seres o cosas que presentan caractersticas
comunes entre si.
POBLACIN: Est constituida por el conjunto de medidas de las variables en estudio, en cada una de las
unidades que conforman el universo. Es decir, cada una de las variables en estudio constituye una
poblacin que viene dada por el conjunto de valores que ella toma de la realidad que conforman el universo.
MUESTRA: Es un subconjunto del universo o de la poblacin, dependiendo de que se haya seleccionado a
un grupo de elementos o a un grupo de mediciones. Es el conjunto de unidades o elementos de anlisis
sacados del marco.
UNIDAD DE ANLISIS: Est definida como el elemento que se examina y del que se busca la informacin
dentro de la unidad de investigacin. Es por lo tanto el objeto o individuo del que hay que obtener la
informacin.
UNIDAD DE OBSERVACIN: Se denomina a la unidad a travs de la cual se obtiene la informacin, esta
puede o no coincidir con el elemento. Tambin se denomina unidad respondiente.
UNIDADES DE MUESTREO: Son aquellas que contienen las unidades de anlisis de la poblacin y que se
utilizarn para confeccionar o seleccionar la muestra. En general, es la seleccin de los conjuntos que sern
tomados en cuenta para la conformar la muestra final en la investigacin. En otras palabras es un nmero
de elementos de la poblacin, no reservados, que se van a estudiar. Todo miembro de la poblacin
pertenecer a una y slo una unidad de muestreo.
MUESTREO: Es la tcnica empleada para la seleccin de elementos (unidades de investigacin)
representativos de la calidad y condiciones medias de un todo que conformarn una muestra. Este
muestreo puede ser: No Probabilstico y Probabilstico.
MARCO MUESTRAL: Es el proceso de definir y enumerar los elementos sobre los cuales se realizan las
inferencias estadsticas en el muestreo probabilstica. Es importante la construccin de un marco muestral lo
ms perfecto posible a fin de que exista una correspondencia biunvoca entre las unidades muestrales
poblacionales y las listas fsicas que lo conforman. Entre los factores que contribuyen a distorsionar la
calidad de un buen marco muestral estn:
a) Elementos faltantes
b) Unidades ocultas por estar pareadas con otras
c) Unidades muestrales repetidas y
d) Elementos extraos.
Parmetro: Son las medidas o datos que se obtienen sobre la poblacin.
Estadstico: Son los datos o medidas que se obtienen sobre una muestra y por lo tanto una estimacin de
los parmetros.
Error Muestral, de Estimacin o Estndar. Es la diferencia entre un estadstico y su parmetro
correspondiente. Es una medida de la variabilidad de las estimaciones de muestras repetidas en torno al
valor de la poblacin, nos da una nocin clara de hasta dnde y con qu probabilidad una estimacin
basada en una muestra se aleja del valor que se hubiera obtenido por medio de un censo completo.
Siempre se comete un error, pero la naturaleza de la investigacin nos indicar hasta qu medida podemos
cometerlo (los resultados se someten a error muestral e intervalos de confianza que varan muestra a
muestra). Vara segn se calcule al principio o al final. Un estadstico ser ms preciso en cuanto y tanto su
a) Costos reducidos.
b) Mayor rapidez para obtener resultados.
c) Mayor exactitud o mejor calidad de la informacin: debido a los siguientes factores
1.- Volumen de trabajo reducido.
2.- Puede existir mayor supervisin en el trabajo.
3.- Se puede dar ms entrenamiento al personal.
4.- Menor probabilidad de cometer errores durante el procesamiento de la informacin.
d) Factibilidad de hacer el estudio cuando la toma de datos implica tcnicas destructivas, por ejemplo:
- Pruebas de germinacin.
- Anlisis de sangre.
- Control de calidad.
TIPOS DE MUESTREO
Los investigadores proponen diversos criterios de clasificacin para los diferentes tipos de muestreo,
aunque en general pueden dividirse en dos grandes grupos: mtodos de muestreo probabilsticas y
mtodos de muestreo no probabilsticas.
Definicin de objetivos: Esta etapa comprende la identificacin del problema y el establecimiento de las metas
del estudio.
Definicin del marco de muestreo: El marco de muestreo es el conjunto de las unidades de muestreo que
constituyen una poblacin. Este generalmente puede ser de dos tipos:
a) Marco lista: Es una lista depurada (sin traslapes o duplicaciones) que permite identificar a cada unidad de
muestreo. Por ejemplo, una lista que contenga el nombre de todos los proveedores de caa de azcar de un
ingenio. Es recomendable que adems de identificar a cada unidad muestral, incluya algunas otras
caractersticas de inters, por ejemplo, tamao de la finca de cada proveedor.
b) Es un plano o mapa que permite identificar pequeas reas usadas como unidades de muestreo en las que
se ha dividido el rea total.
Variables a medir y Mtodos de medicin: Es importante considerar el tipo de variable a medir, por ejemplo:
si se va a estudiar el rendimiento de caa de azcar, la variable es de tipo continuo, si interesa estimar la
proporcin de agricultores que utilizan herbicidas para el control de malezas, se medir una variable de tipo
binomial. El tipo de variable a medir ayuda a definir el esquema o tipo de muestreo. Los mtodos de medicin
deben de tener las siguientes caractersticas:
a) uniformidad.
b) practicabilidad.
c) deber ser comprensibles para el grupo de trabajo.
Tipo o Esquema de Muestreo: Existen actualmente una gran variedad de tipos o esquemas de muestreo que
han sido desarrollados para diferentes situaciones, entre los ms usados estn: muestreo simple aleatorio,
muestreo aleatorio estratificado, muestreo sistemtico.
Determinacin del tamao de muestra (n): Este punto depende de que es lo que se desea estimar y el
esquema o tipo de muestreo seleccionado.
Seleccin de las unidades de muestreo: Consiste en extraer un nmero n de unidades muestrales de una
poblacin de tamao N.
Premuestreo y pruebas de campo: En un estudio, es conveniente someter el mtodo a una prueba previa por
las siguientes razones:
a) Algunas veces es imprescindible realizar un Premuestreo para tener una estimacin preliminar de la
variabilidad de la poblacin.
b) Verificar la funcionalidad de un mtodo de muestreo.
c) Estimar costos.
d) Conocer la eficiencia de la organizacin del trabajo de campo.
e) Captar la aceptacin, rechazo o dificultad para obtener la informacin.
Organizacin del trabajo de campo: Incluye la capacitacin de personal y todas las operaciones necesarias
para obtener la informacin buscada.
Muestreo aleatorio simple: Cada elemento de la poblacin tiene la misma probabilidad de ser elegido, las
observaciones se realizan con reemplazamiento, de manera que la poblacin es idntica en todas las
extracciones, o sea, que la seleccin de un individuo no debe afectar a la probabilidad de que sea
seleccionado otro cualquiera aunque ello comporte que algn individuo pueda ser elegido ms de una vez
(se hacen tantas papeletas numeradas como individuos hay, se coge una y se devuelve, se vuelve a coger
otra y se devuelve, etc.) En el muestreo sistemtico los elementos de la poblacin estn ordenados por
listas. Se elige un individuo al azar y a continuacin a intervalos constantes se eligen todos los dems hasta
completar la muestra. Si el orden de los elementos es tal que los individuos prximos tienden a ser ms
semejantes que los alejados, el muestreo sistemtico tiende a ser ms preciso que el aleatorio simple, al
cubrir ms homogneamente toda la poblacin.
El procedimiento empleado es el siguiente:
En relacin con la pregunta, cmo tomamos una muestra aleatoria en la prctica, por suerte podemos
tomarla sin recurrir en realidad al tedioso proceso de citar todas las muestras posibles. En cambio podemos
citar los N elementos individuales de una poblacin finita y despus tomar una muestra aleatoria mediante la
seleccin de los elementos que se incluirn en la muestra, uno a la vez sin sustitucin, asegurndonos que
en cada una de las elecciones sucesivas, cada uno de los elementos restantes de la poblacin tenga la
misma oportunidad de ser seleccionado. Esto nos conduce a la misma probabilidad de cada muestra
posible. Por ejemplo, para tomar una muestra aleatoria de 20 cuentas vencidas de un archivo de 257
cuenta de este tipo, se pudiese escribir cada nmero de cuenta en un pedazo de papel, colocar los papeles
en una caja y mezclarlos vigorosamente; luego tomaramos (sin ver) 20 papeles, uno tras otro, sin
sustitucin.
En la prctica, a menudo este procedimiento relativamente simple resulta innecesario, ya que la manera
ms simple de tomar una muestra aleatoria consiste en utilizar una tabla de cifras aleatorias (o nmeros
aleatorios). Las tablas publicadas de nmeros aleatorios constan de pginas en las cuales se colocan los
nmeros 0, 1, 2, .y 9 casi de la misma manera en que podran figurar si hubiesen sido generadas por
un dispositivo o juego de oportunidad que d a cada cifra la misma probabilidad de figurar en cualquier sitio
dado de la tabla. Hoy en da, estas tablas se elaboran mediante uso de computadoras.
Existen diferentes mtodos de seleccin al azar de uso frecuente, entre 1os que se pueden considerar los
siguientes:
El objeto de las tablas de nmeros aleatorios es facilitar la obtencin de los elementos que han de
constituir la muestra, sin tener que usar bombos, cajas para bolas u otros utensilios ms o menos
complicados, pero consiguiendo que el procedimiento de seleccin no est influenciado por la
caracterstica en estudio.
Las tablas de numeras al azar son tablas con miles de nmeros obtenidos por un procedimiento como
el de la lotera, es decir, por un procedimiento al azar. La tabla puede empezarse a leer en cualquier
parte, pero debe escogerse al azar la columna y fila de comienzo para lo cual es suficiente colocar a
ciegas un dedo sobre el cuerpo de la tabla y empezar desde ese sitio la lectura.
3).- En una tabla de nmeros aleatorios, se elige al azar una columna (o fila) comenzando en cualquier
lugar. Se recomienda no comenzar en el mismo sitio si hay que tomar varias muestras.
4).- Una vez elegida la columna se procede a seleccionar los nmeros que estn comprendidos entre 1
y N. Desechando aquellos que estn fuera de este intervalo y los nmeros que aparezcan repetidos
se consideran slo una vez.
EJEMPLO: Supongamos que tenemos una poblacin hipottica de 12 personas y queremos tomar una
muestra aleatoria de 4 individuos, mediante el uso de una tabla de nmeros aleatorios.
Aplicando la tabla de nmeros aleatorios se seleccionan las n = 4 personas. Elegimos por ejemplo la
primera y segunda columna (aqu se tienen que tomarse dos columnas, ya que la numeracin de los
elementos est hecha con dos dgitos) y comenzando en la primera fila se tiene que las personas
seleccionadas son las siguientes:
Si sucediera que el nmero de individuos a seleccionar no se alcance con las dos primeras columnas
seleccionadas, se contina con las dos siguientes columnas hasta completar el tamao de la muestra
requerida.
N .S 2 Z12 2
n
N .d 2 S 2 Z12 2
Donde:
n = tamao de la muestra.
N = tamao de la poblacin.
S = varianza de la muestra.
d(e) = precisin del muestreo.
= Nivel de significancia.
Generalmente es necesario hacer un premuestreo de 30 elementos, con el objetivo de hacer una primera
estimacin de S.
Ejemplo: En un lote de frascos, con una poblacin de 8000 unidades, se desea estimar la media de la
capacidad en centmetros cbicos de los mismos.
A travs de un premuestreo de tamao 35 se ha estimado que la desviacin estndar es de 2 centmetros
3
cbicos. Si queremos tener una precisin 0.25 cms , y un nivel de significancia del 5%. De que tamao debe
de ser la muestra?
DATOS:
3
S = 2 cms ; N = 8000; d = 0.25 cms ;
3
= 0.05 (5%)
Z 2 = 1.96
Solo faltara muestrear 204 frascos, pues los datos de los 35 frascos del premuestreo siguen siendo vlidos.
En bastantes ocasiones, la variable bajo estudio es de tipo binomial, en ese caso para calcular el tamao de
muestra bajo el muestreo simple aleatorio, se hara de la siguiente manera:
N . p.q.Z12 2
n
N .d 2 p.q.Z12 2
De donde:
p = probabilidad de xito.
q = probabilidad de fracaso.
d = precisin expresada en porcentaje.
Ejemplo: En una investigacin, se desea determinar en que proporcin los nios de una regin toman leche en
el desayuno. Si se sabe que existen 1500 nios y deseamos tener una precisin del 10 %, con un nivel de
significancia del 5 %. De que tamao debe de ser la muestra?
DATOS:
N = 1500; d = 10 % = 0.1; = 5 %
p = 0.5 y q = 0.5 (asumiendo varianza mxima).
Z1-/2 =1.96
Muestreo aleatorio sistemtico: Es cuando los elementos de la poblacin estn ordenados por listas. Se
elige un individuo al azar y a continuacin a intervalos constantes se eligen todos los dems hasta
completar la muestra. Si el orden de los elementos es tal que los individuos prximos tienden a ser ms
semejantes que los alejados, el muestreo sistemtico tiende a ser ms preciso que el aleatorio simple, al
cubrir ms homogneamente toda la poblacin.
Este procedimiento exige, como el anterior, numerar todos los elementos de la poblacin, pero en lugar de
extraer n nmeros aleatorios slo se extrae uno. Se parte de ese nmero aleatorio i, que es un nmero
elegido al azar, y los elementos que integran la muestra son los que ocupan los lugares i, i + k, i + 2k, i +
3k,...,i + (n-1) k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamao de la
poblacin entre el tamao de la muestra: k = N/n. El nmero i que empleamos como punto de partida ser
un nmero al azar entre 1 y k.
El riesgo se este tipo de muestreo est en los casos en que se dan periodicidades en la poblacin ya que al
elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una
homogeneidad que no se da en la poblacin. Imaginemos que estamos seleccionando una muestra sobre
listas de 10 individuos en los que los 5 primeros son varones y los 5 ltimos mujeres, si empleamos un
muestreo aleatorio sistemtico con k =10 siempre seleccionaramos o slo hombres o slo mujeres, no
podra haber una representacin de los dos sexos.
Muestreo aleatorio estratificado: Es aquel que se utiliza cuando se est interesado en que la muestra
tenga la misma composicin a la de la poblacin la cual se divide en clases o estratos. Si por ejemplo en la
poblacin el 20% son mujeres y el 80% hombres, se mantendr la misma proporcin en la muestra. Trata de
obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir el error
muestral para un tamao dado de la muestra. Consiste en considerar categoras tpicas diferentes entre s
(estratos) que poseen gran homogeneidad respecto a alguna caracterstica (se puede estratificar, por
ejemplo, segn la profesin, el municipio de residencia, el sexo, el estado civil, etc.). Una muestra aleatoria
estratificada es la obtenida mediante la separacin de los elementos de la poblacin en grupos que no se
oculten maliciosamente (traslapen), llamados estratos y la seleccin posterior de una muestra irrestrictamente
aleatoria simple en cada estrato. En resumen, los motivos principales para utilizar un muestreo aleatorio
estratificado son los siguientes:
a) La estratificacin puede producir un error de estimacin ms pequeo que el que generara una muestras del
mismo tamao. Este resultado es particularmente cierto si las mediciones dentro de los estratos son
homogneas.
b) El costo por observacin en la encuesta puede ser reducido mediante la estratificacin de los elementos de la
poblacin en grupos convenientes.
c) Se pueden obtener estimaciones de parmetros poblacionales para subgrupos de la poblacin. Los
subgrupos deben de ser entonces estratos identificables.
Lo anterior debe de tomarse en cuenta cuando se est planeando estratificar o no una poblacin o decidiendo
en que forma se definirn los estratos.
Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de inters estarn
representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo
aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos
que formarn parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes, pues
exige un conocimiento detallado de la poblacin (tamao geogrfico, sexos, edades,...).
La distribucin de la muestra en funcin de los diferentes estratos se denomina afijacin, y puede ser de
diferentes tipos:
Afijacin Simple: A cada estrato le corresponde igual nmero de elementos muestrales.
Afijacin Proporcional: La distribucin se hace de acuerdo con el peso (tamao) de la poblacin en cada
estrato.
Afijacin ptima: Se tiene en cuenta la previsible dispersin de los resultados, de modo que se considera
la proporcin y la desviacin tpica. Tiene poca aplicacin ya que no se suele conocer la desviacin.
Supongamos que estamos interesados en estudiar el grado de aceptacin que la implantacin de la reforma
educativa ha tenido entre los padres de una determinada provincia. A tal efecto seleccionamos una muestra
de 600 sujetos. Conocemos por los datos del ministerio que de los 10000 nios escolarizados en las edades
que nos interesan, 6000 acuden a colegios pblicos, 3000 a colegios semiprivados y 1000 a colegios
privados. Como estamos interesados en que en nuestra muestra estn representados todos los tipos de
colegio, realizamos un muestreo estratificado empleando como variable de estratificacin el tipo de centro.
Si empleamos una afijacin simple elegiramos 200 nios de cada tipo de centro, pero en este caso parece
ms razonable utilizar una afijacin proporcional pues hay bastante diferencia en el tamao de los estratos.
Por consiguiente, calculamos que proporcin supone cada uno de los estratos respecto de la poblacin para
poder reflejarlo en la muestra.
Para conocer el tamao de cada estrato en la muestra no tenemos ms que multiplicar esa proporcin por el
tamao muestral.
Colegios pblicos: 0.60x600 = 360 sujetos
Colegios semiprivados: 0.30x600 =180 sujetos
Colegios privados: 0.10x600 = 60 sujetos
N i2 Si2
wi
n
N D
2
N i Si2
De donde:
Ni = tamao del i simo estrato.
N = tamao de la poblacin.
Si = varianza del i simo estrato.
wi = importancia o peso del i simo estrato.
B2
D , Donde B = Precisin
4
Ejemplo: En un Ingenio, se desea hacer una estimacin del promedio de grados Brix con que llega la caa a la
fbrica. Para tal el efecto, se desea realizar un muestreo aleatorio estratificado, puesto que la caa proviene de
tres tipos de proveedores. Proveedor tipo A (estrato 1) la caa proviene de lotes de la misma finca. Proveedor
tipo B (estrato 2) la caa proviene de fincas de particulares en donde el ingenio ha prestado servicios.
Proveedor tipo C (estrato 3) la caa proviene de fincas de particulares en donde el ingenio no ha tenido ningn
servicio. De estudios anteriores, se conoce el tamao y desviacin estndar de cada estrato y adems se desea
tener una precisin de un grado brix en el estudio. De que tamao debe de ser la muestra total y de cada
estrato? En es siguiente cuadro se presentan los datos de Ni, Si, y Wi de los diferentes estratos.
DATOS:
*
ESTRATO Ni Si wi
Total 998
N = Ni = 998
N12 Si2
wi
n
N D
2
N i Si2
N i
2
Si2
N12 S12 N 22 S 22 N 32 S32
wi w1 w2 w3
N i
2
Si2
(558) 2 (3.5) 2 (190) 2 (5.4) 2 (250) 2 (6.2) 2
wi 0.56 0.19 0.25
N i
2
Si2
3814209 1052676 2402500
wi 0.56 0.19 0.25
N i
2
Si2
6811087,5 5540400 9610000
wi
N i
2
Si2
21961487.5
wi
N S i i
2
N 1 S12 N 2 S 22 N 3 S 32
N S i i
2
558(3.5) 2 190(5.4) 2 250(6.2) 2
N S i i
2
6835.5 5540.4 9610
N S i i
2
21985.9
La.. Pr esision..B..es..1.
B 2 12
D 0.25
4 4
N 2 D (998) 2 (0.25) 249001.
N i
2
S i2
wi 21961487.5 21961487.5
n 81,..es..el ..tamao..de.
N D Ni Si
2 2
249001 21986 270987
.la..muestra..total .
Como se utiliz distribucin proporcional, a cada estrato le tocara el siguiente tamao de muestra:
n
w h p h .q h
2
V
w 2
h ph qh
N
2
d
Donde V = varianza deseada = , d = precisin z = desvo normal
z
Muestreo polietpico o por conglomerados: Los mtodos presentados hasta ahora estn pensados para
seleccionar directamente los elementos de la poblacin, es decir, que las unidades muestrales son los
elementos de la poblacin. En el muestreo por conglomerados la unidad muestral es un grupo de elementos
de la poblacin que forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias, los
departamentos universitarios, una caja de determinado producto, etc., son conglomerados naturales.
En otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo, las urnas electorales.
Cuando los conglomerados son rea geogrfica suele hablarse de "muestreo por reas". El muestreo por
conglomerados consiste en seleccionar aleatoriamente un cierto numero de conglomerados (el necesario
para alcanzar el tamao muestral establecido) y en investigar despus todos los elementos pertenecientes a
los conglomerados elegidos. En una investigacin en la que se trata de conocer el grado de satisfaccin
laboral los profesores de instituto necesitamos una muestra de 700 sujetos. Ante la dificultad de acceder
individualmente a estos sujetos se decide hacer una muestra por conglomerados. Sabiendo que el nmero
de profesores por instituto es aproximadamente de 35, los pasos a seguir seran los siguientes:
Conseguir un listado de
los N elementos de la
Fcil de aplicar. No siempre
poblacin. Determinar Si la constante de
es necesario tener un
tamao muestral n. muestreo est asociada
listado de toda la poblacin.
Definir un intervalo con el fenmeno de inters,
Cuando la poblacin est
Sistemtico k=N/n. Elegir un las estimaciones obtenidas
ordenada siguiendo una
nmero aleatorio, r, a partir de la muestra
tendencia conocida,
entre 1 y k (r =arranque pueden contener sesgo de
asegura una cobertura de
aleatorio). Seleccionar seleccin
unidades de todos los tipos.
los elementos de la
lista.
En ciertas ocasiones
resultar conveniente
estratificar la muestra
Tiende a asegurar que la
segn ciertas variables
muestra represente
de inters. Para ello
adecuadamente a la
debemos conocer la
poblacin en funcin de
composicin Se ha de conocer la
unas variables
estratificada de la distribucin en la poblacin
seleccionadas. Se obtienen
poblacin objetivo a de las variables utilizadas
Estratificado estimaciones ms
muestrear. Una vez para la estratificacin.
precisa Su objetivo es
calculado el tamao
conseguir una muestra lo
muestral apropiado,
mas semejante posible a la
este se reparte de
poblacin en lo que a la o
manera proporcional
las variables
entre los distintos
estratificadoras se refiere.
estratos definidos en la
poblacin usando una
simple regla de tres.
muestreo
seleccionadas en la
etapa anterior.
La poblacin se divide en
subpoblaciones (conglomerados) que se Se usa cuando es imposible o muy caro
POR consideran " a priori " similares en los construir un marco de muestreo o cuando
CONGLOMERADO factores. Se seleccionan conglomerados los elementos estn conglomerados en
y dentro de stos, unidades forma natural (p.ej. cercana geogrfica)
secundarias.
Las ventajas de estudiar una poblacin a partir de sus muestras son principalmente:
Coste reducido:
Si los datos que buscamos los podemos obtener a partir de una pequea parte del total de la poblacin, los
gastos de recogida y tratamiento de los datos sern menores. Por ejemplo, cuando se realizan encuestas
previas a un referndum, es ms barato preguntar a 4.000 personas su intencin de voto, que a 30.000.000;
Mayor rapidez:
Estamos acostumbrados a ver cmo con los resultados del escrutinio de las primeras mesas electorales, se
obtiene una aproximacin bastante buena del resultado final de unas elecciones, muchas horas antes de
que el recuento final de votos haya finalizado;
Ms posibilidades:
Para hacer cierto tipo de estudios, por ejemplo el de duracin de cierto tipo de bombillas, no es posible en la
prctica destruirlas todas para conocer su vida media, ya que no quedara nada que vender. Es mejor
destruir slo una pequea parte de ellas y sacar conclusiones sobre las dems.
De este modo se ve que al hacer estadstica inferencial debemos enfrentarnos con dos problemas:
En los muestreos no probabilsticos no se usa el azar, sino el criterio del investigador, suele presentar
grandes sesgos y es poco fiable; no garantizan la representatividad de la muestra y por lo tanto no permiten
realizar estimaciones inferenciales sobre la poblacin.
Se utilizan a veces, para estudios exploratorios, ya que el muestreo Probabilstico resulta excesivamente
costoso y se acude a mtodos no probabilsticos, aun estando conscientes de que no sirven para realizar
generalizaciones, pues no se tiene certeza de que la muestra extrada sea representativa, ya que no todos
los sujetos de la poblacin tienen la misma probabilidad de se elegidos. En general se seleccionan a los
sujetos siguiendo determinados criterios procurando que la muestra sea representativa. Estos muestreos
pueden ser:
Muestreo por cuotas: Tambin denominado en ocasiones "accidental". Se asienta generalmente sobre la
base de un buen conocimiento de los estratos de la poblacin y/o de los individuos ms "representativos" o
"adecuados" para los fines de la investigacin. Mantiene, por tanto, semejanzas con el muestreo aleatorio
estratificado, pero no tiene el carcter de aleatoriedad de aqul.
En este tipo de muestreo se fijan unas "cuotas" que consisten en un nmero de individuos que renen unas
determinadas condiciones, por ejemplo: 20 individuos de 25 a 40 aos, de sexo femenino y residentes en
Chiclayo. Una vez determinada la cuota se eligen los primeros que se encuentren que cumplan esas
caractersticas. Este mtodo se utiliza mucho en las encuestas de opinin.
Por ejemplo, la Oficina de Sanidad desea estudiar la incidencia de las drogas en la adolescencia. Lo que
deberamos hacer sera: conocer por los informes de la Consejera de Educacin cuales son los centros
ms afectados por el problema, fijar un nmero de sujetos a entrevistar proporcional a cada uno de los
estratos (cuotas) y finalmente dejar en manos de los responsables del trabajo de campo a que sujetos
concretos se deber entrevistar
Muestreo opintico o intencional: Este tipo de muestreo se caracteriza por un esfuerzo deliberado de
obtener muestras "representativas" mediante la inclusin en la muestra de grupos supuestamente tpicos.
Es muy frecuente su utilizacin en sondeos preelectorales de zonas que en anteriores votaciones han
marcado tendencias de voto.
Bola de nieve: Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y as hasta
conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen estudios con
poblaciones "marginales", delincuentes, sectas, determinados tipos de enfermos, etc.
A veces no es fcil lograr una muestra aleatoria. Si la poblacin de que se trata es pequea, uno de los
mtodos ms sencillos para obtenerla es formular una lista de integrantes (en pequeas tiras de papel) y
escoger la muestra al azar.
Cuando se trata de poblaciones ms grandes, se puede asignar un nmero entero a cada miembro y usar
una tabla de nmeros aleatorios, integrada por dgitos escogidos al azar. Para lograr la muestra aleatoria, se
comienzan a leer los nmeros de la tabla en un lugar tambin escogido al azar, as, para cada nmero
seleccionado el miembro de la poblacin consta de 100 miembros, se pueden asignar los nmeros de 10 al
99. Si en la tabla se leen los nmeros 2, 7, 22, 34, etc., se incluan dichos nmeros en la muestra aleatoria.
La muestra en estudio en cualquier investigacin debe ser representativa del universo estadstico (poblacin
ideal que abarca a todos los individuos que posean las mismas caractersticas y en la misma proporcin del
colectivo). Cuando ms grande sea la muestra, ms representativa resultar; sin embargo, no necesita ser
ms grande cuando es suficiente representativa. Esta es la prueba de estabilidad de la muestra.
TAMAO DE LA MUESTRA
A la hora de determinar el tamao que debe alcanzar una muestra hay que tomar en cuenta varios factores:
Tipo de muestreo
Parmetro a estimar
Varianza poblacional y
Nivel de confianza.
Por ello antes de presentar algunos casos sencillos de clculo del tamao muestral delimitemos estos
factores.
Para calcular el tamao de una muestra hay que tomar en cuenta tres factores:
1. El porcentaje de confianza con el cual se quiere generalizar los datos desde la muestra hacia la
poblacin total.
2. El porcentaje de error que se pretende aceptar al momento de hacer la generalizacin.
3. El nivel de variabilidad que se calcula para comprobar la hiptesis.
La confianza o el porcentaje de confianza es el porcentaje de seguridad que existe para generalizar los
resultados obtenidos. Esto quiere decir que un porcentaje del 100% equivale a decir que no existe ninguna
duda para generalizar tales resultados, pero tambin implica estudiar a la totalidad de los casos de la
poblacin. Para evitar un costo muy alto para el estudio o debido a que en ocasiones llega a ser
prcticamente imposible el estudio de todos los casos, entonces se busca un porcentaje de confianza
menor. Comnmente en las investigaciones se busca un 95%.
El error o porcentaje de error equivale a elegir una probabilidad de aceptar una hiptesis que sea falsa
como si fuera verdadera, o la inversa: rechazar a hiptesis verdadera por considerarla falsa. Al igual que en
el caso de la confianza, si se quiere eliminar el riesgo del error y considerarlo como 0%, entonces la muestra
es del mismo tamao que la poblacin, por lo que conviene correr un cierto riesgo de equivocarse.
Comnmente se aceptan entre el 3% y el 7% como error, tomando en cuenta de que no son
complementarios la confianza y el error.
La variabilidad es la probabilidad (o porcentaje) con el que se acept y se rechaz la hiptesis que se quiere
investigar en alguna investigacin anterior o en un ensayo previo a la investigacin actual.
El muestreo es el proceso de tomar una proporcin o parte de un universo de elementos, con la finalidad
de analizar en dichos elementos, caractersticas sujetas a estudio o fenmenos factibles de observacin y
en base al anlisis de la muestra o proporcin tomada obtener conclusiones que se refieran no slo a la
muestra sino a todo el universo. Para fines estadsticos, el universo puede considerarse finito o infinito.
Se considera finito si el nmero de elementos que lo constituyen es menor a 500,000 e infinito si es igual o
mayor a este nmero. Siempre que hagamos la eleccin de una muestra, debemos tener cuidado de que
sta rena las siguientes caractersticas:
Que sea suficiente: es decir que la cantidad de elementos seleccionados sea el que se requiere para
que el nivel de confiabilidad sea el que se ha establecido previamente.
Que sea representativa: esto quiere decir que los elementos seleccionados debern presentar
caractersticas similares a las de la poblacin o universo.
Al utilizar muestras en lugar de universos tenemos grandes ventajas, algunas de las ms importantes son:
El costo se reduce, pues los gastos sern nicamente los ocasionados por una parte del universo
(muestra tomada) y no por la totalidad de l.
Como solamente se estudia una parte del universo, la informacin obtenida se realiza en menor
tiempo.
Una de las preguntas planteadas con mayor frecuencia al iniciar una investigacin y difcil de contestar,
sobre todo por falta de informacin del problema, es: cuntas observaciones se deben obtener para que el
tamao de la muestra sea realmente representativo del universo estadstico? En este sentido -la decisin
del tamao de la muestra de una poblacin -, es necesario considerar que las muestras varan en su
composicin de una a otra. La magnitud de la variacin depende del tamao de la muestra y de la
variabilidad original de la poblacin. As, el tamao de la muestra queda determinado por el grado de
precisin que se desea obtener y por variabilidad inicial de la poblacin.
La respuesta a la pregunta planteada se puede considerar tomando como base lo siguientes:
a. Determinar el nivel de confianza con el cual vamos a trabajar y buscamos el valor de z asociado a dicho
nivel de confianza, un nivel de confianza igual o mayor al 92% es aceptable estadsticamente.
b. Evaluar la probabilidad a favor de que suceda un evento o situacin esperada (esta probabilidad se le
denomina p).
c. Evaluar la probabilidad en contra de que suceda en un evento o situacin esperada (esta probabilidad
se le denomina q=1-p).
d. Determinar el error (e) mximo para el nivel de precisin que vayamos a permitir en los resultados (error
mximo de estimacin), comnmente se trabaja con errores de estimacin entre el 3% y el 7%, ya que
la validez de la informacin se reduce demasiado para valores mayores del 7%.
e. Determinamos el tamao de la poblacin o universo.
f. Se elige la frmula a utilizar para calcular el tamao de la muestra; dependiendo de si la poblacin o
universo sujeto a estudio se va a considerar infinito infinito. (Una poblacin o universo se considera
infinito si el nmero de elementos de los que consta es igual o mayor a 500,000 y es considerado finito
si el nmero de elementos es menor a esta cantidad).
Valores de Z 3.00 2.58 2.33 2.05 2.00 1.96 1.645 1.28 1.00 0.675
TAMAO DE LA MUESTRA
Una de las primeras preguntas que debe realizarse antes de emprender cualquier encuesta o estudio es:
qu tamao de muestra necesito? La respuesta depender del diseo del estudio; es decir, de los
objetivos, naturaleza y alcance del mismo, y del resultado previsto del mismo. Todo esto deber tenerse en
cuenta en la fase de planificacin del estudio.
El tamao de la Muestra es importante porque tiene relacin estrecha con el costo de la Muestra. Para
reducir Costos se procura tomar una Muestra menor pero representativa y significativa.
La cuestin de que tan grande tomar una muestra surge inmediatamente en la planificacin de cualquier
investigacin o experimento. Esto es muy importante y no debe tratarse con ligereza. Tomar una muestra
ms grande de lo necesario para alcanzar los resultados deseados, es un desperdicio de recursos y tiempo,
mientras que muestras muy pequeas pueden conducir a conclusiones errneas. El tamao de la muestra
depende de la desviacin estndar (S), del grado de confiabilidad (Z) y del ancho del intervalo de confianza
(e), o precisin.
considerados infinitos o desconocido o Cuando se trata de medir una variable binomial (acierto-error), es
decir una proporcin y que el tamao de la poblacin estudiada es grande, se puede emplear la frmula
siguiente:
Z 2 pq
2
Z Z2
n , Si p = q = 50 %, entonces: n n 2
e2 2e 4e
Donde n nmero de puntos de muestreo, p y q son la confiabilidad, e = error (medio intervalo de confianza)
y Z1 = 1.96 para = 0.05.
2
Cuando se requiere determinar el tamao de la muestra para estimar una proporcin se tienen que definir
tres incgnitas:
En la prctica con frecuencia resulta difcil seleccionar estas tres cantidades. Una vez que se determina el
nivel de confianza deseado se estar en posibilidad de obtener el valor Z de la distribucin normal
apropiado. El error muestral e seala la cantidad de error qu se est dispuesto a aceptar al estimar la
proporcin de la poblacin. La tercera cantidad, la proporcin real de xito, p, en realidad es el parmetro de
la poblacin que se esta intentando determinar. Para ello hay dos alternativas:
1.-En muchas situaciones se cuenta con informacin anterior o con experiencias relevantes que permiten
obtener un estimado o informacin de p.
2.- Si no se cuenta con informacin anterior o con experiencias relevantes se intenta proporcionar un valor
para p que nunca subestime el tamao de la muestra necesaria Es conveniente determinar el valor de p de
una forma tal que el producto p.q sea lo mayor posible, alcanzndose el mximo producto cuando p = q =
0.50, entonces p.q = 0.25. Por lo tanto cuando se desconoce o no hay un estimado previo de la proporcin
real de p se debe utilizar un p = 0.5 como la forma ms conservadora para determinar el tamao de la
muestra. Sin embargo, la utilizacin de p puede dar como resultado una sobrestimacin en el tamao de la
muestra, pero es un riego que se debe asumir.
SOLUCIN: Se puede observar que ante el desconocimiento, por cualquier medio, del parmetro p,
debemos obtener el tamao de la muestra requerida para satisfacer las exigencias del investigador por
medio de la expresin:
2
Z Z2
n n 2
2e 4e
Donde se tendr que sustituir tanto el valor de Z correspondiente a un coeficiente de confianza de 99 % que
no es otro que 2,58 como el error mximo admitido que es 0.15 y como no se conoce un valor estimado
para p y q se tomara el mximo valor para este producto, es decir, p = q = 0.5. Luego se aplica la formula:
2
Z Z2 (2.58) 2 6.66
n n 2 70.0 . Por lo tanto el tamao de la muestra ser de 74.
2e
2
4e 4(0.15) 4(0..023)
2.- Supngase que por estudios anteriores se tenga el conocimiento de que la proporcin de deportistas
entre los estudiantes de una universidad es de 0.65. Se pregunta Qu tamao de muestra deber tomarse
si se quiere que el error no exceda del 15 % Y con un grado de confianza del 99 %?
SOLUCIN: Tomando en cuenta que se tiene conocimiento de que la proporcin de estudiantes que
practican algn deporte, en esa universidad, es de 0.65, se puede utilizar este valor como una estimacin
de la proporcin verdadera, en cuyo caso nos valdremos de la siguiente formula matemtica para obtener el
tamao de la muestra necesaria. Entonces, p 0.65,.q 0.35,.e 0.15.. y..Z1 2.58.
2
Z12 2 pq
n , Sustituyendo los datos conocidos en esa formula se tiene:
e2
Puede observarse como el conocimiento de alguna estimacin del parmetro p ha hecho disminuir el
tamao de la muestra necesaria para satisfacer la misma precisin. Esto demuestra que el valor que tiene la
informacin de experiencias pasadas sobre el hecho que se estudia.
Z12 2 N . p.q
n , esta.. formula..se..usa.. para..N 30.
e 2 N Z12 2 p.q
Z12 2 N . p.q
n .
e 2 ( N 1) Z12 2 p.q
Donde
n es el tamao de la muestra;
Z es el nivel de confianza;
p es la variabilidad positiva;
q es la variabilidad negativa;
N es el tamao de la poblacin;
e es la precisin o el error.
Al conocer exactamente el tamao de la poblacin, el tamao de la muestra resulta con mayor precisin y
se pueden incluso ahorrarse recursos y tiempo para la aplicacin y desarrollo de una investigacin.
Ejemplo: En los Colegios de Curas extendido por todo Amrica del sur, se desea realizar una investigacin
sobre los alumnos inscritos en primer y segundo aos, para lo cual se aplicar un cuestionario de manera
aleatoria a una muestra, pues los recursos econmicos y el tiempo para procesar la informacin resultara
insuficiente en el caso de aplicrsele a la poblacin estudiantil completa.
En primera instancia, suponiendo que no se conoce el tamao exacto de la poblacin pero con la seguridad
Z12 pq
de que sta se encuentra cerca de los diez millardo, se aplicar la formula n 2
2
.
e
Se considerar una confianza del 95 %, un porcentaje de error del 5% y la mxima variabilidad (p.q) por no
existir antecedentes en la institucin sobre la investigacin y porque no se puede aplicar una prueba previa.
Z12 pq
De esta manera se aplica la formula n 2
2
, se realiza la sustitucin y se obtiene n as:
e
Con lo que se tiene una cota mnima de 370 alumnos para la muestra y as poder realizar la investigacin
sin ms costo del necesario, pero con la seguridad de que las condiciones aceptadas para la generalizacin
(confiabilidad, variabilidad y error) se mantienen. Es importante destacar que el resultado que se obtiene
cuando no se conoce N (384) es muy similar al que se obtiene cuando N es conocida (370).
Cuando el muestreo es sin reemplazo a partir de una poblacin finita, SUPONIENDO UNA DISTRIBUCIN
NORMAL, se requiere la correccin por poblacin finita, entonces la ecuacin para obtener el TAMAO DE
LA MUESTRA para la estimacin de la media poblacional, queda as:
ZS N n
e
n N 1
N 2 Z12 2
n
e 2 ( N 1) 2 Z12 2
Los investigadores consideran que esta formula solo se utiliza cuando N<30.
N 2 Z12 2
n
e 2 N 2 Z12 2
, Se utiliza para N>30..
Donde
n = es el tamao de la muestra;
Z = es el nivel de confianza o valor critico correspondiente al nivel de confianza elegido
Varianza poblacional o en su defecto la desviacin tpica muestral (S).
e es la precisin o el error.
La formula para el tamao de la muestra requiere que se conozca pero, generalmente este parmetro no
2
se conoce; entonces hay que estimarla. Las fuentes de estimacin para la varianza poblacional son:
Se puede extraer una muestra piloto para usarse la varianza calculada a partir de la muestra como una
estimacin de 2.
Puede contarse con estimaciones de 2 , obtenidas de estudios previos o semejantes.
EJEMPLO: Se desea determinar el tamao de una muestra apropiada para medir la longitud de una serie
de tubos para hacer un gasoducto, con una precisin de 5 cm. en la longitud de cada tubo y un nivel de
confianza de 95 %. Para tal efecto se tomo una muestra piloto de 10 tubos que arrojo una varianza de 30.
DATOS:
N = 20
2
= 30
Z = 1.96
e=5
SOLUCIN: Como se sabe que nmero de tubos por lotes es de 20, se requiere la correccin por
poblacin finita; luego se aplica la formula as:
EJEMPLO: Sea una poblacin de obreros de tamao N = 2000, de la que nos proponemos obtener una
muestra mediante un muestreo aleatorio, para estimar el sueldo promedio. Se quiere que la estimacin
muestral no se aparte en ms de 0.5 puntos (error mximo admisible) del promedio verdadero, con un
nivel de confianza de 95 %. La varianza poblacional es de 2.5 puntos.
DATOS:
N = 2000
e = 0.5
Z al 95 % = 1.96
2
= 2.5
n =?
La palabra inferir significa extraer consecuencias, o deducir un conocimiento a partir de otro. La Inferencia
Estadstica es la parte de la estadstica que se encarga de deducir caractersticas de la poblacin a partir de
los resultados obtenidos en muestras de esta poblacin. Las decisiones se basan en la informacin
contenida en muestras extradas de ella.
En muchas circunstancias hay que tomar decisiones basndose slo en la informacin contenida en una
muestra: Un gerente de Control de Calidad debe determinar si un proceso funciona correctamente. Para
ello, cada cierto tiempo, analiza la calidad de una pequea cantidad de productos fabricados por este
proceso. Con esta informacin debe decidir si contina fabricando nuevas piezas, o si debe realizar algn
ajuste o reparacin de la maquinaria de la fbrica antes de continuar el proceso de fabricacin. Un gerente
de Marketing debe determinar si una nueva estrategia de mercado aumentar las ventas. Para ello se
basar fundamentalmente en encuestas realizadas a unos cuantos clientes potenciales, etc. Para adoptar
estas decisiones se toma toda la informacin posible de la muestra seleccionada y se estudia, en trminos
de probabilidad, el grado de fiabilidad de las decisiones adoptadas. Podemos distinguir de modo general
dos grandes mtodos dentro de la Inferencia Estadstica:
Mtodos Paramtricos.- Se supone que los datos provienen de una familia de distribuciones conocida
(Normal, Poisson,. . .) y que lo nico que se desconoce es el valor concreto de alguno de los parmetros
que la definen ( y para la Normal, para la Poisson,. . .).
Se pueden hacer inferencias acerca de los parmetros poblacionales de dos maneras. Dando valores
aproximados para los parmetros (Estimacin) o tomando decisiones con respecto a ellos (Contrastes de
Hiptesis).
TIPOS DE ESTIMACIN
Cuando se desean estimar los parmetros de la poblacin a partir de los de la muestra se consideran dos
formas de realizar dicha estimacin.
Estimacin puntual.- En la estimacin puntual damos un solo punto como valor estimado del parmetro.
Por ejemplo, si queremos estimar la altura media, , de los varones espaoles de 20 aos, obtendremos
una muestra aleatoria de cierto tamao de esta poblacin, hallaremos la altura media de las personas
seleccionadas en esta muestra y diremos que este valor, el de la media muestral, es una estimacin puntual
de la altura media de la poblacin de varones de 20 aos.
Estimacin por intervalos.- En realidad, cuando realizamos una estimacin puntual, nos damos cuenta
que es muy difcil que sta estimacin sea realmente el verdadero valor del parmetro desconocido.
Tendremos ms oportunidades de acertar si indicamos que el parmetro desconocido pertenece a un cierto
intervalo. En el ejemplo de la altura media de los varones de 20 aos, si la media muestral resultara 1.75 m.,
podramos decidir manifestar que la media verdadera pertenece al intervalo (1.75 0.05, 1.75 + 0.05). El
intervalo en el que se afirma que se encuentra el parmetro poblacional se denomina intervalo de confianza.
Tampoco en este caso podemos estar seguros de que el valor real pertenezca a dicho intervalo. Por este
motivo suele decirse que el valor real del parmetro pertenece a dicho intervalo con un cierto grado de
confianza. La cuantificacin de la confianza que se tiene en que el parmetro desconocido est
verdaderamente en el intervalo dado se denomina grado de confianza y es una medida relacionada con la
funcin de distribucin de probabilidad del parmetro en estudio.
Estadsticos y Estimadores
Un estadstico es una funcin de los elementos de la muestra. Si tenemos una poblacin en la que
estamos observando una caracterstica que se distribuye segn una variable aleatoria X, y consideramos
una muestra aleatoria simple de tamao n
x1, x2, . . . , xn
Un estimador es un valor que puede calcularse a partir de los datos muestrales y que proporciona
informacin sobre el valor del parmetro. Por ejemplo la media muestral es un estimador de la media
poblacional, la proporcin observada en la muestra es un estimador de la proporcin en la poblacin.
Una estimacin es puntual cuando se obtiene un slo valor para el parmetro. Los estimadores ms
probables en este caso son los estadsticos obtenidos en la muestra, aunque es necesario cuantificar el
riesgo que se asume al considerarlos. Recordemos que la distribucin muestral indica la distribucin de
los valores que tomar el estimador al seleccionar distintas muestras de la poblacin. Las dos medidas
fundamentales de esta distribucin son la media que indica el valor promedio del estimador y la desviacin
tpica, tambin denominada error tpico de estimacin, que indica la desviacin promedio que podemos
esperar entre el estimador y el valor del parmetro.
Ms til es la estimacin por intervalos en la que calculamos dos valores entre los que se encontrar el
parmetro, con un nivel de confianza fijado de antemano.
Llamamos Intervalo de confianza al intervalo que con un cierto nivel de confianza, contiene al parmetro
que se est estimando.
Nivel de confianza es la "probabilidad" de que el intervalo calculado contenga al verdadero valor del
parmetro. Se indica por 1- habitualmente se da en porcentaje (1-)100%. Hablamos de nivel de confianza
y no de probabilidad ya que una vez extrada la muestra, el intervalo de confianza contendr al verdadero
valor del parmetro o no, lo que sabemos es que si repitisemos el proceso con muchas muestras
podramos afirmar que el (1-)% de los intervalos as construidos contendra al verdadero valor del
parmetro. Por lo general los niveles de confianza ms utilizados son: 99, 95 y 90%, a estos se les
denominan coeficientes de confianza: es el nivel de confianza que se tiene en el que el intervalo contenga
el valor desconocido del parmetro; estos son simplemente convencionales.
Un intervalo de confianza tiene un lmite inferior de confianza (LIC) y un lmite superior de confianza (LSC).
Esos limites se encuentran calculando primero la media muestral, X . Luego se suma una cierta cantidad a
X para obtener el LSC y la misma cantidad se resta a X para obtener el LIC, estos valores que se suman
y restan a la media muestral se les denominan errores de estimacin.
Lo dicho hasta ahora se refiere a una estimacin puntual, es decir, estimar un parmetro a travs de un
nico valor. Esta estimacin no es muy conveniente pues con ella no se puede determinar el error de
muestreo, ni la precisin de la estimacin, ni la confianza que merece tal estimacin. Existen otros mtodos
para estimar parmetros poblacionales que son mucho ms precisos. Por ejemplo:
* Mtodo de los mnimos cuadrados.
* Mtodo de los momentos.
* Mtodo de la mxima verosimilitud se basa en el principio de que generalmente ocurre lo ms probable.
* Mtodo de estimacin por intervalos de confianza, este ser el que desarrollaremos en este curso.
El procedimiento de determinar un intervalo (a, b) que comprenda un parmetro de poblacin con cierta
probabilidad 1-, se llama estimacin por intervalos. Se vern los casos paramtricos, es decir, aquellos en
los que se tiene conocimiento del tipo de distribucin de la poblacin (Binomial, Normal, etc.).
NP N
X y X
n NP 1
X y X
n
Para valores grandes de N (N30), la distribucin de muestreo de medias, es aproximadamente normal con
media X y desviacin tpica X , independientemente de la poblacin (en tanto en cuanto la media
poblacional y la varianza sean finitas y el tamao de la poblacin sea al menos doble que el de la muestra).
Este resultado para una poblacin infinita es un caso especial del teorema del lmite central de teora
avanzada de probabilidades, que afirma que la precisin de la aproximacin mejora al crecer N. Esto se
indica en ocasiones diciendo que la distribucin de muestreo es asintticamente normal.
Debemos anotar que las caractersticas de la poblacin sern las mismas que tendrn las diferentes
muestras de la misma:
Si la poblacin no tiene distribucin normal, la distribucin muestral de medias de cualquier manera tender
a aproximarse a la forma normal.
La dispersin en la distribucin de las medias muestrales es siempre menor que la dispersin de la
poblacin y ser mucho ms pequea mientras ms grande sea el tamao de la muestra.
Si x es el valor de la media para una muestra aleatoria de tamao n escogida de una poblacin con
varianza supuesta conocida, el intervalo de confianza del (1 - ) x100% para es:
2
[ x z1 / 2 x z1 / 2 ] = [ x z1 / 2 E.S ]
n n
= media poblacional
Error estndar de la muestra (E.S): x
n = media muestral
2 = varianza poblacional
P g i n a | 124
Error mximo de estimacin de : e z1 / 2
n
Si se utiliza x como una estimacin de , se tiene una confianza del (1 - ) x100% de que el error no
ser mayor que el valor dado e se tiene un tamao de muestra de:
( z1 / 2 ) 2
n
e2
NOTA: Cuando menor sea el error de la estimacin mayor es el tamao de la muestra requerida.
30:
Si x es el valor de la media para una muestra aleatoria de tamao n escogida de una poblacin con
varianza supuesta conocida, e intervalo de confianza del (1 - ) x100% para es:
2
N n N n
[ x z1 / 2 x z1 / 2 ] = [ x z1 / 2 E.S ]
n N 1 n N 1
N n
Error estndar de la muestra (E.S): x
n N 1
N n
Error mximo de estimacin de : e z1 / 2
n N 1
Si se utiliza x como una estimacin de , y se conoce N y se tiene una confianza del (1 - ) x100% de
que el error no ser mayor que el valor dado e se tiene un tamao de muestra de:
z 2 1 / 2 2 N
n
z 2 1 / 2 2 e 2 ( N 1)
s s
[ x z1 / 2 x z1 / 2 ]
n n
s N n s N n
[ x z1 / 2 x z1 / 2 ]
n N 1 n N 1
Si x y s son la media y la desviacin estndar respectivamente para una muestra aleatoria n < 30
escogida de una poblacin normal con varianza supuesta desconocida, entonces el intervalo de
2
s s
[ x t1 / 2, n 1 x t1 / 2, n 1 ]
n n
1. Una muestra aleatoria de 250 empresarios indic que la media de los ingresos mensuales era de
$1800. Asuma que la desviacin estndar de esta poblacin es $250.
a) Estime la media de la poblacin que consiste de los ingresos de todos los empresarios
mediante un intervalo de confianza del 95%.
b) Qu tamao de muestra se debe tomar para estimar la media de esta poblacin si el error de
estimacin no ser mayor de $15, con un nivel de confianza del 97%?
2. Un analista de investigacin de mercados escogi una muestra aleatoria de 200 clientes de una
poblacin de 1500 clientes de una gran tienda que declaran ingresos mayores a $180. El encontr que
los clientes de la muestra gastaban en la tienda un promedio de $1000 por ao. Si con este valor de la
muestra estim que el gasto promedio por ao de esta poblacin finita vara de $1040 a $1060.
suponga que la desviacin estndar de tal poblacin es $300
a) Qu nivel de confianza utiliz?
b) Qu tamao de muestra se debe tomar para estimar la media de esta poblacin si el error de
estimacin no ser mayor de $50, con un nivel de confianza del 96%?
3. Un fabricante produce focos cuya duracin tiene distribucin normal. Si una muestra aleatoria de 9
focos da las siguientes vidas tiles en horas:
775, 780, 800, 795, 790, 785, 795, 795, 780, 810
a) Estimar la duracin media de todos los focos del fabricante mediante un intervalo confianza del
95%.
b) Si la media poblacional se estima en 790 horas con un confianza del 98%, cunto es el error
mximo de la estimacin si se quiere una confianza del 98%?
4. Los contenidos de una muestra aleatoria de 5 latas de caf instantneo de un productor han dado los
siguientes pesos netos en gramos: 280, 290, 285, 275, 284:
a) Encuentre un I.C. del 95% para la media de los contenidos de todas las latas de caf del
productor.
b) Con que nivel de confianza se estima que el contenido promedio de caf tenga los lmites
confianza 277.432 y 288.168?
Si x1 y x2 son las medias que resultan de dos muestras aleatorias independientes de tamao n 1 y n2
escogidas aleatoriamente con varianzas 1 y 2 supuestamente conocidas, entonces el intervalo de
2 2
12 22 12 22
[( x1 x 2 ) z1 / 2 1 2 ( x1 x 2 ) z1 / 2 ]
n1 n2 n1 n2
Si x1 y x2 son las medias que resultan de dos muestras aleatorias independientes de tamao n 1 y n2
escogidas aleatoriamente con varianzas 1 y 2 supuestamente desconocidas e iguales, entonces el
2 2
2 2 2 2
sc s sc s
[( x1 x 2 ) t(1 / 2;n1 n2 2) c 1 2 ( x1 x 2 ) t(1 / 2;n1 n2 2) c ]
n1 n2 n1 n2
2
Donde Sc es la varianza comn definida por:
Si x1 y x2 son las medias que resultan de dos muestras aleatorias independientes de tamao n 1 y n2
escogidas aleatoriamente con varianzas 1 y 2 supuestamente desconocidas y diferentes, entonces el
2 2
2 2 2 2
s1 s s1 s
[( x1 x 2 ) t(1 / 2;r ) 2 1 2 ( x1 x 2 ) t(1 / 2;r ) 2 ]
n1 n2 n1 n2
2
S12 S 22
r n1 n2
2 2
S12 S 22
n1 n2
n1 1 n2 1
Dado que r rara vez es un entero, se redondea al entero ms cercano.
Ejercicios:
5. En COMPUTRONIC S.A. Se quiere estimar la diferencia entre los promedios de tiempos (en minutos)
que utilizan dos tcnicos para ensamblar una PC. Suponga que las poblaciones de los dos tiempos se
distribuyen normalmente con varianza comn. Estime la diferencia entre los dos promedios
poblacionales mediante un I.C. del 95% si el registro de 16 tiempos de cada tcnico han dado 38 y 35
de promedio respectivamente, con desviaciones estndar respectivas de 6 y 4.
6. El director de presupuesto de una compaa quiere comparar el gasto de transporte diarios entre
personal de ventas y de verificacin contable. Para esto recopil una muestra de 200 ventas y a otra
muestra de 250 verificaciones contables, resultando medias respectivas de 13 y 15 soles. Suponga que
las desviaciones estndares poblacionales respectivas son de 3 y 4 soles. Utilizando un intervalo de
confianza del 95% para la diferencia de las medias, podemos concluir que la media de gastos diarios
por transportacin es mayor para el personal de verificacin contable?
7. Un inversionista hace un estudio para elegir una de dos ciudades del interior del pas para abrir un
casino. Escoge 25 personas de la ciudad 1 con un promedio de ingresos de $400, y una desviacin
estndar de $120 y Escoge 20 personas de la ciudad 2 con un promedio de ingresos de $380, y una
desviacin estndar de $60. Suponga poblaciones normales con varianzas diferentes. Mediante un I.C.
del 95%, se puede afirmar que son iguales los ingresos promedios de las dos ciudades?
8. El encargado de compras de una cadena de restaurantes tiene que escoger entre dos variedades de
arroz A y B. Selecciona dos muestra aleatorias independientes de 10 bolsas de arroz de un kilo de cada
tipo de arroz y encuentra los siguientes porcentajes de granos quebrados por kilo:
A: 6, 5, 6, 7, 4, 7, 6, 4, 3, 6
B: 7, 6, 7, 9, 5, 8, 7, 6, 10, 8
Estimar mediante un IC. Del 95% la diferencia promedio de porcentajes de granos quebrados por kilos
de arroz de las dos variedades. Se puede aceptar que no hay diferencias significativas entre las dos
medias poblacionales? Suponga que los porcentajes de granos quebrados por kilo en cada variedad se
distribuyen normalmente con la misma varianza.
Supongamos que una poblacin es infinita y que la probabilidad de ocurrencia de un suceso (su xito) es p,
mientras la probabilidad de que no ocurra es q = 1 p. Por ejemplo, la poblacin puede ser la de todas las
posibles tiradas de una moneda, en la que la probabilidad del suceso <<cara>> es p = . Consideremos
todas las posibles muestras de tamao N de tal poblacin, y para cada una de ellas determinemos la
proporcin de xitos P. En el caso de una moneda, P sera la proporcin de caras en N tiradas. Obtenemos
as una distribucin de muestreo de proporciones cuya media p y cuya desviacin tpica p viene dada por:
pq p(1 p)
p p y p
n n
Para valores grandes de N (N30), la distribucin de muestreo est, muy aproximadamente, normalmente
distribuida, Ntese que la poblacin est binomialmente distribuida. Las ecuaciones anteriores son vlidas
tambin para una poblacin en la que se hace muestreo con reposicin. Para poblaciones finitas en que se
haga muestreo sin reposicin, dichas ecuaciones quedan sustituidas por = p y = pq .
x
p ; Donde x es el nmero de xitos en la muestra.
n
p(1 p) p(1 p)
[ p z1 / 2 p p z1 / 2 ] = [ p z1 / 2 E.S ]
n n
p(1 p)
Error estndar de p (E.S): p
n
p(1 p)
Error mximo de estimacin de p: e z1 / 2
n
( z1 / 2 ) 2 p(1 p)
n
e2
p(1 p) N n p(1 p) N n
[ p z1 / 2 . p p z1 / 2 ]
n N 1 n N 1
p(1 p) N n
Error estndar de p (E.S): P
n N 1
Si se utiliza p como una estimacin de P, y se conoce N y se tiene una confianza del (1 - ) x100% de
que el error no ser mayor que el valor dado e se tiene un tamao de muestra de:
z 21 / 2 p(1 p) N
n
z 21 / 2 p(1 p) e 2 ( N 1)
Ejercicios:
10. Los datos sobre el perfil de la audiencia del de la Red ESPN indicaron que 26% de los usuarios eran
mujeres. Suponga que este porcentaje se bas en una muestra de 400 usuarios.
a) Con un 95% de nivel de confianza, cul es el mximo error de estimacin asociado con la
proporcin estimada de mujeres?
b) Cul es el intervalo de confianza de 95% de la proporcin poblacional de usuarios mujeres?
Qu tamao debe tener la muestra para un margen de error de 3%?
[( p1 p 2 ) z1 / 2 P1P2 p1 p2 ( p1 p 2 ) z1 / 2 P1P2 ]
p 1 (1 p 1 ) p 2 (1 p 2 )
Error estndar de la estadstica (p1 p2) (E.S): P P
1 2
n1 n2
Ejercicios:
11. Dos muestras aleatorias de 250 mujeres y 200 hombres indican que 75 mujeres y 80 hombres
consumiran un nuevo producto unisex que acaba de salir al mercado. Utilizando un I. C. del 97%, se
puede aceptar que es igual la proporcin de preferencias de mujeres y hombres en toda la poblacin?
Si no es as, cul es la relacin?
12. Una agencia de publicidad realiz un estudio para comparar la efectividad de un anuncio en la radio de
dos segmentos socioeconmicos (C1 y C2). Despus de difundir el aviso, se realiz una encuesta con
500 personas seleccionadas al azar, en cada uno de los segmentos, resultando las proporciones 20% y
18% respectivamente. Con un 97% de confianza estime un intervalo de confianza e interprete.
CONCEPTOS BSICOS
Estimacin puntual: un solo nmero que se utiliza para estimar un parmetro de poblacin
desconocido.
Intervalo de confianza: intervalo de valores que tiene designada una probabilidad de que incluya el
valor real del parmetro de la poblacin.
Nivel de confianza: probabilidad que los estadsticos asocian con una estimacin de intervalo de un
parmetro de poblacin, sta indica qu tan seguros estn de que la estimacin de intervalo incluir el
INTRODUCCIN
Un Contraste o Test de Hiptesis es una tcnica de Inferencia Estadstica que permite comprobar si la
informacin que proporciona una muestra observada concuerda (o no) con la hiptesis estadstica
formulada sobre el modelo de probabilidad en estudio y, por tanto, se puede aceptar (o no) la hiptesis
formulada. Llamaremos hiptesis estadstica a una afirmacin respecto a una caracterstica de una
poblacin. Contrastar una hiptesis es comparar las predicciones que se deducen de ella con la realidad
que observamos: si hay coincidencia, dentro del margen de error admisible, mantendremos la hiptesis; en
caso contrario, la rechazaremos. La hiptesis estadstica puede ser:
Paramtrica: es una afirmacin sobre los valores de los parmetros poblacionales desconocidos. Las
hiptesis paramtricas se clasifican en:
Simple: si la hiptesis asigna valores nicos a los parmetros
Compuesta: si la hiptesis asigna un rango de valores a los parmetros poblacionales desconocidos
No Paramtrica: es una afirmacin sobre alguna caracterstica estadstica de la poblacin en estudio. Por
ejemplo, las observaciones son independientes, la distribucin de la variable en estudio es normal, la
distribucin es simtrica.
La hiptesis que se contrasta se denomina hiptesis nula y, normalmente, se denota por H0. Si se rechaza
la hiptesis nula es porque se asume como correcta una hiptesis complementaria que se denomina
hiptesis alternativa y se denota por H1 o Ha.
Rechazar una hiptesis implica sustituirla por otra capaz de explicar los datos observados.
Es interesante tener en cuenta que la veracidad de una hiptesis no puede ser probada nunca
Lo que se puede hacer es afirmar que tiene tal o cual probabilidad de ser falsa
Si esa probabilidad es muy alta (95% o 99%) por ejemplo, se concluye que la hiptesis es poco creble y se
califica provisoriamente como falsa. Si no se consigue "falsar" (rechazar) la hiptesis, se acepta
provisionalmente como verdadera. Esta calidad de provisorias de las conclusiones estadsticas no debera
sorprender a nadie: toda la ciencia es un constructo provisorio. La verificacin de hiptesis es el proceso
que lleva a juzgar la credibilidad de afirmaciones (hiptesis) relativas a las poblaciones (habitualmente a sus
parmetros) de las que fueron extradas las muestras.
Ejemplificando
La Hiptesis nula puede ser: un parmetro que tiene un valor k y la Hiptesis alternativa ser su
negacin. Es decir:
Ho: = k
H1: k
Si se toma una muestra y en ella se calcula un estadstico cuya distribucin en el muestreo en el caso de
que Ho sea verdadera se conoce, se puede determinar qu Probabilidad (P) hay de que si el verdadero
valor del parmetro es k se obtenga un valor observado del estadstico , tan alejado (o ms) de k. Ver
grafica siguiente:
Una hiptesis es una afirmacin acerca de algo. En estadstica, puede ser una suposicin acerca del valor
de un parmetro desconocido. Una hiptesis estadstica es una afirmacin respecto a alguna
caracterstica de una poblacin. Contrastar una hiptesis es comparar las predicciones con la realidad que
observamos. Si dentro del margen de error que nos permitimos admitir, hay coincidencia, aceptaremos la
hiptesis y en caso contrario la rechazaremos.
La prueba de hiptesis comienza con una suposicin, llamada hiptesis, que hacemos con respecto a un
parmetro de poblacin. Despus recolectamos datos de muestra, producimos estadsticos de muestra y
usamos esta informacin para decidir qu tan probable es que sea correcto nuestro parmetro de poblacin
acerca del cual hicimos la hiptesis. Debemos establecer el valor supuesto o hipotetizado del parmetro de
poblacin antes de comenzar a tomar la muestra. La suposicin que deseamos probar se conoce como
hiptesis nula, y se simboliza H0. Siempre que rechazamos la hiptesis, la conclusin que s aceptamos se
llama hiptesis alternativa y se simboliza H1.
La hiptesis emitida se suele designar por H0 y se llama Hiptesis nula porque parte del supuesto que
la diferencia entre el valor verdadero del parmetro y su valor hipottico es debida al azar, es decir no
hay diferencia.
Los contrastes pueden ser unilaterales o bilaterales (tambin llamados de una o dos colas) segn
establezcamos las hiptesis, si las definimos en trminos de igual y distinto estamos ante una hiptesis
unilateral, si suponemos una direccin (en trminos de mayor o menor) estamos ante uno bilateral.
1. Definir la hiptesis nula: suponer una hiptesis acerca de una poblacin. Se determina si es una prueba
de una o dos cola.
2. Formular una hiptesis alternativa: es una contra-hiptesis.
3. Elegir un nivel de significacin y construir la zona de aceptacin, intervalo fuera del cual slo se
encuentran el 100% de los casos ms raros. A la zona de rechazo la llamaremos Regin Crtica, y su
rea es el nivel de significacin o aceptacin.
4. Verificar la hiptesis extrayendo una muestra cuyo tamao se ha decidido en el paso anterior y
obteniendo de ella el correspondiente estadstico. Decida que distribucin (t o z) es la ms apropiada y
encuentre los valores crticos adecuados para el nivel de significancia escogido de la tabla adecuada.
5. Recabar datos de la muestra.
6. Calcule el error estndar del estadstico de la muestra y utilice el error estndar para convertir el valor
observado del estadstico de la muestra a un valor estandarizado. Determine si el valor calculado en la
muestra cae dentro de la zona de aceptacin de ser as se acepta la hiptesis y si no se rechaza.
7. Utilice el estadstico de la muestra para evaluar la hiptesis.
Los tests ( o pruebas) asociados con las hiptesis pueden ser uni o bi laterales,
segn las hiptesis planteadas
Ho : = k Ho : k Ho : k
H1 : k H1 : < k H1 : > k
Estadstico de la prueba
Los datos se deben sintetizar en un estadstico de la prueba. Dicho estadstico se calcula para ver si es
razonablemente compatible con la hiptesis nula. En las pruebas de hiptesis es necesario trazar una
lnea entre los valores del estadstico de la prueba que son relativamente probables dada la hiptesis
nula y los valores que no lo son. En qu valor del estadstico de la prueba comenzamos a decir que los
datos apoyan a la hiptesis alternativa? Para contestar a esta pregunta se requiere conocer la
distribucin muestral del estadstico de la prueba. Los valores del estadstico de la prueba que son
sumamente improbables bajo la hiptesis nula (tal como los determina la distribucin muestral) forman
una regin de rechazo para la prueba estadstica.
Valores crticos de z para una cola 1.2817 1.645 2.327 2.575 2.88
Valores crticos de z para dos colas 1.645 1.96 2.575 2.81 3.08
Error tipo II: Denotado por , es la probabilidad de aceptar la Ho cuando sta es falsa.
Minimizar los errores no es una cuestin sencilla, un tipo suele ser ms grave que otro y los intentos de
disminuir uno suelen producir el aumento del otro. La nica forma de disminuir ambos a la vez es
aumentar el tamao de la muestra.
El rechazo de una hiptesis nula cuando es cierta se denomina error de tipo I, y su probabilidad (que es
tambin el nivel de significancia) se simboliza como .
El hecho de que P sea muy bajo no califica el acontecimiento como
imposible. Simplemente que tiene poca probabilidad de ocurrir al azar.
A la probabilidad de cometer error tipo I se la denomina nivel de
significacin . Habitualmente el investigador fija a priori el nivel de
significacin crtico para rechazar Ho (). Si P es menor que , se
rechaza. En caso contrario, se acepta Ho.
El hecho de aceptar una hiptesis nula cuando es falsa se denomina
error de tipo II, y su probabilidad se simboliza como . La probabilidad de cometer un tipo de error
puede reducirse slo si deseamos incrementar la probabilidad de cometer el otro tipo de error. Con el
propsito de obtener una baja, tendremos que tolerar una alta. Los responsables de la toma de
decisiones deciden el nivel de significancia adecuado, al examinar los costos o desventajas vinculadas
con ambos tipos de errores
Las hiptesis nula y alternativa son aseveraciones sobre la poblacin que compiten entre s. O la
hiptesis nula H0 es verdadera, o lo es la hiptesis alternativa H1, pero no ambas. En el caso ideal, el
TIPOS DE PRUEBAS:
Prueba de cola derecha: Si la regin de rechazo est a la derecha del puntaje crtico
Prueba de cola izquierda: Si la regin de rechazo est a la izquierda del puntaje crtico
Prueba de dos colas o bilateral: Si la regin de aceptacin es un intervalo abierto entre dos puntajes
crticos.
OBSERVACIN IMPORTANTE
En ocasiones pueden surgir dudas en el planteamiento de cul debe ser la hiptesis H0 y
cul la hiptesis H1, en estos casos debemos tener presente las siguientes reglas:
Cuando el problema de manera expresa pide que se contraste una hiptesis con
determinado nivel de significacin, la hiptesis que contrastamos es la hiptesis H0.
Cuando el problema pide explcitamente que seamos nosotros quienes planteemos las
hiptesis, para decidir qu poner en H0 y qu en H1, se pueden tener en cuenta las
siguientes indicaciones:
En H1 siempre debemos colocar lo que realmente queremos investigar con seguridad, pues
el error , el que fijamos de antemano, se comete cuando optamos por H1 y nos
equivocamos.
En caso de duda, siempre elegir un contraste de hiptesis con dos colas.
El estadstico de prueba se basa en la media muestral X , por lo que tambin se supondr que la
poblacin esta distribuida de manera normal o que se aplican las condiciones del teorema del limite
central. Esto significa que la distribucin de X es aproximadamente normal con una media y una
2
varianza /n.
Cuadro resumen
x 0 x 0
Estadsticas: Zc tc , n-1 grados de libertad
/ n s/ n
Ejemplo: Se pretende disear una prueba de hiptesis con una muestra de 74 automviles para comprobar
su capacidad de frenado. Para ello se medir en todos ellos la distancia de frenado si el automvil parte de
una velocidad inicial de 100 Km/h. Se quiere saber si, tras un frenazo brusco, la distancia media recorrida
antes de pararse es de 110 metros. Se supone que la distancia de frenado sigue una distribucin normal
con desviacin tpica conocida = 3 m y al realizar efectivamente la prueba a los 74 automviles se ha
obtenido una distancia promedio de frenado de 111.62 m
X 0 111.62 110
Zc Zc 4.65
n 3 74
Conclusin: Como este valor no entra dentro de la regin de aceptacin (1.96, 1.96) nos decidimos por la
hiptesis alternativa H1. Concluimos que la media de frenado no es 110 m.
EJEMPLO: Los sistemas de escape de emergencia para aviones son impulsados por un combustible slido.
Una de las caractersticas importantes de este producto es la rapidez de combustin. Las especificaciones
requieren que la rapidez promedio de combustin sea de 50 cm/s. Se sabe que la desviacin estndar de
esa rapidez es de = 2 cm/s. El experimentador decide especificar un nivel de significancia, de = 0.05.
Selecciona una muestra aleatoria de n = 25 y obtiene una rapidez promedio muestral de combustin de x
=51.3 cm/s. A qu conclusin debe llegarse?
Ho: = 50 cm/s
Por tabla se sabe que para pruebas de una sola cola Z1 1,645 ;
X 0 51.3 50 1.3
Z 3.25
n 2 25 25
EJEMPLO: La vida til promedio de los focos marca general electric especial para vehculos es cuando
menos de 4200 horas. La vida til promedio para una muestra aleatoria de n = 10 focos es de X 4000
horas, con una desviacin tpica muestral de S = 200 horas. Se supone que la vida til de los focos sigue
una distribucin normal. El fabricante desea hacer un contraste de hiptesis con un nivel de significancia de
5 %. Cul seria la conclusin?
SOLUCIN: Se ordenan los datos: X 4000,..0 4200,..S 200,..n 10. Para un contraste de
hiptesis de una sola cola por la izquierda con 7 grados de libertad y un nivel de de significancia de 0.05, la
tabla de t , gl 9 1,833 .
Hiptesis:
H 0 : 4200
H1 : 4200
X 0 4000 4200
tc t c 3.16.
S n 200 10
Estadsticas:
Varianzas conocidas, muestras grandes
X1 X 2
z
2 2
s1 s
2
n1 n2
Varianzas desconocidas,
2
S12 S 22
X1 X 2
r 12
n n2
t 2 2
,
2
grados de libertad
s1 s S12 S 22
2
n1 n2 n1 n2
n1 1 n2 1
EJEMPLO: El salario promedio semanal para una muestra de n1 30 empleados de la empresa petrolera
Lasmo es de X 1 280000 Bs., con una desviacin tpica muestral de S1 14000 Bs. En otra empresa
petrolera grande, una muestra aleatoria de n2 40 empleados tiene un salario promedio semanal de
X 2 270000 Bs., con una desviacin estndar muestral de S 2 10000 Bs. Se prueba la hiptesis de
que no existe diferencia entre los salarios promedio semanal de las dos empresas, utilizando un nivel de
significancia de 5 %.
Lo primero que se har ser ordenar los datos y luego determinar el valor Z1 2 al 5%, de la tabla.
Datos:
Muestra..1...........................................Muestra..2
n1 30.................................................n2 40
X 1 280000...................................... X 2 270000
S1 14000..........................................S 2 10000
El ..valor..segun..tabla ..de..Z 1 2 1.96
Hiptesis:
H 0 : 1 2
H1 : 1 2
Estadstica de prueba
d d nd
2 2
d
t d sd
i i
, , , n-1 grados de libertad
sd n n 1
n
Ejemplo: La tabla incluye cinco temperaturas mnimas reales y las correspondientes temperaturas mnimas
que se pronosticaron cinco das antes. Se trata de datos apareados puesto que cada par de valores
representa al mismo da. Las temperaturas pronosticadas parecen ser muy diferentes de las temperaturas
reales, pero existe suficiente evidencia para concluir que la diferencia media no es de cero? Utilice un nivel
de significancia de 0.05 para probar la aseveracin de que existe diferencia entre las temperaturas mnimas
reales y las temperaturas mnimas pronosticadas cinco das antes.
Temperatura real 1 -5 -5 23 9
Temperatura pronosticada 16 16 20 22 15
La aseveracin de que existe una diferencia entre las temperaturas mnimas reales y las temperaturas
mnimas pronosticadas para cinco das se expresa como d = 0
Ho: d = 0
H1 : d 0
Antes de calcular el estadstico de prueba, debemos calcular los valores de s d y d . Utilizando las frmulas
ya conocidas anteriormente se tiene que d = -13.2 y sd = 10.7; luego se reemplaza en la frmula:
d 13.2
t 2.759
sd 10.7
n 5
Conclusin: Como | t c | calculado es menor que t / 2, gl4 , es decir, tc 2.759 2.776 , no se rechaza Ho:
d = 0 con un nivel de significancia de 0.05.. Se concluye que los datos muestrales no proporcioana
evidencia para sustentar la aseveracin de que las temperaturas mnimas y pronosticadas para cicno das
son diferentes. Esto no establece que las temperaturas reales y pronosticadas sean iguales.
Las pruebas de hiptesis con proporciones son necesarias en muchas reas del conocimiento. Se
considerar el problema de probar la hiptesis de que la proporcin de xito en un experimento binomial
sea igual a un cierto valor especifico. Es decir, se probar la hiptesis nula de que p = p0, donde p es el
parmetro de la distribucin binomial. La informacin de que suele disponerse para la estimacin de una
x
porcin real o verdadera (porcentaje o probabilidad) es una proporcin muestral , donde x es el
n
nmero de veces que ha ocurrido un evento en n ensayos. Por ejemplo, si una muestra aleatoria de
600 compras realizadas en una tienda y 300 se realizan con tarjeta de crdito, entonces
x 300
0.50 se puede utilizar esa cifra como estimacin de punto de la proporcin real de compras
n 600
realizadas en ese negocio que se abonaron a tarjetas de crdito. De la misma forma muchas
compaas podran estimar las proporciones de muchas transacciones. La hiptesis alterna puede ser
una de las alternativas usuales unilateral o bilateral tales como: p p0 , p p0 ,..o.. p p0 .
CUADRO RESUMEN
p p0 p p0
Estadsticas: Zc Zc
p o (1 p o ) po (1 po ) N n
n n N 1
Para resolver el problema hay que plantear una hiptesis alternativa unilateral de una cola por la izquierda
es decir, p< 0.05 y para ello se busca en la tabla el valor de Z1 ,..que..es..Z1 1,645 .
Hiptesis:
H 0 : p 0.05
H1 : p 0.05
p p0 0.02 0.05
Zc Z c 1.95
p0 (1 p0 ) 0.05 x0.95
n 200
p1 p 2 x1 x2
Estadsticas: Zc p1 , p2
1 1 n1 n2
p(1 p)
n1 n2
x1 x2 n1 p1 n2 p 2
p p
n1 n2 n1 n2
EJEMPLO: En un proceso de produccin de botellas de vidrio se tom una muestra de 400 de las cuales 28
estaban defectuosas, en otro proceso se tomaron 300 muestra de botellas de la cuales 15 estaban
defectuosas. Demuestre la hiptesis nula p1 p2 de que los dos procesos generan proporciones iguales
Pr oporcion..1......................................... Pr oporcion..2
n1 400..................................................n2 300
28 15
p1 0.07..................................... p 2 0.05
400 300
x1 28....................................................x2 15
28 15 43
p 0.061,......q 1 p 0.939
400 300 700
El ..valor..de..Z1 2 ..al..0.05... para..una..hipotesis ..alternativ a..bilateral ..es..Z1 2 1.96
Para resolver este problema se plantearn las hiptesis y luego se aplica la formula.
Hiptesis:
H 0 : p1 p 2
H1 : p1 p 2
p1 p2 0.07 0.05
Zc Z c 1.09
1 1 1 1
pq (0.061)(0.939)
n1 n2 400 300
CARACTERSTICAS DE LA DISTRIBUCIN
gl
gl
gl =
Valores de chi-cuadrado
Estadstica J. Oliva R. Romero
P g i n a | 153
Se utiliza cuando se quiere determinar si una distribucin particular (por ejemplo: Binomial, Poisson,
normal, etc.) es la distribucin apropiada.
La prueba ji cuadrada nos responde esta inquietud y probar si existe diferencia significativa entre
una distribucin de frecuencias observadas y una distribucin de frecuencias tericas.
f f 2
2 0 e
fe
4. Se rechaza la hiptesis si c2 t2
Nota: Las frecuencias esperadas de las distintas modalidades deben ser superiores a cinco; en
caso de no ocurrir, se deben agrupar clases contiguas en una sola clase hasta lograr que la
nueva frecuencia sea mayor que cinco.
Ejemplo: Los siguientes datos de ausentismo se recolectaron en una planta manufacturera. Para 95%
de nivel de confianza, realice una prueba para determinar si existe diferencia en la tasa de ausentismo
por da de la semana.
Frecuencia
Da
Lunes 120
Martes 45
Mircoles 60
Jueves 90
Viernes 130
Solucin:
H0 : no existe diferencia entre las frecuencias observadas y esperadas de ausencias.
Ha : existe una diferencia entre las frecuencias observadas y esperadas de ausencias.
Suponga frecuencias esperadas iguales: (120 + 45 + 60 + 90 + 130) / 5 = 89.
Jueves 90 89 1 1 0.0
Conclusin: rechazar H0 y concluir que existe una diferencia entre las frecuencias observadas y las
esperadas de ausencias.
b) Si hay ms de dos celdas, no se debe utilizar la chi cuadrado cuando ms del 20% de las celdas
tienen una frecuencia esperada menor a 5.
El anlisis de tablas de contingencia se usa para probar si dos caractersticas o variables estn
relacionadas.Las hiptesis a plantearse son:
Ho: Las variables son independientes. Ha: Las variables no son independientes.
Los grados de libertad son iguales a: (nmero de filas - 1)(nmero de columnas -1).
En una prueba de independencia de una tabla de contingencia la regin crtica se localiza slo en la
cola derecha.
f 0 f e 2
El estadstico de prueba es:
2
fe
Ejemplo: Un editor de peridicos, que trata de determinar con precisin las caractersticas de mercado
de su peridico, se pregunta si la costumbre de la gente de la comunidad de leer diarios est
relacionada con el nivel educativo de los lectores. Se aplica una encuesta a los adultos de rea
referente a su nivel educativo y a la frecuencia con que leen el peridico. Los resultados se muestran en
la siguiente tabla.
Nivel educativo
Frecuencia
Profesional Pasante de No termin la Total
con la que lee Preparatoria
o postgrado licenciatura preparatoria
Nunca 10 17 11 21 59
Algunas veces 12 23 8 5 48
Maana o
35 38 16 7 96
tarde
Total 57 78 35 33 203
Solucin:
Ho se rechaza si
c2 t2 , es decir si 2 12.59 con (4-1)x(3-1)=6 g.l. y =0.05
c
Nivel educativo
Frecuencia
con la que No termin
Profesional Pasante de Preparatori
lee la
o postgrado licenciatura a
preparatoria
fo 10 17 11 21
fo 12 23 8 5
fo 35 38 16 7
INTRODUCCIN
En la investigacin estadstica es muy frecuente encontrar variables que estn relacionadas o asociadas
entre s de alguna manera por ejemplo, el gasto familiar depende del ingreso. Existen muchas variables, en
especial cuantitativas, que dependen en algn grado de otras, entonces es posible que una de las variables
pueda ser relacionada matemticamente en funcin de la otra. Por ejemplo el peso de las personas
depende en general de la estatura; el tiempo de servicio de trabajo activo tiene relacin con la edad, un
trabajador que ha acumulado por ejemplo 30 aos de servicio tendr mayor edad que otro con slo 14 aos
de servicio; el ingreso o salario depende frecuentemente del nivel educativo; el ahorro familiar tiene relacin
con los ingresos; la demanda depender de los precio, etc.
Aqu se trata de predecir o explicar el comportamiento o resultado de una variable (variable dependiente) en
funcin de otras variables (variables independientes), as como tambin investigar si ellas estn asociadas o
correlacionadas entre s.
El propsito es proporcionar las tcnicas para expresar y medir la relacin o afinidad entre dos variables X e
Y para n observaciones.
La regresin como una tcnica estadstica, una de ellas la regresin lineal simple y la regresin
multifactorial, analiza la relacin de dos o mas variables continuas, cuando analiza las dos variables a esta
se el conoce como variable bivariantes que pueden corresponder a variables cualitativas, la regresin nos
permite el cambio en una de las variables llamadas respuesta y que corresponde a otra conocida como
variable explicativa, la regresin es una tcnica utilizada para inferir datos a partir de otros y hallar una
respuesta de lo que puede suceder.
Siendo as la regresin una tcnica estadstica, por lo tanto para interpretar situaciones reales, pero a veces
se manipula de mala manera por lo que es necesario realizar una seleccin adecuada de las variables que
van a construir las formulas matemtica, que representen a la regresin, por eso hay que tomar en cuenta
variables que tiene relacin, de lo contraria se estara matematizando un galimatas.
Se pueden encontrar varios tipos de regresin, por ejemplo:
Regresin lineal simple
Regresin mltiple (varias variables)
Regresin logstica: Simple b) Mltiple, etc.
La regresin lineal simple es una tcnica que usa variables aleatorias, continuas se diferencia del otro
mtodo analtica que es la correlacin, porque esta ltima no distingue entre las variables respuesta y la
variable explicativa por que las trata en forma simtrica.
REGRESIN Y CORRELACIN: Cuando existe dependencia estadstica entre dos variables, el objetivo es
encontrar una medida de la relacin entre ambas. Se trata de buscar un modelo o funcin matemtica que
recoja, de la manera ms aceptada esta relacin entre las variables y una medida de la aproximacin del
modelo a los datos reales. Por lo tanto, en el estudio de la dependencia estadstica de dos variables hay q
resolver dos problemas:
1. Determinar el grado de relacin o dependencia entre las variables.
2. Encontrar un modelo aproximado de la dependencia
La regresin estudia la naturales estadstica de la relacin entre dos variables y nos proporciona un modelo
de dicha relacin. El modelo consiste en una funcin matemtica cuya forma se aproxima a los datos
observados. La funcin encontrada permitir obtener los valores aproximados de una las variables a partir
de los valores prefijados de la otra variable.
La representacin de los datos obtenidos en la muestra de una variable estadstica bidimensional (X,Y)
sobre el plano (diagrama de dispersin) constituye una nube de puntos. Se llama lnea o curva de regresin
a la funcin que mejor se ajusta a esa nube de puntos. Si todos los valores de la variable satisfacen la
ecuacin calculada, se dice que las variables estn perfectamente correlacionadas o que hay una
correlacin perfecta entre ellas.
Dado n observaciones bidimensionales, cada par de valores (X,Y) en el plano cartesiano o rectangular
est representado por un punto, y habr tantos puntos como parejas de observaciones se tenga. Esta
representacin da origen a una nube de puntos que se denomina DIAGRAMA DE DISPERSIN, este
diagrama puede tomar diferentes formas.
La construccin del diagrama de dispersin constituye el primer paso para investigar la relacin existente
entre dos variables, la posicin y forma de esta nube proporciona una idea del tipo de relacin existente
entre ambas variables, de este modo se facilita la eleccin de la correspondiente funcin matemtica.
Algo de relacin positiva lineal Mucha relacin positiva lineal Poca relacin lineal negativa
La forma y posicin del diagrama de dispersin tambin indica si existe una relacin positiva o directa, o si
la relacin es negativa o inversa. Una relacin es directa o positiva cuando el incremento en el valor de una
variable significa el incremento en el valor de la otra; y es negativa o inversa cuando un incremento en el
valor de una variable genera una disminucin en la otra variable.
Una vez graficada y visualizada la forma del diagrama de dispersin, interesa analizar y expresar
matemticamente la relacin entre las variables. El mtodo estadstico que investiga y define la relacin
funcional entre dos variables se llama REGRESIN, la que permitir estimar, explicar o predecir el valor de
una variable, dado el valor de la otra variable. El hecho de tener una buena estimacin depender del grado
de asociacin entre las variables, y que la funcin elegida se ajuste lo mejor posible a la nube de puntos. El
anlisis del grado asociacin o modelo de regresin, constituye la CORRELACIN
Esto expresa que Y es un valor estimado a partir de valores reales de X, que sera una Lnea de regresin
de Y sobre X, donde:
Y = variable dependiente, predictando o explicada
X = variable independiente, predictor o explicada
n xi yi xi yi y 1 xi
1 0 i
n xi2 xi
2
;
n
i) Si 1 es positivo (1 > 0), entonces una relacin lineal positiva o directa, es decir que ante incrementos
en la variable independiente o predictor corresponde incrementos en la variable dependiente o
predictando.
ii) Si 1 es negativo (1 < 0), se tiene una relacin lineal negativa o inversa, es decir, que incremento de la
variable independiente origina decrementos o disminuciones en la variable dependiente.
Parmetro de Estadstica de
poblacin muestra
El coeficiente de correlacin lineal R mide el grado de afinidad o asociacin entre dos variables cuando
ellas estn relacionadas mediante una lnea recta y 0 1 x
n xi yi xi yi
R
n xi2 xi n yi2 yi
2 2
Atencin!: Si no hay correlacin de ningn tipo entre dos v.a., entonces tampoco habr correlacin lineal,
por lo que r = 0. Sin embargo, el que ocurra r = 0 slo nos dice que no hay correlacin lineal, pero puede
que la haya de otro tipo.
2
Coeficiente de determinacin (R ):
2
Denominamos coeficiente de determinacin R como el coeficiente que nos indica el porcentaje del ajuste
que se ha conseguido con el modelo lineal, es decir el porcentaje de la variacin de Y que se explica a
travs del modelo lineal que se ha estimado, es decir a travs del comportamiento de X. A mayor porcentaje
mejor es nuestro modelo para predecir el comportamiento de la variable Y. Tambin se puede entender este
coeficiente de determinacin como el porcentaje de varianza explicada por la recta de regresin y su valor
siempre estar entre 0 y 1 y siempre es igual al cuadrado del coeficiente de correlacin (r).
2 2
R =r
S yx
y 2
i bo yi b1 xi yi
n2
Ejemplo: Una compaa que fabrica circuitos electrnicos aplica un riguroso control de calidad. La
produccin se lanza por lotes de 100 circuitos y luego se prueba cada circuito. Los circuitos defectuosos son
inmediatamente reparados. Para poder predecir adecuadamente esta labor es importante poder predecir el
tiempo requerido por este servicio. La empresa dispone de los siguientes datos.
Nmero de
1 2 3 4 4 5 6 6 7 8 9 9 10 10 11 11 12 12
defectuosos por lote
Tiempo de
10 11 14 14 15 16 16 17 18 17
reparacin en 23 29 49 64 74 87 96 97
9 9 9 5 4 6 2 4 0 6
minutos
Solucin
a) Se puede observar que existe una relacin positiva o directa entre el nmero de defectuosos y el tiempo
de reparacin.
200
180
160
140
120
Tiempo
100
80
60
40
20
0
0 3 6 9 12 15
Nmero de Tiempo de
2 2 *
N defectuosos reparacin xi yi xi yi yi
por lote en minutos
(x) (y)
1 1 23 23 1 529 22.6
2 2 29 58 4 841 37.3
3 3 49 147 9 2401 52.0
4 4 64 256 16 4096 66.7
5 4 74 296 16 5476 66.7
6 5 87 435 25 7569 81.4
7 6 96 576 36 9216 96.1
8 6 97 582 36 9409 96.1
9 7 109 763 49 11881 110.8
10 8 119 952 64 14161 125.5
11 9 149 1341 81 22201 140.2
12 9 145 1305 81 21025 140.2
13 10 154 1540 100 23716 154.9
14 10 166 1660 100 27556 154.9
15 11 162 1782 121 26244 169.6
16 11 174 1914 121 30276 169.6
17 12 180 2160 144 32400 184.3
18 12 176 2112 144 30976 184.3
Para graficar esta ecuacin se deben calcular todos los valores estimados (yi*), reemplazando en la
ecuacin los valores reales de x. Por ejemplo:
200
180
160
140
120
Tiempo 100
80
60
40
20
0
0 3 6 9 12 15
c) Si un lote cuenta con 14 circuitos defectuosos, entonces el tiempo de reparacin ser de 213.7 minutos.
y* = 7.8597 + 14.704 (14) = 213.7 min
d) Para calcular el coeficiente de correlacin reemplazamos los valores en la siguiente frmula:
n x i y i x i y i
r 0.993
n x x i n y y i
2 2 2 2
i i
Por lo tanto existe una asociacin directa significativa entre el nmero de defectuosos y el tiempo de
reparacin., es decir, a mayor nmero de defectuosos se tendr mayor tiempo de reparacin.
2 2 2
e) R = (coeficiente de correlacin) x 100 = (0.993) x 100 = 98.7%
El tiempo de reparacin est siendo explicada en un 98.7% por el nmero de defectuosos; por lo tanto
la ecuacin de regresin da una buena estimacin.
Contrastes de Significacin
Del modelo: H0: 0=1=0, Ha: al menos uno de ellos es diferente de cero.
R2
Fc k 12
1 R
nk
1 1 1
tc , tc
1
1
1 t n2 1 1 t n2
1 1
1 23
2 29
3 49
4 64
4 74
5 87
6 96
6 97
7 109
8 119
9 149
9 145
10 154
10 166
11 162
11 174
12 180
12 176
El anlisis de regresin mltiple es el estudio de la forma en que una variable dependiente, , se relaciona
con dos o ms variables independientes. En el caso general emplearemos p para representar la cantidad de
variables independientes.
Los conceptos de un modelo de regresin y una ecuacin de regresin que presentamos en el tema anterior
se pueden aplicar al caso de la regresin mltiple. La ecuacin que describe la forma en que la variable
dependiente, , se relaciona con las variables independientes 1, 2 ,...,p y un trmino de error se llama
modelo de regresin. El modelo de regresin mltiple tiene la forma siguiente:
y 0 1 x1 2 x2 ... p x p
y 0 1 x1 2 x2 ... p x p
Resumen
Estadsticas de la regresin
Error tpico Se
Observaciones n
MSE = SSE / (n p
Residuos np1 SSE 1)
Total n1 SST
Estadstic
Error o
Coeficiente Probabilid
s tpico T ad Inferior 95% Superior 95%
Intercepcin 0 0 t0 p0 0 t nk 0
0 t nk 0
Variable
Independiente 1 1 1 t1 p1 1 t nk 1
1 t nk 1
Variable
Independiente 2 2 2 t2 p2 2 t nk 2
2 tnk 2
Variable
Independiente k p p tp pp
p tnk p
p tnk p
n = n de observaciones;
k = n de parmetros,
p = n de variables independientes
SSR y i y
2
En ingeniera forestal existe la necesidad evidente de poder predecir el volumen de madera disponible de un
tronco de un rbol todava en pie. El mtodo ms sencillo consiste en medir el dimetro cerca del suelo y la
altura del tronco y estimar el volumen utilizando estas dos cantidades. En la tabla estn los datos de un
experimento realizado en un parque nacional donde se midi con cuidado el volumen despus de cortar el
tronco de (v: volumen, d: dimetro y a: altura)
Tronco 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Altura 21.3 19.8 19.2 21.9 24.7 25.3 20.1 22.9 24.4 22.9 24.1 23.2 23.2 21.0 22.9
Dimetr
o 0.21 0.22 0.22 0.27 0.27 0.27 0.28 0.28 0.28 0.28 0.29 0.29 0.29 0.30 0.30
Volume 0.29 0.29 0.28 0.46 0.53 0.55 0.44 0.51 0.64 0.56 0.68 0.59 0.60 0.60 0.54
n 2 2 9 4 2 8 2 5 0 4 5 5 6 3 1
Tronco 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 3
Altura 22.6 25.9 26.2 21.6 19.5 23.8 24.4 22.6 21.9 23.5 24.7 25.0 24.4 24.4 24.4 26
Dimetro 0.33 0.33 0.34 0.35 0.35 0.36 0.36 0.37 0.41 0.41 0.44 0.44 0.45 0.46 0.46 0.
Volumen 0.629 0.957 0.776 0.728 0.705 0.977 0.898 1.028 1.085 1.206 1.569 1.577 1.651 1.458 1.444 2.1
Realizar el anlisis de regresin lineal del volumen (y) sobre la altura (x1) y el dimetro (x2)
Estadsticas de la regresin
El coeficiente de correlacin mltiple (r = 0.9711) indica que existe una asociacin directa significativa entre
el volumen sobre la altura y el dimetro. Es decir, a mayor altura y dimetro se tendr mayor volumen.
2
El coeficiente de determinacin (r = 0.9431), indica que el volumen est siendo explicado en un 94.31% por
la altura y el dimetro.
BIBLIOGRAFA
ANDERSON, David R./ SWEENEY, Dennis J./ WILLIAMS, Thomas A. (2004): Estadstica para
Administracin y Economa. Mxico. Editorial Internacional THOMSON. Octava edicin.
CORDOVA M. (2005). Estadstica: Descriptiva e Inferencial. Per. MOSHERA S.R.L.
DEVORE, J. (1998). Probabilidad y estadstica para ingeniera y ciencias. Mxico. International
Thomson Editores.
MASON R., LIND D., MARCHAL W. (2003). Estadstica para administracin y economa. Mxico.
Alfaomega Grupo Editor.
MENDENHALL W., TERRY S. (1997). Probabilidad y estadstica para ingeniera y ciencias. Mxico.
Prentice Hall Hispanoamericana.
WALPOLE R., MYERS R., MYERS. S. (1999). Probabilidad y estadstica para ingenieros. Mxico.
Prentice Hall Hispanoamericana