01 - Guía - Estadísticas para Negocios I
01 - Guía - Estadísticas para Negocios I
01 - Guía - Estadísticas para Negocios I
Estadística descriptiva
Estadística inferencial
La empresa de publicidad Brandon and Associates, con sede en Atlanta, solicitó a una
muestra de 1 960 consumidores que probaran un platillo con pollo recién elaborado por
Boston Market. De las 1 960 personas de la muestra, 1 176 dijeron que comprarían el
alimento si se comercializaba.
Experimento
Es un acto que lleva a uno de los posibles distintos resultados de un experimento. En caso
de lanzar una moneda, un ensayo puede arrojar sólo uno de los dos resultados posibles,
cara o cruz (Porras Velázquez, 2019).
Evento (A)
Es algo que ocurre y que tiene como producto uno o varios resultados. Un evento
aleatorio simple es el resultado de un ensayo único en cualquier experimento particular,
mientras que un evento compuesto consiste en un subconjunto del espacio muestral
con dos o más resultados asociados (Porras Velázquez, 2019).
Población y muestra
I.3.1. Datos
Los datos son hechos/informaciones y cifras que se recogen, analizan y resumen para su
presentación e interpretación. A todos los datos reunidos para un determinado estudio se
Para que los datos sean útiles, necesitamos organizar nuestras observaciones de
modo que podamos distinguir patrones y llegar a conclusiones lógicas, eso se logra a
través de hacer tabulaciones y gráficas (Levin & Rubin, 2004).
I.3.2. Variables
Se entiende por variable aquel fenómeno medible que varía (cambia) a través del tiempo,
o que difiere de un lugar a otro o de un individuo a otro (Ritchey, 2008). Las variables se
clasifican en dependientes e independientes pero también se clasifican como sigue:
Nivel nominal
Esta escala no tiene ningún valor numérico. Se utilizan variables como; género,
etnia, raza, edad, etc. El nivel nominal tiene las siguientes propiedades:
En una escala nominal, una variable se divide en dos o más categorías, por
ejemplo, de acuerdo / en desacuerdo, si / no, etc. Es un mecanismo de medición
en el que la respuesta a una pregunta en particular puede caer en cualquier
categoría.
La escala nominal es de naturaleza cualitativa, lo que significa que los números se
usan únicamente para categorizar o identificar objetos. Por ejemplo, en el fútbol,
¿has notado que los jugadores tienen un número en su camiseta? (cada uno tiene
un número diferente). La realidad es que estos números no tienen nada que ver
con la capacidad de los jugadores, sin embargo, pueden ayudar a identificar al
jugador.
En una escala nominal, los números no definen las características relacionadas con
el objeto, lo que significa que cada número se asigna a un objeto aleatorio o por
decisión propia. El único aspecto permitido relacionado con los números en una
escala nominal es que sirven para “contar”. Si volvemos al ejemplo de la
clasificación de hombres y mujeres, 1 siendo hombres y 2 siendo mujeres, los
números nos servirán para saber cuántos hombres (1) hay y cuántas mujeres (2)
hay.
Nivel ordinal
Nivel de intervalo
Nivel de razón
El nivel de razón es el más alto. Posee todas las características del nivel de intervalo,
aunque, además, el punto 0 tiene sentido y la razón entre dos números es significativa.
Ejemplos de la escala de razón de medición incluyen salarios, unidades de producción,
peso, cambios en los precios de las acciones, la distancia entre sucursales y la altura. El
dinero ilustra bien el caso. Si tiene cero dólares, entonces no tiene dinero.
Los datos de escala de razón, junto con los otros 3 niveles de medición, son
fundamentalmente un método de captura de datos cuantitativos. Lo que significa que se
pueden aplicar todos los tipos de técnicas de análisis estadístico a los datos de razón. Las
características de esta medición son:
Las siguientes son algunas de las técnicas de análisis de datos de razón más populares:
Análisis de tendencias
Análisis Conjoint
Tablas cruzadas
Evalúa los datos de razón de los clientes abordados mediante una determinada
fuente de comunicación y su frecuencia. Esta técnica de análisis es utilizada por los
investigadores para comprender si un nuevo producto o servicio será o no bien recibido
en el mercado objetivo.
3.- En los siguientes casos determine si el grupo representa una muestra o una
población.
Población Muestra
a) Los participantes en el estudio de un nuevo fármaco para el colesterol.
b) Los conductores que recibieron una multa por exceso de velocidad en la ciudad de
Kansas el último mes.
c) Beneficiarios del programa de asistencia social en Cook County (Chicago), Illinois.
d) Las 30 acciones que forman parte del promedio industrial Dow Jones.
https://www.emagister.com/blog/ventajas-aplicar-la-estadistica-marketing/
*Tarea 3.- Ingresa a los siguientes sitios, analiza las preguntas de la encuesta
sobre telefonía celular y elige un ejemplo para cada tipo de medición.
https://www.encuestafacil.com/RespWeb/Cuestionarios.aspx?EID=839449&MSJ=NO#Inicio
https://www.mercawise.com/estudios-de-mercado-en-mexico/encuesta-de-habitos-de-uso-de-
telefonia-celular
https://www2.deloitte.com/content/dam/Deloitte/co/Documents/technology-media-
telecommunications/Deloitte%20-
%20Consumidores%20m%C3%B3viles%202015%20Colombia(Baja).pdf
*Tarea 4.-
Entra a la siguiente liga y consigue los datos siguientes: Exportaciones de mango (en
cantidad) realizadas por México en 2017 a Estados Unidos de América, España, Italia,
Japón y China. Con ellos realiza las siguientes acciones:
http://www.fao.org/faostat/es/#data/TM
*Tarea 5.-
Realiza una encuesta breve atendiendo a las indicaciones que te daré sobre el consumo
de helado y hielo comestible. Toma en consideración que la aplicarás en la FCA en el
Comparte la encuesta
Calcula la muestra
Determina la estrategia de aplicación
Vacía los resultados en una hoja de Excel
***Tarea 6.-
Realiza una observación breve atendiendo a las indicaciones que te daré sobre el
consumo de helado y hielo comestible
***Tarea 7.-
Realiza una experimentación breve atendiendo a las indicaciones que te daré sobre el
consumo de helado y hielo comestible
“Organizar los datos tiene como fin permitirnos ver rápidamente algunas de las
características de los datos recogidos. Buscamos cosas como el alcance (los valores mayor
y menor), patrones evidentes, alrededor de qué valores tienden a agruparse los datos,
qué valores aparecen con más frecuencia, etc. Cuanta más información de este tipo
podamos obtener de una muestra, mejor entenderemos la población de la cual proviene,
y mejor será nuestra toma de decisiones” (Levin & Rubin, 2004, pág. 10).
Ejemplo. Se hizo una encuesta para ver cuánto gastaba un grupo de personas en un
desayuno y estos fueron los datos obtenidos:
Frecuencia de clase
Considerando la tabla anterior podemos decir que la proporción del total de ventas que se
realiza en Olean es del…
40
( ) 𝑥 100 = (0.2222) 𝑥 100 = 22.22%
180
*Ejercicio 3.-
Realiza las proporciones de la siguiente tabla. De tarea realiza esto en Excel y, en caso de
que ya se explicara SPSS realízalo también ahí, expón cuales son las diferencias que
encontraste en cuanto a la técnica.
Educación n p
Con bachillerato inconcluso 15,663.00
Con bachillerato terminado 18,225.00
Universidad inconclusa 19,324.00
Universidad terminada 15,000.00
Grado universitario 12,000.00
Maestría inconclusa 11,725.00
Maestría terminada 7,300.00
Grado de Maestría 2,100.00
Total
*Tarea 8.-
Investiga los siguientes conceptos:
a) Error estadístico.
b) Muestra representativa.
Supón que hiciste un levantamiento entre los consumidores de una universidad X para
determinar cuántos “hielitos” consumen al mes durante el verano. Los datos obtenidos
fueron los siguientes:
16 14 3 19 20 3 14 19 12 19
19 6 22 22 7 26 16 4 14 28
24 2 11 20 2 25 3 13 24 24
28 22 23 6 2 8 18 13 15 29
0 21 17 8 22 26 4 2 18 21
11 12 10 27 11 1 8 30 18 26
19 16 13 5 13 2 22 23 26 25
6 29 15 22 5 24 21 20 6 2
12 17 13 19 10 23 18 27 11 13
19 14 26 19 15 3 27 20 11 18
14 12 25 0 6 30 8 5 13 20
24 26 26 11 5 26 12 16 25 0
21 16 15 16 7 21 20 13 11 17
16 3 15 6 29 5 2 22 7 3
28 12 9 27 3 28 15 29 1 5
Paso 1. Determina el rango, esto es, identifica el valor máximo de la serie de datos
obtenidos y réstale el valor mínimo.
Valor mínimo: 0
Valor máximo: 30
Rango= 30-0 = 30
Paso 2. Obtén la amplitud o tamaño de cada intervalo, para ello se divide el rango
entre la cantidad de intervalos que deseas tener.
Intervalos deseados: 5
Amplitud: 30/5 = 6
donde:
k= número de clases
n= tamaño muestral
Se redondea siempre hacia abajo salvo que el número que te de sea par, en
ese caso se hará hacia arriba
k= 8
Quedando:
Intervalo Intervalo
inferior Superior
[ 0 - 3.75 )
[ 3.76 - 7.51 )
[ 7.52 - 11.27 )
[ 11.28 - 15.03 )
[ 15.04 - 18.79 )
[ 18.8 - 22.55 )
[ 22.56 - 26.31 )
[ 26.32 - 30.07 )
Paso 5. Ahora procede a llenar la tabla siguiendo las instrucciones que te daré.
Tanto el histograma como el polígono de frecuencias permiten tener una vista rápida de
las principales características de los datos (máximos, mínimos, puntos de concentración,
etc.).
2.2.1.5. La ojiva.
La gráfica de una distribución acumulada, llamada ojiva, es una gráfica que muestra los
valores de los datos en el eje horizontal y las frecuencias acumuladas, las frecuencias
relativas acumuladas o las frecuencias porcentuales acumuladas en el eje vertical.
En el apartado anterior vimos que las gráficas ayudan a describir la forma básica de una
distribución de datos; sin embargo, hay limitaciones para usarlas ya que son imprecisas
para usar en inferencia estadística. Una forma de superar estos problemas es usar
medidas numéricas, que se pueden calcular para una muestra o una población de
mediciones. Se pueden usar los datos para calcular un conjunto de números que llevarán
una buena imagen mental de la distribución de frecuencia. Estas mediciones se llaman
parámetros cuando se asocian con la población y se denominan estadísticas cuando se
calculan a partir de mediciones muestrales.
Sesgo: Las curvas pueden ser simétricas o sesgadas. Se dice que son simétricas
cuando tienen una forma tal que una línea vertical que pase por el punto más alto
de la curva dividirá su área en dos partes iguales. Cada parte es una imagen de
espejo de la otra. Y serán sesgadas cuando los valores de su distribución de
frecuencias se concentran en el extremo inferior o en el superior de la escala de
medición del eje horizontal. Estos valores no están igualmente distribuidos.
Curtosis: Refleja que tan puntiaguda es la curva. Sirve para determinar el grado de
concentración que presentan los valores de una variable alrededor de la zona
central de la distribución de frecuencias.
Pueden ser:
Recuerda que la marca de clase es el valor central que representa una clase. Se obtiene al
sumar los límites del intervalo y dividir este valor entre dos. Esto podríamos expresarlo
matemáticamente como sigue:
Gráfica A Gráfica B
a) tiene el valor promedio más grande.
b) es más probable que produzca un valor pequeño que uno
grande.
c) es la mejor representación de la distribución de edades de los
asistentes a un concierto de rock.
d) es la mejor representación de la distribución de los tiempos de
espera de pacientes en el consultorio de un médico.
Gráfica A Gráfica B
a) tiene valores distribuidos más uniformemente a través del
intervalo de valores posibles.
b) es más probable que produzca un valor cercano a cero.
g) tiene una probabilidad más alta de producir valores positivos
que negativos.
*Ejercicio 5.-
Considere las dos distribuciones de frecuencias siguientes. La primera distribución de
frecuencia proporciona el ingreso anual bruto ajustado de Estados Unidos (Internal
Revenue Service, marzo 2003). La segunda distribución de frecuencia muestra las
calificaciones de exámenes de un grupo de estudiantes universitarios en un curso de
estadística.
1. Con los datos del ingreso anual elabore un histograma. ¿Qué evidencia de sesgo
observa? ¿Es razonable este sesgo? Explique.
2. Con los datos de las calificaciones elabore un histograma. ¿Qué evidencia de sesgo
observa? Explique.
*Ejercicio 6.-
SunCom estudia la cantidad de minutos que consumen sus clientes que cuentan con un
plan tarifario de cierto teléfono celular. Una muestra aleatoria de 12 clientes arroja la
siguiente cantidad de minutos empleados el mes pasado ¿Cuál es el valor de la media
aritmética de los minutos consumidos?
3.1.3. La mediana
La mediana es otra medida de localización central. Es el valor de en medio en los datos
ordenados de menor a mayor (en forma ascendente). Cuando tiene un número impar de
observaciones, la mediana es el valor de en medio. Cuando la cantidad de observaciones
es par, no hay un número en medio. En este caso, se sigue una convención y la mediana es
definida como el promedio de las dos observaciones de en medio.
Otro ejemplo:
3.1.4. La moda
La moda es el valor que se presenta con mayor frecuencia.
En el siguiente caso presentamos los resultados de las millas corridas en una carrera:
Hay situaciones en que la frecuencia mayor se presenta con dos o más valores distintos.
Cuando esto ocurre hay más de una moda. Si los datos contienen más de una moda se
dice que los datos son bimodales. Si contienen más de dos modas, son multimodales. En
los casos multimodales casi nunca se da la moda, porque dar tres o más modas no resulta
de mucha ayuda para describir la localización de los datos.
*Ejercicio 8.-
1.- ¿Cuáles son los valores modales para las siguientes distribuciones?
2.- Ed Grant es director de la Oficina de Becas Estudiantiles del Wilderness College. Con
datos disponibles acerca de los ingresos obtenidos en el verano por todos los estudiantes
que han solicitado ayuda económica a la oficina, desarrolló la distribución de frecuencias
siguiente:
3.2.1. Dispersión
La dispersión se refiere a la separación de los datos en una distribución, es decir, al grado
en que las observaciones se separan.
*Ejercicio 9.-
1.- ¿Para cuál de las siguientes distribuciones la media es más representativa de los datos
como un todo? ¿Por qué?
3.2.2. Rango
La medida más simple de dispersión es el rango. El rango, R, de un conjunto de n
mediciones se define como la diferencia entre la medición más grande y la más pequeña.
En forma de ecuación:
Ejemplo:
Observa los siguientes datos que reflejan los pagos anuales hechos por Blue Cross-Blue
Shield (miles):
*Ejercicio 10.-
1.- La compañía Casual Life Insurance estudia la compra de una nueva flota de autos. El
director del Departamento de Finanzas, Tom Dawkins, obtuvo una muestra de 40
empleados para determinar el número de millas que cada uno maneja en un año. Los
resultados del estudio son los siguientes. Calcule el rango:
3.2.3. Varianza
Cada población (N) tiene una varianza, que es el promedio de los cuadrados de las
desviaciones de las mediciones alrededor de su media μ. La varianza poblacional se
denota con el símbolo σ2 (sigma cuadrada) y su fórmula para calcularla es:
La mayor parte de las veces, no tendremos todas las mediciones de población disponibles
pero necesitaremos calcular la varianza de una muestra de n mediciones, entonces
usaremos la varianza de la muestra cuya fórmula es la siguiente:
Observa:
*Ejercicio 11
1.- Considere una muestra que tiene como valores 10, 20, 12, 17 y 16. Calcule la varianza y
la desviación estándar.
a) Rango
b) Desviación estándar
c) Varianza
d) Coeficiente de variación
3.- Ahome theater in a box es la manera más sencilla y económica de tener sonido
envolvente en un centro de entretenimiento en casa. A continuación se presenta una
muestra de precios (Consumer Report Buying Guide 2004). Los precios corresponden a
modelos con y sin reproductor de DVD:
a) Calcule el precio medio de los modelos con reproductor de DVD y el precio medio
de los modelos sin reproductor de DVD. ¿Cuánto es lo que se paga de más por
tener un reproductor de DVD en casa?
b) Calcule el rango, la varianza y la desviación estándar de las dos muestras. ¿Qué le
dice esta información acerca de los precios de los modelos con y sin reproductor
de DVD?
Observa: Supongamos que una empresa que envasa leche desea clasificar los
defectos encontrados en la producción tanto por tipo de defecto como por el turno
(matutino, vespertino o nocturno) en el que se produjo el defecto. Lo que se desea
estudiar es si la evidencia de los datos (la contingencia y de allí el nombre) apoya la
hipótesis de que exista una relación entre ambas clasificaciones. ¿Cómo se comporta la
proporción de cada tipo de defecto de un turno a otro?
*Ejercicio 12.
Usando tus datos de la encuesta realiza 2 tablas cruzadas y explica la información
interesante que encontraste en ellas. Para poder hacer tablas cruzadas en SPSS observa el
siguiente tutorial. https://www.youtube.com/watch?v=RmzQxY0Y6BA
Los datos anteriores nos muestran que los últimos dos enunciados nos dan valores útiles
cuya representación podemos ver en el siguiente ejemplo:
n= 25
Media= 75
Varianza = 100
La desviación estándar es igual a la raiz cuadrada de la varianza, por lo tanto
100 = 10
1.- Al ser la media 75 eso nos dice que la distribución de las mediciones está centrada en ese valor.
2.- Al menos 3/4 de las 25 mediciones realizadas están en el siguiente intervalo:
𝑥 2 = 2 10
Resolviendo:
75+2(10) = 75-2(10) =
75+20= 75-20=
95 55
Así…
Al menos 3/4 partes de las mediciones se encuentran entre el 55 y el 95
𝑥 = 10
Resolviendo:
75+3(10) = 75-3(10) =
75+30= 75-30=
105 45
Así…
Al menos 8/9 partes de las mediciones se encuentran entre el 45 y el 105
Esta regla constituye una manera útil de analizar datos estadísticos. Sin embargo,
solo funciona para una distribución normal (la campana de Gauss) y solo es posible
producir estimaciones. Será necesario que conozcas la media y la desviación estándar de
los datos, pero, en caso de que vayas a emplear la regla empírica para una clase o un
examen, se te deberá brindar esta información. Luego podrás usar esta regla para fines
como estimar cuántos de los datos se encuentran dentro de un rango determinado.
1.- Traza y divide una distribución normal. Haz un bosquejo de una curva normal cuyo
punto más alto se encuentre en el centro y cuyos extremos se inclines hacia los extremos
y vayan estrechándose de manera simétrica a la izquierda y la derecha como se observa
en la siguiente gráfica:
2.- Luego traza varias líneas verticales que se intersequen con la curva de la siguiente
manera:
3.- Escribe los valores de la distribución normal en las líneas divisorias. Marca la línea que
esté en el centro con la media de tus datos y luego suma las desviaciones estándar para
obtener los valores correspondientes a las 3 líneas a la derecha. Resta las desviaciones
estándar a la media y obtendrás los valores correspondientes a las 3 líneas a la izquierda.
Por ejemplo:
4.- Marca los porcentajes de cada sección. La regla empírica del punto base es fácil de
comprender: el 68 % de los puntos de datos para una distribución normal se encontrarán
dentro de una desviación estándar de la media, el 95 % dentro de dos desviaciones
estándar y el 99,7 % dentro de tres desviaciones estándar. Puedes recordártelo marcando
cada sección con un porcentaje de la siguiente forma:
Las secciones siguientes a cada lado contendrán cada una 2.35 % de los datos.
Súmalos al 95 % y obtendrás el 99.7 % de los datos.
Debes ahora emplear la proporción de la que hablamos antes para poder responder las
siguientes preguntas:
*Ejercicio 13
Considera que tras aplicar una encuesta y analizar los datos descubriste que de una
muestra de 1500 personas las mismas respondieron a una pregunta sobre el monto de
dinero que gastaban por helado al mes dando como resultado que la media de $500 pesos
con una desviación estándar de 50.
2.- ¿Qué proporción gasta menos de $500 pesos y cuántas personas significan esa
proporción?
3.- ¿Qué proporción gasta entre de $500 y $550 pesos y cuántas personas significan esa
proporción?
4.- ¿Qué proporción gasta más de $600 pesos y cuántas personas significan esa
proporción?
Donde:
𝑥 = 𝑇𝑢 𝑑𝑎𝑡𝑜
= 𝐷𝑒 𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒 𝑡𝑎𝑛𝑑𝑎𝑟
𝑥̅ = 𝑀𝑒𝑑𝑖𝑎
Ejercicio:
En el primer parcial tuviste de calificación 7.2 ¿Qué tan cerca o lejos estás de la media del
grupo? Para ello considera que el promedio del grupo es 9 y hay una desviación estándar
de 1.3. Cabe indicar que el número de alumnos en el grupo es de 38
𝑥 − 𝑥̅
𝑧=
.2 − 9 −1.8
𝑧= = = −1. 9
1. 1.
Así, debido a que está no está muy lejano significa que tu resultado fue típico. Pero si tu
resultado fuera cercano al 3 o mayor que éste entonces el resultado fue atípico para el
comportamiento del grupo.
Como hemos visto, las medidas de posición se usan con variables cuantitativas y
nos permiten identificar el valor de la variable por debajo del cual se encuentra una
porción dada de observaciones en un grupo. Existen tres medidas:
Percentiles
Los percentiles es una medida de posición usada en estadística que indica, una vez
ordenados los datos de menor a mayor, el valor de la variable por debajo del cual se
encuentra un porcentaje dado de observaciones en un grupo. Se representan con la letra
P. Consiste en un número de 0 a 100 que indica el porcentaje de datos que son igual o
menor que determinado valor.
Si un valor tiene un percentil 55 (P55), el 55% de los demás datos tendrán un valor
igual o más pequeño. Imaginemos que la altura de un grupo de personas es el conjunto de
datos a estudiar. Si una altura de 1.75 m está en el P80 (percentil 80), quiere decir que el
80% de las personas del grupo mide 1.75 o menos.
Para calcular los percentiles, primero hay que ordenar los datos de forma ascendente. Una
vez ordenados, se resta 0.5 a la posición que ocupa el dato del que queremos calcular el
percentil. Después dividimos entre el número total de datos y multiplicamos por 100.
Ejemplo: Tenemos un conjunto de 47 datos con diferente valores que van desde 51 hasta
99. Si queremos saber el percentil al que pertenece el valor 63, primero ordenamos de
menor a mayor y miramos la posición que ocupa el 63. Supongamos la posición es 12.
Aplicamos la fórmula:
Y obtenemos que el 63 está en el percentil 24.46 indica que el 24.46% de los datos tienen
un valor de 63 o menos. Esto se indica como P24.46 = 63.
Otro ejercicio:
Cuartiles
Cuartiles
Se usa para identificarlos la letra Q y el subíndice refleja la porción… Q1, Q2, Q3 y Q4.
Una medida que no es afectada por los valores extremos es el rango intercuartílico (RIC).
Esta medida de variabilidad es la diferencia entre el tercer cuartil Q3 y el primer cuartil
Q1. En otras palabras, el rango intercuartílico es el rango en que se encuentra el 50%
central de los datos.
En los datos de los sueldos mensuales iniciales, los cuartiles son Q3 = 3600 y Q1 = 3465. Por
lo tanto el rango intercuartílico es 3600 - 3465 = 135.
*Ejercicio 14
A). Millones de estadounidenses trabajan para sus empresas desde sus hogares. A
continuación se presenta una muestra de datos que dan las edades de estas personas que
trabajan desde sus hogares.
B). A continuación encontrarás 3 conjuntos de datos que están ordenados. Las posiciones
de los cuartiles superior e inferior se muestran en la tabla. Encuentra las mediciones un
poco arriba y un poco debajo de la posición de cuartil. Enseguida encuentra los cuartiles
superior e inferior. El primer conjunto de datos ya está hecho.
Esta fórmula aparea cada xi con una yi. Después se suman los productos obtenidos al
multiplicar la desviación de cada xi de su media muestral 𝑥̅ por la desviación de la yi
correspondiente de su media muestral 𝑦̅ ; esta suma se divide entre n - 1.
510
Observa que la 𝑥̅ = 0/10 y 𝑦̅ = = 1
10
Así, en suma, La covarianza es el valor que refleja en qué cuantía dos variables aleatorias
varían de forma conjunta respecto a sus medias. Nos permite saber cómo se comporta
una variable en función de lo que hace otra variable. Es decir, cuando X sube ¿Cómo se
comporta Y? Así pues, la covarianza puede tomar los siguiente valores:
*Ejercicio 15
También es importante aclarar que si no hay ninguna relación entre los dos conjuntos de
variables, la r de Pearson es cero. Un coeficiente de correlación r cercano a 0 (sea 0.08)
indica que la relación lineal es muy débil. Se llega a la misma conclusión si r = -0.08. Los
coeficientes de -0.91 y +0.91 tienen una fuerza igual; los dos indican una correlación muy
fuerte entre las dos variables. Por lo tanto, la fuerza de la correlación no depende de la
dirección (ya sea - o bien +).
Ejemplo. Imagina que una empresa quiere ver la relación que hay entre las llamadas
telefónicas que 10 vendedores efectúan para lograr las ventas y la concreción de las
mismas; lo primero que debe hacer la empresa es reunir los datos de los vendedores
mismos que se muestran en la tabla siguiente:
Ahora traza una línea vertical en la media de los valores X (línea roja) y una recta
horizontal en la media de los valores Y (línea naranja). Así, si sacas el promedio de los
datos de la variable X obtendrás que es 22 y si lo haces en el eje Y verás que es 45
quedándote como sigue:
En el cuadrante I podrás identificar aquellas variables que tienen una relación positiva; por
ejemplo, un empleado que hizo 30 llamadas pero logró vender 70 copiadoras.
Llamadas Ventas
X-Media de X Y - Media de Y
20 30 20 - 22 = -2 30 - 45 = -15 -2 x -15 = 30
40 60 40 - 22 = 18 60 - 45 = 15 18 x 15 = 270
20 40 20 - 22 = -2 40 - 45 = -5 -2 x -5 = 10
30 60 30 - 22 = 8 60 - 45 = 15 8 x 15 = 120
10 30 10 - 22 = -12 30 - 45 = -15 -12 x -15 = 180
10 40 10 - 22 = -12 40 - 45 = -5 -12 x -5 = 60
20 40 20 - 22 = -2 40 - 45 = -5 -2 x -5 = 10
20 50 20 - 22 = -2 50 - 45 = 5 -2 x 5 = -10
20 30 20 - 22 = -2 30 - 45 = -15 -2 x -15 = 30
30 70 30 - 22 = 8 70 - 45 = 25 8 x 25 = 200
900 Sumatoria de la
Media 22.0 45.0 columna
Llamadas Ventas
X-Media de X Y - Media de Y
20 30 20 - 22 = -2 30 - 45 = -15 -2 x -15 = 30
40 60 40 - 22 = 18 60 - 45 = 15 18 x 15 = 270
20 40 20 - 22 = -2 40 - 45 = -5 -2 x -5 = 10
30 60 30 - 22 = 8 60 - 45 = 15 8 x 15 = 120
10 30 10 - 22 = -12 30 - 45 = -15 -12 x -15 = 180
10 40 10 - 22 = -12 40 - 45 = -5 -12 x -5 = 60
20 40 20 - 22 = -2 40 - 45 = -5 -2 x -5 = 10
20 50 20 - 22 = -2 50 - 45 = 5 -2 x 5 = -10
20 30 20 - 22 = -2 30 - 45 = -15 -2 x -15 = 30
30 70 30 - 22 = 8 70 - 45 = 25 8 x 25 = 200
900 Sumatoria de la
Media 22.0 45.0 columna
¿Cómo se interpreta una correlación de 0.759? Primero, es positiva, por lo que se observa
una relación directa entre el número de llamadas de ventas y el número de copiadoras
vendidas. Esto confirma el razonamiento basado en el diagrama de dispersión. El valor de
0.759 está muy cercano a 1.00, y por ende se concluye que la asociación es fuerte.
*Ejercicio 16
Repasemos el tema de la correlación para ello realizarás dos ejercicios:
1.- Una empresa está valorando la relación que hay entre el costo de la publicidad que ha
empleado para promocionar los productos y las ganancias que han obtenido. Con los
datos siguientes obtén la respuesta, realiza todos los pasos del ejemplo que te hice.
2.- Con tu propia base de datos de la encuesta que aplicaste elige 2 variables que desees
validar en cuento a su relación, por ejemplo si el sabor del helado está relacionado al
monto dispuesto a pagar o en fin, lo que tú desees. Aplica todos los pasos del ejemplo.
También puedes hacerlo en SPSS para eso te invito a ver el siguiente tutorial.
https://www.youtube.com/watch?v=sonEBK5-pnE
Se dice que los eventos son mutuamente excluyentes si uno y sólo uno de ellos puede
tener lugar a un tiempo. Considere de nuevo el ejemplo de la moneda. Tenemos dos
resultados posibles, cara y cruz. En cualquier lanzamiento obtendremos una cara o una
cruz, nunca ambas. Así, los eventos cara y cruz en un solo lanzamiento son mutuamente
excluyentes. De manera parecida, usted puede pasar o reprobar una materia o, antes de
que termine el curso, desertar y no obtener calificación. Solamente uno de esos tres
resultados es posible, por tanto, se dice que son eventos mutuamente excluyentes. La
pregunta fundamental que se debe formular al decidir si ciertos eventos son mutuamente
excluyentes es: ¿pueden ocurrir dos o más de tales eventos al mismo tiempo? Si la
respuesta es afirmativa, los eventos no son mutuamente excluyentes.
1. El planteamiento clásico.
2. El planteamiento de frecuencia relativa.
3. El planteamiento subjetivo.
Probabilidad clásica
Se debe resaltar el hecho de que, con el fin de que la ecuación anterior sea válida, cada
uno de los resultados posibles debe ser igualmente posible. Traduzcamos esto a través de
la siguiente pregunta: ¿cuál es la probabilidad de obtener una cara en un solo
lanzamiento?
Una opción es usar las frecuencias relativas, sí, las que ya sabes hacer. Así, una
compañía de seguros sabe, por la información obtenida de los datos actuariales
registrados, que de los hombres de 40 años de edad, 60 de cada 100,000 morirán en un
periodo de un año. Utilizando este método, la compañía estima la probabilidad de muerte
de ese grupo de edad en particular como:
El planteamiento subjetivo
Las probabilidades subjetivas están basadas en las creencias de las personas que efectúan
la estimación de probabilidad. De hecho, la probabilidad subjetiva se puede definir como
la probabilidad asignada a un evento por parte de un individuo, basada en la evidencia
que tenga disponible. Esta evidencia puede presentarse en forma de frecuencia relativa de
Las asignaciones de probabilidad subjetiva se dan con más frecuencia cuando los
eventos se presentan sólo una vez o un número muy reducido de veces. Digamos que
usted tiene encomendada la tarea de entrevistar y elegir a un nuevo trabajador social. Su
población se ha reducido a sólo tres personas; cada una de éstas tiene buena apariencia,
alto nivel de actividad, bastante confianza en sí misma, buen registro de logros pasados y
buena disposición para enfrentar los retos que se presenten ¿Cuáles son las posibilidades
de que cada candidato se relacione exitosamente con los clientes? El responder a esta
pregunta y escoger a uno de los tres requerirá que usted asigne una probabilidad
subjetiva al potencial de cada persona que solicita el puesto.
Ejercicio 17
1.- El representante sindical B. Lou Khollar, tiene como anteproyecto un conjunto de
demandas salariales y de prestaciones que debe presentar a la dirección. Para tener una
idea del apoyo de los trabajadores al paquete, hizo un sondeo aleatorio en los dos grupos
más grandes de trabajadores de la planta, los maquinistas (M) y los inspectores (I).
Entrevistó a 30 de cada grupo con los siguientes resultados:
Antes de abordar este tema es importante que repasemos un poco algunos temas de
probabilidad.
Símbolos en probabilidad:
Checa este ejemplo: En una investigación de mercado se encontró que entre los
integrantes de un club, el 30% de los hombres usan loción para después de afeitarse, en
tanto que el 40% de ellos utiliza desodorante y el 10% utiliza ambos productos. Si
elegimos al azar a un varón de ese club, ¿qué probabilidades existen de que utilice
desodorante o de que use loción para después de afeitarse?
De los miembros del club, 30% usan loción y 70% no usan loción.
De los miembros del club, 40% usan desodorante y 60% no usan desodorante.
De los miembros del club, 10% usan desodorante y loción mientras que el 90% solo
usan uno de los dos productos.
Son aquellos eventos que si se produce uno de ellos, no puede producirse el otro. Es decir,
no existe una intersección en los conjuntos, por ejemplo, si se es hombre no se puede ser
mujer. Si no les gustan los helados no podrá elegir la opción de que sí le gustan.
Eventos independientes
Cuando se presentan dos eventos, el resultado del primero puede, o no, tener un efecto
en el resultado del segundo. Esto es, los eventos pueden ser dependientes o
independientes. Dentro de los estadísticamente independientes, es decir, aquellos en
donde la presentación de uno no tiene efecto sobre la probabilidad de presentación de
cualquier otro. Existen tres tipos de probabilidades que se presentan bajo la
independencia estadística: Marginal, Conjunta y Condicional.
2. Todos los resultados posibles (los eventos simples o puntos muestrales) se listan a
continuación:
Por ejemplo, si queremos saber cuántos hombres han sido promovidos tendremos:
La probabilidad condicional es, por tanto, la probabilidad de que un segundo evento (B) se
presente si un primer evento (A) ya ha ocurrido.
*Ejercicio 18
Parte A
a. Con estos datos elabore una tabla de probabilidad conjunta y úsela para responder las
preguntas restantes.
c. ¿Cuál es la probabilidad de que una persona tomada en forma aleatoria no tenga seguro
médico?
g. ¿Qué indica esta información acerca del seguro médico en Estados Unidos?
Parte B
Ejercicio 2.-
b. Use las probabilidades marginales: calidad de la escuela, costo de la escuela y otras para
comentar cuál es la principal razón por la que eligen una escuela.
1. Condicional.
2. Conjunta.
3. Marginal.
4.3.1. Condicional
Las probabilidades condicional y conjunta bajo condiciones de dependencia estadística
son más complicadas que la probabilidad marginal en estas mismas circunstancias.
Analizaremos primero las probabilidades condicionales, debido a que el concepto de
probabilidad conjunta se ilustra mejor si utilizamos la probabilidad condicional como base.
La probabilidad de sacar cualquiera de las bolas es de 0.1, ya que existen 10 bolas con
igual probabilidad de ser elegidas. Pero de acuerdo a los postulados anteriores tenemos:
A partir del planteamiento del problema, sabemos que hay cuatro bolas de color, tres de
las cuales tienen puntos y la que queda tiene franjas. Ahora, nuestro problema consiste en
encontrar las probabilidades sencillas de que la bola tenga puntos y de que tenga franjas.
Para hacerlo dividimos el número de bolas de cada categorías entre el número total de
bolas de color.
En otras palabras, tres cuartos de las bolas de color tienen puntos y un cuarto tienen
franjas. Así pues, la probabilidad de sacar una bola con puntos, dado que ésta es de color,
es de 0.75. De forma parecida, la probabilidad de obtener una bola con franjas, dado que
ésta es de color, es de 0.25.
Ahora podemos ver cómo nuestro razonamiento nos permitirá desarrollar una
fórmula para calcular la probabilidad condicional bajo dependencia estadística. Primero,
podemos asegurarnos a nosotros mismos que tales eventos son estadísticamente
dependientes si observamos que el color de las bolas determina la probabilidad de que
éstas tengan puntos o franjas. Por ejemplo, es más probable que una bola gris tenga
franjas que una bola de color. Como el color afecta la probabilidad de que la bola tenga
puntos o franjas, estos eventos son dependientes.
Expresada como una fórmula general y utilizando las letras A y B para representar los dos
eventos, la ecuación queda:
Ejercicio 19
Continuando con nuestro ejemplo de las bolas de color y grises, respondamos a las
preguntas, ¿cuál es la probabilidad de obtener P(D|G) y P(S |G)? Es decir:
4.3.2. Conjunta
Suponga que en la población general, hay 51% de hombres y 49% de mujeres, y que las
proporciones de hombres y mujeres daltónicos se muestran en la siguiente tabla de
probabilidad:
Si una persona se escoge al azar de entre esta población y se encuentra que es hombre
(evento B), ¿cuál es la probabilidad de que el hombre sea daltónico (evento A)? Si
sabemos que el evento B ha ocurrido, debemos restringir nuestra atención a sólo 51% de
la población que es de hombres. La probabilidad de ser daltónico, dado que la persona es
hombre, es 4% de 51%, o sea:
Ejercicio 20
Parte A
De acuerdo con una encuesta, la probabilidad de que una familia posea dos automóviles si
su ingreso anual es mayor que $35,000 es 0.75. De los hogares encuestados, 60% tenía
ingresos mayores que $35,000 y 52% tenía dos autos. ¿Cuál es la probabilidad de que una
familia tenga dos autos y un ingreso mayor que $35,000 al año?
Parte B
Recuerda:
Datos:
Si se emplea H para denotar cara y T para denotar cruz, (H, H) será el resultado
experimental en el que se tiene cara en la primera moneda y cara en la segunda moneda.
Si continúa con esta notación, el espacio muestral (S) en este experimento del
lanzamiento de monedas será el siguiente:
Es decir Es decir
H1 H2
T1 T2
2x2x2=8
2 x 2 x 2 x 2 = 16
Así, si tu, al hacer una encuesta preguntaras el sexo, la marca del helado y el sabor y en
cuando al sexo hubiera 2 opciones de respuesta (hombre o mujer), en cuanto a la marca
fueran 5 opciones (SanMy, Nutrisa, Moyo, Yogo, Ticky Tucky) y en cuanto al sabor fueran 3
(natural, taro y frutos del bosque). Sin tener que hacer las combinaciones tendríamos que
se presentarían un total de…
Combinaciones
Fórmula:
Datos:
n= Piezas seleccionadas = 2
Permutaciones
La tercera regla de conteo que suele ser útil, es para permutaciones. Dicha regla permite
calcular el número de resultados experimentales cuando se seleccionan n objetos de un
conjunto de N objetos y el orden de selección es relevante. Los mismos n objetos
seleccionados en orden diferente se consideran un resultado experimental diferente.
Fórmula:
Datos:
n= Piezas seleccionadas = 2
Ejercicio 21
Juan
Luis
María
Luisa
Diana
José
Mónica
Daniel
Sergio
Tatiana
1.- Caso 1. Tienes diez alumnos y vas a elegir entre ellos a 5 para darles un premio. Para
ello habrá 3 intentos y en cada uno de ellos podrán participar los 10 ¿qué probabilidad hay
que un alumno se saque tres premios?
2.- Caso 2. Tienes diez alumnos y seleccionarás 2 de ellos para poder darles un premio
¿Cuántas permutaciones puede seleccionar?
3.- Caso 3. Tienes diez alumnos y vas a seleccionar al azar 2 de ellos para darles un premio
.¿cuántas combinaciones de dos partes pueden seleccionarse?
4.- ¿Qué probabilidad hay de que Mónica sea una de las ganadoras para el caso 1?
5.- ¿Qué probabilidad hay de que Mónica gane 3 veces, de acuerdo con el caso 1?
6.- ¿Qué probabilidad hay de que Mónica y Sergio sean 2 de los ganadores, de acuerdo
con el caso 1?
Para fortalecer el tema debes saber que en el siglo XVIII, el reverendo Thomas Bayes, un
ministro presbiteriano inglés, planteó esta pregunta: ¿Dios realmente existe? Dado su
interés en las matemáticas, intentó crear una fórmula para llegar a la probabilidad de que
Dios existiera sobre la base de la evidencia de que disponía en la Tierra. Más tarde, Pierre-
Simon Laplace perfeccionó el trabajo de Bayes y le dio el nombre de teorema de Bayes. De
una forma entendible, el teorema de Bayes es el siguiente:
Así, para resolver el ejercicio usando a Bayes deberás considerar las fórmulas
siguiente:
Vamos a un ejemplo: Suponga que 5% de la población de Umen, un país ficticio del Tercer
mundo, tiene una enfermedad propia del país. Sea A1 el evento “padece la enfermedad” y
A2 el evento “no padece la enfermedad”. Por lo tanto, si selecciona al azar a una persona
de Umen, la probabilidad de que el individuo elegido padezca la enfermedad es de 0.05;
es decir:
Siguiendo con el ejemplo, imagine que existe una técnica de diagnóstico para
detectar la enfermedad, pero no es muy precisa. Sea B el evento “la prueba revela la
presencia de la enfermedad”. Suponga que la evidencia histórica muestra que si una
persona padece realmente la enfermedad, la probabilidad de que la prueba indique su
presencia es de 0.90. Lo que se obtuvo es la probabilidad condicional:
Así, si eligieras al azar a una persona de Umen y se le aplica la prueba y los resultados
resultan que la enfermedad está presente. ¿Cuál es la probabilidad de que la persona en
realidad padezca la enfermedad?
De esta forma, la probabilidad de que una persona padezca la enfermedad, dado que la
prueba fue positiva, es de 0.24. ¿Cómo interpreta el resultado? Si selecciona al azar a una
persona de la población, la probabilidad de que se encuentre enferma es de 0.05. Si se le
somete a la prueba y resulta positiva, la probabilidad de que la persona padezca
realmente la enfermedad se incrementa cinco veces, de 0.05 a 0.24.
Ejercicio 22
1.- Un gerente de crédito trata con tres tipos de riesgos crediticios con sus clientes: las
personas que pagan a tiempo, las que pagan tarde (morosos) y las que no pagan. Con base
en datos estadísticos, las proporciones de cada grupo son 72.3%, 18.8% y 8.9%,
respectivamente.
Una distribución de probabilidades da toda la gama de valores que pueden ocurrir con
base en un experimento, y resulta similar a una distribución de frecuencias. Sin embargo,
en vez de describir el pasado, define qué tan probable es que suceda algún evento futuro.
Esta gráfica ya la hemos visto en temas anteriores ¿Lo recuerdas?
Te invito a ver el siguiente video para que sea más claro lo antes leído.
https://www.youtube.com/watch?v=_wonmKS4Blk
Para poder determinar la distribución de las frecuencias de este tipo de variables debes
hacer lo siguiente:
Las ventas de automóviles en DiCarlo Motors en Saratoga, Nueva York. Durante los
últimos 300 días de operación muestran lo siguiente: hubo 54 días en los que no se vendió
ningún automóvil, 117 días en los que se vendió 1 automóvil, 72 días en los que se
vendieron 2 automóviles, 42 días en los que se vendieron 3 automóviles, 12 días en los
que se vendieron 4 automóviles y 3 días en los que se vendieron 5 automóviles. Pongamos
esto en una tabla para que sea más claro:
0 54
1 117
2 72
3 42
4 12
5 3
Total: 300
Podemos decir que la variable es discreta toda vez que se puede contar el número de
autos vendidos en 0, 1, 2, 3, 4 y 5. Ahora bien, descubramos la probabilidad, eso ya los has
realizado, solo repasemos:
0 54 54 / 300 = 0.18
1 117 117 / 300 = 0.39
2 72 72 / 300 = 0.24
3 42 42 / 300 = 0.14
4 12 12 / 300 = 0.04
5 3 3 / 300 = 0.01
Total: 300 1.00
Así, la empresa DiCarlo prevé que a la larga se venderán 1.50 automóviles por día. Si en un
mes hay 30 días de operación, el valor esperado, 1.50, se emplea para pronosticar que las
ventas promedio mensuales serán de:
0 𝑥 1. = 4 𝑎𝑢𝑡𝑜𝑚ó𝑣𝑖𝑙𝑒
También sacaremos la desviación estándar que es la raíz cuadrada del resultado obtenido
con la fórmula anterior.
0 54 54 / 300 = 0.18 0 x 0.18 = 0.00 0 - 1.50 = -1.50 -1.50 x -1.50 = 2.25 2.25 x 0.18 = 0.4050
1 117 117 / 300 = 0.39 1 x 0.39 = 0.39 1 - 1.50 = -0.50 -0.50 x -0.50 = 0.25 0.25 x 0.39 = 0.0975
2 72 72 / 300 = 0.24 2 x 0.24 = 0.48 2 - 1.50 = 0.50 0.50 x 0.50 = 0.25 0.25 x 0.24 = 0.0600
3 42 42 / 300 = 0.14 3 x 0.14 = 0.42 3 - 1.50 = 1.50 1.50 x 1.50 = 2.25 2.25 x 0.14 = 0.3150
4 12 12 / 300 = 0.04 4 x 0.04 = 0.16 4 - 1.50 = 2.50 2.50 x 2.50 = 6.25 6.25 x 0.04 = 0.2500
5 3 3 / 300 = 0.01 5 x 0.01 = 0.05 5 - 1.50 = 3.50 3.50 x 3.50 = 12.3 12.25 x 0.01 = 0.1225
Total: 300 1.00 1.50 1.2500
b. Defina una variable aleatoria que represente el número de ofertas de trabajo. ¿Es una
variable aleatoria continua?
3.- La Downtown Parking Authority, de Tampa, Florida, reportó los siguientes datos de una
muestra de 250 clientes relacionados con el número de horas que se estacionan los
automóviles y las cantidades que pagan.
Puesto que sólo hay dos resultados posibles, la probabilidad de fracaso, a la que podemos
denominar q, está dada por la diferencia 1 – p, esto es, corresponde al complemento de la
probabilidad de éxito, y como ésta última es constante, entonces también lo es la
probabilidad de fracaso.
Esta fórmula nos dice que la probabilidad de obtener “x” número de éxitos en n pruebas
(como ya se indicó arriba) está dada por la multiplicación de n combinaciones en grupos
de x (el alumno debe recordar el tema de reglas de conteo) por la probabilidad de éxito
elevada al número de éxitos deseado y por la probabilidad de fracaso elevada al número
de fracasos deseados.
Hagamos un ejercicio:
Despejando la fórmula=
P(2)= 3 x 0.02 x 0.85
P(2)= 0.06
Ejercicio 24
1.- Se sabe que el 30% de los estudiantes de secundaria en México es incapaz de localizar
en un mapa el lugar donde se encuentra Afganistán. Si se entrevista a seis estudiantes de
este nivel elegidos al azar:
a) ¿Cuál será la probabilidad de que exactamente dos puedan localizar este país?
b) ¿Cuál será la probabilidad de que un máximo de dos puedan localizar este país?
7.6 Calculo del tamaño de la muestra para medias para una población finita e infinita. 1 h
7.7 Calculo del tamaño de la muestra para proporciones para una población finita e
infinita
Bibliografía
Anderson, D. R., Sweeney, D. J., & Williams, T. A. (2008). Estadística para la Administración
y Economía. México: Cengage Learning Editores, S.A.
Levin, R. I., & Rubin, D. S. (2004). Estadística para la Administración y Economía. México:
Pearson Education.
Lind, D. A., Marchal, W. G., & Wathen, S. A. (2012). Estadística aplicada a los negocios y a
la Economía. México: McGraw-Hill Educación.
Ritchey, F. J. (2008). Estadísticas para las Ciencias Sociales. México: Mc Graw Hill
Interamericana.