Semana 1 Teoría Estadística I
Semana 1 Teoría Estadística I
Semana 1 Teoría Estadística I
DEFINICIONES BASICAS
1. Introducción
La estadística, la ciencia de los datos, cuya función principal es elaborar principios y
métodos que nos ayuden a tomar decisiones frente a la incertidumbre, llega a ser un
valioso instrumento para resolver problemas. Cualquier persona, tanto en su carrera
profesional como en la vida cotidiana recibe información en forma de datos. A menudo
es necesario obtener alguna conclusión a partir de la información contenida en los
datos, por eso será útil para cualquier persona tener cierta comprensión de la
estadística.
Al enfrentarse a muchos fenómenos físicos, económicos, sociales, industriales,
comerciales, de salud, etc; uno se ve obligado a generalizar o a actuar frente a la
incertidumbre.
Como un procedimiento de toma de decisiones, la estadística se emplea hoy en toda
clase de estudios científicos. Puesto que los ingenieros, empresarios, científicos,
médicos, etc, obtienen y analizan datos de manera rutinaria, el conocimiento de la
estadística tiene una importancia especial en estos campos. De manera específica, el
conocimiento de la estadística y la probabilidad puede constituirse en una herramienta
poderosa para ayudar a los científicos e ingenieros a diseñar nuevos productos y
sistemas, a perfeccionar los existentes y a diseñar, desarrollar y mejorar los procesos de
producción.
2. Definición de Estadística
La estadística es una ciencia que proporciona un conjunto de métodos y procedimientos
que se usan para recolectar, organizar, presentar, analizar e interpretar el
comportamiento de los datos con respecto a una característica materia de estudio o
investigación. En primera instancia se encarga de obtener información, describirla y
luego usa esta información para predecir algo respecto a la fuente de información.
3. División de la Estadística
En la definición de estadística se puede notar dos aspectos bien remarcados en el campo
de la estadística básica, el primero: obtener la información, procesarla y describirla, es
lo que constituye la estadística descriptiva y el segundo aspecto: predecir algo con
respecto ala fuente de información, es lo que constituye la estadística inferencial o
inferencia estadística.
Ejemplo:
Supongamos que se desea comprobar el efecto de un tratamiento en 30 trabajadores
con infarto de miocardio, en cierta compañía, en el cual hay más trabajadores con la
misma enfermedad. Para medir el efecto del tratamiento, se observa el índice cardíaco
al final del mismo, y los resultados son:
0.90+1.85+2.50+3.20+ . . .+7.30
= 3.9 l / m2
30
Ejemplo:
Suponga ahora en el ejemplo anterior de la estadística descriptiva, que se desea conocer
el índice cardíaco promedio de todos los trabajadores con infarto de miocardio de la
misma compañía, pero se carece de tiempo o de los recursos necesarios para medir el
efecto del tratamiento a todos ellos. Entonces se decide usar el índice cardíaco
promedio de los treinta trabajadores para estimar el índice cardíaco promedio de todos
los trabajadores con infarto de miocardio de la compañía.
El proceso de estimar este índice cardíaco promedio total será un problema de
inferencia estadística.
4. Definiciones Básicas
4.1. Poblaciones y Parámetros
Ejemplos:
- Calidad de atención de los empleados del Banco de Crédito (Población objeto)
Calidad de atención de los empleados del Banco de Crédito. Ayacucho 2019.
(Población muestral)
- El conjunto de todos los enfermos con cáncer (Población objeto)
El conjunto de enfermos con cáncer de la compañía “x”. 2019. (Población
muestral)
- Ingresos económicos mensuales de las familias (Población objeto)
Ingresos económicos mensuales de las familias del distrito de Ayacucho. Primer
semestre 2020. (Población muestral)
- Estado civil de los estudiantes de las universidades del Perú. 2019 (Población
objeto)
Estado civil de los estudiantes de la Universidad Nacional de San Cristóbal de
Huamanga. 2019. (Población muestral)
Ejemplos:
- Edad de los estudiantes de la Universidad Nacional de San Cristóbal de
Huamanga, segundo semestre 2020. (Población homogénea)
- Edad de los docentes de la Universidad Nacional de San Cristóbal de Huamanga,
segundo semestre 2020. (Población heterogénea)
Nota:
- La representatividad de la muestra se logra usando un método aleatorio de selección.
- La adecuación de la muestra se logra mediante el uso de fórmulas, está referida al
tamaño de la muestra.
- Si bien es cierto los dos aspectos son muy importantes, sin embargo debe cuidarse
principalmente la representatividad.
Ejemplo 1: Ingresos económicos mensuales del 30% de las familias del distrito de
Ayacucho. Primer semestre 2020.
Ejemplo 2: Si se desea estimar el gasto promedio anual de los estudiantes universitarios
del Perú, se extraería una muestra formada por cierto número de estudiantes, en
seguida se determinaría el gasto anual correspondiente a cada uno de ellos y después
se obtendría el promedio de estos gastos. Entonces, en base al promedio de la muestra
(promedio muestral), se realiza una inferencia acerca del gasto promedio de todos los
estudiantes universitarios del Perú.
ii) Unidad de muestreo.- Es la que puede estar conformada por un solo elemento o por
un conjunto de elementos. La conformación adecuada de las unidades muestrales va a
facilitar el muestreo. En todo caso las unidades de muestreo han de ser grupos no
solapados (de intersección vacía) de elementos de la población que cubran la población.
iii) Marco muestral.- Es un documento material (lista, fichero, croquis, etc. ) donde se
consigna individualmente las unidades de muestreo de tal forma que se pueda sortear
desde allí, las unidades que van a constituir la muestra. Este documento es indispensable
en todo plan muestral, es la base muestral de la población muestral.
Solución:
i) Población objeto: Total de familias del distrito de Ayacucho en julio del 2021.
ii) Población muestral o investigada: Total de familias del distrito de Ayacucho en
julio del 2021 y que cumplan los siguientes criterios:
• Familias con al menos una persona adulta
• Familias cuyo jefe o responsable, colabore y brinde información completa
y confiable.
iii) Unidad elemental: Cada familia
iv) Unidad muestral o de muestreo: Cada familia (una vivienda)
v) Marco muestral: Listado de familias (croquis con viviendas)
Solución:
i) Población objeto: Total de apartamentos
ii) Población muestral: Total de apartamentos de la ciudad de Ayacucho en
setiembre del 2021
iii) Unidad elemental: Cada apartamento
iv) Unidad de muestreo: Cada casa de apartamentos
v) Marco muestral: Lista de casas de apartamentos.
Nota: Si cada unidad de muestreo contiene una y solamente una unidad elemental , se
dice que coinciden la unidad de muestreo y la unidad elemental; pero en muchos casos
la unidad elemental y la unidad de muestreo no coinciden.
i) Variable Estadística: Es una magnitud que tiende a sufrir modificaciones, es decir que
puede tomar diferentes valores. Es una característica de estudio en la población.
Las características que varían de individuo a individuo o de objeto a objeto se llaman
variables; mientras que las que permanecen inalterables se llaman constantes.
Las variables se representan generalmente con las últimas letras mayúsculas del
abecedario W, X, Y, Z y sus valores con letras minúsculas.
ii) Datos Estadísticos: Son los resultados de medir u observar alguna característica en
las unidades elementales o de análisis, y que además pueden ser comparados,
analizados e interpretados.
Ejemplo:
Estudiando una enfermedad del corazón, en trabajadores de 18 años o más, un
investigador ha identificado cuatro factores potencialmente asociados con el desarrollo
de esta: la edad, el peso, el número de cigarrillos fumados por día y los antecedentes
familiares de enfermedad cardiaca.
En este caso, los trabajadores de 18 o más años constituyen las unidades elementales o
unidades de análisis; las variables asociadas con cada unidad elemental son: la edad,
peso, número de cigarrillos fumados por día y los antecedentes familiares. Luego, los
resultados al medir cada una de estas variables en las unidades elementales constituyen
los datos estadísticos, así:
Edad (años cumplidos): 75, 55, 70, 30, 65, 45, etc.
Peso (Kg.): 80, 65, 78, 70, 85, 72, etc.
Nº de Cigarrillos (por día): 5, 10, 0, 3, 12, 8, etc.
Antecedentes Familiares: Si, Si, No, Si, No, Si, etc.
Ejemplos:
El Sexo con sus categorías (Masculino, Femenino)
El Lugar de Nacimiento con sus categorías (Ayacucho, Lima, Cuzco, Arequipa, etc.)
La Actividad Ocupacional con sus categorías (Obrero, Empleado, Comerciante,
Vendedor ambulante, Otros)
La Categoría Ocupacional con sus categorías (Empleador, Empleado, Obrero, Trabajador
independiente, Trabajador del hogar, Trabajador familiar no remunerado).
Son variables cualitativas nominales.
Ejemplos:
El Nivel de Instrucción con sus categorías (Sin Instrucción, Primaria, Secundaria,
Superior)
El Nivel Socioeconómico con sus categorías (Alto, Medio, Bajo)
La Categoría Docente Universitaria con sus categorías (Auxiliar, Asociado, Principal)
Son variables cualitativas ordinales
ii) Variables Cuantitativas: Son aquellas que pueden asociarse a valores numéricos, es
decir describen cantidades.
Ejemplos:
La edad, la estatura, el peso corporal, la presión sanguínea, los ingresos económicos, el
número de hijos por familia, etc. son variables cuantitativas.
A su vez pueden ser:
- Discretas y
- Continuas
Variables Cuantitativas Discretas: Solo toman un número finito o infinito numerable de
valores distintos (aislados), resultan de un conteo.
Ejemplos:
Número de hijos por familia, número de ventas por día, número de trabajadores,
número de estudiantes, número de accidentes por mes en cierta fábrica, etc. son
variables cuantitativas discretas.
Variables Cuantitativas Continuas: Toman una infinidad no numerable de valores, es
decir pueden tomar cualquier valor numérico en algún intervalo de los números reales.
Generalmente resultan de una medición.
Ejemplos:
Nivel de hemoglobina, Temperatura, edad, peso corporal, impuestos, ingresos
económicos, años de servicios, nivel de inflación, etc. son variables cuantitativas
continuas.
Las variables también pueden clasificarse por su relación entre ellas, en:
Variables Dependientes: Es aquella cuyos valores dependen de los que tomen otra
variable. La variable dependiente se representa en el eje de las ordenadas y en una
función se denota por Y, es decir está en función de la variable X, que es la variable
independiente.
Ejemplo:
Comprar cajas de galletas en una panadería. Cada caja de galletas cuesta 15 soles.
Determinar la variable dependiente e independiente.
Solución:
a.- Escala Nominal: La clave de estas escalas de medida es que sólo informan de la
igualdad o desigualdad de los individuos en una característica, pero no de posibles
ordenaciones, puesto que la característica a la que se refieren no se tiene en mayor o
menor medida, sino que simplemente adopta formas cualitativamente distintas. Los
números solo sirven para distinguir valores o categorías diferentes de la variable.
Ejemplos:
El sexo de las personas es una variable que se puede clasificar en Masculino o Femenino.
Los valores también se podrían codificar con 1=Masculino y 2=Femenino, pero no
significa que la mujer sea mayor que el hombre, ni el doble, solo que existen diferencias
entre estas y los números en este caso sólo servirían para indicar las categorías y no
tendrían significación numérica.
Las bebidas refrescantes se pueden clasificar en: bebidas gaseosas, agua mineral, chicha
morada, etc.
b.- Escala Ordinal: Mediciones que jerarquizan los datos en categorías, ordenadas en
virtud de un determinado criterio. Los números reflejan un orden existente sobre los
valores de la variable que puede estar dado de forma creciente o decreciente. La
pregunta es simplemente, si el objeto tiene más o menos de esta variable que algún otro
objeto.
Ejemplos:
• Importantes grandes almacenes, clasifica a muchos de sus productos como:
buenos, mejores y óptimos.
• Los sondeos de opinión utilizan a menudo una escala ordinal como: muy de
acuerdo, de acuerdo, sin opinión, en desacuerdo y muy en desacuerdo.
• Las inversiones se clasifican a partir de los niveles de riesgo como de: muy alto
riesgo, alto riesgo y bajo riesgo.
Como ocurre con los datos nominales se pueden utilizar números para codificar las
jerarquías; y también la magnitud de los números no es importante.
c.- Escala de Intervalo: Mediciones respecto de una escala numérica en la cual el valor
del cero no es absoluto, sino un cero arbitrario, es decir no refleja ausencia de la
magnitud medida, por lo que las operaciones aritméticas de multiplicación y división no
son apropiadas, pero la diferencia de valores es importante. Por consiguiente, las
operaciones aritméticas de suma y resta tienen sentido.
Las temperaturas Fahrenheit y Centígrados son medidas que tiene diferentes escalas de
intervalo y diferentes puntos de mínimos o de origen.
La escala Fahrenheit de temperaturas es un ejemplo de escala de intervalos: 70 grados
no sólo significa una temperatura mayor que 60 grados, sino que existe la misma
diferencia de 10 grados que entre 100 y 90 grados Fahrenheit.
El valor del cero en una escala de intervalos se elige de una manera arbitraria. La escala
de Fahrenheit se podría haber creado de manera que el cero se colocara a una
temperatura muy superior o inferior. Así pues, 80 grados no es el doble de 40 grados y
la relación 80/40 no tiene sentido.
La inteligencia también es otro ejemplo de escala de intervalo.
d.- Escala de Razón: Corresponde al nivel de medición más completo en el cual el cero
es un valor fijo en cualquier escala. Aquí el valor cero no es arbitrario, pues representa
la ausencia total de la magnitud que se está midiendo.
Además de la distancia de orden e intervalo, se añade un origen absoluto de forma que
no solo cabe hallar distancias (ya en la escala de intervalo), si no también múltiplos
exactos. En este caso el valor representado por 4 tiene doble cantidad medida que él
representado por un 2.
De los cuatro niveles de medición, sólo la escala de razón se basa en un sistema
numérico en el cual el cero tiene sentido. Por consiguiente, las operaciones aritméticas
de multiplicación y división adquieren una interpretación racional.
Se utiliza una escala de razón para medir muchos tipos de datos que se encuentran en
el análisis económico. Variables como el coste, los beneficios o los niveles de existencias
se expresan como medidas de razón. El valor de cero dólares para medir los ingresos de
un negocio, por ejemplo, se puede interpretar con toda lógica en el sentido de que no
ha habido ventas. Además, una empresa con una cuota de mercado del 40% tiene el
doble de participación en el mercado que otra empresa con una cuota del 20%. La edad
de una persona con cero años tiene sentido porque realmente no tiene edad, todavía
no ha nacido. Mediciones tales como el peso, el tiempo y la distancia también se miden
en escala de razón, puesto que el cero ocupa un lugar natural.
Las diferentes técnicas estadísticas exigen niveles diferentes de medición. Mientras que
la mayoría de las pruebas estadísticas exigen mediciones de intervalo o de razón, hay
otras, denominadas pruebas no paramétricas, que se han diseñado para utilizar datos
nominales u ordinales.