ANALISIS
ANALISIS
ANALISIS
En este sentido, por cuestiones de tiempo y coste, no podemos recoger la totalidad de los datos.
Esta totalidad de los datos es lo que se conoce como población de datos o, simplemente,
población. También se entiende como muestra estadística Como la porción o parte de una
población estadística que se extrae para determinado estudio. La muestra estadística suele ser
una representación de toda la población con el fin de conocer y determinar los aspectos de esta.
A la hora de obtener una muestra representativa existen ciertos aspectos que el investigador debe
conocer de antemano. Entre esos aspectos se encuentran las características de una muestra
representativa. Las características de una muestra representativa son las siguientes:
PROBABILÍSTICA
Es una técnica de muestreo en virtud de la cual las muestras son recogidas en un proceso que
brinda a todos los individuos de la población las mismas oportunidades de ser seleccionados.
En esta técnica de muestreo, el investigador debe garantizar que cada individuo tenga las mismas
oportunidades de ser seleccionado y esto se puede lograr si el investigador utiliza la
aleatorización.
El efecto de esto es un sesgo sistemático ausente o mínimo que es la diferencia entre los
resultados de la muestra y los resultados de la población. El sesgo de muestreo también se elimina
ya que los sujetos son elegidos al azar.
Muestreo aleatorio simple: El muestreo aleatorio simple es la forma más fácil de muestreo
probabilístico. Lo único que el investigador tiene que hacer es asegurarse de que todos los
miembros de la población sean incluidos en la lista y luego seleccionar al azar el número deseado
de sujetos.
Muestreo aleatorio estratificado: Ésta es una técnica de muestreo probabilístico en donde los
sujetos son inicialmente agrupados en diferentes categorías, tales como la edad, el nivel
socioeconómico o el género.
Muestreo aleatorio sistemático: El muestreo aleatorio sistemático se puede comparar con una
progresión aritmética en donde la diferencia entre dos números consecutivos es la misma. Por
ejemplo, supongamos que estás en una clínica y tienes 100 pacientes.
METODOS DE MUESTREO PROVABILISTICA
Muestreo sistemático: Se establece una forma de selección, que se repite siguiendo un intervalo
prefijado, el cual responde a la fórmula k = N/n; donde:
N = 250 n = 10 k = 250/10 = 25
Se escoge como punto de arranque cualquier número entero entre 1 y 25 para iniciar la selección.
Supongamos que se escoge el 8, la muestra quedará entonces integrada por las extracciones
número: 8; 33; 58; 83; 108; 133; 158; 183; 208 y 233.
Queda así constituida la muestra con una representación de cada sexo, en la misma proporción en
que lo está en la población.
Muestreo por conglomerado: Los elementos son seleccionados en forma agrupada del universo,
siguiendo algún criterio determinado de grupo de pertenencia.
Ejemplo: Para identificar los factores de riesgo vulnerables de la enfermedad virósica en los
trabajadores agrícolas de un pueblo, se seleccionan aleatoriamente un número de cooperativas de
producción agropecuaria y se estudian a todos los trabajadores de dichos centros.
MUESTREO ALEATORIO SIMPLE:
Define la población objetivo. Quizá quieras leer: ¿Cómo encontrar a tu mercado objetivo?
Un ejemplo del uso del método de lotería sería la selección de una muestra aleatoria de entre un
grupo de 100 miembros. Se ponen todos los nombres en un recipiente y se van sacando uno por
uno hasta tener el tamaño suficiente de nuestra muestra. Al utilizar el sistema de sorteo, los
números que representa cada elemento de la población objetivo son colocadas en chips (es decir,
tarjetas, papel u otros objetos). Los chips se colocan entonces en un recipiente y se mezclan. A
continuación, a ciegas se seleccionan las fichas desde el recipiente hasta que se haya obtenido el
tamaño de muestra deseado. Las desventajas de este método de selección es que consume mucho
tiempo, y se limita a poblaciones pequeñas.
Una empresa tiene 120 empleados. Se quiere extraer una muestra de 30 de ellos.
La muestra estará formada por los 30 empleados que salieron seleccionados de los números
obtenidos.
Una vez estratificada la población, se debe seleccionar al azar los sujetos o individuos finales de
cada uno de los estratos de forma proporcional, conformando de esta manera la muestra
estadística.
Por ejemplo: Se debe obtener una muestra de 100 individuos de una población total de 3000. Por
lo que se divide la población en los siguientes estratos:
Estrato 1: 1300 individuos.
Como se utiliza el muestreo estratificado proporcionado, la muestra obtenida de cada estrato será
representativa de cada una de esta. Lo que dejaría los siguientes resultados:
1 1300 43,4% 43
2 1100 36,6% 37
3 600 20% 20
De esta manera quedaría conformada la muestra de 100 personas. Este tipo de muestreo
estratificado dejaría en desventaja a aquellos grupos o estratos que estén conformados por la
menor cantidad de personas.
Por ejemplo: Siguiendo la misma base que el ejemplo anterior, se debe obtener una muestra de
100 individuos de una población total de 3000. Por lo que se divide la población en los siguientes
estratos:
1 1300 43,4% 34
2 1100 36,6% 33
3 600 20% 33
En este caso, quedarían conformada la muestra de 100 personas con resultados equitativos. Esta
muestra no puede ser considerada completamente probabilística para todo estrato, ya que los
individuos del grupo con menor cantidad de individuos poseen más posibilidades de ser
seleccionados para la muestra que los otros estratos.
El muestreo sistemático representa una derivación del M.A.S., compartiendo con él gran parte de
sus características. En este muestreo, conocida la población (N) y el tamaño total de la muestra (n)
se calcula el llamado coeficiente de elevación k (k=N/n). Este coeficiente indica el número de veces
que la muestra está contenida en el universo poblacional. Una vez calculado se escoge
aleatoriamente el primer elemento del universo poblacional seleccionado para la muestra, con la
condición de que el número escogido sea inferior al coeficiente de elevación, y a partir de ahí el
resto de casos se escogen cada cierto intervalo (k), hasta completar el tamaño muestral (n).
Como ejemplo de este tipo de muestreo, imaginemos que debemos seleccionar una muestra de
300 casos entre los 30.000 usuarios de un centro de salud de atención primaria para evaluar su
satisfacción con los servicios del centro. El primer paso sería calcular el coeficiente de elevación
k(k=N/n; 30.000/300), que resultaría ser de 100. A partir de ahí seleccionaríamos un número al
azar inferior a la magnitud de k, por ejemplo 37, e iríamos seleccionado los integrantes de la
muestra sumando 100 a partir del primer número escogido, de manera que nuestra muestra la
compondrían los números 37, 137, 237, 337, etc.
Es un tipo de muestreo probabilístico donde se hace una selección aleatoria del primer elemento
para la muestra, y luego se seleccionan los elementos posteriores utilizando intervalos fijos o
sistemáticos hasta alcanzar el tamaño de la muestra deseado.
Evaluar el marco muestral por falta de cobertura, cobertura excesiva, múltiple cobertura,
agrupación, periodicidad, y hacer los ajustes cuando sea necesario. Idealmente, la lista
estará en un orden aleatorio con respecto al estudio variable o, mejor aún, ordenados en
función de la variable de interés o su correlación, creando así estratificación implícita.
Determinar el número de elementos en el marco de la muestra (N).
Selecciona para la muestra, r, r + i, r + 2i, r ,+3i, y así sucesivamente, hasta agotar el marco.
Si tenemos una muestra aleatoria de una población N(m,s ), se sabe (Teorema del límite central)
que la fdp de la media muestral es también normal con media m y varianza s2/n. Esto es exacto
para poblaciones normales y aproximado (buena aproximación con n>30) para poblaciones
cualesquiera. Es decir es el error típico, o error estándar de la media.
1º problema: No hay tablas para cualquier normal, sólo para la normal m=0 y s=1 (la llamada z);
pero haciendo la transformación (llamada tipificación)
Ejemplo: Si de una población normal con varianza 4 se extrae una muestra aleatoria de tamaño 20
en la que se calcula se puede decir que m tiene una probabilidad de 0,95 de estar comprendida en
el intervalo
Esta manera de construir los intervalos de confianza sólo es válido si la variable es normal. Cuando
n es grande (>30) se puede sustituir t por z sin mucho error.
n general, las personas que toman las decisiones y los usuarios que utilizan los datos suelen estar
más preocupados por los datos estadísticos que por las mediciones individuales en un grupo de
datos. Los usuarios de datos desean ver promedios, varianzas, rangos, proporciones, valores
máximos o mínimos, percentilos u otras estadísticas. Lo que a menudo no logran apreciar
totalmente es que las estadísticas también se comportan de una manera aleatoria, similar a la de
las mediciones individuales, y esto se mide con el error estándar. Cuando se informa la media de
una muestra, no se informa el promedio "verdadero" sino una estimación. La estadística muestral
puede resultar levemente superior o inferior al valor verdadero desconocido. El error estándar de
la media mide la diferencia que puede existir entre la media verdadera y la estadística que se
informa. En términos más generales, podemos hablar del "error estándar de la estimación" cada
vez que se informa una cantidad estadística estimada. Cuando se calcula un dato estadístico único,
es posible calcular el error estándar de la estimación. En general, cuanto mayor sea el tamaño de
la muestra, menor será el error estándar de una cantidad estimada. Para ver cómo funciona esto,
analicemos una media muestral. A partir de una muestra de tamaño n, se calculan la media
muestral y la desviación estándar. En realidad hay una media verdadera, μ, y una desviación
estándar verdadera σ, y son desconocidas. La muestra nos brinda las estimaciones y S. Si
hiciéramos muestras repetidamente de la población/proceso del cual se toma la muestra y
calculáramos la media muestral una y otra vez, la desviación estándar de la distribución de medias
sería el error estándar verdadero de la media. En teoría, esta es la Ecuación 1:
(1)
Debido a que solo tenemos una media estimada, y no conocemos los verdaderos σ, solo podemos
estimar el error estándar como:
(2)
(3)
(4)
De este modo, el usuario de una estadística obtiene una idea de la magnitud de la diferencia que
pudo haberse verificado en la práctica, la manera en que el tamaño de la muestra afecta el posible
error de una estimación y con qué probabilidad aproximada (confianza). En este caso, estamos
considerando un tamaño de muestra de 20 o más y estamos usando la teoría de la distribución
normal. Algunos lectores también reconocerán en esto una cierta similitud con la construcción de
un intervalo de confianza para una media desconocida.
REGRECION Y CORRELACIÓN
Es la tendencia de una medición extrema a presentarse más cercana a la media en una segunda
medición. La regresión se utiliza para predecir una medida basándonos en el conocimiento de
otra.
Y = f(x1,...,xn; θ1,...,θm)
Dónde:
F: La función
Para elegir una relación funcional particular como la representativa de la población bajo
Una vez decidido el tipo de función matemática que mejor se ajusta (o representa nuestro
Concepto de la relación exacta que existe entre las variables) se presenta el problema de elegir
una expresión particular de esta familia de funciones; es decir, se ha postulado una cierta función
como término del verdadero estado en la población y ahora es necesario estimar los parámetros
de esta función (ajuste de curvas). Como los valores de los parámetros no se pueden determinar
sin errores por que los valores observados de la variable dependiente no concuerdan con los
valores esperados,
CORRELACIÓN
En probabilidad y estadística, la correlación indica la fuerza y la dirección de una relación lineal y
proporcionalidad entre dos variables estadísticas. se considera que dos variables cuantitativas
están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a
los valores homónimos de la otra: si tenemos dos variables (a y b) existe correlación si al aumentar
los valores de a lo hacen también los de b y viceversa. La correlación entre dos variables no
implica, por sí misma, ninguna relación de causalidad
Fuerza, sentido y forma de la correlación
La relación entre dos súper variables cuantitativas queda representada mediante la línea de mejor
ajuste, trazada a partir de la nube de puntos. los principales componentes elementales de una
línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el sentido y la forma:
la fuerza extrema según el caso, mide el grado en que la línea representa a la nube de puntos: si la
nube es estrecha y alargada, se representa por una línea recta, lo que indica que la relación es
fuerte; si la nube de puntos tiene una tendencia elíptica o circular, la relación es débil.
el sentido mide la variación de los valores de b con respecto a a: si al crecer los valores de a lo
hacen los de b, la relación es positiva; si al crecer los valores de a disminuyen los de b, la relación
es negativa.
La forma establece el tipo de línea que define el mejor ajuste: la línea recta, la curva monotónica o
la curva no monotónica.
ANALISIS DE CORRELACION
DIAGRAMA DE LA DISPERCION
COEFICIENTE DE CORRELACION
Es una medida de regresión que pretende cuantificar el grado de variación conjunta entre dos
variables. Por tanto, es una medida estadística que cuantifica la dependencia lineal entre dos
variables, es decir, si se representan en un diagrama de dispersión los valores que toman dos
variables, el coeficiente de correlación lineal señalará lo bien o lo mal que el conjunto de puntos
representados se aproxima a una recta.
De una forma menos coloquial, la podemos definir como el número que mide el grado de
intensidad y el sentido de la relación entre dos variables.
Formula correlación
Siendo:
COEFICIENTE DE DETERMINACION
Es importante saber que el resultado del coeficiente de determinación oscila entre 0 y 1. Cuanto
más cerca de 1 se sitúe su valor, mayor será el ajuste del modelo a la variable que estamos
intentando explicar. De forma inversa, cuanto más cerca de cero, menos ajustado estará el modelo
y, por tanto, menos fiable será.
En la expresión anterior tenemos una fracción. Así pues, vayamos por partes. En primer lugar,
analizaremos el numerador, es decir, la parte de arriba
La primera diferencia es que la Y lleva un circunflejo o, lo que los profesores llaman de forma
didáctica, “sombrerito”. Ese sombrerito lo que detalla es que esa Y es la estimación de un modelo
sobre lo que según las variables explicativas vale Y, pero no es el valor real de Y, sino una
estimación de Y.
En segundo lugar, faltaría dividir entre T. Que, en otros casos, se nota como N o número de
observaciones. Sin embargo, dado que la fórmula del denominador también la llevaría,
eliminamos los denominadores (parte de abajo) de ambas fórmulas para simplificar la expresión.
De esta manera es más fácil trabajar con ella.
ANALISIS DE REGRECION
Es un proceso estadístico para estimar las relaciones entre variables. Incluye muchas técnicas para
el modelado y análisis de diversas variables, cuando la atención se centra en la relación entre una
variable dependiente y una o más variables independientes (o predictoras). Más específicamente,
el análisis de regresión ayuda a entender cómo el valor de la variable dependiente varía al cambiar
el valor de una de las variables independientes, manteniendo el valor de las otras variables
independientes fijas. Más comúnmente, el análisis de regresión estima la esperanza condicional de
la variable dependiente dadas las variables independientes - es decir, el valor promedio de la
variable dependiente cuando se fijan las variables independientes. Con menor frecuencia, la
atención se centra en un cuantil, u otro parámetro de localización de la distribución condicional de
la variable dependiente dadas las variables independientes. En todos los casos, el objetivo de la
estimación es una función de las variables independientes llamada la función de regresión. En el
análisis de regresión, también es de interés caracterizar la variación de la variable dependiente en
torno a la función de regresión, la cual puede ser descrita por una distribución de probabilidad.
El análisis de regresión es ampliamente utilizado para la predicción y previsión, donde su uso tiene
superposición sustancial en el campo de aprendizaje automático. El análisis de regresión se utiliza
también para comprender cuales de las variables independientes están relacionadas con la
variable dependiente, y explorar las formas de estas relaciones. En circunstancias limitadas, el
análisis de regresión puede utilizarse para inferir relaciones causales entre las variables
independientes y dependientes. Sin embargo, esto puede llevar a ilusiones o relaciones falsas, por
lo que se recomienda precaución,1 por ejemplo, la correlación no implica causalidad.
Muchas técnicas han sido desarrolladas para llevar a cabo el análisis de regresión. Métodos
familiares tales como la regresión lineal y la regresión por cuadrados mínimos ordinarios son
paramétricos, en que la función de regresión se define en términos de un número finito de
parámetros desconocidos que se estiman a partir de los datos. La regresión no paramétrica se
refiere a las técnicas que permiten que la función de regresión consista en un conjunto específico
de funciones, que puede ser de dimensión infinita.
ECUACION DE REGRESION
Indica que el tiempo de hacer l tarea es inversamente proporcional al tiempo para aprenderla y
ambas variables están relacionadas
El análisis de regresión múltiple es una técnica de análisis multivariable en el que se establece una
relación funcional entre una variable dependiente o a explicar y una serie de variables
independientes o explicativas, en la que se estiman los coeficientes de regresión que determinan
el efecto que las variaciones de las variables independientes tienen sobre el comportamiento de la
variable dependiente. El modelo más utilizado es el modelo lineal, pues es el que requiere estimar
un menor número de parámetros (Bernal, A. en Martínez, Martín, Martínez, Sanz de la Tajada y
Vacchiano, 2000, pág. 584). La medida de la bondad del ajuste de la función estimada viene dada
por el coeficiente de correlación múltiple, y el coeficiente de determinación, que es el cuadrado
del anterior, expresa la proporción de la varianza de la variable dependiente explicada por el
modelo de regresión. El coeficiente de correlación parcial de cada variable explicativa, indica la
relación específica de dicha variable con la variable dependiente, supuesto que permanecen
constantes las demás variables independientes. En este tipo de análisis es frecuente la existencia
de multicolinealidad, es decir, que las variables explicativas estén altamente correlacionadas entre
si, lo que perturba la interpretación de los coeficientes de regresión. El modelo de regresión
requiere que todas las variables, dependiente e independientes, estén medidas con escala
métricas (Santesmases, 2001, pág. 237).
La regresión múltiple se ha utilizado en este trabajo para analizar la relación existente entre la
participación alcanzada por las MGD en cada clase de producto y diferentes variables que las
caracterizan.