Trabajo Biblioteca

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 18

¡BIENVENIDO!

ESCUELA SUPERIOR
TÉCNICA - SENCICO
MAYO 2023
El siguiente trabajo es producto de una investigación de los alumnos de topografía IIIB, el cual el dia 18 de Mayo del
presente año se acudió a la biblioteca de la EST SENCICO para investigar los temas de Correlación y regresión lineal.
El libro de la cual se saco información fue el de ESTADISTICA del autor Mari F. Triola con código –GRAL. 039 SENCICO
PROBLEMA DEL CAPÍTULO
¿Comer más chocolate para ganar un Premio Nobel?
Si usted quiere ganar un Premio Nobel, ¿debería estudiar materias como física, química y economía, o debería comer más chocolate? La tabla 10-1 lista el consumo de
chocolate (kg per cápita) y el número de ganadores del Premio Nobel (por cada 10 millones de personas) para 23 países. Vea el conjunto de datos 16 “Premios Nobel y
chocolate” en el apéndice B, donde se identifican los países. En la sección 2-4 se presentaron métodos para elaborar diagramas de dispersión, y la figura 10-1 es el diagrama
de dispersión de los datos pareados de chocolate/Nobel. Con base en los métodos de este capítulo, podemos abordar preguntas como las siguientes: • ¿Existe una correlación
entre el consumo de chocolate y la tasa de ganadores del Premio Nobel? • Si existe una correlación entre el consumo de chocolate y la tasa de ganadores del Premio Nobel,
¿podemos describirla con una ecuación para que sea posible predecir la tasa de ganadores del Premio Nobel dada la tasa de consumo de chocolate?
Correlación y regresión lineal.
Correlación
Bien decimos que la correlación es una relación entre dos variables pues esta se cuando una de ellas está relacionada con
la otra de alguna manera .
correlación lineal se da entre dos variables cuando existe una correlación
y los puntos graficados de los datos pareados dan como resultado un patrón que se
puede aproximar mediante una línea recta.
Cálculo e interpretación del coeficiente de correlación lineal r
Notación para el coeficiente de correlación lineal
n: número de pares de datos muestrales.
∑ : expresa la suma de los elementos indicados
∑ x: suma de todos los valores x.
∑ x ² indica que cada valor x debe elevarse al cuadrado y después esos cuadrados deben sumarse.
(∑x)² : indica que los valores de x deben sumarse y el total debe elevarse al cuadrado. Evite confundir ∑ x²
y (∑ x)²
∑ xy indica que cada valor x debe multiplicarse por su correspondiente valor y. Después se debe obtener la suma de
todos
esos productos.
r coeficiente de correlación lineal para los datos muestrales.
P coeficiente de correlación lineal para una población de datos pareados.
Requisitos
Dada cualquier recopilación de datos muestrales cuantitativos pareados, siempre es posible calcular el coeficiente de
correlación lineal (r); pero los siguientes requisitos se deben
cumplir cuando se utilizan los datos muestrales pareados
para llegar a una conclusión sobre la correlación lineal en la
población correspondiente de los datos pareados.
1. La muestra de datos pareados (x, y) es una muestra aleatoria simple de datos cuantitativos. (Es importante que los
datos muestrales no se hayan recopilado utilizando algún
método inadecuado, como el uso de una muestra de respuesta voluntaria).
2. El examen visual del diagrama de dispersión debe confirmar
que los puntos se aproximan a un patrón en línea recta.
3. Debido a que los resultados pueden verse fuertemente
afectados por la presencia de valores atípicos, es necesario eliminar tales valores si se sabe que representan
errores. Los efectos de cualquier otro valor atípico se
deben considerar calculando r con y sin los valores atípicos incluidos
Interpretación de diagramas de dispersión
Figura (a): Línea recta definida o patrón lineal. Decimos que existe una correlación
lineal positiva entre x y y, puesto que a medida que los valores de x aumentan, los valores correspondientes de y también
aumentan.
Figura(b): Línea recta definida o patrón lineal. Decimos que existe una correlación
lineal negativa entre x y y, puesto que a medida que los valores x aumentan, los valores
correspondientes de y disminuyen.
Figura(c): Sin patrón definido, lo cual sugiere que no hay correlación entre x y y.
Figura(d): Patrón definido que sugiere una correlación entre x y y. Pero el patrón
no es el de una línea recta
¿Existe una correlación lineal?
Con base en el valor de r = 0.801 para los 23 pares de datos en la tabla 10-1 y usando un nivel de significancia de 0.05,
¿hay suficiente evidencia para respaldar la afirmación de que existe una correlación lineal entre el consumo de
chocolate y el número de premios Nobel?

Correlación Si el coeficiente de correlación lineal calculado r se


encuentra en la región de la cola izquierda o derecha, más allá del
valor crítico para esa cola, concluya que hay evidencia suficiente para
respaldar la afirmación de una correlación lineal.
Sin correlación Si el coeficiente de correlación lineal calculado se
encuentra entre los dos valores críticos, concluya que no hay
evidencia suficiente para respaldar la afirmación de una correlación
lineal.
*¿Los conductores foráneos que rebasan el límite de velocidad son multados con mayor frecuencia?
¿Es más probable que la policía multe a un conductor foráneo que a uno local? Michael Makowsky y Thomas
Stratmann, investigadores de la Universidad George Mason, analizaron esta pregunta al examinar más de 60,000
advertencias y multas impuestas por la policía de Massachusetts durante un año. Los autores encontraron que los
conductores que no eran de la ciudad tenían un 10% más de probabilidad de ser multados que los conductores locales,
y la cifra del 10% llegó al 20% en el caso de los conductores que eran de otro estado. También encontraron una relación
estadística entre la economía de la ciudad y las multas por exceso de velocidad. Los conductores foráneos, comparados
con los conductores locales, tenían 37% más probabilidades de ser multados al exceder la velocidad límite en una
ciudad donde los votantes habían rechazado la propuesta de aumentar los impuestos en una cantidad 2.5% mayor que
lo permitido por las leyes estatales. Estos análisis son posibles gracias a los métodos de correlación y regresión.
*Las evaluaciones de los profesores se correlacionan con las calificaciones
Con frecuencia, las evaluaciones que hacen los estudiantes de los profesores se utilizan para medir la eficacia de la
enseñanza. Muchos estudios revelan una correlación de altas calificaciones de los estudiantes con evaluaciones
positivas de los profesores. Un estudio realizado en la Universidad Duke incluyó evaluaciones de los estudiantes,
recabadas antes y después de la entrega de las calificaciones finales. El estudio reveló que “las expectativas de las
calificaciones o las calificaciones recibidas causaron un cambio en la forma en que los estudiantes percibían a los
maestros y la calidad de su enseñanza”. Se señaló que las evaluaciones de los estudiantes “aumentan los incentivos de
los profesores para manipular sus políticas de calificación con la intención de mejorar sus evaluaciones”. Se concluyó
que “la consecuencia final de este tipo de manipulaciones es la degradación de la calidad de la educación en Estados
Unidos”. (Vea “Teacher Course Evaluations and Student Grades: An Academic Tango”, de Valen Johnson, Chance
Errores comunes relacionad os con la correlación
A continuación se describen tres de los errores más comunes que se producen en la interpretación de resultados que
involucran correlación:
1. Suponer que la correlación implica causalidad. Un ejemplo clásico incluye datos pareados que consisten en la población
de cigüeñas en Copenhague y el número de nacimientos humanos. Durante varios años, los datos sugirieron una
correlación lineal.
Boletín: Las cigüeñas en realidad no causan nacimientos y los nacimientos no causan cigüeñas. Ambas variables se vieron
afectadas por otra variable que acechaba en el fondo. (Una variable interventora es aquella que afecta las variables que se
estudian
pero que no se incluye en el estudio). Aquí, una población humana en aumento resultó en más nacimientos y una mayor
construcción de techos de paja atrajo a las cigüeñas.
2. Usar datos basados en promedios. Los promedios suprimen la variación individual y pueden inflar el coeficiente de
correlación. Un estudio produjo un coeficiente de correlación lineal de 0.4 para datos pareados que relacionan ingresos y
educación entre individuos, pero el coeficiente de correlación lineal se convirtió en 0.7 cuando se
usaron promedios regionales.
3. Ignorar la posibilidad de una relación no lineal. Si no existe una correlación lineal,
puede haber alguna otra correlación que no sea lineal.
Prueba de hipótesis formal
Hipótesis Al realizar una prueba de hipótesis formal para determinar si existe una correlación lineal significativa entre
dos variables, considere las siguientes hipótesis nula y alternativa que utilizan r para representar el coeficiente de
correlación lineal de la población:
Hipótesis nula H0: p = 0 (sin correlación)
Hipótesis alternativa H1: p ≠ 0 (correlación)
Dato estadístico de prueba Se pueden usar los mismos métodos de la parte 1 con el dato estadístico de prueba r, o se
puede encontrar el dato estadístico de prueba t usando lo siguiente:
Dato estadístico de

Si se usa el dato estadístico de prueba t anterior, es posible encontrar los valores P y los valores críticos utilizando
tecnología.
A continuación se listan los tiempos de duración (en segundos) y los intervalos de tiempo (en minutos) hasta la próxima
erupción, de eventos eruptivos seleccionados al azar en el géiser Old Faithful del Parque Nacional Yellowstone. ¿Hay sufi
ciente evidencia para concluir que existe una correlación lineal entre los tiempos de duración de la erupción y el intervalo
de tiempo posterior?

Estadísticas del CSI. En ocasiones la policía mide las huellas de los zapatos en las escenas del
crimen para tener pistas acerca de los delincuentes. A continuación se listan longitudes de las huellas
de los zapatos, longitudes de los pies y estaturas de hombres (del conjunto de datos 2 “Pies y estatura”
en el apéndice B). ¿Hay evidencia suficiente para concluir que existe una correlación lineal entre la
longitud de la huella del zapato y la estatura de los hombres? Con base en estos resultados, ¿parece que
la policía puede usar la longitud de los pies para estimar la estatura de un hombre?

Huella del zapato (cm) 29.7 29.7


31.4 31.8 27.6 29.7 29.7 31.4 31.8 26.7
Longitud del pie (cm) 25.7 25.4 27.9 26.7 25.1
Estatura (cm) 175.3 177.8 185.4 175.3 172.7
regresión
En algunos casos, dos variables se relacionan de forma determinística, lo que significa que dado un valor para una variable,
el valor de la otra se determina exactamente sin ningún error, como en la ecuación y = 2.54x para convertir una distancia r
de pulgadas a centímetros. Dichas ecuaciones se consideran en los cursos de álgebra, pero los cursos de estadística se
centran en modelos probabilísticos, que son ecuaciones con una variable que no está completamente determinada por la
otra variable. Por ejemplo, la estatura de un niño no puede determinarse completamente por la estatura del padre y de la
madre. Sir Francis Galton (1822-1911) estudió el fenómeno de la herencia y demostró que cuando las parejas altas o bajas
tienen hijos, las estaturas de los niños tienden a regresar, o volver a la estatura media más típica para las personas del
mismo sexo.
Requisitos
1. La muestra de datos pareados (x, y) es una muestra aleatoria de datos cuantitativos.
2. El examen visual del diagrama de dispersión muestra que
los puntos se aproximan a un patrón en línea recta.
3. Los valores atípicos pueden tener un fuerte efecto en la
ecuación de regresión; por lo tanto, elimine los valores atípicos si se sabe que son errores. Considere los efectos de
los valores atípicos que no sean errores conocidos.
*Nota: Los requisitos 2 y 3 anteriores son intentos simplificados para verificar los siguientes requisitos formales para el
análisis de regresión:
• Para cada valor fijo de x, los valores correspondientes de y
tienen una distribución normal.
• Para los diferentes valores fijos de x, las distribuciones
de los correspondientes valores de y tienen la misma desviación estándar. (Esto se infringe si parte del diagrama
de dispersión muestra puntos muy cercanos a la línea de
regresión, mientras que otra parte del diagrama presenta
puntos mucho más alejados de la línea de regresión. Consulte el análisis de gráficas residuales en la parte 2 de esta
sección).
• Para los diferentes valores fijos de x, las distribuciones de
los valores de y correspondientes tienen medias que se encuentran en la misma línea recta.
Los métodos de esta sección no se ven seriamente afectados
si las desviaciones de las distribuciones normales y las desviaciones estándar iguales no son demasiado extremas.
Ejercico
Gráfica de la línea de regresión
Grafique la ecuación de regresión y = 23.37 + 2.49x. sobre el diagrama de dispersión de los datos de chocolate/Nobel de la
tabla 10-1 y examine la gráfica para determinar subjetivamente qué tan bien se ajusta la línea de regresión a los datos.
SOLUCIÓN
A continuación se muestra la representación en Minitab del diagrama de dispersión incluyendo la gráfica de la línea de
regresión. Podemos ver que la línea de regresión se ajusta bien a los puntos, pero éstos no se encuentran muy cerca de la
línea.
Error de pronóstico de 1°F= mil millones de dólares
El pronóstico de las temperaturas parece una ciencia inexacta; sin embargo, muchas compañías están trabajando
con ahínco para obtener estimaciones más precisas. El reportero de USA Today, Del Jones, escribió que “el costo
anual de la electricidad podría disminuir por lo menos $1000 millones si se mejorara la exactitud de las predicciones
del tiempo en 1 grado Fahrenheit”. Al referirse a las autoridades de Tennessee Valley (TVA), afirma que los
pronósticos han fallado un promedio de 2.35 grados, lo cual es bastante representativo de los pronósticos que se
hacen en todo Estados Unidos. Si se mejorara el error de 2.35 a 1.35 grados, la TVA ahorraría hasta $100,000 diarios.
El pronóstico de temperaturas se utiliza para determinar la distribución de la energía proveniente de generadores,
plantas nucleares, hidroeléctricas, de carbón, de gas natural y eólicas. Las técnicas de pronóstico estadístico se
encuentran en proceso de refinamiento, de manera que permitan ahorrar dinero y recursos naturales.

También podría gustarte