Atoche Calzada Pablo TFG PDF
Atoche Calzada Pablo TFG PDF
Atoche Calzada Pablo TFG PDF
Grado en Matemáticas
Junio 2017
Dirigido por:
Joaquı́n Garcı́a de las Heras
José Luis Pino Mejı́as
2
Índice general
Página
Resumen 5
Abstract 7
Introducción 9
3
4 ÍNDICE GENERAL
Bibliografı́a 75
Resumen
This work will focus on the study of regression models for counting data, included
within the family of generalized linear models. For this reason, we will first study the
generalized linear model (components of the model, statistical inference about MLG,
adequacy and interpretation). We will then explain and study different regression mo-
dels for these types of data, such as the Poisson regression model or the Negative
Binomial regression model in addition to other less usual models such as the Poisson
Inverse Gaussian regression model or the regression model Generalized Poisson. We
will also study the two fundamental problems that happen in these models: overdisper-
sion and underdispersion of data and modifications produced by zeros. Finally, we will
see the applicability of these models in sports competitions, from real data using the
statistical software R.
8 ÍNDICE GENERAL
Introducción
En el siguiente capı́tulo, se define que son los datos de conteo o recuento y las
variables de conteo. Se dan ejemplos de diversos tipos con orı́genes muy diferentes
demostrando ası́ su gran utilidad y aplicabilidad. Seguidamente, se expone que son los
modelos para datos de conteo y se citan y comparan los modelos que posteriormente se
estudiarán.
En el capı́tulo cinco se estudian otros modelos para datos de conteo que son menos
usuales, pero se adaptan mejor a algunos tipos de datos de conteo que los anteriormente
estudiados. Entre ellos está el modelo Poisson Inversa Gaussiana, que se trata de un
modelo mixto y se utiliza para datos de recuento con un pico inicial muy alto y que
9
10 ÍNDICE GENERAL
Al trabajar con datos de conteo suelen darse problemas con el valor cero. En el sexto
capı́tulo se estudian los modelos truncados por ceros (aquellos en los que la variable
no puede tomar el valor 0) y los modelos con excesos de ceros. En esta segunda parte
se estudia la diferencia entre los falsos ceros y los auténticos. Se exponen los modelos
inflados y los modelos en dos partes como modelos que se adaptan al exceso de ceros
pero siguiendo diferentes estrategias.
Finalmente, se recoge una revisión bibliográfica con aquellos libros, trabajos, artı́cu-
los, etc., usados para la realización de este trabajo.
Capı́tulo 1
11
12 CAPÍTULO 1. MODELO LINEAL GENERALIZADO
3. Selección del modelo, valorando si el nivel de discrepancia entre entre los datos
observados y los datos ajustados es suficientemente bajo como para optar por el
modelo, o en caso contrario rechazarlo y buscar otro.
Los modelos que tienen especial interés y que pueden formalizarse a través de la
modelización lineal son los siguientes:
E[Y |X = xi ] = µi = zit β
yi = zit β + εi
donde zi es un vector de diseño, es decir, una función apropiada de las variables ex-
plicativas, β es un vector de parámetros desconocidos y εi ≈ N (0, σ 2 ) independientes.
E(Y ) = µ = g −1 (X t β)
Esta formulación confiere a las distribuciones de esta familia una serie de propieda-
des algebraicas y estadı́sticas muy ricas. Algunos miembros de la familia exponencial
son las distribuciones normal, exponencial, gamma, beta, Bernoulli, binomial, Poisson,
binomial negativa o geométrica. Sin embargo, las distribuciones uniforme y de Cauchy
no forman parte de esta familia.
η = X 0β
donde X 0 = (1 X1 ... Xp )
g(µi ) = ηi = Xit β
donde Xit = (1 Xi1 ... Xip ) representa las p variables explicativas para el i-ésimo indivi-
duo con i = 1, ..., n, donde n es el tamaño de la muestra (número de individuos).
Para cada elemento de la familia exponencial existe una función enlace denominada
función enlace canónica o natural, que consisten en relacionar el parámetro natural
directamente con el predictor lineal:
Ası́, para las siguientes distribuciones se tiene la función enlace canónica correspon-
diente:
Bernoulli:
µi
g(µi ) = θ(µi ) = ln( ) = Xit β = ηi
1 − µi
1.2. COMPONENTES DEL MLG 17
Binomial:
µi
g(µi ) = θ(µi ) = ln( ) = Xit β = ηi
1 − µi
Normal:
g(µi ) = θ(µi ) = µi = Xit β = ηi
Gamma:
1
g(µi ) = θ(µi ) = − = Xit β = ηi
µi
Poisson:
g(µi ) = θ(µi ) = ln(µi ) = Xit β = ηi
Binomial Negativa:
αµi
g(µi ) = θ(µi ) = ln = Xit β = ηi
1 + αµi
donde α = 1/r
Podemos por lo tanto definir también h = g −1 en función del predictor lineal ηi para
cada distribución:
Bernoulli:
eηi
h(Xit β) = g −1 (ηi ) = θ−1 (ηi ) =
1 + eηi
Binomial:
eηi
h(Xit β) = g −1 (ηi ) = θ−1 (ηi ) =
1 + eηi
Normal:
h(Xit β) = g −1 (ηi ) = θ−1 (ηi ) = ηi
Gamma:
1
h(Xit β) = g −1 (ηi ) = θ−1 (ηi ) = −
ηi
Poisson:
h(Xit β) = g −1 (ηi ) = θ−1 (ηi ) = eηi
Binomial Negativa:
1
h(Xit β) = g −1 (ηi ) = θ−1 (ηi ) =
α(e−ηi − 1)
donde α = 1/r
18 CAPÍTULO 1. MODELO LINEAL GENERALIZADO
Supuesto que el parámetro de escala φ es conocido, y dado que aparece como factor
en la función de verosimilitud, se puede considerar φ = 1, sin pérdida de generali-
dad. Posteriormente se puede obtener un estimador de φ a través del método de los
momentos.
donde
µi (β) = h(x0i β)
−2
σi (β) = a(φ)v(h(x0i β))
V (µ) = ∂ 2 b(θ)/∂θ2
Di (β) = ∂h(x0i β)/∂η (primera derivada de la función h evaluada en ηi = x0i β)
∂b(θ ∂µ(θ)
µ(θ) = b0 (θ) = =⇒ = b00 (θ)
∂θ ∂θ
por la derivada de la función inversa:
20 CAPÍTULO 1. MODELO LINEAL GENERALIZADO
∂ 1 1
θ(µi ) = 00 = = a(φ)σi−2 (β) (1.3)
∂µi b (θ(µi )) V (µi )
Para las funciones enlaces naturales o canónicas θ(µi ) = xti β, se simplifica la forma
de las matrices de información ası́ como la función marcador:
1 X
s(β) = xi [yi − µi (β)]
a(φ) i
1 X
F (β) = V (µi (β))xi xti , dondeF (β) = Fobs (β)
a(φ) i
1.3. INFERENCIA EN EL MODELO LINEAL GENERALIZADO 21
Por lo tanto se obtienen a través de estos métodos las estimaciones de los parámetros
β del modelo. Estas estimaciones máximo verosı́miles presentan las siguientes propie-
dades:
Existencia y unicidad asintótica: La probabilidad de que exista una solución
y sea (localmente) única tiende a 1 cuando n −→ ∞.
Consistencia: Si se denota por β el ”verdadero” valor del parámetro, la solu-
ción converge a β cuando n −→ ∞ en probabilidad (consistencia débil) o con
probabilidad 1 (consistencia fuerte).
Normalidad asintótica: β̂ es asintóticamente normal con matriz de varianzas
y covarianzas F −1 (β̂), es decir:
a
β̂ ∼ Np (β, F −1 (β̂))
En el caso de que el parámetro de dispersión φ sea desconocido, el resultado sigue
siendo válido si se sustituye dicho parámetro por un estimador consistente de él.
22 CAPÍTULO 1. MODELO LINEAL GENERALIZADO
En el proceso del ajuste del modelo se evalúan un conjunto de modelos que consti-
tuyen unas aproximaciones de los datos observados. Y se trata de construir un modelo
intermedio entre los modelos siguientes:
donde D(y; µ) y D(y; µ0 ) son las funciones de desviación del modelo ajustado y nulo
respectivamente, y se verifica 0 ≤ R2 ≤ 1. El valor del coeficiente de determinación
aumenta cuando se incluyen nuevas variables en el modelo, incluso cuando éstas son
poco significativas o tienen poca correlación con la variable dependiente. El coeficiente
de determinación corregido mide el porcentaje de variación de la variable dependiente
(al igual que el coeficiente de determinación) pero tiene en cuenta además el número
de variables incluidas en el modelo.
H0 : Cβ = ξ
H1 : Cβ 6= ξ
1.4.2. Residuos
A veces puede ocurrir que aún escogiendo cuidadosamente un modelo al ajustarlo
posteriormente a un conjunto de datos el resultado sea insatisfactorio. Estos errores
se originan por no haber elegido bien la función enlace o las variables explicativas
incluidas en el modelo. Las discrepancias aisladas se han podido producir debido a
algún dato erróneo. La verificación de la adecuación del modelo es fundamental para
analizar posibles desviaciones o la existencia de observaciones anómalas (outliers).
Como en la regresión lineal, los residuos son los utilizados para verificar la adecuación
del modelo. Expresan la diferencia entre una observación y su valor ajustado, y también
26 CAPÍTULO 1. MODELO LINEAL GENERALIZADO
la presencia de valores anómalos que requieran una atención más detallada. Los residuos
mas destacados son:
Esta parte es sin duda esencial, pues una mala interpretación del modelo hace que
todo lo anterior pierda su utilidad, pues nunca hay que olvidar que el analista o ma-
temático todo el tiempo tiene como objetivo modelizar y estudiar un sistema a partir
de unos datos para poder llegar a conclusiones que expliquen la relación entre variables
e incluso puedan servir para preveer situaciones futuras.
Puede suceder que la variable objetivo sólo tome valores en un intervalo o bien,
que no sea continua o ni siquiera cuantitativa. Por lo tanto los errores no pueden ser
Normales. Esta generalización da lugar como se ha visto anteriormente a los modelos
lineales generalizados (MLG).
Otra posible generalización consiste en reducir restricciones sobre los errores man-
teniendo sin embargo la propiedad de Normalidad, es decir, contemplando errores no
independientes o heterogéneos. Esta generalización que permite dotar de estructura a
la variabilidad de los errores del modelo, da lugar a los modelos mixtos.
Los modelos lineales generalizados y los modelos mixtos pueden ser fusionados dando
lugar a los modelos lineales mixtos generalizados (MLMG) adaptando las propiedades
de ambas propuestas de modelización. Su aplicación es enorme en multitud de estudios
de distintos ámbitos.
Los MLMG cubren una amplia variedad de modelos, desde modelos de regresión
lineal simplie hasta modelos altamente complejos.
Ejemplo: Los responsables educativos pueden utilizar un modelo lineal mixto gene-
ralizado para determinar si un método educativo es eficaz para mejorar las notas en una
asignatura. Los estudiantes de la misma clase deben correlacionarse ya que les enseña
el mismo profesor, a su vez, las clases del mismo colegio también deben correlacionar-
se. Por lo tanto, se pueden incluir efectos aleatorios a nivel de colegio y de clase para
explicar las diferentes fuentes de variabilidad.
Capı́tulo 2
29
30 CAPÍTULO 2. DATOS Y VARIABLES DE CONTEO
No todos los modelos de predicción son aplicables a este tipo de variable, pues
pueden surgir problemas como:
Modelos que tienen especial interés para datos de conteo son Poisson (P) y Bi-
nomial Negativa (BN), estos modelos de regresión permiten considerar y analizar
el comportamiento de variables de conteo frente a los valores del conjunto de variables
explicativas. Otros modelos para datos de conteo son los modelos Poisson inversa
Gaussiana (PIG), Binomial Negativa de tres parámetros de Greene (BN-P)
y Poisson generalizado (PG).
PIG no es fácil, si no se programa bien, un algoritmo para PIG puede tomar mucho
tiempo para converger y obtener estimaciones de parámetros apropiadas.
e−µ µy
P (Y = y) = y = 0, 1, 2, ...
y!
O en la forma de la familia exponencial:
Por lo tanto el parámetro natural o canónico θ y la función b(θ) vienen dados por:
θ = ln(µ)
b(θ) = µ
33
34 CAPÍTULO 3. MODELO DE REGRESIÓN DE POISSON
Utilizando esta función enlace las variables explicativas tienen un efecto multiplica-
tivo en vez de aditivo sobre la media. Se pueden usar otras funciones enlaces alterna-
tivas cuando falla el enlace canónico como la identidad (g(µ) = µ) o la raı́z cuadrada
√
(g(µ) = µ), sin embargo estas funciones enlaces podrı́an ser problematicas, pues las
predicciones podrian ser negativas.
∂b(θ) ∂b ∂µ
E(Y ) = µ = = = (1)(µ) = µ
∂θ ∂µ ∂θ
2 !
∂ 2 b(θ) ∂ 2 b ∂µ ∂b ∂ 2 µ
V ar(Y ) = a(φ) = (1) + = (1)((0)(1)2 + (µ)(1)) = µ
∂θ2 ∂µ 2 ∂θ ∂µ ∂θ 2
E(Y ) = V ar(Y ) = µ
donde
E(Yi /xi ) = µi (xi ) = µ(xi1 , ..., xin ) = exp(β0 + β1 xi1 + ... + βn xin )
Esta formulación es la que se conoce como Modelo de Regresión de Poisson.
4. No hay conjuntos grandes de datos que estén muy por encima o muy por debajo
de la media de la distribución muestral.
Los datos de conteo de un modelo de Poisson deben ser generados por un proceso
que satisfaga las siguentes cuatro propiedades:
Cuando las dos últimas propiedades no se cumplen en los datos, el modelo puede tener
una varianza que exceda la media.
Errores al elegir la función enlace, es decir tal vez no es apropiado el enlace log-
lineal.
3.1. PROBLEMA DE LA INFRADISPERSIÓN Y SOBREDISPERSIÓN 37
V ar(µi )
CV =
µi
Para que se cumpla la propiedad de equidispersión este coeficiente debe valer 1, este
sencillo ı́ndice constituye una muy simple aproximación para la detección de sobredis-
persión, aunque existen más criterios de detección.
Según [Cameron y Trivedi, 1998] este estadı́stico tiene una distribución asintótica χ21 .
Por tanto rechazamos la hipóteis nula H0 si el estadı́stico es mayor que χ21,1−α , donde
α es el nivel de significación.
Otra alternativa serı́a usar métodos de estimación de Quasi Verosimilitud, los cuales
nos permiten estimar el parámetro de dispersión e incluirlo en el modelo, estos métodos
comprenden una teorı́a bastante más compleja.
38 CAPÍTULO 3. MODELO DE REGRESIÓN DE POISSON
Capı́tulo 4
39
40 CAPÍTULO 4. MODELO DE REGRESIÓN BINOMIAL NEGATIVA
Los jugadores lanzan individualmente a canasta uno tras otro ¿Cuál es la probabilidad
de que el décimo jugador que lance a canasta sea el tercero en encestar?
En este caso, Y es el número de lanzamientos encestados, r = 10 número de ensayos
(de experiemntos de Bernoulli independientes), p = 0,4 (se considera éxito encestar):
7 + 10 − 1 10 7 16
P (Y = 7) = 0,4 (1 − 0,4) = 0,410 (0,6)7 = 0,0335
10 − 1 9
En la distribución Binomial Negativa el valor esperado y la varianza vienen dados
por:
r(1 − p) r(1 − p)
E(Y ) = V ar(Y ) =
p p2
1
Se establece por tanto la relación entre ambos : V ar(Y ) = E(Y ), como 0 <
p
p < 1, se verifica que Var(Y) > E(Y), lo que justifica la predisposición natural de esta
distribución para modelar datos que se caracterizan por la existencia de sobredispersión.
El modelo de regresión binomial negativa fue estudiado por primera vez en 1949
por Anscombe. Muchos autores lo han citado, señalando su utilidad para datos de
conteo con sobredispersión. [Lawless, 1987] detalló la parametrización del modelo mixto,
obteniendo fórmulas para la log-verosimilitud, media, varianza y momentos. Más tarde
[Breslow,1990] citó el trabajo de Lawless mientras manipulaba el modelo de Poisson
para ajustarse a parámetros binomiales negativos. Desde sus inicios hasta finales de
la década de los 80 el modelo de regresión binomial negativa era construido como un
modelo mixto usado para datos de Poisson con sobredispersión.
Otro enfoque supone que la variable respuesta sigue una distribución Poisson en
la que su media no se considera un parámetro fijo, sino que se interpreta como un
parámetro que varı́a aleatoriamente como una distribución Gamma.
En los dos casos, ambos enfoques conducen a una distribución binomial negativa.
∂b ∂p r r(1 − p)
b0 (θ) = = − {−(1 − p)} = =µ
∂p ∂θ p p
2
00 ∂ 2 b ∂p ∂b ∂ 2 p r 2 r r(1 − p)
b (θ) = 2 + = (1 − p) + (1 − p) = = σ2
∂p ∂θ ∂p ∂θ2 p2 p p2
Y su inversa:
1
h(η) = g −1 (η) = µ =
α(e−θ − 1)
Si bien desde el punto de vista teórico, el enlace canónico representa una simpli-
ficación del estudio del modelo, desde el punto de vista aplicado la mayorı́a de los
investigadores proponen el enlace logarı́tmico g(µ) = ln(µ) = η.
Bajo este enlace el modelo que se obtiene es el modelo BN2 o modelo tradicional de
regresión binomial negativa.
En este capı́tulo, se estudian otros modelos de regresión para datos de conteo menos
conocidos, por ser mas complejos matemáticamente y más dificiles de tratar compu-
tacionalmente. Aún ası́, en determinados estudios, estos modelos pueden adaptarse
mejor a los datos que los modelos anteriormente estudiados.
45
46CAPÍTULO 5. OTROS MODELOS DE REGRESIÓN PARA DATOS DE CONTEO
La regresión PIG se utiliza para modelar datos de recuento que tienen un pico
inicial alto y que pueden estar sesgados extremadamente a la derecha.
En este modelo se asume que la variable respuesta sigue una distribución Poisson
generalizada con función de probabilidad [Harrris, Yang and Hardin, 2012]:
Se ve que:
θi
E(Yi ) = µi =
1−δ
θi 1
V (Yi ) = = E(Yi ) = φE(Yi )
(1 − δ)3 (1 − δ)2
5.1. PIG, PG Y BN-P 47
1
El término φ = caracteriza la dispersión en la distribución PG. Clara-
(1 − δ)2
mente, cuando δ = 0 la distribución Poisson Generalizada se reduce a la usual
distribución de Poisson con parametro θi . Además cuando δ < 0 el modelo pre-
senta subdispersión y cuando δ > 0 presenta sobredispersión.
Algunos autores recogen otros modelos para datos de conteo, combiando modelos
ya existentes o creando variaciones de los anteriormente citados. Luego, con el
objetivo de encontrar un modelo que se ajuste lo mejor posible a los datos de
un estudio concreto se desarrollan estos modelos más especı́ficos y elaborados.
Entre estos otros modelos se encuentra el modelo BINOMIAL NEGATIVA
DE TRES PARÁMETROS DE GREEN (BN-P).
48CAPÍTULO 5. OTROS MODELOS DE REGRESIÓN PARA DATOS DE CONTEO
Capı́tulo 6
En este capı́tulo se analizan dos casos especiales que pueden aparecer cuando se
trabaja con datos de conteo. Ambos casos son completamente diferentes pero tienen el
mismo elemento en común: el valor 0.
Primero se tratan los modelos que no permiten que la variable objetivo tome el valor
0, Modelos truncados por ceros. Y, posteriormente, los Modelos con exceso de
ceros, en los que por algún motivo hay más observaciones con valor 0 de las que cabrı́a
esperar de acuerdo a una distribución Poisson o Binomial Negativa.
Por trabajar con un modelo de regresión para datos de conteo concreto, se elige
por ejemplo el modelo de regresión de Poisson. Por lo tanto se asume que la variable
respuesta se distribuye según una función de Poisson con un parámetro µ (que es tanto la
media como la varianza). El problema que se plantea es que la distribución de Poisson no
excluye los ceros, es decir, predice valores de 0 para la variable objetivo, especialmente
cuando los valores de µ son bajos.
49
50 CAPÍTULO 6. PROBLEMAS CON EL VALOR 0
Figura 6.1: Ejemplos de la frecuencia con la que la distribución de Poisson toma el valor
cero, incrementandose para valores de µ bajos
Para solucionar este problema los modelos truncados por ceros reparten la proba-
bilidad de que la variable respuesta sea 0 entre todos los demás valores posibles. A
continuación, se muestra como se hace esto a partir de una distribución de Poisson, se
desarrolla ası́ la construcción del modelo de Poisson truncado por ceros:
donde i = 1, ..., n
e−µ µ0
f (0; µ) = = e−µ
0!
En los modelos sin ceros, se excluye la posibilidad de que la variable objetivo tome
el valor 0 al dividir las probabilidades del resto de valores posibles por (1 − f (0)). Por
lo tanto ya se pueden recalcular las probabilidades del resto de valores:
e−µ µyi
f (yi ; µ|yi > 0) =
yi !(1 − e−µ )
Ası́, los modelos Poisson truncados por ceros son iguales a los modelos generaliza-
dos lineales con errores de Poisson, con la diferencia de que utilizan distribuciones de
probabilidad en las que se eliminan los ceros y se reajustan las probabilidades del resto
de valores.
De entre los datos cuyo valor es cero podemos distinguir dos tipos de cero: los falsos
ceros y los ceros auténticos. La presencia de estos falsos ceros puede llevar a que haya
52 CAPÍTULO 6. PROBLEMAS CON EL VALOR 0
una sobreabundancia de ceros en la base de datos. Para aclarar este concepto se muestra
un ejemplo relacionado con las competiciones deportivas:
Sı́ han jugado, pero han fallado todos los tiros realizados o nunca han tirado a
puerta. Ceros aunténticos
Hay básicamente dos estrategias para lidiar con el problema del exceso de ceros:
1. Asumir que los ceros proceden de dos procesos distintos: el proceso binomial y el
proceso de Poisson. Igual que en los Modelos en dos partes, se hace un modelo
lineal generalizado binomial para modelizar la probabilidad de medir un 0 (los
falsos ceros). Posteriormente se modeliza la probabilidad de obtener el resto de
valores, incluyendo ceros (los ceros auténticos). Estos modelos se incluyen en los
llamados Modelos lineales generalizados mezclados o mixtos (mixture models) y
se denominan Modelos inflados por ceros.
2. Asumir que todos los ceros son iguales (sin distinguir entre falsos y auténticos).
Este tipo de modelos constan de dos partes: en una primera parte se conside-
ran todos los datos como ceros o no-ceros y se modela la probabilidad de que
una observación sea cero (en función de las variables explicativas seleccionadas)
usando un modelo binomial. Posteriormente, las observaciones que no son cero se
modelizan usando modelos truncados por ceros, como los que se acaban de ver.
Estos modelos se llaman Modelos en dos partes (Hurdle models).
Como ya se ha expuesto, la principal diferencia entre los Modelos en dos partes y los
Modelos inflados por ceros es que en estos últimos se está interesado en distinguir los
distintos orı́genes de los ceros observados, es decir, considerar que hay ceros auténticos
y ceros falsos.
6.2. MODELOS CON EXCESOS DE CEROS 53
donde g representa la probabilidad de los ceros falsos, viene definida por un proceso
de decisión binario. Y f (0) es la probabilidad de observar cero en aquellos individuos
que no pertenecen a los ceros falsos, f se trata de una distribución de recuento (Poisson,
Binomial Negativa,...)
El proceso se divide en dos: Modelo de decisión binaria (generado por una distribu-
ción g) y modelo truncado en cero (generado por una distribución f)
Aplicación a competiciones
deportivas
55
56 CAPÍTULO 7. APLICACIÓN A COMPETICIONES DEPORTIVAS
Para los preparadores fı́sicos: Velocidad y distancia recorrida por los jugadores en
un partido, que sirve para demostrar que el estado de la condición fı́sica permite
por ejemplo realizar un sprint en el minuto 88.
Para los jugadores: Reciben un mensaje que les permite comprobar la participa-
ción y la eficacia de sus acciones con y sin balón.
En conclusión, se puede afirmar que este sistema actual de análisis ofrece a los clubes
que lo utilizan, una amplia gama de información única e innovadora sobre los partidos,
ası́ como la posibilidad de una preparación táctica ventajosa de sus jugadores sobre
futuros rivales.
Esto demuestra que la tecnologı́a junto con la estadı́stica puede aportar enormes
beneficios a la cada vez más demandante competitividad del futbol, ya que son datos
reales y fiables. Sin embargo, hay que tener claro que el triunfo lo obtendrá aquel equipo
que mejor uso le haya dado a esa información, y no el que más tenga.
Se han programado distintos scripts en R para poder realizar tal estudio, interpre-
tando posteriormente los resultados obtenidos.
serie de variables explicativas relacionadas con las caracterı́siticas del jugador (peso,
altura, edad, equipo,...), persiguiendo un objetivo fundamentalmente explicativo.
> str(X)
Las variables que requieren una descripción adicional a su nombre son: Pos (Po-
sición), PJ (Partidos jugados), PJCompl (Partidos jugados completos), Partidos Tit
(Partidos jugados como titular) y Partidos Sust (Partidos jugados como sustituto). A
continuación se muestra un resumen de los valores que toman cada variable.
> summary(X)
58 CAPÍTULO 7. APLICACIÓN A COMPETICIONES DEPORTIVAS
Pos Equipo PJ
centrocampista :45 Ath.Bilbao :25 Min. :1.00
defensa :39 Atl. de Madrid :25 1st Qu.:11.00
delantero :31 FC Barcelona :25 Median :23.00
portero :10 Real Madrid :24 Mean :20.94
Villarreal CF :26 3rd Qu.:31.00
Max. :38.00
> mean(X$GOLES)
[1] 3.024
> var(X$GOLES)
7.2. APLICACIÓN A UNA BASE DE DATOS DEPORTIVA 59
[1] 44.92684
Se observa que la varianza muestral del número de goles (44.93) es bastante ma-
yor a la media (3.024), lo que nos hace empezar a cuestionarnos el problema de la
sobredispersión en los datos.
Call:
glm(formula = GOLES ~ Altura + Nacionalidad + Pos + Equipo +
PJ + PJCompl + Min_Jugados + Penaltis, family = "poisson",
data = X)
Deviance Residuals:
Min 1Q Median 3Q Max
-3.1787 -1.0845 -0.3958 0.3845 2.9828
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -6.802e+00 2.239e+00 -3.038 0.00238 **
Altura 2.729e-02 1.233e-02 2.213 0.02691 *
NacionalidadNoEsp 3.930e-01 1.568e-01 2.506 0.01220 *
Posdefensa -7.200e-01 2.462e-01 -2.925 0.00345 **
Posdelantero 1.446e+00 1.662e-01 8.700 < 2e-16 ***
Posportero -1.755e+01 8.538e+02 -0.021 0.98360
EquipoAtl. de Madrid -5.851e-01 2.254e-01 -2.596 0.00943 **
EquipoFC Barcelona 1.330e-01 2.263e-01 0.588 0.55677
EquipoReal Madrid 1.514e-01 2.127e-01 0.711 0.47678
EquipoVillarreal CF -3.869e-01 2.426e-01 -1.595 0.11070
PJ 6.287e-02 2.286e-02 2.750 0.00596 **
PJCompl -3.778e-02 1.912e-02 -1.976 0.04818 *
Min_Jugados 6.333e-04 3.656e-04 1.732 0.08324 .
Penaltis 1.823e-01 8.050e-02 2.265 0.02354 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Se observa que puede haber un problema de colinealidad entre las variables PJComp
y Min Jugados, luego se estudia la colinealidad de las variables mediante el Factor de
inflación de varianza:
> library(car)
> vif(modpoisson)
GVIF Df GVIF^(1/(2*Df))
Altura 1.563021 1 1.250208
Nacionalidad 2.082131 1 1.442959
Pos 1.889924 3 1.111921
Equipo 4.257626 4 1.198522
PJ 9.855946 1 3.139418
PJCompl 19.500017 1 4.415882
Min_Jugados 34.684988 1 5.889396
Penaltis 4.523385 1 2.126825
Call:
glm(formula = GOLES ~ Altura + Nacionalidad + Pos + Equipo +
PJ + PJCompl + Penaltis, family = "poisson", data = X)
Deviance Residuals:
Min 1Q Median 3Q Max
-3.0041 -1.0631 -0.3650 0.3803 2.7638
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -7.232e+00 2.250e+00 -3.215 0.00131 **
Altura 2.926e-02 1.239e-02 2.362 0.01819 *
NacionalidadNoEsp 4.664e-01 1.502e-01 3.106 0.00190 **
62 CAPÍTULO 7. APLICACIÓN A COMPETICIONES DEPORTIVAS
Para la interpretación del modelo se debe tener en cuenta las categorı́as de referencia
para las variables cualitativas: Nacionalidad: Española, Posición: centrocampista y
Equipo: Ath.Bilbao.
Ath.Bilbao
"(Media, Var, CV) = (2.28, 18.46, 1.88)"
Atl. de Madrid
"(Media, Var, CV) = (2.48, 22.43, 1.91)"
FC Barcelona
"(Media, Var, CV) = (4.36, 102.07, 2.32)"
Real Madrid
"(Media, Var, CV) = (4.50, 78.00, 1.96)"
Villarreal CF
"(Media, Var, CV) = (1.62, 7.05, 1.64)"
> library("MASS")
> modBN <- step(glm.nb(GOLES ~ . , data=X),direction="both")
> summary(modBN <-glm.nb(GOLES~Altura + Nacionalidad + Pos + PJ + PJCompl +
+ Penaltis, data=X))
Call:
glm.nb(formula = GOLES ~ Altura + Nacionalidad + Pos + PJ + PJCompl +
Penaltis, data = X, init.theta = 3.169403907, link = log)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.3316 -0.9428 -0.4586 0.2772 2.5200
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.017e+01 3.536e+00 -2.875 0.00404 **
Altura 4.539e-02 1.952e-02 2.325 0.02007 *
NacionalidadNoEsp 3.220e-01 1.964e-01 1.639 0.10116
Posdefensa -6.806e-01 3.047e-01 -2.234 0.02551 *
Posdelantero 1.043e+00 2.352e-01 4.433 9.28e-06 ***
Posportero -3.715e+01 1.980e+07 0.000 1.00000
PJ 1.076e-01 1.650e-02 6.524 6.86e-11 ***
PJCompl -3.001e-02 1.529e-02 -1.962 0.04974 *
Penaltis 4.949e-01 1.536e-01 3.222 0.00127 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Theta: 3.17
Std. Err.: 1.17
2 x log-likelihood: -371.524
7.2. APLICACIÓN A UNA BASE DE DATOS DEPORTIVA 65
> library(car)
> vif(modBN)
GVIF Df GVIF^(1/(2*Df))
Altura 1.183049 1 1.087681
Nacionalidad 1.131378 1 1.063662
Pos 1.836403 3 1.106610
PJ 2.317967 1 1.522487
PJCompl 3.415688 1 1.848158
Penaltis 2.254691 1 1.501563
Call:
glm(formula = GOLES ~ Altura + Nacionalidad + Pos + PJ + PJCompl +
Penaltis, family = "poisson", data = X)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.8715 -1.2718 -0.4643 0.5114 3.8785
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -9.377273 1.981888 -4.731 2.23e-06 ***
Altura 0.042204 0.010901 3.872 0.000108 ***
NacionalidadNoEsp 0.452887 0.121606 3.724 0.000196 ***
Posdefensa -0.893733 0.245174 -3.645 0.000267 ***
66 CAPÍTULO 7. APLICACIÓN A COMPETICIONES DEPORTIVAS
El valor del chi-cuadrado asociado es de 1,129 · 10−7 , con 10 grados de libertad. Esto
indica que el modelo de regresión Binomial Negativo con la estimación del parámetro de
dispersión es más apropiado que el modelo de Poisson utilizando las mismas variables
explicativas.
> install.packages("pscl")
> library(pscl)
> vuong(m1poisson,modBN)
7.2. APLICACIÓN A UNA BASE DE DATOS DEPORTIVA 67
Por lo tanto, en caso de que no hubiera exceso de ceros, ambos modelos son equiva-
lentes.
Estimate
(Intercept) -10.16574143
Altura 0.04538793
NacionalidadNoEsp 0.32196426
Posdefensa -0.68059355
Posdelantero 1.04267610
Posportero -37.14561482
PJ 0.10762305
PJCompl -0.03000689
Penaltis 0.49491672
68 CAPÍTULO 7. APLICACIÓN A COMPETICIONES DEPORTIVAS
Para tratar el exceso de ceros se utiliza inicialmente un modelo en dos partes (hurdle)
en el que se supone que todos los ceros son iguales. Se tienen que introducir dos fórmulas,
la primera corresponde al modelo de Binomial Negativa y la segunda al Binomial, hurdle
estima la probabilidad de que el conteo no sea cero. En el siguiente modelo hurdle se ha
eliminado la variable explicativa Pos y se ha añadido la variable Portero para estimar
la probabilidad de no ser cero. Se observa lo siguiente:
> library(pscl)
> mhurdlebn <- hurdle(GOLES ~ Altura + Nacionalidad + PJ + PJCompl +
+ Penaltis|Portero , dist="negbin", data = X)
> summary(mhurdlebn)
7.2. APLICACIÓN A UNA BASE DE DATOS DEPORTIVA 69
Call:
hurdle(formula = GOLES ~ Altura + Nacionalidad + PJ + PJCompl + Penaltis |
Portero, data = X, dist = "negbin")
Pearson residuals:
Min 1Q Median 3Q Max
-1.0670 -0.8281 -0.1930 0.3401 6.7757
Ahora con las mismas variables se aplica el modelo inflado por cero en el cuál se
supone que los ceros son de dos tipos (ceros verdaderos y ceros falsos). La función
zeroinfl estima la probabilidad de que la variable de conteo valga 0.
Call:
zeroinfl(formula = GOLES ~ Altura + Nacionalidad + PJ + PJCompl + Penaltis |
Portero, data = X, dist = "negbin")
Pearson residuals:
Min 1Q Median 3Q Max
-1.0361 -0.5812 -0.3593 0.3296 7.0723
Theta = 1.3427
Number of iterations in BFGS optimization: 39
Log-likelihood: -199 on 9 Df
Se observa como ser portero tiene un coeficiente positivo en el modelo que estima la
odd-ratio de que el conteo de goles sea cero. Es coherente, aunque no es significativo,
pues el p-valor es 0.836.
Se comparan los dos modelos que se han usado para abordar el exceso de ceros con
el objetivo de ver cual se adapta mejor a los datos:
> vuong(mhurdlebn,mzeroinflbn)
-------------------------------------------------------------
Vuong z-statistic H_A p-value
Raw -3.434199 model2 > model1 0.00029715
AIC-corrected -3.434199 model2 > model1 0.00029715
BIC-corrected -3.434199 model2 > model1 0.00029715
Se rechaza que los modelos sean indistinguibles. El modelo inflado BN se adapta
mejor a los datos que el modelo hurdle BN.
> nuevofutbolista=data.frame(Altura=178,Nacionalidad="Esp",
Pos="delantero",Equipo="Villarreal CF",PJ=34,PJCompl=30,Penaltis=1)
> (GolesPredichos<- predict(m1poisson, nuevofutbolista, type = "response"))
1
8.143466
1
9.114624
Se pueden observar por ejemplo los valores predichos para los delanteros españoles
y no españoles usando el modelo de regresión BN, con las siguientes instrucciones:
delanteros=data.frame(Altura=mean(X$Altura),
Nacionalidad=factor(1:2,levels=1:2,labels=levels(X$Nacionalidad)),
Pos="delantero",PJ=mean(X$PJ),
PJCompl=mean(X$PJCompl),Penaltis=mean(X$Penaltis))
GolesPredichos <- predict(modBN, delanteros, type = "response")
cbind(delanteros,GolesPredichos)[,c(2,7)]
Nacionalidad GolesPredichos
1 Esp 2.814361
2 NoEsp 3.883355
Para realizar estas predicciones utilizando el modelo de Poisson habrı́a que tener en
cuenta el equipo al que pertenecen los jugadores. A continuación se realiza el mismo
estudio anterior pero solamente con los jugadores del Villarreal CF.
7.2. APLICACIÓN A UNA BASE DE DATOS DEPORTIVA 73
> delanterosVillarreal=data.frame(Altura=mean(X$Altura),
+ Nacionalidad=factor(1:2,levels=1:2,labels=levels(X$Nacionalidad)),
+ Pos="delantero",Equipo="Villarreal CF",PJ=mean(X$PJ),
+ PJCompl=mean(X$PJCompl),Penaltis=mean(X$Penaltis))
> GolesPredichosVillarreal <- predict(m1poisson, delanterosVillarreal,
+ type = "response")
> cbind(delanterosVillarreal,GolesPredichosVillarreal)[,c(2,8)]
Nacionalidad GolesPredichosVillarreal
1 Esp 2.569421
2 NoEsp 4.096366
Conclusión:
La modelización de cualquier situación real no es un proceso unı́voco sino que de-
pende de muchos factores tales como calidad de datos, modelo teórico subyacente, etc.
Con esta aplicación se han mostrado las posibilidades y limitaciones de la aplicación de
técnicas estadı́sticas para datos de conteo en el campo del deporte de competición.
74 CAPÍTULO 7. APLICACIÓN A COMPETICIONES DEPORTIVAS
Bibliografı́a
[6] Hardin, J.W. ; Hilbe, J.M. Generalized Linear Models and Extensions
A State Press Publication StataCorp LP, College Station, Texas, third edition,
2012
75
76 BIBLIOGRAFÍA