Coeficiente de Determinación

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 4

Coeficiente de determinación (R cuadrado)

Es importante saber que el resultado del coeficiente de determinación oscila entre 0 y 1.


Cuanto más cerca de 1 se sitúe su valor, mayor será el ajuste del modelo a la variable que
estamos intentando explicar. De forma inversa, cuanto más cerca de cero, menos ajustado
estará el modelo y, por tanto, menos fiable será.

En la expresión anterior tenemos una fracción. Así pues, vayamos por partes. En primer
lugar, analizaremos el numerador, es decir, la parte de arriba.

Para aquellos que no conozcan la expresión de la varianza, les recomiendo que lean el
artículo sobre la misma. Para aquellos que sí la conozcan, podrán caer en la cuenta de que
es la expresión de la varianza, pero con dos diferencias fundamentales.

La primera diferencia es que la Y lleva un circunflejo o lo que los profesores llaman de


forma didáctica “sombrerito”. Ese sombrerito lo que detalla es que esa Y es la estimación
de un modelo sobre lo que según las variables explicativas vale Y, pero no es el valor real
de Y, sino una estimación de Y.

En segundo lugar, faltaría dividir entre T. Que, en otros casos, se nota como N o número de
observaciones. Sin embargo, dado que la fórmula del denominador también la llevaría,
eliminamos los denominadores (parte de abajo) de ambas fórmulas para simplificar la
expresión. De esta manera es más fácil trabajar con ella.

A continuación, vamos a realizar el mismo análisis con la parte del denominador (parte de
abajo).

En este caso, la única diferencia existente respecto a la fórmula original de la varianza es la


ausencia de su denominador. Es decir, no dividimos entre T o N. De esta manera, una vez
explicadas las dos partes de la expresión genérica del R cuadrado o coeficiente de
determinación, vamos a ver un ejemplo.

Interpretación del coeficiente de determinación

Supongamos que queremos explicar la cantidad de goles que anota Cristiano Ronaldo
según la cantidad de partidos que juega. Suponemos que, a mayor cantidad de partidos
jugados, más goles meterá. Los datos pertenecen a las últimas 8 temporadas. De tal manera,
tras extraer los datos, el modelo arroja la siguiente estimación:
Cómo podemos ver en el gráfico, la relación es positiva. A más partidos jugados, como es
lógico, más goles anota en la temporada. El ajuste, según el cálculo del R cuadrado, es de
0,835. Esto quiere decir que es un modelo cuyas estimaciones se ajustan bastante bien a la
variable real. Aunque técnicamente no sería correcto, podríamos decir algo así como que el
modelo explica en un 83,5% a la variable real.

El problema del coeficiente de determinación

El problema del coeficiente de determinación, y razón por el cual surge el coeficiente de


determinación ajustado, radica en que no penaliza la inclusión de variables explicativas no
significativas. Es decir, si al modelo se añaden cinco variables explicativas que guardan
poca relación con los goles que anota Cristiano Ronaldo en una temporada, el R cuadrado
aumentará. Es por ello que muchos expertos económetras, estadísticos y matemáticos se
oponen al uso del R cuadrado como medida representativa de la bondad del ajuste real.

El coeficiente de determinación ajustado

El coeficiente de determinación ajustado (R cuadrado ajustado) es la medida que define


el porcentaje explicado por la varianza de la regresión en relación con la varianza de la
variable explicada. Es decir, lo mismo que el R cuadrado, pero con una diferencia: El
coeficiente de determinación ajustado penaliza la inclusión de variables.

Como hemos dicho anteriormente, el coeficiente de determinación de un modelo aumenta,


aunque las variables que incluyamos no sean relevantes. Ya que esto supone un problema,
para intentar solventarlo, el R cuadrado ajustado queda tal que:
En la fórmula, N es el tamaño de la muestra y k el número de variables explicativas. Por
deducción matemática, a valores más altos de k, más alejado estará el R cuadrado ajustado
del R cuadrado normal. Al revés, a valores más bajos de k, más cerca estará de 1 la fracción
central y, por tanto, más parecidos serán el R cuadrado ajustado y el R cuadrado normal.

Recordando que k es el número de variables explicativas, deducimos que este no puede ser
cero. Si fuese cero, no existiría modelo. Como mínimo tendremos que explicar una variable
en función de otra variable. Dado que k debe ser como mínimo 1, el R cuadrado ajustado y
el R cuadrado normal no pueden tener el mismo valor. Es más, el R cuadrado ajustado será
siempre inferior al R cuadrado normal.

También podría gustarte