I en simpel regressionsanalyse vil man bestemme sammenhængen mellem to observerede variable \(x\) og \(y\). Udgangspunktet er ofte, at observationerne af \(x, y\) afsættes i et koordinatsystem som på figuren. Ofte opfatter man variablen \(y\) som en responsvariabel og \(x\) som en forklarende variabel, selvom det ikke altid giver mening. Det simpleste tilfælde er, hvis sammenhængen som på Figur 1 er lineær; altså hvis sammenhængen er af formen \(y=\alpha+\beta x\).
Imidlertid vil observerede data ikke ligge præcist på den rette linje, men i stedet variere omkring den. Derfor opstilles den statistiske regressionsmodel for \(N\) par af observationer. \((x_i,y_i), i= 1 \cdots N\).
\( y_i=\alpha+\beta x_i + \epsilon_i, i= 1, .., N\)
I denne formel angiver \(\epsilon_i\) den del af \(y_i\)' variation, som \(x_i\) ikke kan forklare. I eksemplet om sammenhængen mellem en grunds areal og pris kan \(\epsilon_i\) f.eks. skyldes en herlighedsværdi, der giver en positiv \(\epsilon_i\), eller trafikstøj, der giver en negativ \(\epsilon_i\). Når regressionsudtrykket ovenfor antages at være en statistisk model, opfattes \(\epsilon\) som tilfældige med middelværdi 0. Som oftest antages desuden, at de er normalfordelte med ens varians \(\sigma^2\) Tallene \(\alpha\) og \(\beta\) er modellens parametre, der normalt ikke kendes. Derfor skal de estimeres i den statistiske analyse.
Estimationen udføres ved mindste kvadraters metode (på engelsk Ordinary Least Squares, OLS), der tilskrives den tyske matematiker Carl Friedrich Gauss. Det gøres ved at minimere kvadratsummen af punkternes afvigelser fra den rette linje.
\( \min_{\alpha, \beta} \sum_{i=1}^N \big(y_i-\alpha-\beta x_i\big)^2 \).
Denne metode kan også anvendes som en tilpasningsmetode uden antagelser om, at der foreligger en statistisk model
Dette minimeringsproblem kan løses ved differentiering, så der findes eksplicitte formler, se marginnoterne.
Hvis et statistisk test for hypotesen \(\beta = 0\) viser, at den må forkastes, har man påvist en sammenhæng mellem \(x\) og \(y\). Det er vigtigt, at dette ikke nødvendigvis betyder en årsagssammenhæng, f.eks. at \(y\) kan kontrolleres ved at ændre på \(x\), se kausalitet. Fortolkningen er blot, at der er en korrelation, dvs. en vis lineær sammenhæng, der kan skyldes, at de begge skyldes en tredje variabel eller måske endda, at det er \(y\), der styrer \(x\). Uanset hvad kan modellen bruges til at forudsige \(y\) ved \(y=\alpha+\beta x\), hvis man kender værdien af \(x\).
Afvigelserne mellem værdierne af \(y\) og den estimerede rette linje er modellens residualer, der kan give viden om den \(i\)'te observation. I eksemplet betyder et fx positivt residual, at grunden er mere værd, end dens areal tilsiger. Residualerne kan også vise afvigelser fra det lineære udtryk, så modellen skal gentænkes. Et meget stort numerisk residual kan skyldes, at der er fejl i de observerede værdier af observationen.
Minimumsværdien af residualernes kvadratsum divideret med \((N-1)\) er et estimat, der kaldes
\(s^2=\frac{\sum_{i=1}^N \big(y_i-\hat{\alpha}-\hat{\beta} x_i\big)^2)}{N-1}\),
for den fælles varians \(\sigma^2\) af \(\epsilon_i \). Sikkerhedsgrænser for den fundne linje kan findes ved hjælp af denne varians. Tallet
\(R^2=\frac{1-s^2}{var(y_i)}\)
ligger i intervallet fra 0 til 1. En stor værdi af \(R^2\) viser, at observationer ligger tæt på en ret linje med hældning forskellig fra nul, dvs. \(x \) kan forklare \(y\)'s variation præcist. En værdi tæt ved 0 betyder, at \(x\) ikke kan forklare meget af \(y \)'s variation, dvs. at linjen er vandret; formelt set at hældningen \(\beta\) ikke er signifikant forskellig fra nul.
Kommentarer
Kommentarer til artiklen bliver synlige for alle. Undlad at skrive følsomme oplysninger, for eksempel sundhedsoplysninger. Fagansvarlig eller redaktør svarer, når de kan.
Du skal være logget ind for at kommentere.