Figur 1. Regressionsanalyse r anvendes til at illustrere årsagssammenhængen mellem to variabler. Her ses de sammenhørende værdier af areal og pris for en række parcelhusgrunde, som er markeret med sorte punkter. Med rødt er indtegnet den bedst mulige linje, regressionslinjen, der er estimeret vha. mindste kvadraters metode. De lodrette sorte linjer markerer residualerne.

.

Regressionsanalyse er en metode, som i en statistisk analyse bruges til at undersøge sammenhængen mellem to variable. Mere præcist kan man med regressionsanalyse bestemme sammenhængen mellem en responsvariabel y og en række forklarende variable \(x_1,\ldots, x_p\).

Eksempelvis kan metoden benyttes til undersøge sammenhængen mellem areal (forklarende variabel) og pris (responsvariabel) for en række parcelhusgrunde, der i Figur 1 er vist som sorte punkter i et diagram. Den bedst mulige linje, regressionslinjen, som viser sammenhængen mellem punkterne, er estimeret ved hjælp af mindste kvadraters metode. De lodrette sorte linjer, der kaldes residualer, angiver afstanden fra hvert punkt til regressionslinjen og giver et indtryk af, hvor præcist linjen beskriver sammenhængen. Når man har udregnet regressionslinjen, kan den bl.a. benyttes til at estimere prisen på en parcelhusgrund med et givet areal.

Regressionsanalysen har sit udspring i den britiske videnskabsmand Francis Galtons undersøgelser fra 1870’erne af sammenhængen mellem fædres højde og deres sønners højde. Teorien er blevet udviklet betydeligt, og regressionsanalyse er i dag et centralt emne i anvendt statistik.

Simpel regressionsanalyse

I en simpel regressionsanalyse vil man bestemme sammenhængen mellem to observerede variable \(x\) og \(y\). Udgangspunktet er ofte, at observationerne af \(x, y\) afsættes i et koordinatsystem som på figuren. Ofte opfatter man variablen \(y\) som en responsvariabel og \(x\) som en forklarende variabel, selvom det ikke altid giver mening. Det simpleste tilfælde er, hvis sammenhængen som på Figur 1 er lineær; altså hvis sammenhængen er af formen \(y=\alpha+\beta x\).

Imidlertid vil observerede data ikke ligge præcist på den rette linje, men i stedet variere omkring den. Derfor opstilles den statistiske regressionsmodel for \(N\) par af observationer. \((x_i,y_i), i= 1 \cdots N\).

\( y_i=\alpha+\beta x_i + \epsilon_i, i= 1, .., N\)

I denne formel angiver \(\epsilon_i\) den del af \(y_i\)' variation, som \(x_i\) ikke kan forklare. I eksemplet om sammenhængen mellem en grunds areal og pris kan \(\epsilon_i\) f.eks. skyldes en herlighedsværdi, der giver en positiv \(\epsilon_i\), eller trafikstøj, der giver en negativ \(\epsilon_i\). Når regressionsudtrykket ovenfor antages at være en statistisk model, opfattes \(\epsilon\) som tilfældige med middelværdi 0. Som oftest antages desuden, at de er normalfordelte med ens varians \(\sigma^2\) Tallene \(\alpha\) og \(\beta\) er modellens parametre, der normalt ikke kendes. Derfor skal de estimeres i den statistiske analyse.

Estimationen udføres ved mindste kvadraters metode (på engelsk Ordinary Least Squares, OLS), der tilskrives den tyske matematiker Carl Friedrich Gauss. Det gøres ved at minimere kvadratsummen af punkternes afvigelser fra den rette linje.

\( \min_{\alpha, \beta} \sum_{i=1}^N \big(y_i-\alpha-\beta x_i\big)^2 \).

Denne metode kan også anvendes som en tilpasningsmetode uden antagelser om, at der foreligger en statistisk model

Dette minimeringsproblem kan løses ved differentiering, så der findes eksplicitte formler, se marginnoterne.

Hvis et statistisk test for hypotesen \(\beta = 0\) viser, at den må forkastes, har man påvist en sammenhæng mellem \(x\) og \(y\). Det er vigtigt, at dette ikke nødvendigvis betyder en årsagssammenhæng, f.eks. at \(y\) kan kontrolleres ved at ændre på \(x\), se kausalitet. Fortolkningen er blot, at der er en korrelation, dvs. en vis lineær sammenhæng, der kan skyldes, at de begge skyldes en tredje variabel eller måske endda, at det er \(y\), der styrer \(x\). Uanset hvad kan modellen bruges til at forudsige \(y\) ved \(y=\alpha+\beta x\), hvis man kender værdien af \(x\).

Afvigelserne mellem værdierne af \(y\) og den estimerede rette linje er modellens residualer, der kan give viden om den \(i\)'te observation. I eksemplet betyder et fx positivt residual, at grunden er mere værd, end dens areal tilsiger. Residualerne kan også vise afvigelser fra det lineære udtryk, så modellen skal gentænkes. Et meget stort numerisk residual kan skyldes, at der er fejl i de observerede værdier af observationen.

Minimumsværdien af residualernes kvadratsum divideret med \((N-1)\) er et estimat, der kaldes

\(s^2=\frac{\sum_{i=1}^N \big(y_i-\hat{\alpha}-\hat{\beta} x_i\big)^2)}{N-1}\),

for den fælles varians \(\sigma^2\) af \(\epsilon_i \). Sikkerhedsgrænser for den fundne linje kan findes ved hjælp af denne varians. Tallet

\(R^2=\frac{1-s^2}{var(y_i)}\)

ligger i intervallet fra 0 til 1. En stor værdi af \(R^2\) viser, at observationer ligger tæt på en ret linje med hældning forskellig fra nul, dvs. \(x \) kan forklare \(y\)'s variation præcist. En værdi tæt ved 0 betyder, at \(x\) ikke kan forklare meget af \(y \)'s variation, dvs. at linjen er vandret; formelt set at hældningen \(\beta\) ikke er signifikant forskellig fra nul.

Generel regression

Sammenhængen mellem responsvariabel \(y\) og \(p\) forklarende variable \(x_1, \ldots, x_p\) kan generelt formuleres som en funktionssammenhæng, \(y = f(x_1, \ldots, x_p, \beta_0, \ldots, \beta_k)\), der afhænger af en række parametre \((\beta_0, \ldots, \beta_k)\). I regressionsanalyse ønsker man dels at undersøge, om der er en sammenhæng af en vis type (fx at funktionen er lineær), dels at estimere de indgående parametre.

Regressionsanalyse kan anvendes til at teste en kendt teoretisk årsagssammenhæng, og den kan lede til nye teorier. Meget ofte giver analysen kun en brugbar viden om de variable, der indgår i modellen; men den viden kan også være vigtig.

Hvis funktionen \(f\) ikke er lineær, kan den i mange tilfælde alligevel approksimeres ved en lineær funktion ifølge Taylors formel, så en lineær regression alligevel kan give nyttige resultater. Ofte bruges en transformation, fx med logaritmen, til at linearisere funktionen.

Logistisk regression

I modellerne ovenfor opfattes \(y\) som et observerbart tal. Imidlertid kan man også anvende forklarende variable i tilfælde, hvor \(y\) selv er en parameter i mere sammensatte modeller. Det simpleste eksempel er den logistiske regressionsmodel, hvor \(y\) repræsenterer sandsynligheden \(\theta\) for, at en hændelse indtræffer. Denne hændelse betegnes i modellen med tallet 1, mens tallet 0 betyder, at hændelsen ikke indtræffer.

Da et lineært udtryk kan antage vilkårlige talværdier, mens en sandsynlighed kun kan variere mellem 0 og 1, er det nødvendigt at transformere sandsynlighederne. Som model anvender man derfor

\(log\bigg(\frac{\theta_i}{1-\theta_i}\bigg)=y_i=\beta_0+\beta_1 x_{i1}+ \cdots + \beta_k x_{ik}, \)

hvor \(\theta_i\) betegner sandsynligheden for hændelsen for den \(i\)'te observation. Størrelsen \(y_i\) betegnes logodds, da det er logaritmen til odds (link, som dog ikke er præcist nok) for succes. Samme tankegang kan også anvendes i modeller baserede på andre fordelinger, f.eks. i Poisson-fordelingen, hvor logaritmen til parameteren parameteriseres ved et lineært udtryk i de forklarende variable.

Læs mere i Lex

Kommentarer

Kommentarer til artiklen bliver synlige for alle. Undlad at skrive følsomme oplysninger, for eksempel sundhedsoplysninger. Fagansvarlig eller redaktør svarer, når de kan.

Du skal være logget ind for at kommentere.

eller registrer dig