Bayesiläinen tilastotiede

Bayesiläinen tilastotiede eli Bayes-tilastotiede on frekventistisen eli klassisen tilastotieteen ohella tilastotieteen toinen suuri paradigma. Se perustuu Bayesin kaavan soveltamiseen. Bayesiläisessa tilastotieteessä ajatellaan, että havainnot tunnetaan, joten ne ovat kiinteitä, ja todellisuus on tuntematon, johon liittyy epävarmuutta. Tarkoituksena on laskea posterioritodennäköisyyksiä siten, että otetaan huomioon sekä ennakkotieto että havaintoaineiston informaatio. Bayesiläinen tilastotiede juontaa juurensa 1700-luvulle^[1], mutta sen käyttö alkoi yleistyä vasta 1900-luvun lopussa tietokoneiden kehityttyä riittävästi. Sitä mukaa myös itse ajattelutapa ja sen sovellukset ovat kehittyneet. Sekä Bayes-tilastotiede että Bayesin kaava ovat saaneet nimensä englantilaiselta harrastelijamatemaatikko ja presbyteeripappi Thomas Bayesiltä, jota pidetään Bayes-päättelyn esi-isänä.

Bayesin kaava

Pääartikkeli: Bayesin teoreema

Bayesin kaava voidaan kirjoittaa seuraavasti:

P(B|A)={\frac {P(A|B)P(B)}{P(A)}}

missä

P(A) on tapahtuman A priori-todennäköisyys.
P(A|B) on tapahtuman A posteriori-todennäköisyys eli tapahtuman A todennäköisyys ehdolla B.
P(B|A) on tapahtuman B todennäköisyys ehdolla A.
P(B) on tapahtuman B priori-todennäköisyys.

Tapahtumat A ja B voisivat esimerkiksi olla seuraavia väitelauseita: B = ”Suomalaiset miehet ovat pitempiä kuin ruotsalaiset” ja A = ”Kun tutkitaan 5 suomalaista ja 5 ruotsalaista, kaikki ruotsalaiset ovat pidempiä”. Bayesiläisessä tilastotieteessä voidaan tällöin tehdä laskelmia siitä todennäköisyydestä että B on totta, kun A havaitaan.

Peruskäsitteet

Bayesiläisessä tilastotieteessä käytetään usein Bayesin kaavasta johdettua kaavaa p(x|y) = p(y|x)p(x) / p(y). Tämä kaava on voimassa tietyt säännöllisyysehdot toteuttavilla satunnaismuuttujilla x ja y. Kaavassa p on geneerinen jakaumasymboli, joka voidaan tulkita esimerkiksi tiheysfunktioksi tai pistetodennäköisyysfunktioksi.

Edellisen kaavan avulla pyritään tekemään tilastollisia päätelmiä ei-havaittavasta muuttujasta x havaittavan muuttujan y perusteella. Ehdollistettua jakaumasymbolia p(x|y) sanotaan x:n posterioriksi. Jakaumasymboli p(y|x) on likelihood (joskus myös otantajakauma, otantamalli), jota käytetään myös klassisen tilastotieteen uskottavuuspäättelyssä. Jakaumasymboli p(x) on puolestaan x:n priori. Tekijä 1/p(y) ei vaikuta x:ää koskevaan tilastolliseen päättelyyn, vaan se on luonteeltaan normitusvakio.

Priorijakauma, posteriorijakauma ja prediktiivinen jakauma

Merkintöjä

$\mathbf {y}$ on havaittu aineisto.
${\boldsymbol {\theta }}$ on tuntematon parametri(vektori). Se voi olla myös puuttuva havainto(vektori) tai latentti muuttuja.
${\boldsymbol {\eta }}$ on hyperparametri(vektori), joka voi olla tunnettu tai tuntematon.

Priorijakauma

Jotta voimme muodostaa posteriorijakauman tuntemattomalle ${\boldsymbol {\theta }}$ , tarvitaan:

malli havainnolle $p(\mathbf {y} |{\boldsymbol {\theta }})$ ja
priorijakauma tuntemattomalle ${\boldsymbol {\theta }}$ .

Näistä ensimmäinen on uskottavuusfunktio $p(\mathbf {y} |{\boldsymbol {\theta }})=:L({\boldsymbol {\theta }};\mathbf {y} )$ . Priorijakauma on ennakkokäsitys tuntemattomasta ${\boldsymbol {\theta }}$ , ja usein se riippuu hyperparametreistä ${\boldsymbol {\eta }}$ . Priori voidaan esittää jakaumana $p({\boldsymbol {\theta }}|{\boldsymbol {\eta }})$ .

Konjugaattipriori

Jos priori valitaan siten, että se kuuluu samaan jakaumaperheeseen posteriorijakauman kanssa, sitä kutsutaan konjugaattiprioriksi. Tällöin syntyy myös laskennallisesti mukavampi tilanne. Jos havaintojen yhteisjakauma kuuluu eksponenttiseen perheeseen, aina on olemassa konjugaattipriori (Morris, 1983).^[2]

Epäinformatiivinen priori

Jos ilmiösta ei ole ennakkotietoa, prioriksi voidaan valita epäinformatiivinen priori, joka vaikuttaa mahdollisimman vähän posteriorijakaumaan. Esimerkiksi seuraavalla tavalla:

\mathbf {y} |{\boldsymbol {\theta }}\sim N({\boldsymbol {\theta }},\mathbf {v} )

, missä

\mathbf {v}

tunnettu

{\boldsymbol {\theta }}\sim N(0,\mathbf {w} )

,

\mathbf {w}

suuri.

Yksi vaihtoehto on myös Jeffreys'in priori:

p({\boldsymbol {\theta }})=\left[J({\boldsymbol {\theta }})\right]^{1/2}

, missä

\left[J({\boldsymbol {\theta }})\right]

on havainnon Fisher informaatio:

$\left[J({\boldsymbol {\theta }})\right]=E\left[\left({\frac {\partial log(p(\mathbf {y} |{\boldsymbol {\theta }}))}{\partial {\boldsymbol {\theta }}}}\right)^{2}|{\boldsymbol {\theta }}\right]=-E\left[{\frac {\partial ^{2}log(p(\mathbf {y} |{\boldsymbol {\theta }}))}{\partial {\boldsymbol {\theta }}^{2}}}|{\boldsymbol {\theta }}\right]$ .

Posteriorijakauma

Bayesin kaavasta saadaan posteriorijakaumaksi seuraava:

p({\boldsymbol {\theta }}|\mathbf {y} )={\frac {p({\boldsymbol {\theta }}|{\boldsymbol {\eta }})\,p(\mathbf {y} |{\boldsymbol {\theta }})}{p(\mathbf {y} )}}

.

missä jatkuvan jakauman tapauksessa

p(\mathbf {y} )={\int \,p({\boldsymbol {\theta '}}|{\boldsymbol {\eta }})\,p(\mathbf {y} |{\boldsymbol {\theta '}})\,d{\boldsymbol {\theta '}}}

,

ja diskreetin jakauman tapauksessa

p(\mathbf {y} )=\sum _{\boldsymbol {\theta '}}\,p({\boldsymbol {\theta '}}|{\boldsymbol {\eta }})\,p(\mathbf {y} |{\boldsymbol {\theta '}})

.

Joskus tulee laskennallisia ongelmia nimittäjän integroinnissa, mutta jos ollaan kiinnostuneita vain posteriorin maksimista ${\boldsymbol {\theta }}$ :n suhteen, sitä ei tarvita. Voidaan kirjoittaa:

p({\boldsymbol {\theta }}|\mathbf {y} )\,\propto \,p({\boldsymbol {\theta }}|{\boldsymbol {\eta }})\,p(\mathbf {y} |{\boldsymbol {\theta }})

.

Suurimman uskottavuuden estimaatin laskemiseksi ${\boldsymbol {\theta }}$ :lle riittää maksimoida lauseke $p({\boldsymbol {\theta }}|{\boldsymbol {\eta }})\,p(\mathbf {y} |{\boldsymbol {\theta }})$ ${\boldsymbol {\theta }}$ :n suhteen, sillä nimittäjä $p(\mathbf {y} )$ ei riipu siitä.

Prediktiivinen jakauma

Olkoon ${\tilde {y}}$ uusi havainto, joka on riippumaton havainnoista $\mathbf {y}$ . Prediktiivinen jakauma (ennustejakauma) ${\tilde {y}}$ :lle on ${\tilde {y}}$ :n ehdollinen jakauma ehdolla $\mathbf {y}$ , ja se saadaan seuraavasti: $p({\tilde {y}}|\mathbf {y} )=\int \,p(\mathbf {\tilde {y}} |{\boldsymbol {\theta }},\mathbf {y} )\,p({\boldsymbol {\theta }}|\mathbf {y} )\,d{\boldsymbol {\theta }}=\int \,p(\mathbf {\tilde {y}} |{\boldsymbol {\theta }})\,p({\boldsymbol {\theta }}|\mathbf {y} )\,d{\boldsymbol {\theta }}$

Posteriorijakauman approksimaatiot

Posteriorijakauman laskeminen analyyttisesti ei aina onnistu. Syynä on useimmiten se, että nimittäjässä on moniulotteinen integraali, joka on erittäin vaikea laskea. Tällöin voidaan hyödyntää muita keinoja posteriorijakauman laskemiseksi. Kun havaintoja on paljon, posteriorijakaumaa voidaan approksimoida normaalijakauma-approksimaatiolla:

{\boldsymbol {\theta }}\sim N({\hat {\boldsymbol {\theta }}},I({\hat {\boldsymbol {\theta }}})^{-1})

, missä

${\hat {\boldsymbol {\theta }}}$ on suurimman uskottavuuden estimaatti ja $I({\hat {\boldsymbol {\theta }}})$ on havaittu informaatio(matriisi). Muita keinoja approksimoida posteriorijakaumaa ovat numeerinen integrointi, posteriorijakauman integraalin laskeminen Laplace'n menetelmällä ja Markovin ketju Monte Carlo -simulointi.

Posteriorijakauman simulointi MCMC-menetelmällä

Posteriorijakauman ratkaisemiseen erityisesti monimutkaisissa ja hierarkkisissa malleissa joudutaan usein käyttämään MCMC-menetelmää eli Markovin ketju Monte Carlo -menetelmää. Menetelmän idea on seuraava: Kun oletetaan, että $\lim _{n\to \infty }p(\theta ^{n}=\theta )=\pi (\theta )$ jakaumasta $\pi (\theta )$ riippumatta, niin voidaan edetä seuraavasti:

Valitaan alkutila $\theta ^{0}$ .
Simuloidaan ketjua $\theta ^{1},\dots ,\theta ^{N}$
Kun ketjua on simuloitu riittävästi, ketjun $\theta ^{m+1},\dots ,\theta ^{N}$ voidaan olevan otos invariantista jakaumasta $\pi (\theta )$ .

MCMC-menetelmiä ovat esimerkiksi Metropolisin algoritmi ja sen muunnelma Metropolisin ja Hastingsin algoritmi.

Kun oletetaan, että on pystytty konstruoimaan posteriori $p(\theta |y)\,\propto \,p(\theta )\,p(y|\theta )$ , Metropolisin algoritmin idea posteriorijakauman simuloimiseksi on seuraavanlainen:

Valitaan alkuarvaus $\theta ^{0}$ .
Oletetaan, että arvot $\theta ^{1},\dots ,\theta ^{n}$ ovat konstruoitu ketjusta.
Ehdotetaan $\theta ^{n+1}$ :n arvoksi arvoa $\theta '$ symmetrisestä ehdotusjakaumasta $q(\theta '|\theta ^{n})$ . Ehdotus hyväksytään todennäköisyydellä:

\alpha _{M}=min\left\{1,{\frac {p(\theta '|y)}{p(\theta ^{n}|y)}}\right\}

. Jos ehdotus hyväksytään,

\theta ^{n+1}=\theta '

, muuten

\theta ^{n+1}=\theta ^{n}

.

Toinen tapa konstruoida ketjua, on Gibbsin algoritmi: Olkoon $\theta =(\theta _{1},\dots ,\theta _{b})$ parametrivektori, ja merkitään $\theta _{-i}=(\theta _{1},\dots ,\theta _{i-1},\theta _{i+1},\dots ,\theta _{b})$ . Oletetaan lisäksi, että $p(\theta _{i}|\theta _{-i},y)={\frac {p(\theta |y)}{p(\theta _{-i}|y)}}$ voidaan helposti laskea.

Valitaan alkuarvo $\theta ^{0}$ .
Oletetaan, että on simuloitu $\theta ^{n}$ .
Päivitetään se komponenteittain eli simuloidaan jokainen $\theta _{i}^{n+1}$ , i=1, $\dots$ ,b, jakaumasta $p(\theta _{i}|\theta _{1}^{n+1},\dots ,\theta _{i-1}^{n+1},\theta _{i+1}^{n},\dots ,\theta _{b}^{n})$ . Näin saadaan $\theta ^{n+1}$ .

Näidenkin lisäksi on vielä useita eri menetelmiä ja edellisten muunnelmia. Nykyään on käytettävissä valmisohjelmistoja, joiden avulla simulaatiomenetelmiä voidaan soveltaa monissa tapauksissa ilman, että ne joudutaan ohjelmoimaan joka kerta uudelleen. Esimerkiksi Gibbin algoritmille on olemassa ilmainen ohjelma BUGS (Bayesian inference Using Gibbs Sampling).

Mallikritiikki

Oleellinen osa Bayes-tilastotiedettä on mallikritiikki, ja se pohjautuu pitkälti prediktiiviseen jakaumaan $p({\tilde {y}}|\mathbf {y} )$ . Joitakin lähestymistapoja mallikritiikille:

Herkkyysanalyysi
- Tehdään kohtuullisia muutoksia oletuksiin, ja katsotaan miten ne vaikuttavat posterioriin ja lopputuloksiin.
Ristiin validointi
- Aineistosta jätetään osa pois, ja jäljelle jäävästä aineistosta lasketaan malli ja prediktiivinen jakauma, johon sitten pois jätettyä aineistoa verrataan.
Mallien vertailu
- Jos on monta vaihtoehtoista mallia, niitä voi vertailla esimerkiksi poikkeamaindeksin (DIC) avulla.
Bayes-tekijä

Paradigman edut ja haitat

Käytettäessä ei-havaittavalle muuttujalle niin sanottua laakeaa prioria p(x) ~ 1 (engl. uniform prior, tulkitaan singulaarisesti jatkuvana mittana, joka saa saman arvon kaikilla x), posteriori p(x|y) on vakiokerrointa vaille sama kuin klassisessa tilastotieteessä käytettävä uskottavuusfunktio. Tällöin bayesiläiset menetelmät antavat samoja numeerisia tuloksia kuin maximum likelihood -päättely; joskin tulosten käsitteellinen tulkinta on erilainen.

Jos käytetään jotakin muuta kuin laakeaa prioria, posteriorin arvot muuttuvat. Tästä syystä priorin valinta saattaa vaikuttaa bayesiläisen tilastollisen päättelyn tuloksiin. Bayesiläiset tilastotieteilijät jakautuvat niin sanottuihin subjektiivisiin bayesiläisiin, jotka korostavat priorin merkitystä tilastollisen päättelyn hyödyllisenä apuvälineenä, ja objektiivisiin bayesiläisiin, jotka suhtautuvat varauksellisesti prioriin sisältyvään informaatioon.

Jotkut tilastotieteen klassisen paradigman kannattajat ovat esittäneet, että priorin ja posteriorin käsitteet ovat ontologisesti ongelmallisia tai peräti kokonaan virheellisiä. Toisaalta bayesiläistä paradigmaa on puolustettu informaatio- ja päätösteoreettisilla perusteluilla. Monien kannattajiensa mielestä bayesiläinen paradigma antaa tilastotieteelle teoreettisen perustan, joka on yhtenäisempi ja helpommin omaksuttava kuin klassisen paradigman antama perusta.