Bayesiläinen tilastotiede

Wikipediasta
Siirry navigaatioon Siirry hakuun

Bayesiläinen tilastotiede eli Bayes-tilastotiede on frekventistisen eli klassisen tilastotieteen ohella tilastotieteen toinen suuri paradigma. Se perustuu Bayesin kaavan soveltamiseen. Bayesiläisessa tilastotieteessä ajatellaan, että havainnot tunnetaan, joten ne ovat kiinteitä, ja todellisuus on tuntematon, johon liittyy epävarmuutta. Tarkoituksena on laskea posterioritodennäköisyyksiä siten, että otetaan huomioon sekä ennakkotieto että havaintoaineiston informaatio. Bayesiläinen tilastotiede juontaa juurensa 1700-luvulle[1], mutta sen käyttö alkoi yleistyä vasta 1900-luvun lopussa tietokoneiden kehityttyä riittävästi. Sitä mukaa myös itse ajattelutapa ja sen sovellukset ovat kehittyneet. Sekä Bayes-tilastotiede että Bayesin kaava ovat saaneet nimensä englantilaiselta harrastelijamatemaatikko ja presbyteeripappi Thomas Bayesiltä, jota pidetään Bayes-päättelyn esi-isänä.

Bayesin kaava

[muokkaa | muokkaa wikitekstiä]
Pääartikkeli: Bayesin teoreema

Bayesin kaava voidaan kirjoittaa seuraavasti:

missä

  • P(A) on tapahtuman A priori-todennäköisyys.
  • P(A|B) on tapahtuman A posteriori-todennäköisyys eli tapahtuman A todennäköisyys ehdolla B.
  • P(B|A) on tapahtuman B todennäköisyys ehdolla A.
  • P(B) on tapahtuman B priori-todennäköisyys.

Tapahtumat A ja B voisivat esimerkiksi olla seuraavia väitelauseita: B = ”Suomalaiset miehet ovat pitempiä kuin ruotsalaiset” ja A = ”Kun tutkitaan 5 suomalaista ja 5 ruotsalaista, kaikki ruotsalaiset ovat pidempiä”. Bayesiläisessä tilastotieteessä voidaan tällöin tehdä laskelmia siitä todennäköisyydestä että B on totta, kun A havaitaan.

Peruskäsitteet

[muokkaa | muokkaa wikitekstiä]

Bayesiläisessä tilastotieteessä käytetään usein Bayesin kaavasta johdettua kaavaa p(x|y) = p(y|x)p(x) / p(y). Tämä kaava on voimassa tietyt säännöllisyysehdot toteuttavilla satunnaismuuttujilla x ja y. Kaavassa p on geneerinen jakaumasymboli, joka voidaan tulkita esimerkiksi tiheysfunktioksi tai pistetodennäköisyysfunktioksi.

Edellisen kaavan avulla pyritään tekemään tilastollisia päätelmiä ei-havaittavasta muuttujasta x havaittavan muuttujan y perusteella. Ehdollistettua jakaumasymbolia p(x|y) sanotaan x:n posterioriksi. Jakaumasymboli p(y|x) on likelihood (joskus myös otantajakauma, otantamalli), jota käytetään myös klassisen tilastotieteen uskottavuuspäättelyssä. Jakaumasymboli p(x) on puolestaan x:n priori. Tekijä 1/p(y) ei vaikuta x:ää koskevaan tilastolliseen päättelyyn, vaan se on luonteeltaan normitusvakio.

Priorijakauma, posteriorijakauma ja prediktiivinen jakauma

[muokkaa | muokkaa wikitekstiä]
  • on havaittu aineisto.
  • on tuntematon parametri(vektori). Se voi olla myös puuttuva havainto(vektori) tai latentti muuttuja.
  • on hyperparametri(vektori), joka voi olla tunnettu tai tuntematon.

Priorijakauma

[muokkaa | muokkaa wikitekstiä]

Jotta voimme muodostaa posteriorijakauman tuntemattomalle , tarvitaan:

  • malli havainnolle ja
  • priorijakauma tuntemattomalle .

Näistä ensimmäinen on uskottavuusfunktio . Priorijakauma on ennakkokäsitys tuntemattomasta , ja usein se riippuu hyperparametreistä . Priori voidaan esittää jakaumana .

Konjugaattipriori

[muokkaa | muokkaa wikitekstiä]

Jos priori valitaan siten, että se kuuluu samaan jakaumaperheeseen posteriorijakauman kanssa, sitä kutsutaan konjugaattiprioriksi. Tällöin syntyy myös laskennallisesti mukavampi tilanne. Jos havaintojen yhteisjakauma kuuluu eksponenttiseen perheeseen, aina on olemassa konjugaattipriori (Morris, 1983).[2]

Epäinformatiivinen priori

[muokkaa | muokkaa wikitekstiä]

Jos ilmiösta ei ole ennakkotietoa, prioriksi voidaan valita epäinformatiivinen priori, joka vaikuttaa mahdollisimman vähän posteriorijakaumaan. Esimerkiksi seuraavalla tavalla:

, missä tunnettu
, suuri.

Yksi vaihtoehto on myös Jeffreys'in priori:

, missä on havainnon Fisher informaatio:

.

Posteriorijakauma

[muokkaa | muokkaa wikitekstiä]

Bayesin kaavasta saadaan posteriorijakaumaksi seuraava:

.

missä jatkuvan jakauman tapauksessa

,

ja diskreetin jakauman tapauksessa

.

Joskus tulee laskennallisia ongelmia nimittäjän integroinnissa, mutta jos ollaan kiinnostuneita vain posteriorin maksimista :n suhteen, sitä ei tarvita. Voidaan kirjoittaa:

.

Suurimman uskottavuuden estimaatin laskemiseksi :lle riittää maksimoida lauseke :n suhteen, sillä nimittäjä ei riipu siitä.

Prediktiivinen jakauma

[muokkaa | muokkaa wikitekstiä]

Olkoon uusi havainto, joka on riippumaton havainnoista . Prediktiivinen jakauma (ennustejakauma) :lle on :n ehdollinen jakauma ehdolla , ja se saadaan seuraavasti:

Posteriorijakauman approksimaatiot

[muokkaa | muokkaa wikitekstiä]

Posteriorijakauman laskeminen analyyttisesti ei aina onnistu. Syynä on useimmiten se, että nimittäjässä on moniulotteinen integraali, joka on erittäin vaikea laskea. Tällöin voidaan hyödyntää muita keinoja posteriorijakauman laskemiseksi. Kun havaintoja on paljon, posteriorijakaumaa voidaan approksimoida normaalijakauma-approksimaatiolla:

, missä

on suurimman uskottavuuden estimaatti ja on havaittu informaatio(matriisi). Muita keinoja approksimoida posteriorijakaumaa ovat numeerinen integrointi, posteriorijakauman integraalin laskeminen Laplace'n menetelmällä ja Markovin ketju Monte Carlo -simulointi.

Posteriorijakauman simulointi MCMC-menetelmällä

[muokkaa | muokkaa wikitekstiä]

Posteriorijakauman ratkaisemiseen erityisesti monimutkaisissa ja hierarkkisissa malleissa joudutaan usein käyttämään MCMC-menetelmää eli Markovin ketju Monte Carlo -menetelmää. Menetelmän idea on seuraava: Kun oletetaan, että jakaumasta riippumatta, niin voidaan edetä seuraavasti:

  1. Valitaan alkutila .
  2. Simuloidaan ketjua
  3. Kun ketjua on simuloitu riittävästi, ketjun voidaan olevan otos invariantista jakaumasta .

MCMC-menetelmiä ovat esimerkiksi Metropolisin algoritmi ja sen muunnelma Metropolisin ja Hastingsin algoritmi.

Kun oletetaan, että on pystytty konstruoimaan posteriori , Metropolisin algoritmin idea posteriorijakauman simuloimiseksi on seuraavanlainen:

  1. Valitaan alkuarvaus .
  2. Oletetaan, että arvot ovat konstruoitu ketjusta.
  3. Ehdotetaan :n arvoksi arvoa symmetrisestä ehdotusjakaumasta . Ehdotus hyväksytään todennäköisyydellä:
. Jos ehdotus hyväksytään, , muuten .

Toinen tapa konstruoida ketjua, on Gibbsin algoritmi: Olkoon parametrivektori, ja merkitään . Oletetaan lisäksi, että voidaan helposti laskea.

  1. Valitaan alkuarvo .
  2. Oletetaan, että on simuloitu .
  3. Päivitetään se komponenteittain eli simuloidaan jokainen , i=1,,b, jakaumasta . Näin saadaan .

Näidenkin lisäksi on vielä useita eri menetelmiä ja edellisten muunnelmia. Nykyään on käytettävissä valmisohjelmistoja, joiden avulla simulaatiomenetelmiä voidaan soveltaa monissa tapauksissa ilman, että ne joudutaan ohjelmoimaan joka kerta uudelleen. Esimerkiksi Gibbin algoritmille on olemassa ilmainen ohjelma BUGS (Bayesian inference Using Gibbs Sampling).

Mallikritiikki

[muokkaa | muokkaa wikitekstiä]

Oleellinen osa Bayes-tilastotiedettä on mallikritiikki, ja se pohjautuu pitkälti prediktiiviseen jakaumaan . Joitakin lähestymistapoja mallikritiikille:

  • Herkkyysanalyysi
    • Tehdään kohtuullisia muutoksia oletuksiin, ja katsotaan miten ne vaikuttavat posterioriin ja lopputuloksiin.
  • Ristiin validointi
    • Aineistosta jätetään osa pois, ja jäljelle jäävästä aineistosta lasketaan malli ja prediktiivinen jakauma, johon sitten pois jätettyä aineistoa verrataan.
  • Mallien vertailu
    • Jos on monta vaihtoehtoista mallia, niitä voi vertailla esimerkiksi poikkeamaindeksin (DIC) avulla.
  • Bayes-tekijä

Paradigman edut ja haitat

[muokkaa | muokkaa wikitekstiä]

Käytettäessä ei-havaittavalle muuttujalle niin sanottua laakeaa prioria p(x) ~ 1 (engl. uniform prior, tulkitaan singulaarisesti jatkuvana mittana, joka saa saman arvon kaikilla x), posteriori p(x|y) on vakiokerrointa vaille sama kuin klassisessa tilastotieteessä käytettävä uskottavuusfunktio. Tällöin bayesiläiset menetelmät antavat samoja numeerisia tuloksia kuin maximum likelihood -päättely; joskin tulosten käsitteellinen tulkinta on erilainen.

Jos käytetään jotakin muuta kuin laakeaa prioria, posteriorin arvot muuttuvat. Tästä syystä priorin valinta saattaa vaikuttaa bayesiläisen tilastollisen päättelyn tuloksiin. Bayesiläiset tilastotieteilijät jakautuvat niin sanottuihin subjektiivisiin bayesiläisiin, jotka korostavat priorin merkitystä tilastollisen päättelyn hyödyllisenä apuvälineenä, ja objektiivisiin bayesiläisiin, jotka suhtautuvat varauksellisesti prioriin sisältyvään informaatioon.

Jotkut tilastotieteen klassisen paradigman kannattajat ovat esittäneet, että priorin ja posteriorin käsitteet ovat ontologisesti ongelmallisia tai peräti kokonaan virheellisiä. Toisaalta bayesiläistä paradigmaa on puolustettu informaatio- ja päätösteoreettisilla perusteluilla. Monien kannattajiensa mielestä bayesiläinen paradigma antaa tilastotieteelle teoreettisen perustan, joka on yhtenäisempi ja helpommin omaksuttava kuin klassisen paradigman antama perusta.

Bayesiläinen tilastotiede Suomessa

[muokkaa | muokkaa wikitekstiä]

Suomessa bayesiläisen tilastotieteen edelläkävijöitä ovat olleet Elja Arjas ja Antti Penttinen.

  • Carlin, Bradley P. And Louis,Thomas A. (1996).Bayes and Empirical Bayes Methods for Data Analysis, ensimmäinen painos. Chapman & Hall. ISBN 0 412 05611 9
  1. Gelman, Andrew: The Develpoment of Bayesian Statistics. (englanniksi) Journal of the Indian Institute of Science, 14.1.2022, 102. vsk, nro 4, s. 1131--1134. doi:https://doi.org/10.1007/s41745-022-00307-y (englanti)
  2. Morris, Carl N.: Natural exponential families with quadratic variance functions: Statistical theory. The Annals of Statistics, 1983, nro 2, s. 515–529. Artikkelin verkkoversio. (Arkistoitu – Internet Archive)