Stima del massimo a posteriori

In statistica bayesiana, una stima del massimo della probabilità a posteriori, o brevemente massimo a posteriori, MAP (da maximum a posteriori probability), è una moda della distribuzione a posteriori. La stima del MAP può essere usata per ottenere una stima puntuale di una quantità inosservata sulla base di dati empirici. È strettamente correlata al metodo di Fisher di massima verosimiglianza, ML (da maximum likelihood), ma impiega un obiettivo di massimizzazione incrementato che incorpora una distribuzione a priori sopra la quantità che si vuole stimare. La stima della MAP può perciò essere vista come una regolarizzazione della stima di ML.

Descrizione

modifica

Assumiamo di voler stimare un parametro di popolazione   sulla base di osservazioni  . Sia   la distribuzione campionaria di  , in modo tale che   è la probabilità di   quando il parametro della sottostante popolazione è  . Allora la funzione:

 

è nota come la funzione di verosimiglianza e la stima

 

è la stima di   di massima verosimiglianza.

Ora supponiamo che esista una distribuzione a priori   sopra  . Questo ci permette di trattare   come una variabile casuale come in statistica bayesiana. Quindi la distribuzione a posteriori di   è data come segue:

 

dove   è funzione di densità di  , mentre   è il dominio di  . Questa è un'applicazione diretta del teorema di Bayes.

Il metodo di stima del MAP esegue quindi una stima di   come la moda della distribuzione a posteriori di questa variabile casuale:

 

Il denominatore della distribuzione a posteriori (la cosiddetta funzione di partizione) non dipende da   e perciò non gioca alcun ruolo nell'ottimizzazione. Si osservi che la stima del MAP è un limite di stimatori di Bayes sotto una sequenza di funzioni di perdita 0-1, ma non di per sé stesso uno stimatore bayesiano, a meno che   sia discreta. [senza fonte]

Calcolo

modifica

Esistono vari modi per calcolare stime del MAP:

  1. Analiticamente, quando la moda della distribuzione a posteriori può essere fornita in forma chiusa. Questo è il caso quando vengono utilizzate distribuzioni a priori coniugate.
  2. Mediante ottimizzazione numerica come nel metodo del gradiente coniugato o nel metodo di ottimizzazione di Newton. Questi solitamente richiedono la conoscenza delle derivate prima e/o seconda, le quali devono essere determinate analiticamente o numericamente.
  3. Mediante modifica di un algoritmo di massimizzazione del valore atteso. Questo metodo non richiede la determinazione delle derivate della densità a posteriori.
  4. Mediante un metodo Monte Carlo usando la tecnica di simulated annealing.

Critiche

modifica

Nonostante la stima del MAP sia un (processo di) limite di stimatori bayesiani (sotteso dalla funzione perdita (loss function) 0-1), in generale essa non è veramente rappresentativa dei metodi bayesiani. Questo perché le stime del MAP sono stime puntuali, mentre i metodi bayesiani sono caratterizzati dall'impiego di distribuzioni con lo scopo di riassumere i dati e generare inferenze. Infatti i metodi bayesiani tendono a riportare media e mediana a posteriori, assieme agli intervalli di confidenza bayesiani. Questo sia perché questi stimatori sono ottimali sotto funzioni di perdita di tipo errore quadratico ed errore lineare rispettivamente, i quali sono maggiormente rappresentativi delle tipiche funzioni di perdita, sia perché la distribuzione a posteriori può non avere una forma analitica semplice: in questo caso, la distribuzione può essere simulata usando tecniche di catena di Markov Monte Carlo, mentre l'ottimizzazione per trovare la sua moda può essere difficoltosa o impossibile.

In molti tipi di modelli, come la mistura di distribuzioni, la distribuzione a posteriori può essere multimodale. Il tal caso la raccomandazione solita è che si dovrebbe scegliere la moda più alta: questo non sempre è fattibile (l'ottimizzazione globale è un problema difficile), né in vari casi possibile (ad esempio quando sorgono problemi di identificabilità ossia quando i valori di uno o più parametri di una distribuzione non sono inferibili da campionamenti ripetuti o viceversa quando la variazione di tali valori non produce distribuzioni distinte). Inoltre, la moda più alta può non caratterizzare la distribuzione a posteriori.

Infine, dissimilmente dagli stimatori di massima verosimiglianza, la stima del MAP non è invariante sotto riparametrizzazione. La commutazione da una parametrizzazione ad un'altra implica l'introduzione di uno jacobiano che influisce sulla posizione del massimo.

Come esempio della differenza tra gli stimatori bayesiani sopra menzionati (stimatori della media e della mediana) e l'uso di una stima del MAP, consideriamo un caso dove sussiste la necessità di classificare il dato in ingresso   come positivo o negativo (per esempio, un prestito come rischioso o sicuro). Supponiamo che ci siano tre possibili ipotesi circa il metodo corretto di classificazione  ,   ed   con probabilità a posteriori rispettivamente 0.4, 0.3 e 0.3. Supponiamo che ottenuto un nuovo dato,  ,   lo classifichi come positivo, mentre gli altri due come negativo. Usando la stima del MAP questo sceglierà come metodo di classificazione corretto  , classificando quindi   come positivo, mentre gli stimatori di Bayes medierebbero sopra tutte le ipotesi pesando i tre metodi e classificando quindi   come negativo.

Esempio

modifica

Supponiamo di avere una data sequenza   di variabili casuali con distribuzioni individuali identiche (IID, Individual Identical Distribution)   e che sia data una distribuzione a priori di  ,  . Desideriamo trovare la stima del MAP di  .

La funzione da massimizzare è data da

 

che equivale a minimizzare la seguente funzione di  :

 

Perciò, vediamo che lo stimatore del MAP per   è dato da

 

che risulta essere una interpolazione lineare pesata tramite le loro rispettive covarianze della media a priori e della media del campione.

Il caso di   è chiamata una distribuzione a priori non informativa e conduce ad una distribuzione di probabilità a priori mal definita; in questo caso  

Bibliografia

modifica
  • M. DeGroot, Optimal Statistical Decisions, McGraw-Hill, (1970).
  • Harold W. Sorenson, (1980) "Parameter Estimation: Principles and Problems", Marcel Dekker.


  Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica