Teoria della complessità computazionale

branca della teoria della computabilità

La teoria della complessità computazionale è una branca della teoria della computabilità che studia le risorse minime necessarie (principalmente tempo di calcolo e memoria) per la risoluzione di un problema. Con complessità di un algoritmo o efficienza di un algoritmo ci si riferisce dunque alle risorse di calcolo richieste. I problemi sono classificati in differenti classi di complessità, in base all'efficienza del migliore algoritmo noto in grado di risolvere quello specifico problema.

Una distinzione informale, ma di grande rilievo, è quella posta tra i cosiddetti problemi facili, di cui si conoscono algoritmi di risoluzione efficienti, e difficili, di cui gli unici algoritmi noti non sono efficienti. Ad esempio la maggior parte della crittografia moderna si fonda sull'esistenza di problemi ritenuti difficili; ha enorme rilevanza lo studio di tali problemi, poiché, qualora si dimostrasse l'esistenza di un algoritmo efficiente per un problema ritenuto difficile, i sistemi crittografici basati su di esso non sarebbero più sicuri.

Descrizione

modifica

Misurazione delle risorse

modifica
  Lo stesso argomento in dettaglio: Stima asintotica.

Per misurare l'efficienza di un algoritmo in maniera univoca, bisogna definire una metrica indipendente dalle tecnologie utilizzate, altrimenti uno stesso algoritmo potrebbe avere efficienza diversa a seconda della tecnologia sulla quale è eseguito. Per questo motivo si usa fare riferimento ad un modello di calcolo generico: la macchina di Turing. Qualunque modello di calcolo scelto (ad esempio la macchina RAM, ma si può parlare anche di computer reali), ai fini della classificazione dei problemi, si comporta come la macchina di Turing. La tesi di Church-Turing afferma, infatti, che la classe delle funzioni calcolabili coincide con quella delle funzioni calcolabili da una macchina di Turing.

Per quel che riguarda la misurazione della risorsa tempo, data una macchina di Turing  , si dice che   opera in tempo   se   è il massimo numero di passi necessari alla macchina per produrre il risultato su un input   di lunghezza  .

Per quel che riguarda la misurazione della risorsa spazio, data una macchina di Turing  , si dice che   opera in spazio   se   è il massimo numero di celle visitate durante una computazione su un input   di lunghezza  , oltre a quelle occupate dall'input.

Affinché queste affermazioni siano valide,   dev'essere una funzione di complessità propria, cioè deve soddisfare le seguenti condizioni:

  • deve essere monotona crescente;
  • deve essere calcolabile in tempo e spazio limitati dal valore della funzione stessa.

Poiché questo tipo di misurazione è molto dettagliata, quindi di solito difficilmente applicabile alla realtà, si introducono approssimazioni che permettano di operare su algoritmi più astratti. In particolare si ricorre alla notazione   (O grande). Formalmente:

  se   tali che  ,  ,  

La funzione   da un certo   in poi cresce al più come la funzione  . Per fare un esempio,   perché possiamo trovare una coppia di costanti   che soddisfano la condizione sopra. Si dice quindi che un algoritmo opera in tempo   se termina in un tempo proporzionale a   dato un input di dimensione  .

Per valutare le prestazioni di un algoritmo, solo in parte legate alla classificazione di un problema, è utile distinguere alcuni casi: si considerano il caso ottimo, il caso peggiore e il caso medio.

  • Il caso ottimo è il caso in cui i dati sono i migliori dati possibili per l'algoritmo, cioè quelli che richiedono meno elaborazioni per essere trattati.
  • Il caso peggiore invece prevede i dati che richiedono il massimo numero di passi per l'algoritmo.
  • Il caso medio è il caso più utile da analizzare perché fornisce un reale indicatore della complessità dell'algoritmo, ma tendenzialmente è anche quello più complesso dato che spesso è difficile determinare quali sono i dati medi. A volte, per risolvere il problema del caso medio si preferisce eseguire molte simulazioni dell'algoritmo e poi, dai tempi ottenuti con le simulazioni, estrarre una formula che si approssimi adeguatamente all'andamento medio.

In questo ambito tornano dunque utili altre due misure, complementari della notazione O grande:

  •   se   tali che  , per  ,  . Cioè   cresce non più lentamente di  ; questa notazione è utile per valutare il caso ottimo di un algoritmo: se un algoritmo è   ("Omega di  ") significa che nel caso migliore richiede   passi per essere risolto.
  •   se   e  , cioè   cresce altrettanto rapidamente di  . Se un algoritmo è   ("Theta di  "), non ci sono variazioni significative di prestazioni tra il caso migliore e il caso peggiore.

Classi di complessità

modifica
  Lo stesso argomento in dettaglio: Classe di complessità.

Partendo dalla misurazione delle risorse computazionali si possono definire le classi di complessità:

  • la classe   è l'insieme dei problemi che ammettono una macchina di Turing che li risolve e che opera in tempo  .
  • La classe   è l'insieme dei problemi che ammettono una macchina di Turing non deterministica che li risolve e che opera in tempo  .
  • La classe   è l'insieme dei problemi che ammettono una macchina di Turing che li risolve e che opera in spazio  .
  • La classe   è l'insieme dei problemi che ammettono una macchina di Turing non deterministica che li risolve e che opera in spazio  .

Possiamo così definire le seguenti classi di complessità:

  •  
  •  
  •  ; per risolvere i problemi appartenenti alle classi fin qui elencate sono noti algoritmi che terminano in tempo polinomiale rispetto alla dimensione dei dati.
  •  ; per questi problemi sono noti algoritmi che terminano in un numero di passi polinomiale rispetto alla dimensione dei dati nel caso si possa utilizzare un numero indeterminato di macchine in parallelo, o nel caso si utilizzi una macchina di Turing non deterministica (come da definizione). Altre formulazioni equivalenti sono affermare che l'algoritmo termina in tempo polinomiale con l'"algoritmo di Gastone" (ogni volta che si deve fare una scelta, si indovina sempre la strada corretta), oppure che la verifica di una soluzione può essere effettuata in tempo polinomiale. La sigla NP sta per non-deterministic polinomial (polinomiale non deterministico) e non per "non polinomiale", anche se per molti di essi non si conoscono che algoritmi deterministici che impiegano tempo esponenziale rispetto a  . A questa classe appartiene una gran quantità di problemi di interesse applicativo.
  •  
  •  
  •  ; per questi problemi sono noti solamente algoritmi che terminano in un numero di passi esponenziale rispetto alla dimensione dei dati, indipendentemente dal modello di calcolo.

Tra queste classi sono note le seguenti relazioni di equivalenza:

  •  
  •  
  •  

Altre relazioni non sono note.

L'implicazione pratica principale data da questa classificazione è la suddivisione in problemi che sappiamo risolvere in modo efficiente e in problemi che non sappiamo se possono essere risolti in modo efficiente. Infatti, calcolare il caso ottimo di un algoritmo di solito non è un'operazione troppo complicata; ciò che è molto difficile determinare è se un certo algoritmo è il migliore possibile per un dato problema. Dimostrazioni di questo tipo sono molto rare, la più nota è senz'altro quella riguardante l'ordinamento per confronto.

Data questa premessa, osserviamo che se sappiamo che un certo problema  , è in generale un errore dire   perché non è possibile dirlo, data anche l'inclusione non stretta di   in  . Infatti, pur sapendo che  , non si sa se   o se  , e questo è uno dei grandi problemi ancora aperti nell'informatica teorica, tanto da meritarsi un posto nei problemi per il millennio.

Problemi NP-completi

modifica

«Quando il problema   è uguale a  ?»

Il quesito è stato formulato nel 1971 e se ne intravedeva la soluzione dietro l'angolo, tuttavia dopo più di quarant'anni di studi la questione è ancora aperta, ed essendo considerato uno dei problemi per il millennio la sua soluzione permetterebbe di vincere un milione di dollari USA (v. premio Clay). Gli unici passi avanti che si sono fatti riguardano la classificazione dei problemi. La strada che si è seguita è stata osservare che molti dei problemi che stavano nella classe   seguivano una stessa struttura: la costruzione della soluzione con un algoritmo non deterministico e la verifica della soluzione costruita con un algoritmo deterministico. Ci si chiedeva quindi se ci fosse un denominatore comune in questi problemi, e in effetti c'era: ci si è accorti che esistono dei problemi tali che un algoritmo per risolvere uno di questi problemi può essere convertito in un algoritmo per risolvere un qualunque problema NP. Questi problemi sono stati detti NP-difficili (NP-hard). Un problema NP-difficile potrebbe anche non stare in  , nel senso che la verifica della soluzione (o equivalentemente l'"algoritmo di Gastone") potrebbe richiedere un tempo più che polinomiale.

Riduzione in spazio logaritmico

modifica

Per dimostrare questa sorta di equivalenza, ci si riconduce alla teoria dei linguaggi, e si sfrutta il concetto di riduzione. Formalmente:

dati due linguaggi   e  , definiti rispettivamente sugli alfabeti   e  , una funzione   è una riduzione dal linguaggio   al linguaggio   se  .

In particolare, si sfrutta la riduzione in spazio logaritmico (simbolo  ), che permette di sfruttare proprietà insiemistiche molto utili:

  • transitività, formalmente  ;
  • chiusura delle classi di complessità, formalmente  , dove   è una delle classi di complessità elencate sopra; in altre parole, qualunque linguaggio si riduca ad un elemento di  , è anch'esso elemento di C;
  • completezza di elementi appartenenti alle classi, cioè   è C-completo se  , dove C è una delle classi di complessità elencate sopra: in altre parole,   è C-completo se ogni elemento di   si riduce ad esso.

La riduzione "in spazio logaritmico" è una riduzione che, oltre alle proprietà appena elencate, ha la caratteristica di essere calcolabile da una macchina di Turing che opera in spazio logaritmico, ed è grazie a questo che si dimostra la sua transitività.

NP-completezza

modifica
  Lo stesso argomento in dettaglio: NP-Completo.

Alla luce di queste definizioni, si può dire che un problema   è NP-difficile se  . I problemi NP-completi invece sono quei problemi   che sono anche NP-difficili, quindi tali che  . È interessante notare che quasi tutti i problemi   (tranne quelli in   ovviamente) sono anche NP-completi; l'unica eccezione nota, per ora, è l'isomorfismo di grafi, per il quale nessuno è ancora riuscito a dimostrare né la completezza, né l'eventuale appartenenza alla classe P. Fino a pochi anni fa, anche la verifica di primalità (dato un numero  , dire se è primo oppure no) era un problema NP ma non NP-completo; tuttavia nel 2002 fu trovato un algoritmo che spostava il problema in P.

Esempi di problemi NP-completi sono il problema del commesso viaggiatore e il problema di soddisfacibilità booleana.

Con l'obiettivo di dimostrare l'uguaglianza  , si cominciò a cercare un algoritmo polinomiale per la soluzione di uno qualunque dei problemi NP-completi: questo avrebbe automaticamente fatto collassare tutta la classe di problemi   nella classe  . Nessuno è riuscito a trovarne uno, né nessuno è mai riuscito a dimostrare che   attraverso un controesempio, sebbene molti esperti sospettino che questa sia la relazione tra le due classi.

Approssimabilità

modifica

Spin glass e K-solvibilità

modifica

Bibliografia

modifica
  • (EN) Peter Bürgisser, Michael Clausen, M. Amin Shokrollahi, Algebraic Complexity Theory, Springer, 1997, ISBN 3-540-60582-7
  • (EN) Mikhail J. Atallah (a cura di), Algorithms and Theory of Computation Handbook, CRC Press, 1999, ISBN 0-8493-2649-4

Voci correlate

modifica

Altri progetti

modifica

Collegamenti esterni

modifica
Controllo di autoritàThesaurus BNCF 2244 · LCCN (ENsh85029473 · GND (DE4120591-1 · J9U (ENHE987007545779105171