Vai al contenuto

ImageNet

Da Wikipedia, l'enciclopedia libera.

ImageNet è un'ampia base di dati di immagini, realizzata per l'utilizzo, in ambito di visione artificiale, nel campo del riconoscimento di oggetti. Il dataset consiste in più di 14 milioni di immagini[1][2] che sono state annotate manualmente con l'indicazione degli oggetti in esse rappresentati e della bounding box che li delimita.[3] Gli oggetti individuati sono stati classificati in più di 20.000 categorie[2]: alcune categorie di oggetti frequenti, come ad esempio "pallone" o "fragola", consistono di diverse centinaia di immagini.[4] La base di dati con le annotazioni relative ad immagini di terze parti è gratuitamente disponibile direttamente da ImageNet, anche se le immagini non sono parte del progetto (difatti viene fornito solo il collegamento ad esse).[5] A partire dal 2010, ogni anno viene indetta una competizione denominata ImageNet Large Scale Visual Recognition Challenge (ILSVRC): in tale occasione programmi software vengono fatti competere per classificare e rilevare correttamente oggetti e scene contenuti nelle immagini. Nell'ambito della competizione viene impiegata una lista ridotta di immagini con oggetti appartenenti a mille categorie non sovrapposte.[6]

Il database è stato presentato per la prima volta nel 2009 in Florida, nell'ambito della CVPR (Conference on Computer Vision and Pattern Recognition), da un gruppo di ricercatori afferenti al dipartimento di informatica dell'Università di Princeton.[7][8] Tra i ricercatori coinvolti figura Fei-Fei Li, docente di informatica all'Università di Stanford.[9] Nel progetto ImageNet il processo di annotazione è svolto in crowdsourcing[7][10]: in particolare nel corso del 2012 ImageNet è stato il maggior utilizzatore a livello accademico del servizio Mechanical Turk di Amazon.[2] Nell'annotazione a livello di immagine viene richiesto di indicare la presenza o l'assenza di categorie di oggetti, ad esempio "ci sono tigri in questa immagine" oppure "non ci sono tigri in questa immagine". Nelle annotazioni a livello di singolo oggetto, viene indicata la bounding box intorno alla parte visibile dello stesso.

Importanza nel campo dell'apprendimento profondo

[modifica | modifica wikitesto]

Il 30 settembre 2012, nell'ambito dell'annuale competizione ILSVRC, utilizzando una rete neurale convoluzionale denominata AlexNet[11], è stato ottenuto un tasso di errore del 15,3%, con un distacco maggiore di 10,8 punti percentuali sul secondo classificato. Tale risultato è stato reso possibile dall'impiego di GPU nella fase di addestramento della rete[11]: l'impiego di GPU si è rivelato un ingrediente essenziale nella rivoluzione dell'apprendimento profondo (in inglese deep learning). Secondo il The Economist, a seguito di tale evento è nato un improvviso interesse verso l'intelligenza artificiale, non solo all'interno delle comunità di ricerca, ma nell'intero settore della tecnologia.[4][12][13] In occasione del concorso promosso da ImageNet nel 2015, AlexNet è stata superata da una rete neurale convoluzionale molto profonda proposta da Microsoft, costituita da oltre 100 livelli.[14]

L'ImageNet Large Scale Visual Recognition Competition (ILSVRC)

[modifica | modifica wikitesto]
Andamento storico del tasso di errore nelle diverse edizioni dell'ILSVRC dal 2011 al 2016: nel grafico sono riportati i migliori risultati ottenuti ogni anno da diverse squadre (fino ad un massimo di 10 per anno)

La competizione ILSVRC è nata seguendo le orme della PASCAL VOC, altra competizione sul riconoscimento di oggetti indetta nel 2005, dove tuttavia veniva preso in considerazione un dataset costituito da appena 20.000 immagini su 20 classi di oggetti.[6] A partire dal 2010 la ricercatrice Fei-Fei Li, tra i principali esponenti del progetto ImageNet, propose al team di PASCAL VOC di avviare una collaborazione: i team di ricerca avrebbero valutato le prestazioni dei loro algoritmi su un determinato insieme di dati, gareggiando su chi avesse ottenuto i migliori risultati in diverse gare basate sul riconoscimento di oggetti.[8] Da questa collaborazione è scaturita la competizione annuale nota oggi come ImageNet Large Scale Visual Recognition Competition (ILSVRC). Nelle diverse edizioni dell'ILSVRC viene impiegato un sottoinsieme di ImageNet, con sole 1000 categorie di immagini, incluse 90 delle 120 razze canine classificate nel dataset completo.[6] A partire dal 2010 si è verificato un significativo progresso nei risultati. Se nel 2011 un buon tasso di errore nella classificazione era intorno al 25%, nell'edizione della competizione del 2012, una rete neurale convoluzionale chiamata AlexNet ottenne un tasso di errore del 15,3%; nei due anni successivi il tasso di errore è sceso a qualche punto percentuale.[15] Tali miglioramenti hanno contribuito a destare un forte interesse verso l'intelligenza artificiliale a livello industriale.[4] Nel 2015 un team di ricercatori della Microsoft ha proposto una CNN capace di ottenere un tasso di errore talmente basso da superare le capacità umane (entro i limiti dei compiti previsti per la ILSVRC), stimate intorno al 4%.[14][16][17] Tuttavia, come ha puntualizzato Olga Russakovsky, tra le organizzatrici della competizione, i software si limitano ad identificare gli oggetti contenuti in un'immagine tra poche migliaia di categorie, mentre un essere umano ha la capacità di riconoscere un oggetto tra un numero notevolmente maggiore di categorie e può, a differenza dei software, contestualizzare un'immagine.[18]

  1. ^ (EN) Matt Reynolds, New computer vision challenge wants to teach robots to see in 3D, in New Scientist, 7 aprile 2017. URL consultato il 3 febbraio 2018 (archiviato dall'url originale il 30 ottobre 2018).
  2. ^ a b c (EN) John Markoff, For Web Images, Creating New Technology to Seek and Find, in The New York Times, 19 novembre 2012. URL consultato il 3 febbraio 2018 (archiviato dall'url originale il 16 febbraio 2019).
  3. ^ (EN) ImageNet Summary and Statistics, su image-net.org, ImageNet. URL consultato il 22 giugno 2016 (archiviato dall'url originale il 20 marzo 2019).
  4. ^ a b c (EN) From not working to neural networking, in The Economist, 25 giugno 2016. URL consultato il 3 febbraio 2018 (archiviato dall'url originale il 31 dicembre 2016).
  5. ^ (EN) ImageNet Overview, su ImageNet. URL consultato il 22 giugno 2016 (archiviato dall'url originale il 4 luglio 2016).
  6. ^ a b c (EN) Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg e Li Fei-Fei, ImageNet Large Scale Visual Recognition Challenge, in International Journal of Computer Vision, vol. 115, n. 3, Springer, Dicembre 2015, pp. 211-252, DOI:10.1007/s11263-015-0816-y, ISSN 0920-5691 (WC · ACNP).
  7. ^ a b (EN) Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li e Li Fei-Fei, IEEE, ImageNet: A large-scale hierarchical image database, 2009 IEEE Conference on Computer Vision and Pattern Recognition, Miami, IEEE, 18 agosto 2009, pp. 248-255, DOI:10.1109/CVPR.2009.5206848.
  8. ^ a b (EN) Dave Gershgorn, The data that transformed AI research—and possibly the world, su Quartz, Atlantic Media Co., 26 luglio 2017. URL consultato il 26 luglio 2017.
  9. ^ (EN) Li Fei-Fei, How we're teaching computers to understand pictures, su ted.com. URL consultato il 16 dicembre 2018.
  10. ^ Claudio Leonardi, ImageNet, la nuova via per trovare immagini sul web, in La Stampa, 23 novembre 2012 (archiviato dall'url originale il 29 novembre 2012).
  11. ^ a b (EN) Alex Krizhevsky, Ilya Sutskever e Geoffrey E. Hinton, ImageNet classification with deep convolutional neural networks (PDF), in Communications of the ACM, vol. 60, n. 6, Giugno 2017, pp. 84–90, DOI:10.1145/3065386, ISSN 0001-0782 (WC · ACNP). URL consultato il 24 maggio 2017.
  12. ^ (EN) Machines 'beat humans' for a growing number of tasks, in Financial Times, 30 novembre 2017. URL consultato il 3 febbraio 2018.
  13. ^ (EN) Dave Gershgorn, The inside story of how AI got good enough to dominate Silicon Valley, su Quartz, 18 giugno 2018. URL consultato il 10 Dicembre 2018 (archiviato dall'url originale il 24 maggio 2019).
  14. ^ a b (EN) Kaiming He, Xiangyu Zhang, Shaoqing Ren e Jian Sun, Deep Residual Learning for Image Recognition (PDF), in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770-778 (archiviato dall'url originale il 12 luglio 2018).
  15. ^ (EN) Martin Robbins, Does an AI need to make love to Rembrandt's girlfriend to make art?, in The Guardian, 6 maggio 2016. URL consultato il 22 giugno 2016 (archiviato dall'url originale l'11 aprile 2019).
  16. ^ (EN) National Academies of Sciences, Engineering, and Medicine, Information Technology and the U.S. Workforce: Where Are We and Where Do We Go from Here?, National Academies Press, 2017, p. 44, ISBN 978-0-309-45402-5.
  17. ^ (EN) John Markoff, A Learning Advance in Artificial Intelligence Rivals Human Abilities, in The New York Times, 10 dicembre 2015. URL consultato il 22 giugno 2016.
  18. ^ (EN) Jacob Aron, Forget the Turing test – there are better ways of judging AI, in New Scientist, 21 settembre 2015. URL consultato il 22 giugno 2016 (archiviato dall'url originale l'11 aprile 2019).

Voci correlate

[modifica | modifica wikitesto]

Collegamenti esterni

[modifica | modifica wikitesto]
  Portale Informatica: accedi alle voci di Wikipedia che trattano di informatica