Apache Hadoop
Az Apache Hadoop egy nyílt forráskódú keretrendszer, amely adat-intenzív elosztott alkalmazásokat támogat. Nagy mennyiségű alacsony költségű, általánosan elérhető hardverből épített szerverfürtök építését teszi lehetővé. A Hadoop a Google MapReduce és a Google File System leírásaiból készült.
Történet
[szerkesztés]A Hadoop projektet Doug Cutting és Mike Cafarella[1] hozta létre 2005-ben. Cutting, aki akkor a Yahoo!-nál dolgozott, fiának játék elefántjáról nevezte el a projektet.[2] Eredeti céljuk a Nutch kereső elosztásának támogatása volt.
Architektúra
[szerkesztés]A Hadoop fő részei:
- Hadoop Common, amely a fájlrendszerrel és a operációs rendszerrel kapcsolatos absztrakciókat tartalmazza, valamint azokat a szkripteket és programokat, amelyek a Hadoop rendszer indításához szükségesek
- MapReduce rendszer
- Hadoop Distributed File System (Hadoop elosztott fájlrendszer)
Fájlrendszerek
[szerkesztés]HDFS
[szerkesztés]A HDFS (Hadoop Distributed File System - Hadoop Elosztott Fájlrendszer) egy elosztott, skálázható és hordozható fájlrendszer, amelyet a Hadoop rendszerhez írtak Java nyelven.
Más fájlrendszerek
[szerkesztés]A Hadoop bármilyen elosztott fájlrendszerrel együtt tud működni, amely az adott operációs rendszeren csatlakoztatható. Ennek ugyanakkor megvan az ára: a hely információk elvesztése. A hálózati forgalom csökkentéséhez a Hadoopnak tudnia kell, melyik szerverek vannak az adathoz közel, ezt az információt tudják a Hadoop-specifikus adapterek megadni.
A támogatott fájlrendszerek között:
- Amazon S3 fájlrendszer. Ez azoknak a fürtöknek lehet hasznos, amelyek az Amazon EC2 szolgáltatásán futnak. Ez a fájlrendszer nem veszi figyelembe a rack elhelyezést, mivel távoli eléréssel működik.
- maprfs
- CloudStore, amely figyelembe veszi a rack elhelyezést
- FTP: minden adatot távolról hozzáférhető FTP szervereken tárol
- HTTP/HTTPS: egy csak olvasható filerendszer, amely http szerverekről olvas
MapReduce implementáció
[szerkesztés]Közismert felhasználók
[szerkesztés]Yahoo!
[szerkesztés]A Yahoo! 2008 február 19-én indította el a Yahoo! Search Webmap szolgáltatását, amely állításaik szerint 10 000 CPU-maggal a legnagyobb Hadoop-ot futtató linux klaszter a világon. A rendszer által generált adatokat minden Yahoo! keresési eredmény felhasználja.
A Yahoo! több Hadoop fürtöt működtet és a HDFS fájlrendszereit valamint a MapReduce feladatait nem osztja el több adatközponton.
2010-ben a Facebook állítása szerint övék volt a legnagyobb Hadoop fürt összesen 21 PB adatkapacitással.[3] 2011 július 7-én bejelentették, hogy az adatmennyiség 30 PB-ra nőtt, majd 2012 június 13-án 100 PB-ra. A cég 2012 november 8-i bejelentése szerint a Hadoop fürt tárolókapacitása naponta nagyjából fél petabyte-tal nő.
Más felhasználók
[szerkesztés]- NetApp
- SAP AG[4]
- The New York Times
- LinkedIn[5]
- Microsoft
- Last.fm
- Akamai
- Apple[6]
- IBM
- eBay
- Ericsson
- AOL
- Amazon
Fordítás
[szerkesztés]- Ez a szócikk részben vagy egészben az Apache Hadoop című angol Wikipédia-szócikk fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.
Jegyzetek
[szerkesztés]- ↑ Mike Cafarella szakmai életrajza
- ↑ Hadoop, a Free Software Program, Finds Uses Beyond Search
- ↑ hadoopblog: Facebook has the world's largest Hadoop cluster!, 2010. május 9. (Hozzáférés: 2015. április 9.)
- ↑ SAP unveils unified strategz for real-time data management to grow database market leadership Archiválva 2013. szeptember 25-i dátummal a Wayback Machine-ben - sap.com
- ↑ Building a terabyte-scale data cycle at LinkedIn with Hadoop and Project Voldemort - LinkedIn
- ↑ Steve Jobs embraces Google's bastard grid child - The Register