האדופ

האדופ
Hadoop
מפתח	מוסד התוכנה אפאצ'י
מחזור חיים	1 באפריל 2006 – הווה (18 שנים)
גרסה אחרונה	3.4.0 (17 במרץ 2024)
מערכת הפעלה	חוצה-פלטפורמות, POSIX
נכתבה בשפות	Java
סוג רישיון	רישיון אפאצ'י
קוד מקור	https://git-wip-us.apache.org/repos/asf/hadoop.git; https://gitbox.apache.org/repos/asf?p=hadoop.git; https://github.com/apache/hadoop ;
	hadoop.apache.org

האדופ (באנגלית: Hadoop) הוא פרויקט קוד פתוח של מוסד התוכנה אפאצ'י המגדיר מסגרת תוכנה ליישום מבוזר המעבד כמויות גדולות של נתונים (Big Data).

האדופ מאפשר עבודה של אלפי יחידות עיבוד (Nodes) המטפלות בו זמנית במידע בהיקף של פטה-בתים. העבודה היא על קבצים גדולים המבוזרים על פני אשכולות מחשבים תוך שימוש במודל תכנות פשוט. לניהול העבודות במערכת מנוצלת חבילת תוכנה אפאצ'י אוזי ההשראה לפרויקט באה מטכנולוגיות של חברת גוגל: MapReduce ומערכת הקבצים Google File System. הוא נכתב במקור בשפת Java כפרויקט פנימי של חברת Yahoo!‎ והועבר בהמשך לתחזוקה באפאצ'י^[^{דרוש מקור]}. חברת Yahoo!‎ היא התורמת הגדולה ביותר לפרויקט ומשתמשת בתוצריו באופן אינטנסיבי. נכון לספטמבר 2011 החברות Yahoo!‎ ו-Facebook שתי המשתמשות בעלות נפח הנתונים הגדול ביותר שטופל באמצעות Hadoop.

יוצר התוכנה הוא דאג קטינג (אנ') שייעד אותה במקור לפרויקט מנוע החיפוש Nutch‏. Hadoop הוא שמו של פיל הצעצוע של בנו של קטינג. תמונתו של פיל זה מופיעה בלוגו של הפרויקט.

נכון ל-31 באוגוסט 2022 הגרסה האחרונה של האדופ היא 3.3.4.

ארכיטקטורה

הארכיטקטורה מורכבת מ-Master ורכיבי עיבוד המעבירים לו מידע. ב-Master מתקבלות תוצאות ומופקת תוצאת העיבוד.

תוכנת Hadoop מחולקת לשלושה פרויקטי ליבה ולפרויקטים נוספים המשלימים אותם, היוצרים ביחד את המוצר השלם.

פרויקטים בסיסיים

Hadoop Common

רכיב זה כולל מרכיבי תשתית בסיסיים לצורך עבודה שלו, ובנוסף להם תוכנות בהיבטים שונים הקשורים בעבודת Hadoop, שפותחו על ידי חברים בקהילה. ברכיב זה נמצאים מנגנונים לגישה למערכות קבצים הנתמכות על ידי Hadoop.

Hadoop Distributed File System בראשי תיבות HDFS

מערכת קבצים המנהלת קבצים מבוזרים באופן המאפשר ביצועים גבוהים בגישה למידע אפליקטיבי (יישומיים). תוכננה כמערכת בעלת יכולת לנהל קבצים עם כמויות נתונים גדולות במיוחד (פטה-בתים) המבוזרות באלפי נקודות קצה ומשתמשות בחומרה רגילה, תוך שמירה על רמת שרידות גבוהה.

YARN

מסגרת לתזמון תהליכים וניהול משאבי אשכול מחשבים.

Hadoop Map/Reduce

מסגרת תוכנה לעיבוד מבוזר של קבצים גדולים הנמצאים באשכולות מחשב. מנגנון ה-Map/Reduce ממומש ב-Master. הוא מורכב משני שלבים:

שלב המיפוי (Map) - בשלב זה מקבל ה Master קלט שעל פיו הוא מחליט כיצד לחלק את העבודה המבוזרת בין תהליכי משנה (Sub processes) כאשר כל אחד מהם מספק פתרון לחלק מהבעיה. לאחר מכן מחליט ה-Master כיצד לחלק את תהליכי המשנה בין Nodes שונים המבצעים כל אחד עיבוד שנותן פתרון לחלק הבעיה שהוקצה לו.
שלב הצמצום (Reduce) - בשלב זה אוסף ה-Master את תוצאות העיבודים של תהליכי המשנה שכל אחת מהן מהווה פתרון לחלק מהבעיה ומייצר מהן פלט המהווה פתרון כולל לבעיה.

מסגרת זו התחדשה עם יציאת YARN וכעת ניתן להשתמש במסגרת הישנה ללא YARN ובמסגרת החדשה (x.‏2) המבוססת עליו.

גרסאות תוכנה

גרסה יציבה - X.‏1.1
גרסת בטא - X.‏1.2
גרסת אלפא - X.X.‏2
גרסה ללא שרידות של name node - ‏ X.‏0.23
גרסה ללא אבטחה - ‏ X.‏0.22
גרסה יציבה ישנה - X.‏0.20.203
גרסה ישנה - ‏ X.‏0.20

פרויקטים משלימים

Avro - מערכת לסריאליזציה של נתונים (Data Serialization)^[1]
קסנדרה - בסיס נתונים ראשי (multi-master database) שמאפייניו הם: בסיס נתונים מבוזר, שרידות גבוהה וסילומיות (Scalability) גבוהה.^[2]
Chukwa - מערכת לאיסוף מידע מתוך מערכת קבצים ב HDFS.^[3]
HBase - בסיס הנתונים של Hadoop. מיועד לגישה רנדומלית בזמן אמיתי ל-Big Data לצורך ביצוע פעולות קריאה וכתיבה. טבלה בתוך בסיס הנתונים עשויה להכיל מיליארדי שורות ומיליוני טורים.^[4]
Hive - מחסן נתונים ל-Hadoop. מתאים לסיכום נתונים, לניתוח נתונים ולשאילתות אד הוק. העבודה מולו היא בשפת HiveQL - שפה דמוית SQL.^[5]
mahout - מאפשר בניית ספריות של מערכות ללימוד על ידי מכונה התומכות בסילומיות (Scalability) גבוהה.^[6]

(מיושם מעל מנגנון Map/Reduce של Hadoop. ניתן להשתמש בו גם בסביבות טכנולוגיות אחרות המיישמות מנגנון Map/Reduce.)

Pig - שפת תכנות גבוהה לניתוח נתונים באמצעות עיבוד מקבילי.^[7]
zookeeper - שירות לקואורדינציה בין אפליקציות מבוזרות בסביבה עם דרישות ביצועים גבוהות.^[8]

משתמשים

ב-Hadoop משתמשות חברות תוכנה רבות וידועות במיוחד לצורך ניהול כמויות גדולות של נתונים באינטרנט. בין המשתמשים רשתות חברתיות מקוונות ומנועי חיפוש. למעשה Hadoop הופך לסטנדרט דה פקטו בתחומו לאחר שיצרנים מובילים רבים משתמשים בו ככלי אסטרטגי ויצרנים מובילים אחרים הכריזו על שימוש בו בעתיד הקרוב.

בין המשתמשים הבולטים בתוכנה ניתן למנות את Yahoo!‎, פייסבוק, אמאזון, IBM, טוויטר, PayPal, אמריקה און ליין ועוד. EMC, מיקרוסופט ואורקל הכריזו על שימוש עתידי ב-Hadoop במסגרת הפתרונות שלהם ל-Big Data.

Cloudera היא חברה בולטת המבססת את מוצריה על Hadoop בתוספת מוצרי קוד פתוח נוספים.

קישורים חיצוניים

מדיה וקבצים בנושא האדופ בוויקישיתוף

אתר האינטרנט הרשמי של האדופ (באנגלית)
Dhruba Borthakur, Hadoop Architecture and its usage in Facebook, Borthakur
Dan Woods, Explaining Hadoop to Your CEO, Forbes
InfoSphere BigInsights - תוכנה מסחרית של חברת IBM שמבוססת על Hadoop.
Running Hadoop on Amazon EC2 - עבודה עם Amazon EC2 של חברת אמזון המתבססת על שימוש ב Hadoop.
Kevin Weil, Hadoop at Twitter (Hadoop Summit 2010), Slideshare
Pero Subasic, Evolution of Hadoop Ecosystem: AOL Advertising Experience, Cloudera
Jeff Kelli, Cloudera Sizes Up Hadoop Competitors EMC Greenplum and Yahoo HortonWorksof, Cloudera
Rachel king, Getting a Handle on Big Data with Hadoop, Bloomberg Businessweek
Oracle White Paper, Hadoop and NoSQL Technologies and the Oracle Database, Oracle
Scott M. Fuklton, Windows Azure adds Node.js Hadoop preview, ReadWrite Cloud
Hadoop, סיפורו של הפיל הצהוב - רם קדם

הערות שוליים

[1] Avro

[2] Cassandra

[3] Chukwa

[4] HBase

[5] Hive

[6] ut

[7] Pig

[8] zookeeper

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]