גוגל ספרים

(הופנה מהדף Google Books)

גוגל ספריםאנגלית: Google Books)[1] הוא שירות רב-לשוני של גוגל לעריכת חיפושי טקסט בספרים שגוגל סרקה, המירה לטקסט באמצעות זיהוי תווים אופטי, ואחסנה במסד הנתונים הדיגיטלי שלה. בעבר נודע השירות כ-Google Print ("דפוס גוגל"), השם שבו הוא הוצג ביריד הספרים בפרנקפורט באוקטובר 2004. את שמו הנוכחי, Google Book Search, קיבל עת הוכרז רשמית בדצמבר 2004. בדצמבר 2010 השיק האתר את חנות הספרים האלקטרוניים Google eBookstore.

גוגל ספרים
Google Books
הצגה של ספר ב"תצוגה מלאה"
הצגה של ספר ב"תצוגה מלאה"
הצגה של ספר ב"תצוגה מלאה"
סוג ספרייה מקוונת
תקופת הפעילות דצמבר 2004 – הווה (כ־20 שנה)
מייסדים לארי פייג' וסרגיי ברין
בעלות גוגל (חברה)
הרשמה אופציונלי
books.google.co.il

מספר הספרים הסרוקים הגיע ל-15 מיליון ב-2010, 20 מיליון ב-2012, ו-25 מיליון ב-2015.

היוזמה זכתה לתשבחות רבות בזכות הפוטנציאל הגלום במתן גישה חסרת תקדים למה שיכול להפוך לקורפוס המקוון הגדול ביותר של הידע האנושי,[2][3] ובקידום הדמוקרטיזציה של הידע.[4] אולם האתר אינו חף גם מביקורת על פוטנציאל הפרות זכויות יוצרים הקיים בו.[4][5]

תוצאות מ"גוגל חיפוש ספרים" מופיעות בחיפוש כללי באינטרנט הן בכתובת google.com והן דרך אתר ייעודי של גוגל ספרים: (books.google.com). בחיפוש כללי באתר גוגל עשויות להופיע עד שלוש תוצאות מהאינדקס של גוגל ספרים, ובמקרים רלוונטיים, הן יופיעו מעל תוצאות החיפוש האחרות.

לחיצה של על תוצאה ב"גוגל ספרים" תפתח ממשק בו יכול המשתמש לעיין בדפים מתוך הספר, כאשר חוקי זכויות יוצרים או בעל זכויות היוצרים מאפשרים זאת. ספרים הנמצאים ברשות הציבור (בארצות הברית) זמינים ל"תצוגה מלאה" ולהורדה בחינם. גוגל מגבילה את מספר העמודים הניתנים לצפייה עבור ספרים שעדיין מודפסים, באמצעות מגוון רחב של מגבלות גישה ואמצעי אבטחה, שחלקם מבוססים על קובצי עוגייה.[6] מתוך ספרים שבעליהם לא זוהו והעשויים להיות מוגנים בזכויות יוצרים, ניתן לצפות רק בקטע מזערי של כ-2–3 שורות, אך הטקסט המלא של הספר זמין לחיפוש.

לצד תוצאות החיפוש מופיעות פרסומות הקשורות לתוכן החיפוש, אך הן לא מופיעות ליד ספרים הנצפים בתצוגה מקדימה. האתר מספק קישורים לאתר האינטרנט של המוציא לאור ומוכרי ספרים.

מסד הנתונים של "גוגל ספרים" מוסיף להתרחב, אך היות שגוגל חייבת לוודא שהיצירות מעוגנות בחוקי הזכויות יוצרים המקומיים, הוא אינו נגיש במלואו עבור משתמשים מחוץ לארצות הברית. לדברי איש צוות התמיכה של האתר, "מאחר שהשאלה אם ספר מסוים נמצא ברשות הציבור היא לעיתים קרובות שאלה משפטית סבוכה, אנו נוקטים במשנה זהירות ומציגים לכל היותר מספר קטעי טקסט עד אשר נקבע כי הספר יצא לנחלת הכלל"[7] עם זאת, משתמשים מחוץ לארצות הברית יכולים לגשת למספר גדול של ספרים הנמצאים ברשות הציבור ונסרקו על ידי גוגל, באמצעות עותקים המאוחסנים בארכיון האינטרנט.[8]

בשנת 2010 העריכה גוגל שמספר הספרים בעולם כולו עומד על כ-130 מיליון ספרים ייחודיים (129,864,880 ליתר דיוק, כ-20 אחוז מתוכם נמצאים ברשות הציבור). מנהל הנדסה בפרויקט מסר כי גוגל מתכוונת לסרוק את כולם בתוך עשור, והם יסתכמו בלמעלה מ-4 מיליארד דפים דיגיטליים ו-4 טריליון מילים. ב-14 באוקטובר 2010 הוצגו באתר מעל 15 מיליון ספרים סרוקים[9] רובם הגדול ספרים שאינם מודפסים יותר או שאזלו מחנויות הספרים (בארצות הברית, בריטניה או אוסטרליה).[10] למרות זאת, משתמשי השירות מעיינים בלא פחות מ-80 אחוז מתוך 15 מיליון הספרים הדיגיטליים הללו לפחות פעם בחודש.[11]

בארכיון האתר זמינים בתצוגה מלאה או חלקית מספר רב של חיבורים בשפה העברית, חלקם ספרי קודש מהמאה ה-12 ואילך.

אופן הסריקה

עריכה

חלק גדול מהספרים נסרקים באמצעות מנגנון סריקה המורכב משתי מצלמות מהירות המצלמות את תוכן הדף, וממצלמת אינפרא-אדום המצלמת את ממדי הדף, על מנת שהמחשב המצורף למערכת יוכל לחשב היכן הדף עקום (בדרך כלל באזור הכריכה) ולתקן בהתאם. כדי למנוע תופעות של דילוג על דפים בטעות במהלך תהליך הדפדוף המייגע, גוגל פיתחה מערכת המשמיעה צליל במרווחי זמן קבועים שאמורים להעניק למפעיל המערכת תחושת קצב בעלעול הדפים. המערכת עשויה גם להשמיע צליל שגיאה במקרה דילוג או כשידו של המפעיל נמצאת בתוך התמונה.[12]

חלק מהמצלמות הנמצאות בשימוש בגוגל סורקות בתדירות של 1,000 עמודים לשעה, ובאיכות של 11 מגה פיקסל לכל עמוד[13] באוניברסיטת סטנפורד, אחת משותפותיה של גוגל בפרויקט הסריקה, נעשה שימוש במפעיל אנושי המניח את הספר על משטח יציב, כאשר רובוט פנאומטי הופך את הדפים - בעדינות מספקת כדי לטפל בספרים נדירים - תחת עיניה הסורקת של המצלמה הדיגיטלית.

בספטמבר 2009 רכשה גוגל את reCAPTCHA, שעושה שימוש במנגנון אנושי, CAPTCHA, כדי לזהות מילים שתוכנת זיהוי התווים לא הצליחה לזהות בבירור.

פרויקטים דומים

עריכה

אומנם "גוגל ספרים" סרקה מספר רב של כתבי עת, אך סריקות אלו אינן כוללות את המידע הנדרש לזיהוי מאמרים ספציפיים בנושאים מוגדרים. עניין זה הוביל לתוכנית נפרדת בשם Google Scholar, המספרתת (מבצעת דיגיטציה) ומאחסנת גם מאמרים מכתבי עת ישנים (בהסכם עם המו"לים שלהם).

הפרויקט עורר טענות בקרב חוגים אינטלקטואליים ופוליטיים באירופה, שהביעו חשש מ"אימפריאליזם של השפה האנגלית". לטענתם, היות שהרוב המכריע של הספרים מוצגים בשפה זו, הדבר גורם לייצוג לא פרופורציונלי של השפות הטבעיות בעולם המקוון. גרמנית, רוסית, וצרפתית לדוגמה, הן שפות נפוצות בעולם הידע והספרות; הדגש הבלתי-מידתי על אנגלית עלול לעצב את אופן הגישה לידע ומחקר היסטורי, ובסופו של דבר, גם את אופייה וכיוונה בעתיד. בין המבקרים הללו נמנה ז'אן נואל, נשיא ה"ביבליוטק נשיונל דה פראנס"[14]

בהקשר זה וכדי לתת מענה אירופי למיזם הספרים של גוגל, נפתח בנובמבר 2008 ביוזמת האיחוד האירופי אתר אירופיאנה. נכון לסוף שנת 2010 מקשר האתר לכ-14.6 מיליון אובייקטים דיגיטליים,[15] למעלה מ-3.4 מיליון מתוכם הם ספרים[16] והוא כולל גם פריטי וידאו, תמונות, ציורים, אודיו, מפות, כתבי יד, ספרים מודפסים, ועיתונים, המתעדים 2000 שנות היסטוריה אירופית ושנאספו מלמעלה מ-1,500 ארכיוני האיחוד האירופי[17]

טענה נוספת שהועלתה כנגד הפרויקט הייתה שהוא מוביל למונופוליזציה וריכוז של הידע בידי גוף מסחרי יחיד. על כך השיבה גוגל שאין דבר המונע מכל גוף שהוא לערוך פרויקט דומה לשלה.

בין האתרים המציעים או הציעו שירות דומה:

  • מיקרוסופט החלה בפרויקט דומה בשם "לייב סרצ' בוקס" (Live Search Books) שהושק בסוף 2006. השירות פעל עד לנטישתו במאי 2008.‏[18] לאתר נסרקו 750.000 ספרים ו-80,000,000 כתבות עיתונות. כל הספרים שהועלו לאתר זמינים בארכיון האינטרנט, שהוא ארגון ללא כוונת רווח, והפרויקט השני בגודלו אחרי גוגל בתחום סריקת הספרים. נכון לאוקטובר 2010, האתר מכיל יותר מ-2.5 מיליון ספרים סרוקים. חברת קירטאס (Kirtas) טכנולוגיות הייתה ספקית הדיגיטציה הגדולה ביותר שנבחרה על ידי מיקרוסופט עבור הפרויקט Live Search. בחודש יוני 2009 השיקה החברה את האתר KirtasBooks.com, שמכיל כמיליון כותרים מספריות המשתתפות בפרויקט כדי לספק הדפסה באיכות גבוהה והורדה דיגיטלית.
  • אתר גאליקה של הספרייה הלאומית של צרפת מקשר לכ-800,000 ספרים דיגיטליים, עיתונים, כתבי יד, מפות וציורים, וכו'. הספרייה הדיגיטלית מוסיפה להתרחב מאז שנת היווסדה ב-1997, בקצב של כ-5000 מסמכים חדשים לחודש. חלק הארי של המסמכים הסרוקים, הכתובים רובם בצרפתית, זמינים לעיון בפורמט של תמונה וטקסט מאז סוף 2008.
  • HathiTrust (אנ') מחזיקה את הספרייה הדיגיטלית HathiTrust מאז 13 אוקטובר 2008,[19] המשמרת ומספקת גישה לחומר שנסרק על ידי גוגל, ארכיון האינטרנט, וארגונים מקומיים על ידי מוסדות משותפים. נכון למאי 2010, הספרייה כוללת כ-6 מיליון כרכים, למעלה מ-1 מיליון מתוכם נמצאים ברשות הציבור.

ציוני דרך משמעותיים

עריכה
  • 2004: גוגל הרחיבה את שירות Google Print, המכונה גם Google Print Library Project, ומבססת שותפויות עם אוניברסיטאות וספריות ציבוריות מובילות, תוך שהיא מצהירה על כוונתה לספרת ולהפוך לזמין כ-15 מיליון ספרים באמצעות שירות גוגל ספרים בתוך עשור.
  • 2005: גילדת הסופרים ואיגוד ההוצאות לאור בארצות הברית תובעות את גוגל בגין אי כיבוד זכויות יוצרים ואי מתן פיצוי ראוי לסופרים ומוציאים לאור. בחודש יוני שינתה גוגל את שם השירות מ-Google Print ל-Google Book Search.
  • 2007-2006: אוניברסיטאות וספריות רבות בעולם מוסיפות להצטרף לפרויקט ומעמידות עשרות רבות של מיליוני ספרים לרשות גוגל.
  • 2008: תעשיית ההוצאה לאור וגוגל הגיעו להסכם לאחר שנתיים של משא ומתן, גוגל תפצה סופרים ומוציאים לאור תמורת הוצאת מיליוני ספרים לרשות הציבור. בחודש דצמבר הודיעה גוגל על הכללת מגזינים בפרויקט.
  • 2009: גוגל מודיעה בוועידה השנתית BookExpo בניו יורק על תוכנית שתאפשר למוציאים לאור למכור את ספריהם החדשים דרך גוגל. גוגל נוחלת הפסד משפטי משמעותי ראשון לפרויקט, כאשר בדצמבר מפסיק בית משפט צרפתי את הסריקה של ספרים מוגנים היוצאים לאור בצרפת.
  • 2010: בסוף חודש יולי הושק הפרויקט רשמית בגרסה עברית מלאה. גוגל הודיעה שחתמה על הסכמים עם מספר הוצאות לאור ישראליות, לרבות הוצאת כתר, ובכוונתה לחתום עם כל ההוצאות. בחודש דצמבר השיקה גוגל את Google eBookstore - חנות ספרים מקוונת המתחרה עם אמזון ואפל. החנות מציעה (בינתיים לתושבי ארצות הברית בלבד) מבחר ראשוני של 3 מיליון ספרים, אותם ניתן לקרוא בקוראי ספרים אלקטרוניים רבים, למעט קינדל. באוקטובר עברה גוגל את רף ה-15 מיליון ספרים סרוקים.

שותפים

עריכה

גוגל חתמה על הסכמי דיגיטציה עם כ-22,000 חברות הוצאה לאור, ועם כארבעים ספריות. (נכון לשנת 2010)[20]

לגוגל ספרים גם מיזם משותף עם הספרייה הלאומית, במסגרתו ייסרקו לגוגל ספרים 120,000 ספרים מאוסף הספרייה, שזכויות היוצרים עליהם פגו.[21]

זכויות יוצרים, שימוש הוגן

עריכה

בתעשיית ההוצאה לאור ובאיגודי סופרים מתחו ביקורת על הכללת גזירי טקסט של יצירות מוגנות בזכויות יוצרים, וראו בכך הפרת זכויות. איגוד המו"לים האמריקאי וגילדת הסופרים (כל אחד בנפרד) תבעו בסוף שנת 2005 את גוגל על "הפרת זכויות יוצרים מסיבית". בתגובה טענה גוגל שהפרויקט הוא המקביל הדיגיטלי לכרטסת קיטלוג מסורתית והוא מעוגן בשימוש הוגן, משום שהציטוט המוצג בגזירי הטקסט הוא קצר ודומה באורכו לתוצאות החיפוש שמפנה לאתרים, או לציטוט המופיע בביקורת ספרותית. על אף האמצעים שנקטה גוגל, בכך שסיפקה טקסט מלא רק לספרים הנמצאים ברשות הציבור, תוך הגבלת העיון בספרים מוגנים לקטעי טקסט בני מספר שורות בלבד, המו"לים טענו שאין לגוגל זכות להעתיק ספרים מוגנים שלמים, ולאחסן אותם בכמויות גדולות במסד הנתונים שלה תמורת רווח כספי.

לאחר שנתיים וחצי של משא ומתן, גוגל חתמה בשנת 2008 על הסדר עם תעשיית המולי"ם ואיגוד הסופרים בארצות הברית, בו היא הסכימה לשלם סך של 125,000,000 דולר לבעלי הזכויות של הספרים שסרקה. גוגל התחייבה לכסות את הוצאות המשפט, ונדרשה ליצור פנקס רישום של בעלי הזכויות. עם זאת, הסדר הפשרה לא אושר לאחר שמשרד המשפטים האמריקאי סבר שההסכם מפר את חוק ההגבלים העסקיים. לאחר דיונים משפטיים שארכו 13 חודשים, דחה שופט פדרלי את ההסדר בנימוק שהוא העניק לגוגל מונופול, הפר חוקי זכויות יוצרים וחוק ההגבלים העסקיים, ואפשר לגוגל להרוויח מספרים ללא השגת רשות מיוצריהם.[22]

בנוסף, ההסדר עורר התנגדות בקרב מספר ארגונים אמריקאיים שלא היו חלק מהתביעה וההסדר, ביניהם ארגון הסופרים והעיתונאים האמריקאי ואיגוד האמנים החזותיים, שמתחו ביקורת גורפת על ההסדר והגישו תביעות נוספות. ספריית הווארד התריעה בעקבות ההסדר שתיסוג מהפרויקט אם גוגל לא תחדל לסרוק ספרים מוגנים.

כמתחייב מההסדר, השיקה גוגל בפברואר 2009 אתר אינטרנט המאפשר לסופרים להגיש טופסי תביעה מקוונים, ולקבל בתמורה 60 $ עבור ספר שלם, או 5 עד 15 דולר על תוספות חלקיות לספר. בתמורה, גוגל יכולה לאנדקס את הספרים ולהציג קטעים קצרים ממנו בתוצאות החיפוש, כמו גם להציג 20% מכל ספר במצב תצוגה מקדימה. גוגל יכולה גם להציג בדפים אלה מודעות פרסום ולמכור גרסאות אלקטרוניות של כל ספר. המחברים ובעלי זכויות היוצרים יקבלו 63 אחוזים מכלל הכנסות הפרסום והמסחר האלקטרוני הקשורים ביצירותיהם. סופרים שאינם מעוניינים להיכלל בהסדר זכאים למסור הודעת סירוב ולצאת מהמאגר.

בשנת 2009 נקנסה גוגל בסך 300,000 € על ידי בית משפט אזרחי בפריז, שהורה לגוגל לשלם 10,000 € ליום עד להסרת ספרי המו"ל התובע ממסד הנתונים שלה. בית המשפט כתב כי "גוגל הפרה את זכויות היוצרים של המחברים בכך שסרקה ואפשרה גישה לספרים שבבעלות המו"ל ללא אישורה" גוגל ערערה על הפסק בערכאה גבוהה יותר. הסופרת הסינית מיאן מיאן הגישה באותה שנה תביעה אזרחית נגד גוגל על סך 8,900 $, בגין סריקת הרומן שלה "אוהבי חומצה". זוהי התביעה הראשונה נגד גוגל בסין.

גוגל הגיבה לביקורת המתמשכת בציינה שסריקת הספרים ואחסונם באינטרנט מגנה על המורשת התרבותית של העולם; סרגיי ברין, אחד ממייסדי גוגל אמר כי "הספרייה המפורסמת של אלכסנדריה נשרפה שלוש פעמים, בשנת 48 לפנה"ס, 273 לספירה ו-640 לספירה, כמו גם ספריית הקונגרס, שם החריבה האש בשנת 1851 שני שלישים מהארכיון. אני מקווה שלא יקרה שוב הרס כזה, אולם ההיסטוריה מצביעה אחרת".[23]

מומחים למשפט בארצות הברית טענו כי הפרויקט מסכן את דוקטרינת השימוש הוגן, כיוון שבפרויקט נעשה שימוש בטענת השימוש הוגן בממדים כה אדירים שהוא עלול לגרום להגבלה משפטית של זכות זו. מאחר שאיגוד המו"לים הגיעה בסוף להסדר עם גוגל, המחלוקת על הגבלות השימוש הוגן נותרה בינתיים בלתי פתורה.

ביקורת על השירות

עריכה

מספר גופים הצביעו על בעיות איכות שהתגלו בסריקות ובתהליך ההמרה לטקסט. המגזין דר שפיגל מבקר תכופות את החוסר במטה-דאטה ואת איכות הסריקה - שאף על פי שנעשית בתהליך ידני התגלו בה טעויות גדולות, כמו כיתוב שגוי של שמות מחברים או שמות ההוצאה לאור, דפים חסרים מתוך הספר או דפים בלתי קריאים.[24] ממחקר שנערך על ידי פרופסור בבית הספר למידע באוניברסיטת ברקלי בשנת 2007, עולה ש"איכות הסריקה (ובעקבותיה איכות החיפוש) היא לעיתים לקויה ביותר. הגרסאות המוצגות הן, במקרה הטוב, מאכזבות".[25] כמו כן נמצאו בעיות של קיטלוג שגוי בגרסה העברית של האתר.[26]

קישורים חיצוניים

עריכה
  מדיה וקבצים בנושא גוגל ספרים בוויקישיתוף

הערות שוליים

עריכה
  1. ^ נקרא בעבר גם Google Book Search ו-Google Print
  2. ^ Bergquist, Kevin (2006-02-13). "Google project promotes public good". The University Record. University of Michigan. נבדק ב-2007-04-11.
  3. ^ Pace, Andrew K. (בינואר 2006). "Is This the Renaissance or the Dark Ages?". American Libraries. American Library Association. נבדק ב-2007-04-11. {{cite web}}: (עזרה)
  4. ^ 1 2 Malte Herwig, "Google's Total Library", Spiegel Online International, Mar. 28, 2007.
  5. ^ Cohen, Noam (1 בפברואר 2009). "Some Fear Google's Power in Digital Books". New York Times. נבדק ב-2009-02-02. {{cite news}}: (עזרה).
  6. ^ Greg Duffy (במרץ 2005). "Google's Cookie and Hacking Google Print". Kuro5hin. {{cite web}}: (עזרה).
  7. ^ Ryan Sands (9 בנובמבר 2006). "From the mail bag: Public domain books and downloads" (blog). Inside Google Book Search. {{cite web}}: (עזרה).
  8. ^ Archive.org
  9. ^ "On the Future of Books". Google. נבדק ב-2010-10-16.,
  10. ^ "In Google Book Settlement, Business Trumps Ideals". PC World. 28 באוקטובר 2008. נבדק ב-2008-10-31. {{cite news}}: (עזרה).
  11. ^   Florence Waters, ‏The best online culture archives, The Telegraph, 1 February 2011
  12. ^ Google’s Book Scanning Technology Revealed
  13. ^ Kelly, Kevin (14 במאי 2006). "Scan This Book!". New York Times Magazine. נבדק ב-2008-03-07. {{cite news}}: (עזרה).
  14. ^ Jean-Noël Jeanneney (2006-10-23). Google and the Myth of Universal Knowledge: A View from Europe. ISBN 0-226-39577-4..
  15. ^ על פי עמוד האודות באתר המיזם
  16. ^ "Highlights of Europeana v1.0, pg 5" (באנגלית). European Commission. אורכב מ-המקור ב-2011-07-20.,
  17. ^ "Europe's Answer to Google Book Search Crashes on Day 1". Wired. 2008. נבדק ב-2008-11-24..
  18. ^ "Microsoft starts online library in challenge to Google Books". AFP. Melbourne. 2006-12-08. נבדק ב-2008-11-24.
  19. ^ Languagehat.com
  20. ^ רשימה באתר גוגל
  21. ^ 120,000 ספרים יעלו לרשת במסגרת שיתוף פעולה ראשון מסוגו של הספרייה הלאומית וגוגל, באתר הספרייה הלאומית
  22. ^ מיה סלע, העתיד המעורפל של גוגל ספרים, באתר הארץ, 27 במרץ 2011
  23. ^ BBC: Google hits back at book critics, BBC, 9 October 2009
  24. ^ Malte Herwig: Die entleibte Bibliothek. In: Der Spiegel, 12/2007, S. 186 f.
  25. ^ Inheritance and loss? A brief survey of Google Books by Paul Duguid,
  26. ^ אורי ברייטמן, גוגל ספרים בעברית - בעיות קיטלוג, בבלוג חופש החיפוש