reCAPTCHA

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש
סמליל מערכת reCAPTCHA

reCAPTCHA היא מערכת שפותחה לראשונה באוניברסיטת קרנגי מלון, אשר מטרתה היא לסייע בהמרת טקסטים מודפסים לפורמט דיגיטלי, תוך שימוש ב-CAPTCHA (מנגנון המשמש להגנה על אתרי אינטרנט מפני בוטים). בספטמבר 2009 נרכשה reCAPTCHA על ידי גוגל. נכון לשנת 2012, הפרויקט אותו מובילה reCAPTCHA הוא המרת כל גיליונות העיתון "הניו יורק טיימס" לפורמט דיגיטלי. בנוסף, היא מסייעת לפענח מילים מספרים שנסרקו במסגרת פרויקט גוגל ספרים.

בשנת 2014 הכניסה גוגל למערכת ReCAPTCHA שיטת אימות אחרת המתבססת על אתגר זיהוי תמונות הדורש לסמן תמונות המכילות אלמנט מסוים. בנוסף פיתחה אפשרות אימות באמצעות לחיצה פשוטה על תיבת סימון "אני לא רובוט", המערכת מזהה את תנועות העכבר ולפיהן קובעת אם מדובר באדם.

בנובמבר 2018 השיקה גוגל את גרסה 3, ובה אין צורך באימות מצד הלקוח. מפעיל האתר מטמיע את המערכת באתר, והמערכת מדרגת על פי התנהגות הלקוח, מה הסבירות כי מדובר ברובוט. מפעיל האתר יכול לקבוע כי מרמת סבירות מסוימת הלקוח ייחסם או יידרש ממנו אימות נוסף[1].

רקע

אחת הבעיות בהמרת טקסטים לפורמט דיגיטלי באמצעות תוכנות לזיהוי תווים אופטי (OCR), היא שלעיתים קרובות, תוכנות אלה אינן מצליחות לזהות מילים מסוימות בטקסט אותו הן סורקות, למשל, בשל דהייה או "מריחה" של המילה המודפסת (במיוחד במקרים בהם הטקסט הנסרק הוא ישן מאוד, כמו גיליונות העיתון "ניו יורק טיימס" הראשונים, שיצאו לאור ב-1851).

כדי להתגבר על הבעיה, יש צורך בזיהוי המילה על ידי גורם אנושי. לצורך כך, מערכת reCAPTCHA מספקת לאתרים הרשומים לפרויקט (הרישום לפרויקט הוא חופשי), תמונות של מילים סרוקות אשר לא זוהו על ידי התוכנה. אתרים אלה מציגים את התמונה לגולשיהם כחלק ממנגנון ה-CAPTCHA הרגיל שלהם. הגולשים מזהים את המילים הסרוקות, והתוצאות מועברות בחזרה למערכת reCAPTCHA.

נכון לשנת 2011, המערכת מסייעת בזיהוי של כ-100 מיליון מילים מדי יום. בין האתרים הגדולים העושים שימוש במערכת ניתן למצוא את פייסבוק, טוויטר ו-TicketMaster.

שיטת העבודה

בסריקת טקסט מודפס והמרתו לטקסט דיגיטלי, נהוג להשתמש בשתי תוכנות שונות לזיהוי תווים אופטי. במקרה ובו אין התאמה בין תוצאות הזיהוי של שתי התוכנות, מומרת המילה הסרוקה ל-CAPTCHA. המילה הסרוקה מוצגת לגולש בצמוד למילת בקרה, אשר זהותה ידועה. המערכת מניחה כי אם זיהה הגולש נכונה את מילת הבקרה, הרי שהוא זיהה נכונה גם את המילה שבמחלוקת.

זיהוי שבוצע על ידי כל אחת מתוכנות זיהוי התווים, מקנה למילה חצי נקודה, וזיהוי על ידי גורם אנושי מעניק למילה נקודה אחת. כאשר מילה מסוימת צוברת 2.5 נקודות, המערכת רואה בה מילה שפוענחה. מילים שצברו מספר רב של נקודות זיהוי, "ממוחזרות" ומשמשות כמילות בקרה.

לקריאה נוספת

קישורים חיצוניים

אתר האינטרנט הרשמי של ReCAPTCHA

ויקישיתוף מדיה וקבצים בנושא ReCAPTCHA בוויקישיתוף

הערות שוליים

  1. ^ יניב אביטל, סוף סוף: גוגל הופכת את ה-CAPTCHA להרבה פחות מעיק, באתר geektime, ‏1 בנובמבר 2018
הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

29053023ReCAPTCHA