בלשנות חישובית

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש

בלשנות חישובית (אנגלית: Computational Linguistics) היא ענף מחקר רב-תחומי, המשלב רעיונות וכלי מחקר מתחום הבלשנות, מדעי המחשב ותחומים קרובים. לבלשנות החישובית שתי מטרות מחקריות: תאורטית ומעשית.

בלשנות חישובית תאורטית מנסה להתמודד עם שאלות היסוד של מדע הבלשנות, כגון מהי שפה וכיצד בני אדם משתמשים בה ולומדים אותה, באמצעות עקרונות וכלים מתחום מדעי המחשב והבינה המלאכותית. החוקרים בתחום זה מפתחים מודלים של פנים שונות של תופעת השפה, שאפשר ליישם בתוכנה. מודלים אלה נחקרים בכלים תאורטיים של מדעי המחשב ובאמצעות סימולציות.

מטרתה של הבלשנות החישובית המעשית, לעומת זאת, היא לפתח יישומי מחשב התומכים בשימוש בשפה אנושית, כמו תוכנות לתרגום אוטומטי ותוכנות המסוגלות לענות על שאלות המנוסחות בעברית, אנגלית או סינית, לדוגמה. לתת-תחום זה של בלשנות חישובית קוראים גם עיבוד שפה טבעית (באנגלית: NLP – Natural Language Processing). זאת בניגוד לעיבוד שפות מלאכותיות, כמו שפות תכנות, שהיא משימה שמחשבים מבצעים בקלות יחסית.

לעיתים העיסוק בשתי המטרות משולב, וקיימת הפריה הדדית ביניהן. עם זאת, לצורך הבהירות ערך זה מתמקד בעיקר בבלשנות החישובית התאורטית; לקריאה נוספת על בלשנות חישובית מעשית, ראו את הערך עיבוד שפה טבעית.

מקורות

שורשיה של הבלשנות החישובית התאורטית נטועים, מטבע הדברים, הן במחקר הבלשנות והן במדעי המחשב. תחילת העיסוק בשפה טבעית במחשב נטוע בניסיון ללמד מחשבים לתרגם משפטים וטקסטים שונים בין שפות אנושיות שונות. ניסיונות אלה החלו מיד לאחר פיתוח המחשבים הראשונים, בראשית שנות ה-50 של המאה ה-20. האופטימיות של העוסקים בתחום נשענה, בין השאר, על ההצלחה בשימוש במחשבים לפענוח צפנים בעת מלחמת העולם השנייה. מעבר בין שפה לשפה נתפס אז כסוג של פענוח צופן. אך ההצלחות בתחום היו מוגבלות מאד, ובשנות ה-60 בעקבות דוח בדיקה שפורסם על ידי ועדה של ממשלת ארצות הברית, הוא ננטש למעשה למשך כ-20 שנה. כישלון זה הוביל להכרה באתגרים שמציב ניתוח חישובי של שפה טבעית, והמחיש את הצורך המעשי בנקודת מבט חישובית על הבלשנות.

גישות ותחומי מחקר

דקדוקים פורמליים

בשנת 1956 הציע הבלשן היהודי-אמריקאי נועם חומסקי את האפשרות לייצר קבוצת חוקים, שעל ידי הפעלתם אפשר לייצר את כל המשפטים החוקיים בשפה, ורק אותם. זוהי תחילתה של תורת השפות הפורמליות, שהפכה לכלי מרכזי במתמטיקה ומדעי המחשב. הניסיון ליצור מודלים פורמליים לתחביר (ואף לסמנטיקה) של שפות אנושיות הפך מאז לגביע ה"קדוש" של הבלשנות החישובית התאורטית, ובמידה מסוימת של הבלשנות התאורטית בכלל.

חומסקי חילק את השפות הפורמליות לארבע רמות, הנבדלות ביניהן בכח ההבעה שלהן, כלומר במידת המורכבות של המשפטים שניתן להביע באמצעותן. הוא טען שהשפות הטבעיות הן שפות חסרות הקשר, כלומר הן שייכות לרמה השלישית בהיררכיה שלו.

בלשנות חישובית ובינה מלאכותית

המחקר האינטנסיבי בתחום הבינה המלאכותית בשנות ה-50 וה-60 השפיע גם הוא על הבלשנות החישובית. המחקר התמקד בלוגיקה ובהסקת מסקנות, ובאמצעותו נבנו מודלים לסמנטיקה של שפה ומערכות מחשב ראשונות להבנת שפה טבעית.

גישות סטטיסטיות ומבוססות קורפוס

בשנת 1932 פרסם הבלשן האמריקאי ג'ורג' קינגזלי זיף (Zipf) את מה שנודע כחוק זיף. לפי חוק זה, באוסף גדול של משפטים או מבעים בשפה טבעית, יש מספר קטן מאד של מילים שמופיעות מספר רב של פעמים; הרוב הגדול של המילים מופיעות מעט מאד פעמים. חוק זיף מדגים את העובדה שיש בשפה תופעות שניתן לגלות ולחקור בכלים סטטיסטיים. כלומר, אם ניקח מדגם גדול מספיק של השפה הטבעית, שאותו מכנים הבלשנים קורפוס, נוכל למצוא בו מאפיינים בעלי מובהקות סטטיסטית.

השימוש בשיטות סטטיסטיות כאלה לפתרון בעיות יישומיות בתחום עיבוד השפה הטבעית ליווה את התחום מלידתו. בשנות ה-50 וה-60 נעשה בהן שימוש לפתרון בעיות של זיהוי תווים אופטי, ייחוס מחבר (AuthorshipAttribution) וזיהוי דיבור (Speech recognition). בשנת 1967 פורסם הקורפוס רחב ההיקף הראשון של השפה האנגלית, קורפוס בראון לאנגלית אמריקאית סטנדרטית (Brown Corpus), ביחד עם מידע סטטיסטי בסיסי עליו. בעשורים שחלפו מאז השיגו באמצעות שיטות אלה הישגים לא מבוטלים בעיבוד שפה טבעית.

למרות ההצלחה היחסית בתחום המעשי, הזרם המרכזי של הבלשנות החישובית התאורטית נמנע מהתייחסות לשיטות הסטטיסטיות עד לשנות ה-90 של המאה ה-20. הגישה החומסקיאנית, הדומיננטית בחוגי הבלשנות התאורטית, ראתה את השפה בעיקרה כמנגנון דטרמיניסטי. הסטטיסטיקה נתפסה לכל היותר ככלי יעיל לטיפול בשפה, כאשר ניסיון לניתוח שיטתי של עקרונות הפעולה שלה הוא קשה מדי לביצוע, אבל לא כעקרון פעולה בפני עצמו של המנגנונים הלשוניים. הדבר דומה למעמדה של המכניקה הסטטיסטית בפיזיקה: ענף מדעי זה מניח שהכוחות הפיזיקאליים הם דטרמיניסטיים, אבל משתמש בכלים סטטיסטיים לניתוחם במצבים מורכבים שבהם פועלים כוחות רבים. יתר על כן, שימוש בקורפוס ככלי מחקרי על המבנה הפנימי של השפה נוגד את ההבחנה בין יכולת לשונית (competence) לביצוע (performance), שהיא בסיסית בגישה החומסקיאנית.

החל משנות ה-90 של המאה ה-20 החלו בלשנים חישוביים תאורטיים לחקור את האפשרויות הגלומות במודלים הסתברותיים של השפה. מגמה זו התבססה על ראיות מתחום הפסיכובלשנות ומתחומים קוגניטיביים אחרים, שהצביעו על כך שהמח משתמש בהסתברויות לעיבודים קוגניטביים.

ראו גם

לקריאה נוספת

  • Manning, Chris. Foundations of Statistical Natural Language Processing, 1999. אתר הספר
  • Jurafsky D., Martin G.H. Speech and Language Processing, 1999.

קישורים חיצוניים