מודל שפה גדול
מודל שפה גדול (באנגלית: Large Language Model; ראשי תיבות: LLM) הוא מודל שפה מבוסס רשת עצבית מלאכותית, בעל מספר רב (לרוב מיליארדים) של פרמטרים (ערכים מספריים העוזרים לאלגוריתם ללמוד).[1] מעבר למספר הפרמטרים, גודלו הגדול של המודל בא לידי ביטוי בשל היותו מאומן על כמויות גדולות של טקסט לא מתויג בשיטת למידה בפיקוח-עצמי (כלומר, למידה שאינה מסתמכת רק על דוגמאות אנושיות). מודלי השפה הגדולים החלו להופיע בסביבות 2018 והם נחשבים לכלי המתפקד היטב במגוון רחב של משימות. עלייתם הביאה לכך שמחקר עיבוד השפה הטבעית עבר להתמקד בפיתוחי מודלים אלו, לאחר שהיה ממוקד באימון מודלים מפוקחים מיוחדים למשימות ספציפיות.
מודלי שפה גדולים למעשה מהווים את ה"מוח" שמאחורי צ'אטבוטים עוצמתיים דוגמת ChatGPT (המבוסס על מודלי GPT-3 ו-GPT-4) ובארד של גוגל, המבוסס על מודל PaLM 2.
מאפיינים
על אף שלמונח מודל שפה גדול אין הגדרה פורמלית, הוא לרוב מתייחס למודלי למידה עמוקה הכוללים מיליארדי פרמטרים. מודלים אלו אינם מוכוונים לביצוע משימה ספציפית אחת כמו ניתוח סנטימנט, או זיהוי ישויות (NER), אלא מיועדים לביצוע מגוון רחב של משימות. כיום, מיומנתם של המודלים הגדולים בביצוע משימות, כמו גם מגוון המשימות אותם מסוגלים לבצע, היא פונקציה של כמות המשאבים (נתונים, מספר פרמטרים, כוח מחשוב) אשר שימשו לאימונם.[2]
בעיה נפוצה בקרב מודלי השפה הגדולים היא הפקת תגובות שנדמות להיות הגיוניות, אך הן בעלות תוכן עובדתי שגוי. תופעה זו מכונה "hallucination (הזיה)".[3]
יכולות מתעוררות
יכולות בלתי צפויות שנצפו במודלי שפה גדולים אך לא היו במודלים פשוטים יותר (ולא תוכננו במפורש לתוך המודל) מכונות "יכולות מתעוררות". יכולות מתעוררות, על פי חוקרים, הן כאלו שלא ניתן לחזותן על ידי השלכה מיכולותיהם של מודלים קטנים יותר.[4] יכולות אלו מתגלות, לעיתים, רק לאחר שהמודל הגדול שוחרר באופן פומבי. דוגמאות ליכולות אלו הן פתרון בעיות אריתמטיות רב-שלביות, הצלחה בבחינות אוניברסיטאיות, זיהוי משמעות של מילה,[5] פענוח האלפבית הפונטי הבינלאומי, הבנת מילה משׂוכלת-אותיות ועוד.[6]
ארכיטקטורה ואימון
לרוב, מודלי השפה הגדולים בנויים בארכיטקטורת הטרנספורמר, שמאז 2018 הפכה לטכניקת הלמידה העמוקה הסטנדרטית עבור נתונים רציפים (כמו טקסט). ייחודו של הטרנספורמר הוא היכולת למצוא את המילה בעלת ההסתברות הגבוהה להיות במיקום מסוים במשפט, בהתחשב בכלל הטקסט (ולא רק באמצעות הטקסט שקדם למילה).[7] בנוסף למשימה זו, המכונה ״השלם את החסר״, מודלי שפה גדולים מאומנים כדי לחזות ולהשלים משפטים שלמים, ולא רק מילים.
מודלי השפה הגדולים המוקדמים ביותר אומנו על קורפוסים בעלי סדר גודל של מיליארדי מילים. מודל השפה GPT-1, הראשון בסדרת GPT של OpenAI, אומן ב-2018 על קורפוס ספרים המורכב מ-985 מיליון מילים. באותה שנה, מודל השפה BERT אומן על שילוב של אותו הקורפוס, יחד עם כל הטקסט המצוי בוויקיפדיה האנגלית, אשר יחדיו כללו סך של כ-3.3 מיליארד מילים.[8] מאז, כמויות הטקסט המשמשות את אימון המודלים הגדולים הגיעו לסדר גודל של טריליוני מילים.[9]
אימון מודלים גדולים נחשב ליקר מאוד. מחקר משנת 2020 העריך את עלות האימון של מודל המורכב מ-1.5 מיליארד פרמטרים ב-1.6 מיליון דולר. זאת בעיקר בשל האנרגיה הנדרשת להפעלת הכוח החישובי לאורך זמן.
כוונון עדין (Fine-tuning)
כוונון עדין הוא פרקטיקה במסגרתה "מכווננים" את מודל השפה הקיים כך שיוכל להתמודד בצורה טובה יותר עם משימה ספציפית. פרקטיקה זו לרוב דורשת החדרת קבוצה חדשה של "משקולות" אימון, המחברות את השכבה הסופית של מודל השפה לפלט של המשימה הספציפית. כוונון זה לרוב בא על חשבון ביצועיו הכלליים של המודל בביצוע יתר המשימות.
על מנת להתמודד עם אובדן היכולות של המודל בשל הכוונון העדין, קיימות טכניקות המאפשרות לצמצם את אחוז הפרמטרים אותם הכוונון משנה. טכניקה פופולרית כזו היא LoRA, המצמצמת את הפרמטרים עליהם מופעל הכוונון לכדי אחוזים בודדים, בעוד יותר הפרמטרים ״מוקפאים״.[10] כך, נשמרות יכולותיו של המודל בביצוע כלל המשימות, ובנוסף הוא מסוגל יהיה לבצע טוב יותר את המשימה החדשה שלמענה כוונן.
פרומפטים
שימוש ב"פרומפטים", טכניקה שנעשתה לפופולרית עם שחרור המודל GPT-3, הבעיה שיש לפתור מנוסחת כהנחיה כתובה, אותה המודל נדרש להשלים (באמצעות הסקה סטטיסטית). לדוגמה, משימת ניתוח סנטימנט (תיוג טקסט כבעל סנטימנט מסוים, למשל חיובי או שלילי), של ביקורת סרט, יכולה להתבצע באופן הבא:
ביקורת: הסרט הזה גרוע. סנטימנט: שלילי. ביקורת: הסרט הזה נהדר! סנטימנט:
אם המודל משיב "חיובי", אזי שהוא פתר את המשימה בצורה נכונה. טכניקה זו, במסגרתה ניתנת למודל דוגמה או מספר דוגמאות לפתרון המשימה, מכונה למידת מספר-ניסיונות (few-shot learning). טכניקה שאינה כוללת דוגמאות לפתרון, מכונה למידת אפס-ניסיונות (zero-shot learning). דוגמה ללמידה כזו היא הפרומפט הקצר: "הסטנימנט של הביקורת 'הסרט הזה הוא פנטסטי!' הוא...". יצירה ואופטימיזציה של הנחיות כאלה מכונה הנדסת פרומפטים.
חלון ההקשר (Context window)
חלון ההקשר של המודל הוא האורך של רצף הטוקנים הארוך ביותר שבו המודל יוכל להשתמש כדי לחזות את הטוקן הבא. במידה שהמודל נדרש לייצר תשובה העולה באורכה על חלון ההקשר, הוא ייאלץ לקצץ את הרצף עד לאורך החלון, או להחיל שינויים אלגוריתמיים מסוימים כדי להתגבר על הבעיה.
חלון ההקשר הסטנדרטי של מודלי שפה גדולים הוא בסדר גודל של בין אלף לכמה עשרות אלפים.[11]
אקראיות
מודלי השפה הגדולים מאופיינים בכך שניתן לכוון את ערכי אקראיות התגובות שלהם. לצורך הדגמת המשמעות, נניח שמודל נדרש להשלים את המשפט "המחשב מונח על ה...". בבואו לבחור את הטוקן הבא, בפני המודל כלל הטוקנים בלקסיקון וההסתברויות של כל אחד מהם להמשיך את הרצף, לדוגמה: ״שולחן: 0.5, רצפה: 0.25, מיטה: 0.2, מדף: 0.05״. המודל צפוי לבחור בהסתברות של 60% את המילה שולחן, 20% רצפה וכן הלאה. הערכים הבאים מאפשרים לשלוט בתוצאה האמורה:
טמפרטורה
פרמטר המקבל ערך בין 0 ל-1. משמעות הטמפרטורה, היא אקראיות התגובה שהמודל יפיק, כאשר טמפרטורה נמוכה תוביל לתוצאות יותר דטרמיניסטיות (קרות) וטמפרטורה גבוהה תביא לתגובות מיוחדות ומפתיעות יותר (חמות).[12] בדוגמה לעיל, בטמפרטורה קרה הסבירות למילה ״שולחן״ תהיה גבוהה במיוחד, ובטמפרטורה חמה הסבירות ליתר המילים תגדל.
כוונון הטמפרטורה מאפשר ליצור איזון בין יצירת טקסט מגוון ויצירתי, לבין טקסט קוהרנטי ששומר על הקשרו. כך לדוגמה, בבקשה לכתיבת שיר כדאי להשתמש בטמפרטורה גבוהה כדי לעודד בחירות מילים יצירתיות ובלתי צפויות. לעומת זאת, בכתיבת מסמך רשמי, העדיפות היא להשתמש בטמפרטורה נמוכה יותר כדי להבטיח טקסט קוהרנטי והגיוני.
Top-K
מספר הטוקנים מהם יוכל המודל לבחור את השלמת הרצף (בעלי ההסתברות הגבוהה ביותר). בדוגמה לעיל, בהנחה שערכו של Top-K הוא 3, המודל יוכל להשלים את המשפט רק באמצעות המילים ״שולחן״, ״רצפה״ ו״מיטה״.[13]
Top-P
ההסתברות אותה נדרשים הטוקנים האפשריים לכסות. בדוגמה שלפנינו, במקרה ש-Top-P הוא 0.6, הטוקן שעמו ישלים המודל את המשפט יהיה מוגבל ל״שולחן״ ו״רצפה״, מאחר שההסתברות המצטברת שלהם היא 0.75.
רשימה חלקית של מודלי שפה גדולים
נכון לתחילת 2023, מודלי שפה גדולים הם לרוב נחלתם של ארגונים גדולים בלבד, וזאת בשל עלות האימון הגבוהה שלהם.[14] בין המודלים המוכרים קיימים:
שם | שנת שחרור | מפתחת | מספר פרמטרים | גודל קורפוס משוער (במספר מילים) |
---|---|---|---|---|
BERT | 2018 | גוגל | 340 מיליון | 3.3 מיליארד |
GPT-2 | 2019 | OpenAI | 1.5 מיליארד | 10 מיליארד |
GPT-3 | 2020 | OpenAI | 175 מיליארד | 499 מיליארד |
Megatron-Turing NLG | 2021 | מיקרוסופט ואנבידיה | 530 מיליארד | 338 מיליארד |
LaMDA | 2022 | גוגל | 137 מיליארד | 1.56 טריליון |
AlexaTM | 2022 | אמזון | 20 מיליארד | 1.3 טריליון |
LLaMA | 2023 | מטא | 175 מיליארד | 1.4 טריליון |
YaLM 100B | 2022 | יאנדקס | 100 מיליארד | 1.7 טריליון |
Chinchilla | 2022 | DeepMind | 70 מיליארד | 1.4 טריליון |
GPT-4 | 2023 | OpenAI | לא ידוע | לא ידוע |
Falcon | 2023 | מכון החדשנות הטכנולוגי של אבו דאבי | 40 מיליארד | טריליון |
PaLM 2 | 2023 | גוגל | 340 מיליארד | 3.6 טריליון |
LLaMA 2 | 2023 | מטא | 70 מיליארד | שני טריליון |
הערות שוליים
- ^ Kurt Muehmel, What Is a Large Language Model, the Tech Behind ChatGPT?, blog.dataiku.com (באנגלית אמריקאית)
- ^ Bowman, Samuel R. "Eight Things to Know about Large Language Models" (PDF).
{{cite journal}}
: Cite journal requires|journal=
(עזרה) - ^ Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Dai, Wenliang; Madotto, Andrea; Fung, Pascale (בנובמבר 2022). "Survey of Hallucination in Natural Language Generation" (pdf). ACM Computing Surveys. Association for Computing Machinery. 55 (12): 1–38. doi:10.1145/3571730. נבדק ב-15 בינואר 2023.
{{cite journal}}
: (עזרה) - ^ Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H. (31 באוגוסט 2022). "Emergent Abilities of Large Language Models". Transactions on Machine Learning Research (באנגלית). ISSN 2835-8856.
{{cite journal}}
: (עזרה) - ^ "Characterizing Emergent Phenomena in Large Language Models". ai.googleblog.com.
- ^ Ornes, Stephen (16 במרץ 2023). "The Unpredictable Abilities Emerging From Large AI Models". Quanta Magazine.
{{cite web}}
: (עזרה) - ^ https://www.researchgate.net/publication/338931711_A_Short_Survey_of_Pre-trained_Language_Models_for_Conversational_AI-A_New_Age_in_NLP
- ^ Patel, Ajay; Li, Bryan; Rasooli, Mohammad Sadegh; Constant, Noah; Raffel, Colin; Callison-Burch, Chris (2022). "Bidirectional Language Models Are Also Few-shot Learners". ArXiv (באנגלית).
- ^ Improving language models by retrieving from trillions of tokens, www.deepmind.com (באנגלית)
- ^ Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen, LoRA: Low-Rank Adaptation of Large Language Models, 2021-10-06
- ^ What is Context Window for LLMs? - Hopsworks, www.hopsworks.ai (באנגלית)
- ^ מדריך: כך תשלטו במודלי שפה, באתר Machine Learning Israel, 2023-04-14
- ^ Top-k & Top-p, Cohere AI (באנגלית)
- ^ Jonathan Vanian,Kif Leswing, ChatGPT and generative AI are booming, but the costs can be extraordinary, CNBC (באנגלית)
36783058מודל שפה גדול