LLaMA

LLaMA (ראשי תיבות: Large Language Model Meta AI, בעברית: מודל שפה גדול מטא בינה מלאכותית) הוא מודל שפה גדול (LLM) ששוחרר על ידי מטא בפברואר 2023. השם מתייחס לסדרת מודלים שלכל אחד מספר פרמטרים שונה (מ-7 מיליארד ועד 65 מיליארד פרמטרים). לטענת מפתחי לאמה, ביצועי מודל ה-13 מיליארד במשימות עיבוד שפה טבעית, עולים על אלו של GPT-3, הגדול בהרבה (175 מיליארד פרמטרים).

המייחד את מודלי לאמה ממודלי השפה הגדולים האחרים באותה תקופה, היא שהאחרונים היו זמינים לרוב רק דרך ממשקי API מוגבלים (אם בכלל), בעוד מטא פרסמה את משקלי המודל של לאמה לקהילת המחקר ברישיון לא מסחרי. שבוע לאחר השחרור, משקולות המודל הודלפו באינטרנט כך שהלכה למעשה הוא נהפך לפתוח לציבור.

ב-18 ביולי 2023, Meta הכריזה על הדור הבא של מודלי הלאמה, בשם LLaMA 2.^[1] המודלים שוחררו לציבור בקוד פתוח. חודש לאחר מכן, שחררה מטא גרסה ייעודית של המודל לכתיבת קוד, בשם Code LLaMA. גרסה זו היא למעשה אימון המודל לאמה 2 על כחצי טריליון טוקנים (יחידות טקסט קטנות, למשל מילה) של קטעי קוד.^[2]

ארכיטקטורה ואימון

ארכיטקטורה

המודל משתמש בארכיטקטורת טרנספורמר, הארכיטקטורה הסטנדרטית למודלי שפה מאז שפורסמה בשנת 2018. עם זאת, ישנם הבדלי ארכיטקטורה קלים ביחס למודלי שפה גדולים סטנדרטיים אחרים. כך למשל, השימוש בפונקציית SwiGLU^[3] במקום ReLU; או השימוש בנורמליזציית שכבות מסוג root-mean-sqaured, להבדיל מנורמליזציית שכבות סטנדרטית.^[4]

מערך הנתונים עליו אומן המודל

על מנת לשפר את ביצועי המודל, מפתחי LLaMA מיקדו את מאמציהם בהגדלת נפח נתוני האימון, להבדיל ממספר הפרמטרים, בנימוק שהעלות המרכזית הנוגעת למודלי שפה גדולים היא מהסקת מסקנות על המודל המאומן ולא מהעלות החישובית של תהליך האימון.

המודל אומן על 1.4 טריליון טוקנים, שנלקחו ממקורות נתונים זמינים לציבור, כולל:

דפי אינטרנט
מאגרי קוד פתוח מגיטהאב
ויקיפדיה ב-20 שפות שונות
ספרים ברשות הרבים שנכללו בפרויקט גוטנברג
קוד המקור של LaTeX למאמרים מדעיים
שאלות ותשובות מאתרי Stack Exchange

שחרור והדלפות

המודל לאמה הוכרז ב-23 בפברואר 2023, באמצעות פוסט בבלוג ומאמר המתאר את האימון, הארכיטקטורה והביצועים שלו.^[5] הקוד ששימש לאימון המודל שוחרר לציבור תחת רישיון הקוד הפתוח GPL 3 (שימוש חופשי אך לא למטרות מסחריות). הגישה למשקולות המודל נוהלה על ידי תהליך הגשת בקשה, כאשר גישה תינתן "בכל מקרה לגופו לחוקרים אקדמיים; אלה המזוהים עם ארגונים בממשלה, בחברה האזרחית ובאקדמיה; ולמעבדות מחקר בתעשייה ברחבי העולם".

ב-2 במרץ 2023,^[6] הועלה לאתר האינטרנט 4chan, טורנט המכיל את המשקולות של לאמה, ולאחר מכן התפשט ברחבי האינטרנט דרך קהילות בינה מלאכותית מקוונות. התגובות לדליפה היו חלוקות. חלקן חששו מכך שהמודל ישמש למטרות זדוניות, כמו ספאם. חלקן האחר ראו את הפוטנציאל בקידום פיתוחים מחקריים נוספים.

יישומים

המרכז למחקר בינה מלאכותית של אוניברסיטת סטנפורד פרסם את Alpaca, תשתית אימון המבוססת על מודל לאמה (בגודל 7 מיליארד פרמטרים) המשתמש בשיטת "Self-Instruct" של כוונון הוראות כדי לרכוש יכולות דומות למודל GPT-3 של חברת OpenAI, אך בעלות נמוכה.^[7] מספר פרויקטי קוד פתוח עודם ממשיכים בעבודה זו של כוונון עדין של לאמה עם מערך נתונים של Alpaca.

ב-18 ביולי 2023, הודיעה מטא על שחרור סדרת מודלים מתקדמים יותר, LLaMA 2, ושחררה אותם לציבור בקוד פתוח.^[8] המודל שוחרר בגדלים 7, 13 ו-70 מיליארד פרמטרים, ואומן על 2 טריליון טוקנים. המודלים זמינים לציבור דרך פלטפורמת Hugging Face,^[9] ודרך ספקיות ענן דוגמת AWS (אמזון) ו-Azure (מיקרוסופט).

קישורים חיצוניים

אתר האינטרנט הרשמי של LLaMA

הערות שוליים

↑ "Llama 2". Meta AI (באנגלית). נבדק ב-2023-07-18.
↑ Introducing Code Llama, an AI Tool for Coding, Meta, ‏2023-08-24 (באנגלית אמריקאית)
↑ Shazeer, Noam (2020-02-01). "GLU Variants Improve Transformer". {{cite journal}}: Cite journal requires |journal= (עזרה)
↑ Lei Ba, Jimmy; Kiros, Jamie Ryan; Hinton, Geoffrey E. (2016-07-01). "Layer Normalization". {{cite journal}}: Cite journal requires |journal= (עזרה)
↑ אושרי אלקסלסי, "טוב יותר מ-GPT": עכשיו גם מטא חושפת מודל שפה ענק חדש, באתר גיקטיים, ‏2023-02-26
↑ "/g/ - /aicg/ - AI Chatbot General - Technology - 4chan". 5 מרץ 2023. {{cite web}}: (עזרה)
↑ Taori, Rohan; Gulrajani, Ishaan; Zhang, Tianyi; Dubois, Yann; Li, Xuechen; Guestrin, Carlos; Liang, Percy; Hashimoto, Tatsunori B. (13 במרץ 2023). "Alpaca: A Strong, Replicable Instruction-Following Model". Stanford Center for Research on Foundation Models. {{cite web}}: (עזרה)
↑ Meta and Microsoft Introduce the Next Generation of Llama, Meta, ‏2023-07-18 (באנגלית אמריקאית)
↑ meta-llama (Meta Llama 2), huggingface.co, ‏2023-07-18

הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

LLaMA39214231Q116894231

[1] "Llama 2". Meta AI (באנגלית). נבדק ב-2023-07-18.

[2] Introducing Code Llama, an AI Tool for Coding, Meta, ‏2023-08-24 (באנגלית אמריקאית)

[3] Shazeer, Noam (2020-02-01). "GLU Variants Improve Transformer". {{cite journal}}: Cite journal requires |journal= (עזרה)

[4] Lei Ba, Jimmy; Kiros, Jamie Ryan; Hinton, Geoffrey E. (2016-07-01). "Layer Normalization". {{cite journal}}: Cite journal requires |journal= (עזרה)

[5] אושרי אלקסלסי, "טוב יותר מ-GPT": עכשיו גם מטא חושפת מודל שפה ענק חדש, באתר גיקטיים, ‏2023-02-26

[6] "/g/ - /aicg/ - AI Chatbot General - Technology - 4chan". 5 מרץ 2023. {{cite web}}: (עזרה)

[7] Taori, Rohan; Gulrajani, Ishaan; Zhang, Tianyi; Dubois, Yann; Li, Xuechen; Guestrin, Carlos; Liang, Percy; Hashimoto, Tatsunori B. (13 במרץ 2023). "Alpaca: A Strong, Replicable Instruction-Following Model". Stanford Center for Research on Foundation Models. {{cite web}}: (עזרה)

[8] Meta and Microsoft Introduce the Next Generation of Llama, Meta, ‏2023-07-18 (באנגלית אמריקאית)

[9] ta-llama (Meta Llama 2), huggingface.co, ‏2023-07-18

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]