מחולל תמונות

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש
"שתייה חמה", תוצרת Midjourney

מחולל תמונות או מודל טקסט לתמונהאנגלית: Text-to-image) הוא מודל גנרטיבי מבוסס בינה מלאכותית המאפשר יצירת תמונות על סמך תיאור טקסטואלי של המשתמש. תחום זה התפתח בשנים האחרונות הודות להתקדמות משמעותית ביכולות של רשתות נוירונים עמוקות. בשנת 2022, פורסמו מספר מחוללי תמונה לציבור, ביניהם DALL-E 2 של חברת OpenAI,‏ Stable Diffusion של StabilityAI,‏ Midjourney ו-Imagen של גוגל.[1]

תוצריהם של מודלים אלו השתפרו מגרסה לגרסה ואפשרו ייצור מלאכותי של תוצרים באיכות של תצלומים אמיתיים ואמנות שנעשתה על ידי בני אדם.

המודלים פועלים בדרך כלל על ידי המרה ראשונית של הטקסט לייצוג פנימי (בעזרת מודל שפה), ולאחר מכן יצירת התמונה על בסיס ייצוג זה באמצעות מודל גנרטיבי. האימון שלהם מתבצע על נתוני אימון עצומים הכוללים זוגות של תיאורי טקסט ותמונות רלוונטיות.

היסטוריה

לפני פיתוחה של הלמידה העמוקה, נעשו ניסיונות לבנות מודלי טקסט לתמונה שייצרו בעיקר קולאז'ים על ידי סידור תמונות קיימות, כמו מתוך מאגר של קליפארט.

המשימה ההפוכה, ייצור טקסט על בסיס תמונה, הייתה ברת ביצוע יותר ומספר מודלי למידה עמוקה לכיתוב תמונות הגיעו לפני המודלים הראשונים של טקסט לתמונה.[2]

המודל המודרני הראשון של טקסט לתמונה, alignDRAW, הוצג ב-2015 על ידי חוקרים מאוניברסיטת טורונטו.[3] alignDRAW שיפר את הארכיטקטורה DRAW שהוצגה קודם לכן (שהשתמשה במקודד אוטומטי ומנגנון תשומת לב רקורסיביים) כדי לאפשר מיקוד על רצפי טקסט. התמונות שיוצרו על ידי alignDRAW היו מטושטשות ולא פוטוריאליסטיות, אבל המודל יכול היה להכליל על עצמים שלא היו מיוצגים בנתוני האימון (כמו אוטובוס בית ספר אדום), וטיפל כראוי בקלטים חדשים כמו "שלט עצור עף בשמיים כחולים", מה שהראה שהוא לא פשוט "שינן" נתונים מהמאגר לאימון אלא למד אותם וייצר על בסיסם יצירות מקוריות.[4]

שמונה תמונות שנוצרו מהנחיית הטקסט "תמרור עצור עף בשמיים כחולים". מאת AlignDRAW

ב-2016, ריד, אקטה, יאן ואחרים היו הראשונים להשתמש ברשתות גנרטיביות עבור ייצור מערכת טקסט לתמונה. עם מודלים שאומנו על מאגרי נתונים צרים וספציפיים לתחום, הם יצרו תמונות "עם סבירות חזותית" של ציפורים ופרחים מכיתובי טקסט כמו "ציפור שחורה לחלוטין עם מקור עבה ומעוגל". מודל שאומן על מאגר הנתונים המגוון יותר COCO ייצר תמונות שנראו דומות לתמונה אמיתית אבל חסרו קוהרנטיות בפרטים שלהן. מערכות מאוחרות יותר כוללות VQGAN+CLIP,‏ XMC-GAN, ו-GauGAN2.

מחולל התמונות הראשון של טקסט לתמונה שתפס תשומת לב ציבורית רחבה היה DALL-E של OpenAI, והיה מערכת מבוססת טרנספורמרים שהוכרזה בינואר 2021. גרסה משופרת המסוגלת ליצור תמונות מורכבות וריאליסטיות יותר, DALL-E 2, הוצגה באפריל 2022,[5] ולאחריה Stable Diffusion ששוחררה לציבור באוגוסט 2022.

בעקבות מודלי טקסט לתמונה אחרים, פותחו פלטפורמות טקסט לווידאו המופעלות על ידי מודלי שפה כמו Runway,‏ Make-A-Video,‏ Imagen Video ועוד.

ארכיטקטורה

מודלים של טקסט לתמונה נבנו תוך שימוש במגוון ארכיטקטורות. שלב קידוד הטקסט עשוי להתבצע עם רשת עצבית חוזרת (אנ') כמו רשת זיכרון לטווח קצר (אנ') (LSTM), אם כי מחוללי תמונות מבוססי טרנספורמרים הפכו מאז לאופציה הפופולרית ביותר. עבור שלב יצירת התמונה, נעשה שימוש נפוץ בGAN, כאשר גם מודלי דיפוזיה הפכו לאופציה פופולרית. במקום להכשיר מודל ישירות לפלט תמונה ברזולוציה גבוהה המותנית בהטמעת טקסט, טכניקה פופולרית היא לאמן מודל ליצור תמונות ברזולוציה נמוכה, ולהשתמש במודל עזר אחד או יותר של למידה עמוקה כדי לשדרג אותו, ולמלא אותו ביותר פרטים.

מודלים של טקסט לתמונה מאומנים על מערכי נתונים גדולים של זוגות (טקסט + תמונה), לעיתים קרובות התמונות נלקחות מהאינטרנט.

מערכי נתונים

אימון מודל טקסט לתמונה דורש מערך נתונים של תמונות בשילוב כתוביות טקסט. מערך נתונים נפוץ למטרה זו הוא COCO (Common Objects in Context). COCO, שפורסמה על ידי מיקרוסופט ב-2014, מורכבת מכ-123,000 תמונות המתארות מגוון של אובייקטים, עם חמישה תיאורים לכל תמונה, שנוצרו על ידי כותבים אנושיים. נעשה שימוש גם ב-Oxford-120 Flowers ו-CUB-200 Birds שהם מערכי נתונים קטנים יותר של כ-10,000 תמונות כל אחד, המציגים פרחים וציפורים.

הערכה

הערכה והשוואה של האיכות של מחוללי התמונות כרוכה בהערכת מספר מאפיינים. רצוי שהתמונות המופקות יהיו מציאותיות ומגוונות בסגנונן. רצון ספציפי למודלים של טקסט לתמונה הוא שתמונות שנוצרו מתאימות באופן סמנטי עם כיתובי הטקסט המשמשים ליצירתן. הומצאו מספר תוכניות להערכת תכונות אלו, חלקן אוטומטיות ואחרות המבוססות על שיקול דעת אנושי.

מדד אלגוריתמי נפוץ להערכת איכות וגיוון התמונה הוא Inception score (IS) (אנ'), המבוסס על התפלגות התוויות החזויה על ידי מודל סיווג תמונה Inceptionv3 מיושם מראש, כאשר הוא מוחל על מספר תמונות שנוצרו על ידי מודל הטקסט לתמונה. הציון גדל כאשר מודל סיווג התמונות מנבא תווית בודדת עם הסתברות גבוהה. מדד פופולרי נוסף הוא מדד המשווה את התפלגות התמונות שנוצרו ותמונות אימון אמיתיות, לפי תכונות שחולצו על ידי אחת מהשכבות האחרונות של מודל סיווג תמונה מאומן מראש.

השפעה ויישומים

ערך מורחב – אומנות בינה מלאכותית

בפחות מ-12 חודשים, יצרו מחוללי תמונות כמות יצירות המשתוות ל-150 שנות יצירה של בני האדם.[6]

אמנות

מחוללי תמונות פתחו אפשרויות יצירה חדשות עבור אמנים רבים. הם מאפשרים ל"אמני בינה מלאכותית" ליצור תמונות מורכבות ומפורטות שהיו קשות או בלתי אפשריות ליצירה בטכניקות מסורתיות. דוגמת תמונות עם נופים דמיוניים, דמויות שאינן קיימות במציאות או אפקטים ויזואליים מורכבים.

כמו כן, מחוללי תמונות מאפשרים לאמנים לחקור במהירות רעיונות וסגנונות שונים ללא צורך ביצירה ידנית ארוכה ומאומצת. הם יכולים לבחון וריאציות רבות של קומפוזיציה, צבע וסגנון בקלות יחסית. תערוכות רבות בשנים האחרונות כוללות יצירות אמנות שנוצרו בעזרת מחוללי תמונות. חלק מהאמנים אף יוצרים את מלוא היצירה באמצעות מחולל התמונות. אמנים אחרים משלבים בין טכניקות מסורתיות כגון ציור או פיסול יחד עם שימוש במחולל תמונות. השילוב מאפשר יצירה שלא הייתה אפשרית קודם לכן.

השימוש במחוללי תמונות פתח דיון בקהילת האמנות על הגדרת אמנות בעידן המודרני ועל הקשר בין טכנולוגיה ליצירה אמנותית. יש הטוענים שמחוללי התמונות מהווים כלי ליצירה אמנותית לכל דבר, ויש המתנגדים לרעיון שתוכנה יכולה ליצור "אמנות אמיתית".[7]

עיצוב גרפי

מחוללי תמונות הפכו לכלי חשוב ונפוץ בקרב מעצבים גרפיים. הם מאפשרים למעצבים לחקור רעיונות וקונספטים במהירות רבה, על ידי יצירה מהירה של סקיצות ואבות טיפוס. במקום להתחיל תהליך עיצוב מאפס, המעצבים מזינים למחולל תמונות טקסט עם תיאור רעיון או קונספט ומקבלים מגוון רחב של תמונות וגרפיקות רלוונטיות. זה חוסך זמן רב בשלבי הסקיצות והרעיונות הראשוניים.

בנוסף, ניתן להשתמש במחוללי תמונות ליצירת גרפיקות ואיורים מקוריים שייחודיים לפרויקט מסוים. המעצב יכול להגדיר סגנון או אווירה רצויים ולקבל תוצאות שונות ומגוונות העונות לקונספט. מחוללי תמונות גם מייתרים במידה רבה את הצורך בשכירת אמן או מאייר עבור פרויקטים מסוימים, מה שחוסך זמן ועלויות. עם זאת, רבים טוענים שעדיין אין תחליף לעבודתו הייחודית והיצירתית של מעצב אנושי.[8]

פרסום ושיווק

בעבר, בתעשיית הפרסום והשיווק, תהליך יצירת חומרים חזותיים לקמפיין דרש העסקה של צוות מעצבים גרפיים או צלמים, מה שלקח זמן רב ועלויות גבוהות. כיום, ניתן להיעזר במחולל תמונות על מנת לחקור רעיונות שונים תוך דקות ולקבל מגוון רחב של תוצאות.

מחוללי התמונות מאפשרים גם לבחון וריאציות רבות של רעיון פרסומי תוך שינוי גודל, צבעים, סגנון ועוד, עד לקבלת התוצאה האופטימלית. כך ניתן לחסוך זמן וכסף רב בתהליך הפקת הקמפיין. במקרים רבים עדיין נדרשת עבודה של מעצב אנושי על מנת לשפר, לעדן ולהתאים את התוצאות מהמחולל לצרכים המדויקים של הפרסום והשיווק. והיצירתיות האנושית עדיין נדרשת על מנת להגות רעיונות פרסומיים מקוריים ומוכווני שוק.[9]

מדיה חברתית

מחוללי תמונות הפכו לכלי פופולרי מאוד בקרב משתמשי מדיה חברתית ליצירת תכנים ייחודיים ומקוריים. אחד היישומים הנפוצים הוא יצירת תמונות פרופיל ואווטרים מרשימים ומיוחדים שמשקפים את אישיות המשתמש במקום להשתמש בתמונות קיימות.

מחוללי תמונות משמשים ליצירת מימס או מביאות רעיונות למימס, פוסטים וסטטוסים במדיה חברתית נכתבים בעזרת מודלי שפה ומלווים לעיתים קרובות בתמונה או גרפיקה ויזואלית שנוצרה במחולל תמונות. הפופולריות של מחוללי התמונות במדיה החברתית מוסברת ביכולת שלהם לאפשר למשתמשים ממוצעים ליצור תכנים אטרקטיביים ואיכותיים שישפרו את חווית הגולשים בפרופיל שלהם.

גם חברות הרשתות החברתיות משתנות בהתאם לצורכי השוק ומוסיפות תכולות המסייעות למשתמשים לייצר תכנים בעזרת מחוללי תמונות וכלי בינה מלאכותית נוספים.[10]

חינוך

מורים משתמשים במחוללי תמונות כדי ליצור חומרי למידה ויזואליים מעניינים עבור תלמידים. סטודנטים משתמשים בהם ליצירת פרויקטים ומצגות.

בידור

תעשיית הבידור משתמשת במחוללי תמונות ליצירת אפקטים חזותיים ותכנים מקוריים. למשל, יוצרי סרטים משתמשים בהם לעיצוב דמויות וסצנות.

מחקר

חוקרים בתחומים כמו בינה מלאכותית משתמשים במחוללי תמונות לאימון מודלים והבנת יכולותיהם. הם גם חוקרים את האתגרים וההשלכות של טכנולוגיית מחוללי התמונות.

הערות שוליים

הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

37091676מחולל תמונות