אומנות בינה מלאכותית

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש
תמונה שנוצרה על ידי התוכנה DALEE2 DALL-E 2, תוכנה המחוללת תמונות על בסיס טקסט, לפי הטקסט: "A photo of a robot hand drawing, digital art"

אומנות בינה מלאכותית מתייחסת לכל אמנות שנוצרה על בסיס שימוש בבינה מלאכותית.

כלים ותהליכים

ברמה הבסיסית ביותר, אמנים יכולים להשתמש באלגוריתמים מבוססי חוקים, בכל מיני צורות של חיקוי מברשות צבע וכדומה. ז'אנר זה הוא יותר "כלי עזר לאמן" ופחות נחשב כ"בינה מלאכותית יוצרת". אחת הגישות היותר מוקדמות לשימוש ברשתות נוירונים מלאכותיות הייתה התוכנה DeepDream של גוגל שיודעת לקחת תמונות קלט ולהפוך אותן לתמונות "פסיכדליות" שנותנות הרגשה של חלום או הזייה בהקיץ.

רשתות נוירונים "פשוטות" של גנרטור - שופט, GAN

דור ראשון של רשתות אלו עושות שימוש בארכיטקטורת של רשת היודעת ליצור תמונות למשל. מכלול זה של הרשת מהווה את ה"גנרטור" כאשר בזמן ה"ריצה" של הרשת (Inference), ממירים את התמונה בקלט - לתמונה בסגנון שבו מעוניינים - למשל, ציור בסגנון של ואן גוך. במקביל, מפעילים רשת "שופט" שבוחנת אם תוצר הגנרטור אכן מתאים למה שנתבקש, בהשוואה לחומרים עליהם השופט התאמן, מול תמונות אמיתיות. כאשר מגיעים לרמה שבה השופט לא יכול להבדיל בין התוצרת של הגנרטור לבין המציאות - משפרים את השופט, במצב בו השופט מזהה בקלות רבה מידי כי מדובר ב"זיוף" - משפרים את הגנרטור. ארכיטקטורה זו מאפשרת ליצור תמונות "מזויפות", כאלו שהרשת יצרה, לכאורה, בכל רמת איכות נדרשת. רשתות אלו נקראות (באנגלית): Generative Adversarial Networks, GAN. רשתות אלו פותחו לראשונה על ידי איאן גודפלו (Ian Goodfellow) שעבד אז ב"גוגל". רשתות אלו מתאימות ליצירת תמונות של עולמות תוכן שבהם קיימים כבר מאגרי מידע גדולים (למשל, פנים של אנשים - כאשר הרשת מייצרת אנשים שנראים אמיתיים, אבל כאלו שאינם קיימים).

רשתות גנרטור-שופט, שיודעות ללמוד "סגנונות"

הגנרטור של רשתות אלו כולל ארכיטקטורה של "מקודד" (Encoder), מרחב סמוי מועט ממדים ו"מפענח" (Decoder). ארכיטקטורה זו מאפשרת ל"מפענח" ללמוד סגנונות רצויים במהלך האימון. בשלב ה"ריצה" - מכניסים קלט רצוי - למשל, תמונה שהמשתמש צילם - ואז המפענח ימיר אותה לתמונה בסגנון שעליו המערכת התאמנה.

קובץ:A-Standard-GAN-and-b-conditional-GAN-architecturpn.png
ארכיטקטורה כללית של GAN
סכמה בסיסית הכוללת מקודד, מרחב סמוי ומפענח - סכמה זו יכולה לשמש כ"גנרטור" המאפשר לאמן אותו על תמונות באותו גודל של התמונות אותן מקבלים כפלט

באיור משמאל, רואים ארכיטקטורה של Auto-Encoder, כלומר, ארכיטקטורה שמאפשרת לאמן את המפענח, על ידי הכנסת תמונות למקודד, כיווצן למרחב הסמוי ופתיחתן מחדש, כאשר פונקציית היעד היא שתמונת הפלט תהיה דומה ככל האפשר לתמונת הקלט. אימון כזה, גורם למפענח ללמוד את ה"סגנון" של תמונות הקלט וכך, אפשר לאמן אותו לחקות סגנון של אמן מסוים, תקופה, או כל מאפיין אחר. במרחב הסמוי, לעומת זאת, מתקבל "קוד" שמבטא את תוכן התמונות. בארכיטקטורה זו - אם "מנתקים" את המקודד ומכניסים נתונים ישירות למרחב הסמוי - ניתן לקבל תמונות רצויות בסגנון שעליו אומן המפענח.

שימוש במרחב הסמוי

דור מתקדם יותר של רשתות - מאפשר להכניס לגנרטור לאוו דווקא תמונות - אלא להתערב ישירות במרחב הסמוי. ארכיטקטורה זו מאפשרת, למשל, להכניס טקסט ולקבל תמונה עשירה בפרטים. ברשתות מתקדמות אלו, ניתן גם לבקש לא רק שהתוצאה תהיה דומה לדאטה סט אמיתי כלשהו - אלא למספר פונקציות התכנסות במקביל - למשל, שהתמונה תהיה "נעימה לעין/ אסתטית" לצופה אנושי, שהתמונה תהיה כזו שמשרה שמחה וכיוצא באלו.


רשתות "טרנספורמרים"

ארכיטקטורה שמאפשרת "הסתכלות מקבילית" ושימוש בריבוי מנגנוני "תשומת לב" על סוגיות שיש להן מימד של סדרתיות - כמו שפה, וידאו או מוזיקה.[1]רשתות אלה זוכות להצלחה רבה במגוון יישומים ואולי, בעיקר, בכל הקשור להבנת שפה טבעית - NLP.

רשתות פעפוע

Diffusion Networks, רשתות אלה מייצרות "רעש" רנדומלי ועל ידי בדיקה עד כמה צמצום הרעש "מתקרב" לפתרון הרצוי - הן יכולות לחולל (ליצר), פתרונות שלא נראו קודם, מאותו "סוג". רשתות אלו נמצאו מתאימות במיוחד ליישומי בינה מלאכותית יוצרת.

יישומים מובילים

רשתות טקסט לתמונה

DALL-E 2 הצליח לייצר תמונה מציאותית על פי ההנחיה "כלב שיבה אינו עם כומתה וצווארון גולף".


ביולי 2022, פורסמו רשתות מאוד חזקות, כמעט, כל כמה ימים. הרשתות המובילות הן[2]DALL-E של חברת openAI שמנהלה איליה סוצקבר למד בישראל, הרשתות Imagen ו[3]PARTI של חברת גוגל, רשתות אלו, ככל הידוע, נוצרו על ידי קבוצת החוקרים בגוגל איקס/ גוגל בריין. בקבוצה זו, פועלים בין השאר, ג'ף דין וג'פרי הינטון. מידג'ורני היא רשת חזקה להמרת טקסט לתמונות וכך גם רשתות נוספות.

רשימה חלקית של הרשתות :

  • [2]DALL-E-2, של חברת OpenAI, מעט הרצות חינמיות ואחר כך, תמורת תשלום.
  • Midjourney, מעט הרצות חינמיות ואחר כך, תמורת תשלום.
  • [4]Imagen של חברת גוגל, נכון לאוגוסט 2022 - עדיין סגור לציבור.
  • PARTI של חברת גוגל, נכון לאוגוסט 2022 - עדיין סגור לציבור.
  • [5]Stable Diffusion, נפתח לציבור ב 20.8.2022
  • [6]vq-diffusion, של חברת מיקרוסופט, חינמי.
  • Simulacrabot, נכון לאוגוסט 2022 - עדיין סגור לציבור.
  • Shonekov AI, חינמי.
  • Meta Make a Scene, נכון לאוגוסט 2022 - עדיין סגור לציבור.
  • Deep AI Text to Image, חינמי.
  • MindsEye Beta, חינמי.
  • CrAIyon, חינמי.
  • Min-Dalle, מעט הרצות חינמיות ואחר כך, תמורת תשלום.
  • Dall E Flow, חינמי
  • Wombo
  • Laion AI Erlich
  • latent Diffusion
  • Glid 3 xl
  • [7]Night Cafe
  • Disco Diffusion
  • Cogview
  • Pixray
  • Hot Pot AI, מעט הרצות חינמיות ואחר כך, תמורת תשלום.
  • [8]Gaugen2, של חברת NVIDIA, חינמי. מאפשר לצייר סקיצה גסה והתוכנה ממירה את הסקיצה לתמונת נוף פוטוריאליסטית.
  • ERNIE-ViLG 2.0, מודל של חברת Baidu מאוקטובר 2022. המודל זמין לציבור בחינם (מעל huggingface).

במקביל, במהלך קיץ 2022, התפרסמה קבוצה גדולה של "מודלי שפה גדולים". השילוב של שתי משפחות אלה מאפשר לבנות רשתות שניתן "לדבר אליהן" בשפה טבעית, הן מבינות למה הכוונה (בדרך כלל, הקלט הוא טקסט שמקלידים אל היישום) ומציירות ציור. לרשתות אלו יש כמה וכמה תכונות מפתיעות:

  • מכיוון שהרשתות אומנו על מיליארדי דוגמאות והן "מכירות" את כל מה שאי פעם התפרסם, בהתאם, אפשר לבקש מהן לצייר תמונות בסגנון של צייר מסוים, מתקופה מסוימת, מז'אנר אמנותי מסוים וכדומה. תכונה זו מאפשרת למשתמש ללמוד תחומי עניין חדשים לגמרי עבורו.
  • בניגוד למצלמות, הרשתות אינן מוגבלות ל"דברים אפשריים" וכך אפשר לבקש מהן לצייר "סופת שלג תת-מימית" או כל דבר אחר - והן יציירו משהו שבדרך כלל, נראה משכנע באופן מפתיע.
  • אפשר לבקש מהן לצייר חוויה אישית מהעבר והן "ישחזרו" אותה.
  • אפשר לבקש מהן להשלים תמונה קיימת למשל, צילום אישי, ולהרחיב אותה באופן כזה שהתוכנה תשלים פרטים בעצמה, כולל "המצאה" של ההקשר הוויזואלי. לדוגמה, אפשר להעלות תמונת פורטרט ולבקש מהתוכנה לצייר גוף שלם של אדם שנמצא בתוך מסיבת ריקודים והתוכנה תשלים לבדה את כל הפרטים, בצורה שלא מאפשרת להבחין אם מדובר בצילום דוקומנטרי או לא.
  • ניתן להתמש ברשתות אלו ליצירת "לוגו".
  • הרשתות מאפשרות מגוון גדול של "סגנונות" וככאלו, הן יכולות להחליף חלק מהעבודה של מעצבים גרפיים קלסיים/ אנושיים.
ציור של שמאן, שילוב של נוצות רחם עם עריכה של DALLE2 לפי טקסט


רשתות טקסט לווידאו

סרטון שנוצר באמצעות בינה מלאכותית על בסיס חלון הנחיה טקסטואלי

רשתות "פשוטות" ועם מימשקים מאוד טכניים החלו להופיע מתחילת 2022. בתאריך 29.9.2022 - חברת "מטא", פרסמה מאמר שמתאר קיום של כלי המאפשר יצירת "קליפים" ישירות ממשפטי טקסט. היישום, ככל הידוע, נשען על יכולת לחזות פריימים קדימה וכך, למלא את הסרטון, במימד הזמן, בפריימים שיוצרים קליפ חלק ונעים לעין. החיבור של טכניקות כאלה, ביחד עם מודלי שפה גדולים - צפוי לאפשר יצירת סרטי וידאו ארוכים יותר.[9] תיאור היישום, מאת MattVidPro AI, סרטון באתר יוטיוב

ב-5 באוקטובר 2022, חברת "גוגל" פרסמה רשת שגם היא מייצרת "קליפים של וודיאו" לפי טקסט בחלון הנחיה - Imagen Video, גם היא, למעט מאמר ודוגמאות, טרם שוחררה לציבור.[10]

ב-20 באוקטובר 2022, קבוצת המפתחים Deforum פרסמה אפליקציה המאפשרת ליצור ווידאו מתוך טקסט וליצור "קליפים" של עד 1000 פריימים (כחמישים שניות סרט). האפליקציה מאפשרת להגדיר "חלון הנחיה טקסטואלי" לכל פריים רצוי, או לקבוצת פריימים רצויה ולקבוע את מיקום המצלמה ותמועתה היחסית לסצנה - כולל "זום אין", תנועה בציר X ותנועה בציר Y. השימוש באפליקציה פתוח לציבור הרחב ואולם הוא תמורת תשלום.[11]

מידול תלת ממדי לטובת אנימציות ויישומי מציאות וירטואלית

תהליך מידול תלת ממדי על בסיס תוכנות בינה מלאכותית טקסט לתמונה

יכולות מידול תלת מימד על בסיס מחשבים החלו כבר באמצע שנות התשעים, כאשר מעבדי המחשב הגיעו לרמת ביצועים שמאפשרת את זה. המידול התלת ממדי, ביחד עם יכולת "רינדור", הצללות, השתקפויות וכדומה - הביאה לפריחה של יישומים אמנותיים חדשים ובכללם משחקי מחשב תלת ממדיים. אחת התוכנות המקובלות בהקשר זה היא תוכנת בלנדר שפותחה במקור לצרכים מסחריים. החברה שהובילה את פיתוח התוכנה קרסה עסקית ואולם, מכיוון שהיה לה בסיס משתמשים רחב ומכיוון שהיא תומכת תהליכים רבים ובכללם יצירת מודלים תלת ממדיים, יכולת הגדרת "חומרים", "טקסטורות", רינדור, אנימציה, עריכת וידאו, יצירת משחקי מחשב ועוד - מייסד החברה הצליח לשלם עבור הזכויות ולהפוך את התוכנה לתוכנת "קוד פתוח" שנשענת על קהיליית מפתחים ואמנים-משתמשים רחבה. נכון ל 2022 התוכנה מאוד נפוצה, הקהילייה נתמכת על ידי תאגידי ענק שהם בעלי עניין כמו אדובי ופייסבוק.

במהלך 2022, תוכנות ה"טקסט לתמונה" ותוכנות המידול התלת ממדי החלו להתמזג במגוון דרכים. ראשית, תמונות שנוצרו בתוכנות "טקסט לתמונה" יכולות לשמש כ"טקסטורות" עבור תוכנות המידול התלת ממדיות. שנית, תמונות שנוצרו בתוכנות "טקסט לתמונה" יכולות לשמש כ"קידוד" ליצירת מודלים תלת ממדיים על ידי הפיכת התמונה ל"מפת עומק" ופתרון ה"נורמלים" של המשטחים השונים - הדבקת התמונה, מפת קווי העומק ומפות הנורמלים לתוך תוכנות המידול וביצוע "אקסטרוד" חצי אוטומטי, המבוסס על התמונות שהבינה המלאכותית יצרה. תהליך זה יוצר מודל תלת ממדי מתוך התמונה שהבינה המלאכותית יצרה באופן כמעט ישיר. במהלך ספטמבר 2022 החלו להופיע גם שילובים של התוכנות כך שניתן לפנות מתוך תוכנות המידול התלת ממדי - ישירות אל תוכנות ה"טקסט לתמונה" בלי שצריך לצאת מהיישום. אוסף היכולות האלו מביאות לכך שאמנים יכולים ליצור מודלים תלת ממדיים וסביבות תלת ממדיות - בלי להזדקק לקבוצות גדולות של אנשי תוכנה - מה שנותן תנופה אדירה ליכולות ליצור אנימציות תלת ממדיות וסביבות למשחקי מחשב כמו גם, סביבות לתמיכה ביישומי מציאות וירטואלית.[12]

במהלך ספטמבר 2022, חברת NVIDIA פרסמה שני יישומים ליצירת מודלים תלת ממדיים. הראשון - הופך דמויות דו ממדיות למודלים תלת ממדיים.[13] היישום השני מאפשר ליצור "תאום דיגיטלי" של סביבות שלמות בתלת ממד.[14] יישום זה יכול לאפשר עיצוב פנים קלאסי, יישומי מציאות וירטואלית - אבל, הוא יכול גם לתמוך סביבות אימון ל"למידת חיזוקים" של רובוטים בעולם הפיזי ולכך עשויות להיות משמעויות ניכרות.

יצירת סביבה תלת ממדית באמצעות חלון הנחייה טקסטואלי ו"סקצ'" בסיסי

בסוף מאי 2023, חברת Blockade Labs פרסמה יישום שמאפשר ליצור סביבה תלת ממדית ו"לטייל בתוכה" - כאשר הסביבה נוצרת לפי חלון הנחייה טקסטואלי, מספר קטן של קוים משורבטים ביד חופשית ובחירת סגנון"[15].

רשתות תמונה לטקסט

רשתות שהתמחותן בכתיבת טקסט המתאר את מה ש"רואים" בתמונה. רשתות אלו חשובות לטובת שימושים ספציפיים, למשל, זיהוי תמרורים עבור מכונית אוטונומית. מעבר לכך, הצמדה אוטומטית של טקסט המתאר את מה שרואים בתמונה, יכולה להקל מאוד על מנועי חיפוש. לרשתות אלו יש מגוון גדול של שימושים ובכללם: מתן כותרות לתמונה, יכולת "לתשאל" תמונות. אחד המודלים היותר חזקים בתחום הוא מודל "פלמינגו"[16] של חברת "דיפמיינד". מאמר אינטרנטי שמתאר את המודלים השונים והשימושים האפשריים שלהם, נכון למרץ 2022.[17]

שימוש במודלי שפה גדולים לטובת אמנות

במהלך 2022, פרסמו מספר "מודלי שפה גדולים". מדובר במודלים שכמות הפרמטרים החופשיים שלהם היא מאות מיליארדים ואף טריליונים. רשתות אלו מאומנות במשך זמן רב, על פריטי מידע רבים וכמות הפרמטרים החופשיים שלהן דומה לזו של מוח האדם. ככל שעובר הזמן, מסתבר של"מודלי השפה הגדולים" יש יכולות שלא נחזו - וחלק מיכולות אלו משמשות לאמנות ובכלל זה:

  • מודלי השפה מהווים את הרשת הראשונה - שהופכת את השפה החופשית של המשתמש לשפה שהרשת שהופכת טקסט לתמונה תוכל להתמודד איתה. מודל השפה הגדול הופך את שפת המשתמש לישויות מידע מוגדרות היטב, "הבנה" מה הנושא, מהן מילות תיאור, כיצד הישויות השונות מתייחסות האחת לשנייה וכדומה.
  • "מודלי השפה הגדולים" יכולים לשמש, באופן ישיר, לכתיבת סיפורת, ממגוון הז'אנרים הקיימים ובסגנונות של סופרים ידועים.
  • מודלי השפה יכולים לכתוב שירה במגוון סגנונות (כולל "האיקו", למשל, או בלדות וכדומה). לדוגמה, במענה לבקשה: "תכתוב לי האיקו על כתיבה" המודל (GPT-3) כתב, באפריל 2022:

Writing is a battle between my will

And the cruel indifference of the world

but, it is just words

דוגמאות לרשתות שהן "מודלי שפה גדולים", המובילים ביולי 2022:

שימוש במודלי שפה גדולים לכתיבת מחזות. באוגוסט 2022, במסגרת פסטיבל "תיאטרון פרינג'", בעיר אדמונטון, בקנדה, הועלו מחזות שבסגרתם "שחקנים אמיתיים", בשר ודם, שיחקו במחזות שנכתבו על ידי מודל צ'ינצ'ילה של חברת DeepMind. לראשונה בהיסטוריה בני אדם הלכו להצגות שרובוטים כתבו,[24][25]

רשתות ליצירת מוזיקה

גם המוזיקה, בדומה לשפה, נשענת על "סדרתיות", כלומר, המוזיקה מתאפיינת, בין השאר, בסדר של הצלילים לאורך הזמן. החל משנת 2020, הופיעו רשתות שמסוגלות להלחין מוזיקה. באוגוסט 2022, "לראשונה בהיסטוריה", חברת הפקה גדולה "חתמה על חוזה עם ראפר וירטואלי". האירוע גרם להתנגדויות רבות ולאחר ש"הראפר הווירטואלי" ניבל את הפה ולאור ההתנגדויות - השימוש ב"ראפר הווירטואלי" הופסק.[26]

אפליקציות:

  • AIVA Song Generator
  • Amper AI Music Generator
  • MuseNet MIDI Generator
  • AudioCipher MIDI Plugin & Melody Generator
  • Boomy AI Music Community
  • Synthesizer V SOLARIA - יישום המאפשר ליצור שיר שלם בהתבסס על קול של זמרת וירטואלית.[27]

יישומים אלה לא זוכים לתפוצה גדולה מאוד והם נחשבים כ"לא משכנעים" עדיין.

רשתות המרת טקסט לדיבור

רשתות אלו מאפשרות להכניס טקסט ל"חלון הנחיה", לבחור דמות מפורסמת מסרט או משחק ולקבל "הקראה" של הטקסט בקול של הדמות הנבחרת. איכות התוצאה שנויה במחלוקת, בעיקר בגלל הקושי לחקות אינטונציות. דוגמאות לאפליקציות מובילות:

תוכנות לעריכת ווידאו

החל משנת 2022, הרשתות שתוארו לעיל משמשות לעריכת ווידאו בצורה שמכפילה את מהירות העריכה בסדר גודל פי עשר.

באוגוסט 2022, היישום RunwayML שילב יכולת ל"ניקוי אוטומטי" של הרקע בסרטי ווידאו, בזמן אמיתי - כך שניתן לבקש להחליף את הרקע באמצעות הנחיה טקסטואלית - בלי להזדקק לטכניקות של "מסך ירוק".

שימוש מועיל נוסף, זו היכולת לסמן כל דבר רצוי על גבי הווידאו והתוכנה "יודעת" באופן אוטומטי למחוק את מה שסומן ולמלא במקומו את המסך בפיקסלים, כך שאי אפשר לדעת שהמחיקה התבצעה. מאפשר להסיר אנשים שהופיעו בווידאו "בטעות" וכדומה.[32] יכולת זו מכונה בז'ארגון המתהווה של אנשי עריכת הווידאו באמצעות בינה מאלכותית יוצרת - Inpainting (שחלוף חזותי).

באמצע אוגוסט 2022 יצאה רשת - תוכנה חינמית לשימוש הציבור, רשת המאפשרת לייצר קליפים קצרים של אנימציה על בסיס חלון הנחיה טקסטואלי.[33]

דוגמה לקליפ ווידאו - כאשר גם הדמות, גם הטקסט, גם האודיו וגם הווידאו - נוצרו על ידי בינה מלאכותית

בתחילת דצמבר 2022 פורסם יישום המאפשר יצירת "קליפ וידאו" - כאשר ניתן לבחור שילובים של תמונות אמיתיות, או כאלו שנוצרו על ידי בינה מלאכותית, תסריט טקסטואלי שהמשתמש כותב בעצמו - או כזה שבינה מלאכותית יוצרת, "אודיו" שנוצר על ידי בינה מלאכותית וליצור מהשילוב קליפ וידאו ש"מושך תשומת לב".[34]

בינה מלאכותית לפיסול

לא מוכרים יישומי בינה מלאכותית שיודעים לפסל באופן ישיר. פרויקט בריטי ארוך שנים בשם Ai-Da, עוסק ברעיון של יצירת רובוט בצורת אשה-אמנית (היומנואידית). לפי פרסומים שונים, AI-DA, הדגים פיסול בתהליך שמזכיר פסל אנושי, כלומר, הרובוט הגה פסל ויצר אותו בפועל.[35][36][37][38] הרובוט הופיע בפני בית הלורדים הבריטי.[39]

בינה מלאכותית לתמיכה בארכיטקטים

הדמיה אדריכלית שייצרה הבינה המלאכותית DALL-E, תוך התבססות על סגנונה של האדריכלית זהא חדיד.

מגוון יישומים מאפשרים לתמוך בתהליכי עיצוב ואדריכלות על מרכיביהם השונים. דוגמה פשוטה לכך היא שימוש בתוכנת "מידג'ורני" לקבלת עיצוב פנים רצוי, ביצוע איטרציות חוזרות ונשנות עד לקבלת תמונה רצויה למעצב האנושי ובחירת מרכיבים מתוך התמונה - כהשראה לעיצוב "האמיתי".

נושאים שאפשר לאמץ כוללים למשל,"טבלת צבעים", "אווירה", "סידור הרהיטים וסגנונם", טקסטורות, היחס בין צמחייה-עציצים ליתר מרכיבי העיצוב וכדומה[40]

דוגמה נוספת, לתמיכה באדרכילות, אפשר למצוא בקליפ ההדרכה שלהלן.[41]

בינה מלאכותית לתמיכה במשחקי מחשב

יישומים שמקלים על תהליכי יצירת סביבות המשחק - תורמים לתעשיית משחקי המחשב. יישומי טקסט-לתמונה תורמים ליצירת סביבות תלת ממדיות, יישומי טקסט לווידאו מאפשרים ליצור את הגרסאות הראשונות שעליהן אפשר לפתח סביבות משחק.

שימוש שככל הנראה, צפוי לחולל מהפכה של ממש במשחקי המחשב - זה כל עולם ה"דמויות שאינן שחקן". מודלי השפה הגדולים והצ'אטבוטים המודרניים מאפשרים לכל "דמות שאינה שחקן" להיות שחקן עם אופי, רצונות ויכולת לשוחח עם השחקן האנושי - באופן שמשפיע על התפתחות המשחק.

במהלך שנת 2022, חברות החלו לשלב יכולות כאלה לתוך המשחקים שלהן, כך למשל, חברת Unity שילבה לתוך המנוע שלה "דמויות שאינן שחקן" המנהלות שיחות עם השחקנים האנושיים בצורה שמשפיעה על התפתחות המשחק.

שימוש בבינה מלאכותית ליצירה ואיור של ספרי ילדים, קומיקס, כרזות, מגזינים וכיוצא באלו

ככל שמודלי השפה משתפרים, מצד אחד והמודלים להמרת טקסט לתמונה, משתפרים, מצד שני - ניתן "לכתוב" ספרים ולצרף אליהם איורים, ברמה שגורמת לציבור לרצות לקרוא אותם. איור של ספר ילדים הוא במיוחד אתגרי, מכיוון שנדרש לשמור את הדמויות המאוירות - כך שהזהות שלהם תישמר מאיור לאיור - לאורך העלילה. נכון לאוקטובר 2022, יש כבר מגוון תוכנות שמאפשרות את זה. הנושא משתלב גם בתעשייה המתפתחת של מכירת ספרים שנוצרו על ידי בינה מלאכותית - בחנויות מקוונות למסחר - כמו אמאזון ודומותיה.

רשתות שהתפרסמו לציבור

ציור של יד אנושית מעוותת על ידי Stable Diffusion. בין הבעיות הנפוצות ביותר של הבינה המלאכותית היא יצירת אצבעות וידיים מעוותים מבחינה אנטומית.

במהלך אוגוסט, חברת אפל פרסמה רשת נוירונים, GAUDI, המאפשרת להפוך טקסט לסרטונים "בתוך מבנים" (Indoor). מימוש זה מחייב יכולת "לרנדר" את התמונה בזמן אמיתי - כדי להבטיח שצללים, תאורה והשתקפויות יתעדכנו כנדרש. כך למשל, אפשר "לבקש", ירידה בגרם מדרגות ויקטוריאני, עם נברשת גדולה משמאל ומראה תלויה על הקיר. המערכת תדע ליצור סרטון, כולל יצירה בזמן אמיתי של ההשתקפויות והצללים בצורה "נכונה".

במהלך אוגוסט 2022, התפרסם מודל של חברת UNITY - המשלב בין "אוואטרים" תלת ממדיים למודל שפה גדול, GPT-3, כך שהאוואטרים משוחחים ביניהם בשפה טבעית - ומגיבים "בצורה נכונה" לשיחה שלהם - והשיחה עשירה בדימויים, הקשרים, תיאורים וכדומה - כמו שיחה של אנשים אמיתיים.[42]

ב-20 באוגוסט 2022 אפליקציית Stable Diffusion נפתחה לציבור.[43]

החל מ-1 בספטמבר 2022, תוכנת DALL E2 מאפשרת לבצע "שיחלוף חזותי", "זום אאוט קונטקסטואלי" ו"איחוי תמונות" - בתוך התוכנה (בלי שצריך ליצא את התמונה ולטפל בה בתוכנה חיצונית).

בתחילת בספטמבר 2022, החלו להופיע ריבוי של מימושי Stable Diffusion חינמיים,[44] כולל מגוון גדול של יישומים "מיוחדים" ובכלל זה היכולת לצייר "סקצ'" ולתת לתוכנה להפוך את ה"סקצ'" לתמונה ברזולוציה גבוהה,[45] פיתוח סרטונים - כאשר המשתמש מגדיר את הטקסט בחלון ההנחיה לפריים הראשון של הסרטון ולפריים האחרון של הסרטון והתוכנה מייצרת "קליפ" שעובר בין שתי התמונות שהתוכנה חוללה.

ב-8 בספטמבר 2022 - Stable Diffusion, במימוש דרך DreamStudio, הכניסו תכונה המאפשרת להעלות תמונה קיימת ולשלב אותה כהשראה לרשתות הנוירונים. תכונה זו מאפשרת לעשות "וריאציות" על תמונות קיימות שנוצרו בתוכנה עצמה כמו גם להעלות צילומים ולהשתמש בהם "להשראה", או, אפילו, סקצ'ים שישמשו בסיס ליצירת התמונה על בסיס הטקסט בחלון ההנחיה, מה שמאפשר, בין השאר, "להכתיב" גדלים יחסיים בתמונה הסופית,[46][47]

ב-21 בספטמבר 2022 Stable Diffusion, במימוש דרך DreamStudio, הכניסו תכונות חדשות לעורך היצירות שלהם ובכלל זה יכולת "שיחלוף חזותי" ויכולת "זום אאוט קונטקסטואלי".[48]

ב-5 באוקטובר 2022, חברת "גוגל" פרסמה רשת שגם היא מייצרת "קליפים של וודיאו" לפי טקסט בחלון הנחיה - Imagen Video, גם היא, למעט מאמר ודוגמאות, טרם שוחררה לציבור.[10]

ב-16 באוקטובר 2022, לפי קבוצת הפייסבוק "עליית המכונות"[49] של מתי מריאנסקי, חברת הזנק ישראלית[50] פרסמה יישום שמאפשר "להכניס" מספר קטן של תמונות (10–20) של אדם מסוים, רכב או פריט אחר והיישום "הופך" את התמונות לישות מוכרת כך שניתן אחר כך, להכניס כל טקסט רצוי לחלון ההנחיה והתוכנה תיצור תמונה שהיישות משולבת בה. התוכנה מאפשרת, בין השאר, להכניס תמונות של עצמך, של בן משפחה או של כל אדם רצוי אחר ובהמשך לכך, היא מאפשרת לכן ליצור אלבומים, ספרים, ספרי קומיקס וכיוצא בזה שהגיבורים בהם - הן אותן דמויות ששולבו פנימה. ככל הידוע, המימוש נשען על אפליקציית Dreambooth "מעל" Stable Diffusion.

ב-30 באוקטובר 2022, חברת Baidu פרסמה מודל טקסט לתמונה משל עצמה. בתחומים מסוימים, ביצועי המודל עולים על המודלים הקיימים. הטקסט בחלון ההנחיה מתורגם לסינית טרם שהוא מוזן למודל מה שמלמד כי המודל אומן בשפה הסינית.[51]

בנובמבר 2022, פורסם יישום המאפשר להכניס "רעיון כללי" לחלון ההנחיה - והיישום בונה חלון הנחיה עשיר בשמות תואר, תיאורים, ייחוס לאמנים מהעבר, ייחוס לתקופות היסטוריות, לרזולוציה, לסגנונות וכדומה - והמשתמש יכול להעתיק את ההצעה או חלקה ולהשתמש בה כקלט לרשתות הטקסט לתמונה.[52]

בנובמבר 2022, חברת Nvidia פרסמה מודל טקסט לתמונה שמאפשר העברת סגנון בנפרד מהטקסט, הצגה של טקסטים עם איות נכון בתוך התמונה שהמודל יצר והמרה נוחה של איור ידני לתמונה - מה שמאפשר שליטה משופרת בקומפוזיציה, בפרספקטיבה וביחסי הגדלים בין האובייקטים השונים של התמונה המתקבלת. eDiff-I.

בסוף נובמבר 2022, פורסם מודל חדש של GPT-3 - de-vinici 003. המודל יכול לטפל בטקסטים הרבה יותר ארוכים בהשוואה לקודמו ויש לו מרכיב של "הסברים" יותר חזק בהשוואה למודלים קודמים.

ב-26.11.2022 "סטייבל דיפיוז'ן" פרסמה גרסה 2.0 שלהערכת רוב המשתמשים - היא גרועה בהרבה מקודמתה. חלק מהפרשנים מייחסים את הפרסום המוזר הזה כניסיון להתמודד אם תביעות עתידיות בהקשרי קניין רוחני או לחצים של משקיעים שנכנסו לחברה וחוששים מתביעות עתידיות או טענות מצד חברות ההפקה הענקיות, הוותיקות.

אתר אינטרנט ש"מתחזק" רשימה מקיפה של היישומים בנושא בינה מלאכותית יוצרת הוא האתר Futurepedia. נכון לדצמבר 2022, האתר מפרט למעלה מ 400 יישומים - כולל פירוט לגבי פופולריות היישום, האם הוא עולה כסף או חינמי ומידעים מועילים נוספים.[53]

ב-19.12.2022 פורסם מודל שפה שמאפשר שיחה רצופה, אבל, הוא יודע לשלב בתשובות גם את תוצאות החיפוש של מנוע החיפוש של "גוגל" בזמן אמיתי ולעבוד לפי פיקוד קולי. "בוט" זה יודע גם לקבל הנחיות לצייור תמונות ישירות מטקסטים. ככל הידוע, ה"בוט" נשען על GPT3.5.[54]

ב 5.1.2023 התפרסם יישום מעל huggingface - רשת דיפיוז'ן, Versatile Diffusion, רשת שמאפשרת מגוון יישומים המבוססים על רשתות דיפוזיה ובכלל זה טקסט לתמונה, תמונה לטקסט, וריאציות על טקסט, "פרימת שזירה" בין הסגנון לסמנטיקה של תמונות, שילוב חלון הנחיה טקסטואלי ותמונה ומשחק ישיר על המרחב הסמוי באמצעות תרגום תמונה לטקסט, מניפולציה על הטקסט, יצירת תמונה מהטקסט החדש. המעבדה מאחורי היישום מבטיחה לשלב גם יישומים של המרת טקסט ישירות לקובצי תלת מימד ועוד.[55]

בשלהי 2022, ChatGPT, יישום של חברת OpenAI זכה לפופורליות עצומה "בבת אחת". מדובר ביישום של "בוט שיחה" מעל GPT3. ה"בוט" מאפשר כתיבת מגוון גדול של "סוגי טקסט" בדומה ל GPT3, אבל, הוא מאפשר גם כתיבת קוד תוכנה לפי בקשות בלשון חופשית - ישירות לתוך תוכנות אמנות כמו בלנדר. היישום זכה ליותר ממיליון משתמשים תוך חמישה ימים מיום חשיפתו לציבור והוא זוכה להתענינות ציבורית והד רב באמצעי התקשורת ההמוניים.

במהלך ינואר 2023 התפרסם יישום מעל huggingface - יישום המאפשר יצירת תמונות מטקסט - אבל, כולל את האפשרות ליצירת טקסטים בתמונה כך שהמילים מאויתות נכון. אף על פי שבעבר הועלתה טענה כאילו ל"גוגל" יש כבר יכולת עזו, זו פעם ראשונה שהיכולת מונגשת לציבור.[56]

ב 31.1.2023 חברת Playgroundai עדכנה את היישום שלה כך שהוא מאפשר עריכה באמצעות טקסט - כולל עריכה לפי הנחיות טקסטואליות ועם מסכות - הצירוף הזה מאפשר לצייר "כמעט כל דבר" - בלי לדעת לצייר בכלל, אלא לפי הנחיות טקסטואליות בלשון חופשית, כברירת מחדל, האתר משתמש במודל סטייבל דיפיוז'ן.[57]

ב 7.2.2023 RunwayML פרסמה, בתוך אתר האינטרנט של היישום, יכולת אימון של סטייבל דיפיוז'ן - כולל אימון על פרוטרטים של בני אדם, חתולים וכלבים. לאחר האימון, היישום מאפשר לשלב את הדמויות - ישויות שנוצרו בכל יצירה של המודל. בנוסף, החברה שילבה AI Tools הכוללים מגוון גדול של יישומים בהקשר לווידאו ובכלל זה "שיחלוף חזותי" שמאפשר למחוק דמויות מתוך סרט בצורה "אוטומטית", להחליף רקע של דמויות בסרט בצורה אוטומטית ומגוון תכונות נוסף. החברה הכריזה על יישום GEN-1 שלטענתה יכלול יכולת להפוך ווידאו קיים - לווידאו בסגנון של תמונה נבחרת, להעביר ווידאו לווידאו בסגנון של אמן או ז'אנר מסוימים ועוד.[58]

בסוף פברואר 2022 התפרסמה קבוצה של מודלים "מעל" סטייבל דיפיוז'ן שנקראת ControlNet. מודלים אלה מאפשרים יצירה של תמונות על בסיס פענוח "מרחב ביניים", לדוגמה - אפשר להכניס תמונה והמודל מצליח לחלץ ממנה את ה"פוזה" של האנשים בפריים ולייצר תמונות חדשות לגמרי, לפי טקסט, אבל - תמונות חדשות לגמרי שבהן האנשים בדיוק באותה פוזה של הדמויות בתמונת המקור. הפונקציה הזו מאפשרת כוריאוגרפיה מלאה של סרטי אנימציה. דוגמה נוספת - ניתן להכניס תמונה דו ממדית "רגילה", המודל מצליח לפענח ממנה את המודל התלת ממדי של הדמויות האנושיות ולהשתמש בזה לצורך יצירת תמונות חדשות, לפי טקסט, תמונות שבהן רק המודל התלת ממדי מאומץ מתמונת המקור ואילו התמונה כולה נוצרה לפי הטקסט.

סביב 15.3.2023 התפרסמה גרסה 5 של מידג'ורני (למשתמשים משלמים בלבד). הגרסה תומכת ברזולוציה גבוהה, תמונות עם ריבוי של אנשים באותה תמונה - כולל מענה חזותי לאינטראקציות בין האנשים השונים, שיפור ניכר ביכולת לחולל כפות ידיים, בציור דמויות של אנשים מפורסמים, בדיוק האנטומי של שיניים ותכונות נוספות.

סביב אותו תאריך, 15.3.2023 התפרסמה גרסה חדשה של מודל השפה הגדול של חברת Open AI, בתצורת "בוט שיחה" - Chat GPT4. ה"בוט" מסתדר הרבה יותר טוב בעברית (בהשוואה לגרסאות קודמות), הסיכויים לקבלת מענה שגוי הצטמצמו בהרבה, ה"בוט" מסתדר הרבה יותר טוב עם חישובים מתמטיים, הוא מכיר יותר שפות תכנות והוא פחות "פגיע" לדירדור לדיבורי שנאה, נאצות וכיוצא באלו. ה"בוט" משמש, כבר בהשקה, יישומים כמו "דולינגו" והוא פתוח למשתמשי CHAT GPT משלמים כבר מההשקה. במבחני אינטליגנציה רבים, ה"בוט" מצליח ברמה העולה על נבחן אנושי ממוצע - כולל במבחני כניסה לאוניברסיטאות מובילות בעולם. לפי מקורות רבים - ה"בוט" יידע לקבל תמונה כ"אינפוט" ולהתייחס למה שמופיע בתמונה באמצעות שילוב של הבנת שפה ואינטליגנציה "כמו אנושית". תכונה זו תאפשר ל"בוט" להתייחס בזמן אמיתי לעולם שסביבו - כאשר מצלמות הטלפונים הסלולריים משמשות לו כעיניים. תכונה זו טרם שוחררה לציבור הרחב (נכון ל 17.3.2023). לפי מקורות שונים, ל"בוט" תהייה גם יכולת "להאזין" למיקרופונים, לייצר "אודיו", לייצר מוזיקה ולייצר ווידאו לפי טקסטים. תכונות אלו טרם נצפו.

סביב 20.3.2023 חברת Open AI פרסמה כי היא תאפשר חיבור בין Chat GPT4 לבין יישומי אינטרנט שונים באמצעות API. מודל זה מזכיר מצב שבו ה Chat GPT4 הוא סוג של "מערכת הפעלה" שניתן לשוחח איתה ישירות, בדיבור חופשי והיא מבצעת משימות עבור המשתמש - כמו למשל, קניית מזון, הזמנת מקומות במסעדה או הזמנת כרטיסי טיסה.

סביב 25.3.2023 אפליקציית Playground-AI הכניסה פונקציונליות של Canvas. המשמעות היא שניתן לעשות "שיחלוף חזותי", "זום אאוט קונטקסטואלי" וכיוצא באלו - בצורה נוחה ובהתייחס לחלון התייחסות מוגדר היטב.

ב 5.3.2023 - Stable Diffusion שחררו לציבור (דרך Dream Studio) גרסת ביניים שנקראת SD-XL. גרסה זו כוללת מגוון שיפורים שהבולט ביניהם זו היכולת "לצייר" טקסט בתוך התמונה שהיישום מחולל.

ב 5.3.2023 - מידג'ורני שילבו פקודה חדשה שנקראת Describe. הפעלת הפקודה מאפשרת להעלות תמונה למחשב, לקבל ארבע חלופות לתיאור התמונה - כך שחלופות אלה יכולות לשמש כטקסט לחלון הנחיה חדש - שאינו מתחשב בתמונה המקורית עצמה.

סביב 1.3.2023 חברת RunwayML פרסמה לציבור את GEN-1 שמאפשר להעלות קובצי ווידאו למחשב - ולשנות את הסגנון שלהם, להוסיף להם אפקטים וכדומה.

סרטון של פילים בטנזניה - אחרי המרה לסגנון של צבעי מים באמצעות RunwayML

החל מאמצע פברואר 2023 - החלו "לצוץ" מגוון גדול של יישומים אוטונומיים-עצמאיים המאפשרים לשרשר מודלים של בינה מלאכותית, ללא מעורבות אדם, יישומים כאלה מכונים גם סוכן תבוני. רוב היישומים נשענים על קלט ו"מערכת הפעלה" המבוססים על מודלי שפה גדולים ובעיקר ChatGPT4. אחד היישומים הבולטים הוא ג'ארוויס של מיקרוסופט שמאפשר "תפירה" של כל המודלים הנמצאים באתר Hugingface, כולל מודלים מולטי-מודאליים (ונכון לתחילת מרץ 2023 - יש 168,000 מודלים כאלה).

החל ממרץ 2023, חברת מיקרוסופט שילבה במנוע החיפוש שלה, "בינג החדש" חלון הנחיה שמאפשר לנהל שיחה עם GPT-4. הדפדפן של מיקרוסופט, אדג', מאפשר שלושה מודי עבודה. כאשר משתמשים במוד היצירתי - ניתן לשלב שיחה עם GPT ובמקביל, לחולל תמונות בהתבסס על DALL E 2. השילוב הזה הוא אחד היישומים הראשונים בעולם המשלבים יכולת מולטי-מודלית - שיחה ויצירת תמונות, בתפוצה רחבה של מאות מיליוני משתמשים ברחבי העולם ובמגוון שפות.

ב 29.04.2023 התפרסם מודל חדש ליצירת תמונות מחלון הנחיה טקסטואלי, ששמו DeepFloyd, המודל מתאפיין ביכולת לשלב טקסט בתוך התמונה.

באמצע מאי 2023, חברת אדובי שילבה אלגוריתמי "בינה מלאכותית יוצרת" לתוך תוכנת "פוטושופ". חבילת העדכון נקראת Firefly והיא בין השאר, נבדלת מהחברות האחרות בכך שבסיס הנתונים עליו אומנו המודלים של החברה - לא מכיל מידע שיש עליו זכויות יוצרים. השילוב לתוך הפונקציונליות הרגילה של פוטושופ - יצר "חבילת תוכנה" שנחשבת חזקה במיוחד למגוון גדול של בעלי מקצוע ובכללם מעצבים, צלמים וכיו"ב.

תהליכי יצירה

ברוב היישומים מוצגות מספר תוצאות ש"ח יצירות כך שהמשתמש יכול לבחור את התוצאה הרצויה לו או לבקש ליצור גרסאות נוספות.

יצירת תמונה מטקסט

אף שניתן לקבל לתוצאות מרשימות באמצעות טקסט בלבד, ניתן למצוא שגיאות בפרטים בהם רמת הדיוק גבוהה. בתמונה: גשר הכינור מעוות

בתהליך זה, המשתמש האנושי מכניס טקסט לתוך "חלון ההנחיה" (Prompt) והיישום הופך את הטקסט לתמונה. בדרך כלל, כדאי ללוות את הטקסט שמתאר את התמונה בתיאורים של הסגנון הרצוי, התאורה, אמן מוכר, דמות מוכרת, תקופה היסטורית, יישום מוכר של תוכנת עריכה קיימת וכיוצא באלו. בחלק מהתוכנות, אפשר גם לתת פקודות שונות המתארות את החשיבות היחסית של כל קטע טקסט.

העלאת תמונה ויצירת תמונה אחרת בהשראתה

ברוב היישומים, נתן להעלות תמונה קיימת, ממקור כלשהו, אל חלון ההנחיה. היישום יידע לייצר תמונה "בהשראת" הקובץ שהועלה.

באיור המצורף - דוגמה לתמונה שמידג'ורני יצרה, על סמך ציור של עץ באובב - ללא תיאור טקסטואלי בכלל, אחרי כמה עשרות איטרציות של וריאציות חוזרות ונשנות בתוך היישום.

תמונה של מידג'ורני - על בסיס השראה מציור של עץ באובב, ללא טקסט בכלל

העלאת תמונה וגם טקסט

בתהליך זה, היישום ייצר תמונה שגם מביאה בחשבון את קובץ התמונה וגם את התיאור הטקסטואלי

עריכה של תמונה קימת

בתהליך זה, הממשתמש מעלה תמונה, מוחק חלקים ממנה ומבקש מהיישום למלא את המחיקה, באמצעות תיאור טקסטואלי של איך הוא מבקש למלא את התמונה. טכניקה זו מאפשרת, בין השאר, לתקן פוקוס בצילום - יכולת חדשנית שעוזרת המיוחד במיקרים של צילום "מאקרו".[59]

"זום אאוט קונטקסטואלי" מתמונה קיימת

בטכניקה זו, המשתמש מעלה תמונה לתוכנת עריכה רגילה (למשל, פוטושופ), מגדיל את הקנבס ורק אז מעלה את התמונה אל היישום. בתוך היישום, המשתמש מוחק את הקנבס שמסביב לתמונה המקורית ואז מבקש, על ידי תיאור טקסטואלי להשלים את הקנבס החסר. טכניקה זו מאפשרת להפוך תמונת פורטרט לתמונה של אדם בגודל מלא בתוך סצנה של מסיבה למשל. למעשה, טכניקה זו מאפשרת "זום אאוט" רצוף, כאשר יישום הבינה המלאכותית ממלא את האזור שלא היה בתמונה המקורית לפי "הדמיון" של עצמו והיצירה של עצמו.

שיחלוף חזותי

טכניקה המאפשרת למחוק קטע מהתמונה ולבקש מהתוכנה להשלים את הקטע שנמחק - ע"פ טקסט בחלון ההנחיה וההקשר החזותי של התמונה עצמה, Inpainting באנגלית.

איחוי תמונות

חלק מהתוכנות מאפשרות להעלות שתי תמונות שהודבקו על אותו קנבס ב"מרחק" האחת מהשנייה ו"לבקש" מהתוכנה למלא את המרווחים, ע"פ טקסט בחלון ההנחיה ובצורה שתתחבר לתמונות הקיימות בצורה שלא מאפשרת לראות את החיבור.

תהליך איטרטיבי

המשתמש יכול ליצור תמונה בכל אחד מהתהליכים שתוארו למעלה - ואז לייצא אותה לתוכנת עריכה רגילה, להעלות את התמונה החדשה אל היישום, לעבוד עליה וחוזר חלילה.

תיאור תהליכי העבודה מופיע באיור שמשמאל

תהליכי הכנת תמונה מבוססת בינה מלאכותית יוצרת: 1. מטקסט ישירות לתמונה 2. מתמונה לתמונה 3. מתמונה וטקסט לתמונה 4. הורדת התוצר, עיבוד בתוכנת עריכה רגילה והעלאה חזרה 5. העלאת תמונה או עריכת תמונה קיימת, מחיקת חלקים מהתמונה - וטקסט המתאר איך רוצים שהתמונה תיראה 6. הורדת תמונה, הוספת קנבס, העלאת התמונה חזרה, מחיקת הקנבס, תיאור טקסטואלי של מה רוצים לראות ויצירת "זום אאוט"

שימוש ב"מסגרת התייחסות" ו"מסכות"

נכון לשלהי 2022, מתפתחות תוכנות שמאפשרות שימוש בשילוב של "מסגרת התייחסות" ו"מסכות". התוכנה מאפשרת להגדיר "חלון התייחסות" - כך שהבינה המלאכותית תתייחס רק לאותו מידע שנמצא בתוך חלון ההתייחסות - כך למשל, אם התמונה שעובדים עליה כוללת שמים וקרקע ו"חלון ההתייחסות" יצומצם כך שרק האדמה מוכלת ב"חלון ההתייחסות" - כל הפעולות שיבוצעו יהיו בהקשר לתוכן הוויזואלי של חלון ההתייחסות בלבד. לדוגמה - אם המשתמש יבצע "שיחלוף חזותי" - השיחלוף יהיה כך שהאלגוריתמיקה תנסה להתאים את התמונה "החדשה" אל תכולת חלון ההתייחסות בלבד ולא לתמונה כולה.

מנגנון נוסף הן "מסכות" המאפשרות למשתמש לצייר "מסכה" או שקף על גבי התמונה המקורית. כל הפעולות שמתבצעות בהמשך להצבת המסכה מתבצעות רק על השטח שאותו המסכה מכסה.

הצירוף של "חלון התייחסות" ו"מסכות" מאפשר בעצם "לצייר" ביד חופשית סוג של "סקיצה", להגדיר "חלון הנחיה טקסטואלי" וכך - לצייר "כל תמונה רצויה" באמצעות בינה מלאכותית יוצרת - בלי שיש צורך לצאת מחוץ ליישום. תוכנה מובילה בהקשר זה היא InvokeAI.[60][61][62]

שימוש ב"צמתים" (Nodes)

מימשק "צמתים" ליצירת תמונות - אפליקציית ComfyUI
המחשה של עבודה באמצעות "צמתים" - Nodes

אחת השיטות המתפתחות לשילוב של יישומים מורכבים - היא ויזואליזציה של "צמתים", כאשר כל צומת מייצגת פעולה מורכבת ולכל צומת יש מספר כניסות ומספר יציאות - וגם יכולת להגדיר משתנים שונים. לדוגמה, בתוכנת בלנדר, יש יכולת לנהל חומרים בשיטה זו - כאשר צומת אחת מגדירה את הצבע, צומת אחת מגדירה את השקיפות של החומר, צומת אחרת את החיספוס, צומת אחת את מידת ההחזרים, האם יש תופעה של החזרות רבות בתוך החומר המסוים וכיוצא באלו. יתרונה של השיטה - זה שהיא מאפשרת "לחבר" יישומים מורכבים בצורה פשוטה יחסית - מההיבט של "מימשק משתמש". חלק מיישומי הבינה מלאכותית מתוכננים לממש יכולת זו - באופן שיאפשר לשלב רשתות/ יישומים, כך למשל - אפשר לחבר רשת "שמע לטקסט" ל"רשת טקסט-תרגום-טקסט", ל"רשת טקסט - השבחת טקסט באמצעות מודל שפה גדול - לטקסט" לרשת "טקסט לתמונה" - לרשת "תמונה - שינוי סגנון - לתמונה" וכדומה.

באמצע מרץ 2023, התפרסם יישום המאפשר לחולל - ליצור תמונות בשיטת המימשק של "צמתים" - NODES. היישום פתוח לשימוש חינמי ושמו ComfyUI.[63]

הבטים אתיים

אתיקה של בינה מלאכותית. פיתוחים בתחום אמנות מבוססת בינה מלאכותית עלולים לשמש למגוון פעולות זדוניות ובכללן יצירת ידיעות כוזבות, זיוף תמונות או ווידאו, שימוש לטובת השפעה אסורה על בחירה של אנשים, למשל, בהקשר לבחירות במדינות דמוקרטיות וכיוצא באלו. מסמך ראשוני בנושא פורסם על ידי המשרד לחדשנות, מדע וטכנולוגיה כ"מצפן" להתייחסות של הציבור, ב 30.10.2022.[64]

קישורים חיצוניים

הערות שוליים

  1. ^ מאמר פופולרי באתר "רשתטק"
  2. ^ 2.0 2.1 אתר המודל של DALLE2
  3. ^ כתבה באתר CNET על גוגל פרטי
  4. ^ המאמר באתר המחקר של גוגל
  5. ^ אתר ההרשמה לתוכנה
  6. ^ אתר היישום
  7. ^ אתר היישום Night Cafe
  8. ^ אתר היישום Gaugan2
  9. ^ אתר הפרסום אודות היישום Makeavideo כולל לא מעט סרטוני הדגמה
  10. ^ 10.0 10.1 מאמר באתר techcrunch
  11. ^ אתר האפליקציה של Deforum באינטרנט, באירוח Replicate
  12. ^ סרטון יו טיוב המתאר את תהליך הפיכת תמונה שנוצרה בתוכנת "טקסט לתמונה" לטקסטורה שמקדדת תבליט על מודל תלת ממדי
  13. ^ סרטון יו טיוב המתאר את היישום של חברת NVIDIA - ליצירת מודלים "קטנים" בתלת ממד
  14. ^ אומניוורס של NVIDIA כשרות ענן
  15. ^ סירטון הדגמה של חברת Blokade Labs באתר יוטיוב
  16. ^ מאמר על המודל בבלוג של חברת "דיפמיינד"
  17. ^ מאמר על המודלים השונים ויישומים אפשריים שלהם
  18. ^ אתר המודל של GPT-3
  19. ^ תיאור המודל בבלוג של גוגל
  20. ^ סרטון יו-טיוב על מודל PaLM, מאת דר' אלן תומפסון האוסטרלי
  21. ^ המאמר האקדמי שמתאר את מודל PaLM
  22. ^ מאמר המתאר את המודל של אנווידיה ומיקרוסופט
  23. ^ אתר המודל BLOOM
  24. ^ כתבה על המחזות בפסטיבל התיאטרון פרינג' של אדמונטון קנדה, 2022
  25. ^ כיסוי ה"דרמטרון" בסדרת הסרטונים של דר' אלן תומפסון
  26. ^ סרטון יו טיוב שמתאר את "הראפר הווירטואלי" והעסקתו
  27. ^ סרטון יו טיוב שמדגים את תהליך יצירת הקליפ
  28. ^ אפליקציה להמרת טקסט לדיבור של דמויות נבחרות
  29. ^ אפליקציית Murf להמרת טקסט לדיבור של דמויות נבחרות
  30. ^ אפליקציית Play.ht להמרת טקסט לדיבור בסגנונות שונים
  31. ^ אפליקציית naturalreader להמרת טקסט לדיבור
  32. ^ סרטון יו-טיוב המתאר את אופן השימוש ביכולת Inpainting
  33. ^ אתר אינטרנט המאפשר לייצר קליפים קצרים לפי טקסט
  34. ^ אתר היישום ליצירת קטעי וידאו, D-ID
  35. ^ סרטון יו-טיוב הכולל ראיונות עם מפתחי הפרויקט
  36. ^ סרטון יו-טיוב The art channel
  37. ^ סרטון יו-טיוב Euronews
  38. ^ אתר הפרויקט, כולל גלריות של תוצרי עבודת ההיומנואידית
  39. ^ כתבה על הופעתה של AI-DA, בפני בית הלורדים, בבריטניה,וושינגטון פוסט" מאוקטובר 2022
  40. ^ סרטון יו-טיוב של Redone
  41. ^ סרטון יו-טיוב של StephenCoorlas
  42. ^ סרטון יו-טיוב המתאר את החיבור של מנוע UNITY עם מודל השפה GPT3
  43. ^ מימוש של האפליקציה באתר Dreem Studio
  44. ^ מימוש של אפליקציית SD באתר Huggingface
  45. ^ מימוש של אפליקציית SD באתר Huggingface, להפיכת סקצ' לתמונה ברזולצייה גבוהה
  46. ^ מימוש של אפליקציית SD באתר DreamStudio
  47. ^ סרטון הדרכה על התכונות החדשות, מאת ScottDetwiler
  48. ^ סרטון הדרכה על התכונות החדשות, מאת ScottDetwiler
  49. ^ קבוצת הפייסבוק "עליית המכונות" של מתי מריאנסקי
  50. ^ אתר החברה שמאפשרת לשלב דמויות אמיתיות לתוך תוכנת "טקסט לתמונה"
  51. ^ מימוש מודל ERNIE-ViLG 2.0 מעל huggingface
  52. ^ יישום להרחבת חלונות הנחיה מעל huggingface
  53. ^ אתר Futurepedia שמכסה את רוב יישומי ה AI ומתוחזק בצורה שוטפת
  54. ^ אתר הצ'ט writesonic
  55. ^ יישום Versatile Diffusion מעל huggingface
  56. ^ יישום Karlo מעל huggingface
  57. ^ סרטון יוטיוב המדגים את היכולת החדשה
  58. ^ סרטון יוטיוב המדגים את היכולות החדשות של RunwayML
  59. ^ סרטון יו-טיוב המתאר את אופן השימוש ביכולות העריכה של DALLE2, כולל תיקון "פוקוס" בצילום נתון
  60. ^ סרט יוטיוב של אחת מגרסאות InvokeAI
  61. ^ סרט יוטיוב המתאר את השימוש ב InvokeAI
  62. ^ סרט יוטיוב המתאר את השימוש ב InvokeAI בצורה איטרטיבית רצופה
  63. ^ סרטון יוטיוב המתאר את ההתקנה על המחשב המקומי ונותן הדרכה בסיסית על אופן השימוש
  64. ^ הפניה למסמך באתר הממשלה, המשרד לחדשנות, מדע וטכנולוגיה
הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

36531184אומנות בינה מלאכותית