AlphaGo Zero
מחזור חיים | 19 באוקטובר 2017 – הווה (7 שנים ו־4 שבועות) |
---|---|
גרסה אחרונה |
AlphaGo Zero היא גרסה מתקדם של תוכנת AlphaGo של חברת DeepMind. הצוות של AlphaGo פרסם מאמר בכתב העת Nature ב-19 באוקטובר 2017, המציג את AlphaGo Zero, גרסה שבניגוד לקודמתה נוצרה ללא שימוש בנתונים ממשחקים אנושיים, ובכל זאת היא חזקה יותר מכל גרסה קודמת.
האימון של התוכנה נעשה על ידי משחק נגד עצמה, בשלושת הימים הראשונים של האימון, AlphaGo Zero הפסידה 100 משחקים, לאחר 21 יום הגיעה לרמה של AlphaGo Master, ותוך 40 יום עלתה על כל תוכנה אחרת בתחום. [1]
לאימון בינה מלאכותית (AI) ללא מערכי נתונים שמקורם במומחים אנושיים יש השלכות משמעותיות על פיתוח בינה מלאכותית עם כישורים על-אנושיים מכיוון שנתוני מומחים הם "לעיתים קרובות יקרים, לא אמינים או פשוט לא זמינים".[2] Demis Hassabis, המייסד והמנכ"ל של DeepMind, אמר ש-AlphaGo Zero נהייתה כל כך חזקה מכיוון שהיא "כבר לא מוגבלת על ידי גבולות הידע האנושי".[3]
יתרה מזאת, AlphaGo Zero הציגה ביצועים טובים יותר ממודלים סטנדרטיים של למידה עמוקה באמצעות חיזוק (כגון יישומי DQN[4]).
דייוויד סילבר, אחד המחברים הראשונים של מאמרים של DeepMind שפורסמו ב- Nature ב-AlphaGo, אמר שאפשר להכליל אלגוריתמי AI על ידי הסרת הצורך ללמוד מבני אדם. [5]
מאוחר יותר גוגל פיתחה את AlphaZero, שהיא גרסה כללית של AlphaGo Zero שיכולה לשחק שחמט ושוגי בנוסף ל-Go. בדצמבר 2017, AlphaZero ניצחה את גרסת 3 הימים של AlphaGo Zero על ידי זכייה של 60 משחקים מול 40, ועם 8 שעות של אימון היא הצליחה להתעלות על AlphaGo Lee. בנוסף היא ניצחה תוכנית שחמט מובילה (Stockfish) ותוכנית שוגי מובילה (Elmo).[6]
אימון המודל
הרשת העצבית של AlphaGo Zero אומנה באמצעות TensorFlow, עם 64 מעבדי GPU ו-19 שרתי פרמטרים של CPU. רק ארבעה TPU שימשו להסקת המסקנות.
בתחילה, הרשת העצבית לא ידעה דבר על המשחק מעבר לכללים הביסיים. בניגוד לגרסאות קודמות של AlphaGo, Zero קיבל את המידע הבסיסי של האבנים על הלוח, ולא היו לו כמה מקרים נדירים מתוכנתים על ידי אדם כדי לעזור לזהות עמדות יוצאות דופן של לוח Go. הבינה המלאכותית עבדה עם למידת מכונה מסוג למידת חיזוק, וכך היא שיחקה נגד עצמה ולמדה מכישלונות עד שהצליחה להבין איך המהלכים שהיא ביצעה השפיעו על תוצאות המשחק.[7] בשלושת הימים הראשונים AlphaGo Zero שיחק 4.9 מיליון משחקים מול עצמה ברצף מהיר. [8] ונראה שהוא פיתח את הכישורים הנדרשים כדי לנצח את בני האדם המובילים בתוך ימים ספורים בלבד, בעוד שה-AlphaGo המוקדם יותר לקח חודשים של אימונים כדי להגיע לאותה רמה. [9]
לשם השוואה, החוקרים הכשירו גם גרסה של AlphaGo Zero באמצעות משחקים אנושיים, AlphaGo Master, וגילו שהיא למדה מהר יותר, אך למעשה תפקדה באופן פחות טוב לטווח הארוך. DeepMind פרסמה את הממצאים הראשוניים שלה במאמר ל- Nature באוקטובר 2017.[10]
עלות חומרה
עלות החומרה עבור מערכת AlphaGo Zero יחידה בשנת 2017, כולל ארבעת ה-TPU, הוערכה בסכום של 25 מיליון דולר.[11]
יישומים
לפי חסביס, האלגוריתמים של AlphaGo עשויים להועיל ביותר לתחומים הדורשים חיפוש מושכל דרך מרחב עצום של אפשרויות, כמו קיפול חלבון או הדמיה מדויקת של תגובות כימיות.[12] הטכניקות של AlphaGo כנראה פחות שימושיות בתחומים שקשה לדמות, כמו לימוד נהיגה במכונית.[13] DeepMind הצהירה באוקטובר 2017 כי היא כבר החלה בעבודה אקטיבית על ניסיון להשתמש בטכנולוגיית AlphaGo Zero לקיפול חלבון, והצהירה כי בקרוב תפרסם ממצאים חדשים. [14] [15]
קבלה
AlphaGo Zero נחשבה באופן נרחב כמקדמה משמעותית, גם בהשוואה לקודמו פורץ הדרך, AlphaGo. אורן עציוני ממכון אלן לבינה מלאכותית כינה את AlphaGo Zero "תוצאה טכנית מרשימה מאוד" וציין כי "גם היכולת שלהם לעשות זאת וגם היכולת שלהם לאמן את המערכת תוך 40 יום, על ארבעה TPU". ה"גרדיאן" כינה זאת "פריצת דרך גדולה לבינה מלאכותית", תוך ציטוט של אלני ואסילאקי מאוניברסיטת שפילד וטום מיטשל מאוניברסיטת קרנגי מלון, שכינו זאת הישג מרשים ו"הישג הנדסי יוצא דופן" בהתאמה. מארק פסה מאוניברסיטת סידני כינה את AlphaGo Zero "התקדמות טכנולוגית גדולה" שלוקחת אותנו ל"טריטוריה שלא התגלתה". [16]
בתגובה לדיווחים על ביצועי המערכת, אמר המאמן גו הדרום קוריאני של לי סידול, "הגרסה הקודמת של AlphaGo לא הייתה מושלמת, ואני מאמין שבגלל זה נוצרה AlphaGo Zero". לגבי פוטנציאל הפיתוח של AlphaGo, לי אמר שהוא יצטרך לחכות ולראות אבל גם אמר שזה ישפיע על שחקני גו צעירים"
השוואה לתוכנות קודמות
גרסאות | משחק חומרה [18] | מד כושר | התאמות |
---|---|---|---|
AlphaGo fan | 176 GPUs | 3,144 | 5:0 מול פאן הואי |
AlphaGo Lee | 48 TPU | 3,739 | 4:1 מול לי סידול |
אלפאגו מאסטר | 4 TPU, מכונה בודדת | 4,858 | 60:0 מול שחקנים מקצועיים;
Future of Go Summit |
AlphaGo Zero (40 days) | 4 TPU, מכונה בודדת | 5,185 | 100:0 מול אלפאגו לי
89:11 מול אלפאגו מאסטר |
AlphaZero (34 hours) | 4 TPUs, מכונה אחת | 4,430 (הערכה ) | 60:40 מול AlphaGo Zero של 3 ימים |
AlphaZero
ב-5 בדצמבר 2017, צוות DeepMind פרסם הדפסה מקדימה ב-arXiv, והציג את AlphaZero, תוכנית המשתמשת בגישה המוכללת של AlphaGo Zero, שהשיגה תוך 24 שעות רמה על-אנושית של משחק בשחמט, שוגי ו- Go, תוך ניצחון על תוכניות אלופי העולם, Stockfish, Elmo.
AlphaZero (AZ) הוא גרסה כללית יותר של אלגוריתם AlphaGo Zero (AGZ), והוא מסוגל לשחק שוגי ושחמט כמו גם Go. ההבדלים בין AZ ל-AGZ כוללים:
- ל-AZ יש כללים מקודדים להגדרת היפרפרמטרים של חיפוש.
- הרשת העצבית מתעדכנת כל הזמן.
- שחמט (בניגוד לגו) יכול להסתיים בתיקו; לכן AZ יכולה לקחת בחשבון את האפשרות של משחק שוויון.
ישנה תוכנת קוד פתוח, Leela Zero, המבוססת על הרעיונות מהעיתונים של AlphaGo. הוא משתמש ב- GPU במקום ב- TPU שהגירסאות האחרונות של AlphaGo מסתמכות עליהן.
קישורים חיצוניים
הערות שוליים
- ^ AlphaGo Zero: Learning from scratch
- ^ "Google's New AlphaGo Breakthrough Could Take Algorithms Where No Humans Have Gone". Yahoo! Finance. 19 באוקטובר 2017. ארכיון מ-19 באוקטובר 2017. נבדק ב-19 באוקטובר 2017.
{{cite web}}
: (עזרה) - ^ Knapton, Sarah (18 באוקטובר 2017). "AlphaGo Zero: Google DeepMind supercomputer learns 3,000 years of human knowledge in 40 days". The Telegraph. ארכיון מ-19 באוקטובר 2017. נבדק ב-19 באוקטובר 2017.
{{cite news}}
: (עזרה) - ^ mnj12 (2021-07-07), mnj12/chessDeepLearning, נבדק ב-2021-07-07
- ^ "DeepMind AlphaGo Zero learns on its own without meatbag intervention". ZDNet. 19 באוקטובר 2017. ארכיון מ-20 באוקטובר 2017. נבדק ב-20 באוקטובר 2017.
{{cite web}}
: (עזרה) - ^ Knapton, Sarah; Watson, Leon (2017-12-06). "Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours". The Telegraph. ארכיון מ-2 בדצמבר 2020. נבדק ב-5 באפריל 2018.
{{cite news}}
: (עזרה) - ^ AI versus AI: Self-Taught AlphaGo Zero Vanquishes Its Predecessor
- ^ "Computer Learns To Play Go At Superhuman Levels 'Without Human Knowledge'". NPR (באנגלית). 18 באוקטובר 2017. ארכיון מ-20 באוקטובר 2017. נבדק ב-20 באוקטובר 2017.
{{cite news}}
: (עזרה) - ^ "Google's New AlphaGo Breakthrough Could Take Algorithms Where No Humans Have Gone". Fortune (באנגלית). 19 באוקטובר 2017. ארכיון מ-19 באוקטובר 2017. נבדק ב-20 באוקטובר 2017.
{{cite news}}
: (עזרה) - ^ "This computer program can beat humans at Go—with no human instruction". Science | AAAS (באנגלית). 18 באוקטובר 2017. ארכיון מ-2 בפברואר 2022. נבדק ב-20 באוקטובר 2017.
{{cite news}}
: (עזרה) - ^ Gibney, Elizabeth (18 באוקטובר 2017). "Self-taught AI is best yet at strategy game Go". Nature News (באנגלית). doi:10.1038/nature.2017.22858. ארכיון מ-1 במאי 2020. נבדק ב-10 במאי 2020.
{{cite news}}
: (עזרה) - ^ "The latest AI can work things out without being taught". The Economist (באנגלית). ארכיון מ-19 באוקטובר 2017. נבדק ב-20 באוקטובר 2017.
{{cite news}}
: (עזרה) - ^ Ian Sample, 'It's able to create knowledge itself': Google unveils AI that learns on its own, The Guardian, 18 באוקטובר 2017
- ^ "'It's able to create knowledge itself': Google unveils AI that learns on its own". The Guardian. 18 באוקטובר 2017. ארכיון מ-19 באוקטובר 2017. נבדק ב-26 בדצמבר 2017.
{{cite news}}
: (עזרה) - ^ Knapton, Sarah (18 באוקטובר 2017). "AlphaGo Zero: Google DeepMind supercomputer learns 3,000 years of human knowledge in 40 days". The Telegraph. ארכיון מ-15 בדצמבר 2017. נבדק ב-26 בדצמבר 2017.
{{cite news}}
: (עזרה) - ^ "How Google's new AI can teach itself to beat you at the most complex games". Australian Broadcasting Corporation (בAustralian English). 19 באוקטובר 2017. ארכיון מ-20 באוקטובר 2017. נבדק ב-20 באוקטובר 2017.
{{cite news}}
: (עזרה) - ^ "【柯洁战败解密】AlphaGo Master最新架构和算法,谷歌云与TPU拆解" (בסינית). Sohu. 24 במאי 2017. ארכיון מ-17 בספטמבר 2017. נבדק ב-1 ביוני 2017.
{{cite web}}
: (עזרה) - ^ Hardware used during training may be substantially more powerful
36858397AlphaGo Zero