VGG

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש
קובץ:VGG architecture.png
תרשים המתאר את מבנה המודלים של VGG

Visual Geometry Groupראשי תיבות: VGG; בתרגום חופשי לעברית: קבוצת גיאומטריות חזותית) היא ארכיטקטורת רשת קונבולוציה שנוצרה על ידיי קרן סימוניין ואנדרו זיסרמן מאוניברסיטת אוקספורד.

VGG התחרתה וזכתה בתחרות "אתגר זיהוי חזותי בקנה מידה גדול" של ImageNet ב-18 באוגוסט 2014[1], המחקר המקורי קבע שהשכבות הרבות והפילטרים הקטנים הם אלו שסייעו לארכיטקטורה להגיע להישגיה הגבוהים[2].

עיצוב המודל

במחקר המקורי הציגו 7 גרסאות של המודל וקראו להן A, A-LRN, B, C, D, E. כל הגרסאות מקבלות תמונות בגודל הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle 224\times224} ומסתיימות ב-max pooling ושלוש שכבות fully connected בגודל 4096, 4096 ו-1000 בהתאמה כאשר בשכבה האחרונה עושים שימוש בפונקציות אקטיבציה מסוג soft-max. במודלים B עד E מאתחלים את ארבע השכבות הראשונות ואת השלוש האחרונות במשקולות של מודל A מאומן כדיי לקצר את זמניי האימון. כל המודלים נבדקו לפי אחוז השגיאות שלהם בחמש התחזיות הכי סבירות שלהם (top-5 val. error) כלומר כמה פעמים התשובה לא הייתה בחמשת הניחושים הכי סבירים שלהם.

מודל A

מורכב מאחד עשר שכבות כאשר בשכבות הרשת קונבולוציה עושה שימוש בפילטרים בגודל הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle 3\times3} בלבד. המודל זכה ל 10.4% top-5 val. error.

מודל A-LRN

כמו המודל הראשון רק עם שכבת LRN. המודל זכה ל 10.5% top-5 val. error.

מודל B

מורכב משלוש עשרה שכבות כאשר בשכבות הרשת קונבולוציה עושה שימוש בפילטרים בגודל הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle 3\times3} בלבד. המודל זכה ל 9.9% top-5 val. error.

מודל C

מורכב משש עשרה שכבות כאשר בשכבות הרשת קונבולוציה עושה שימוש בפילטרים בגודל הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle 3\times3} ו הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle 1\times1} בלבד. המודל זכה ל 8.8% top-5 val. error.

מודל (VGG16) D

מוכר גם כ-VGG16 המודל הפופולרי ביותר בגלל שילוב של עלות חישוב ותוצאות מורכב משש עשרה שכבות כאשר בשכבות הרשת קונבולוציה עושה שימוש בפילטרים בגודל הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle 3\times3} בלבד. המודל זכה ל 8.1% top-5 val. error.

מודל (VGG19) E

מוכר גם כ-VGG19 המודל המדויק ביותר אך גם היקר יותר מבחינה חישובית. מורכב מתשע עשרה שכבות כאשר בשכבות הרשת קונבולוציה עושה שימוש בפילטרים בגודל הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle 3\times3} בלבד. המודל זכה ל 8.0% top-5 val. error.

השפעה

VGG הוא מודל חשוב שמומש בעוד הרבה מודלים אחרים כגון YOLO נכון ל-20 באפריל 2022 VGG צוטט כ-77062 פעמים.

הערות שוליים

  1. ^ ILSVRC2014 Results, image-net.org
  2. ^ Ken Chatfield, Karen Simonyan, Andrea Vedaldi, Andrew Zisserman, Return of the Devil in the Details: Delving Deep into Convolutional Nets, Proceedings of the British Machine Vision Conference 2014, British Machine Vision Association, 2014 doi: 10.5244/c.28.6
Logo hamichlol 3.png
הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0