XGBoost
XGBoost[1] היא ספריית תוכנה קוד פתוח המספקת מסגרת נירמול (regularizing) וחיזוק גרדיאנט לשפות: C ++, Java,Python,[2][3] ג'וליה,[4] Perl,[5] וסקאלה. XGBoost עובדת על לינוקס, Windows,[6] ו- macOS.[7] מתוך תיאור הפרויקט, היא שואפת לספק "ספרייה להגברת הדרגתיות ניתנת להרחבה, ניידת ומבוזרת (GBM, GBRT, GBDT). XGBoost פועל על מכונה בודדת, כמו גם על מסגרות עיבוד מבוזרות Apache Hadoop, Apache Spark, Apache Flink ו- Dask.[8][9]
הספרייה זכתה לפופולריות רבה ותשומת לב בתור האלגוריתם המועדף עבור צוותים מנצחים רבים של תחרויות למידת מכונה.[10]
היסטוריה
XGBoost התחילה כפרויקט מחקר של טיאנקי צ'ן[11] כחלק מקבוצת ה-Distributed (Deep) Machine Learning Community (או DMLC). בתחילה, כיישום מסוף שניתן להגדיר באמצעות קובץ תצורה של libsvm. הוא התפרסם בחוגי התחרות ב-ML לאחר השימוש בו בפתרון המנצח של אתגר למידת המכונה של Higgs. זמן קצר לאחר מכן, חבילות Python ו-R נבנו, ול-XGBoost יש כעת הטמעת חבילות עבור Java, Scala, Julia, Perl ושפות אחרות. זה הביא את הספרייה למפתחים נוספים ותרם לפופולריות שלה בקרב קהילת Kaggle, שם היא שימשה למספר רב של תחרויות.[10]
עד מהרה הוא שולב עם מספר חבילות אחרות מה שהופך אותו קל יותר לשימוש בקהילות שלהם. כעת הוא שולב עם scikit-learn עבור משתמשי Python ועם חבילת caret עבור משתמשי R. ניתן לשלב אותו גם במסגרות Data Flow כמו Apache Spark, Apache Hadoop ו- Apache Flink באמצעות ה-Rabit המופשט[12] ו-XGBoost4J.[13] ספריית XGBoost זמינה גם ב- OpenCL עבור FPGAs.[14] יישום יעיל וניתן להרחבה של XGBoost פורסם על ידי Tianqi Chen ו-Carlos Guestrin.
מאפיינים
תכונות בולטות של XGBoost שמבדילות אותו מאלגוריתמים אחרים של Gradient boosting כוללות:[15][16][17]
- ענישה חכמה של עצים
- כיווץ פרופורציונלי של צמתי עלים
- ניוטון בוסטינג
- פרמטר אקראי יתיר
- יישום על מערכות בודדות, מבוזרות ומחשוב מחוץ לליבה
- בחירת מאפיינים (Feature selection) אוטומטית
אלגוריתם
בשונה מאלגוריתם מסוג חיזוק גרדיאנט (gradient boosting) שפועל כדעיכת גרדיאנט, XGBoost עובד כ"ניוטון-רפסון" במרחב הפונקציונלי. שערוך טיילור מסדר שני משמש בתור פונקציית ההפסד כדי לקשר למתודת ניוטון-רפסון.
אלגוריתם גנרי של XGBoost, עם נתוני קלט: , פונקציית הפסד: , מספר "לומדים חלשים": , וקצב למידה: .
- מודל ראשוני עם ערך 0:
- עבור m = 1 עד M:
- חישוב הגרדיאנטים וההסיאנים:
- התאמת לומד בסיסי (או לומד חלש, כמו עץ) בעזרת נתוני האימון על ידי פתירת בעיית האופטימיזציה שלהלן:
- עדכון המודל:
- חישוב הגרדיאנטים וההסיאנים:
- פלט
פרסים
- פרס ג'ון צ'יימברס (2016)[18]
- פרס פיזיקת אנרגיה גבוהה פוגשת למידה חישובית (HEP meets ML) (2016)[19]
הערות שוליים
- ^ "GitHub project webpage".
- ^ "Python Package Index PYPI: xgboost". נבדק ב-2016-08-01.
- ^ "CRAN package xgboost". נבדק ב-2016-08-01.
- ^ "Julia package listing xgboost". נבדק ב-2016-08-01.
- ^ "CPAN module AI::XGBoost". נבדק ב-2020-02-09.
- ^ "Installing XGBoost for Anaconda in Windows". נבדק ב-2016-08-01.
- ^ "Installing XGBoost on Mac OSX". נבדק ב-2016-08-01.
- ^ "Dask Homepage".
- ^ "Distributed XGBoost with Dask — xgboost 1.5.0-dev documentation". xgboost.readthedocs.io. נבדק ב-2021-07-15.
- ^ 10.0 10.1 "XGBoost - ML winning solutions (incomplete list)". נבדק ב-2016-08-01.
- ^ "Story and Lessons behind the evolution of XGBoost". נבדק ב-2016-08-01.
- ^ "Rabit - Reliable Allreduce and Broadcast Interface". נבדק ב-2016-08-01.
- ^ "XGBoost4J". נבדק ב-2016-08-01.
- ^ "XGBoost on FPGAs". נבדק ב-2019-08-01.
- ^ Gandhi, Rohith (2019-05-24). "Gradient Boosting and XGBoost". Medium (באנגלית). נבדק ב-2020-01-04.
- ^ "Boosting algorithm: XGBoost". Towards Data Science (באנגלית). 2017-05-14. נבדק ב-2020-01-04.
- ^ "Tree Boosting With XGBoost – Why Does XGBoost Win "Every" Machine Learning Competition?". Synced (באנגלית אמריקאית). 2017-10-22. נבדק ב-2020-01-04.
- ^ "John Chambers Award Previous Winners". נבדק ב-2016-08-01.
- ^ "HEP meets ML Award". נבדק ב-2016-08-01.
XGBoost34617561Q23793561