הנדסת מאפיינים
הנדסת מאפיינים היא התהליך של שימוש בידע תחומי לחילוץ מאפיינים (תכונות, הגדרות, ערכים) מנתונים גולמיים.[1]
מאפיין היא תכונה משותפת ליחידות עצמאיות שעליהן יש לבצע ניתוח או חיזוי.[2]
מאפיינים משמשים במודלים חזויים ומשפיעות על התוצאות.[3]
הנדסת מאפיינים משמשת בתחרויות Kaggle[4] ובפרויקטים של למידת מכונה.[5]
תהליך
תהליך איטרטיבי של הנדסת המאפיינים הוא:[6]
- סיעור מוחות או בדיקת מאפיינים[7]
- החלטה אילו מאפיינים ליצור
- יצירת המאפיינים
- בדיקת ההשפעה של המאפיינים שזוהו על המשימה או היעד
- שיפור המאפיינים במידת הצורך
- חזרה לשלב הראשון
מאפיינים מהונדסים אופייניים
הרשימה הבאה[8] מספקת כמה דרכים טיפוסיות להנדסת מאפיינים שימושיים:
- טרנספורמציות נומריות (כמו לקיחת שברים או שינוי קנה מידה)
- מקודד קטגוריות כמו מקודד חם או יעד (למשתנים איכותיים)[9]
- מקבוץ (Clustering)
- קיבוץ ערכים מצטברים
- ניתוח רכיבים עיקריים (Principal component) לנתונים נומריים
חשיבות
למאפיינים פרמטר חשיבות משתנה.[10] אפילו מאפיינים לא משמעותיים יחסית עשויים לתרום ליעילות המידול. בחירת מאפיין טובה יכולה להפחית את מספר המאפיינים כדי למנוע מדגם להפוך ספציפי מדי למערך נתוני האימון (התאמת יתר - overfitting).[11]
התפוצצות מאפיינים
"התפוצצות מאפיינים" מתרחשת כאשר מספר המאפיינים המזוהים גדל באופן לא הולם. הסיבות השכיחות כוללות:
- תבניות מאפיינים - הטמעת תבניות מאפיינים במקום קידוד מאפיינים חדשים
- שילובי מאפיינים - צירופים שלא ניתן לייצגם על ידי מערכת ליניארית
ניתן להגביל את פיצוץ המאפיינים באמצעות טכניקות כגון: רגולריזציה, שיטת ליבה ובחירת מאפיינים.[12]
אוטומציה
אוטומציה של הנדסת מאפיינים היא נושא מחקר שראשיתו בשנות ה-90.[13] תוכנת למידת מכונה המשלבת הנדסת מאפיינים אוטומטית זמינה מסחרית מאז 2016.[14] ניתן להפריד באופן גס את הספרות האקדמית הקשורה לשני סוגים:
- למידת עץ החלטות רב-יחסית (MRDTL) משתמשת באלגוריתם מפוקח הדומה לעץ החלטות.
- Deep Feature Synthesis משתמש בשיטות פשוטות יותר.
למידת עץ החלטות רב-יחסיות (MRDTL)
MRDTL מייצר מאפיינים בצורה של שאילתות SQL על ידי הוספת סעיפים ברציפות לשאילתות.[15] לדוגמה, האלגוריתם עשוי להתחיל עם:
SELECT COUNT(*) FROM ATOM t1 LEFT JOIN MOLECULE t2 ON t1.mol_id = t2.mol_id GROUP BY t1.mol_id
לאחר מכן ניתן לחדד את השאילתה ברציפות על ידי הוספת תנאים, כגון "WHERE t1.charge <= -0.392".[16]
עם זאת, רוב מחקרי MRDTL מבססים יישומים על מסדי נתונים יחסיים, מה שמביא לפעולות מיותרות רבות. ניתן לצמצם את היתירות הללו על ידי שימוש ב"טריקים" כגון הפצת tuple id.[17][18] ניתן להגביר את היעילות באמצעות עדכונים מצטברים, אשר מבטל יתירות.
סינתזת מאפיינים עמוקה
אלגוריתם Deep Feature Synthesis ניצח 615 מתוך 906 צוותים אנושיים בתחרות.[19][20]
ספריות:
לקריאה נוספת
- Boehmke, Bradley; Greenwell, Brandon (2019). "Feature & Target Engineering". Hands-On Machine Learning with R. Chapman & Hall. pp. 41–75. ISBN 978-1-138-49568-5.
- Zheng, Alice; Casari, Amanda (2018). Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists. O'Reilly. ISBN 978-1-4919-5324-2.
- Zumel, Nina; Mount, John (2020). "Data Engineering and Data Shaping". Practical Data Science with R (2nd ed.). Manning. pp. 113–160. ISBN 978-1-61729-587-4.
הערות שוליים
- ^ "Machine Learning and AI via Brain simulations". Stanford University. נבדק ב-2019-08-01.
- ^ "Discover Feature Engineering, How to Engineer Features and How to Get Good at It - Machine Learning Mastery". Machine Learning Mastery. 25 בספטמבר 2014. נבדק ב-2015-11-11.
{{cite web}}
: (עזרה) - ^ "Feature Engineering: How to transform variables and create new ones?". Analytics Vidhya. 2015-03-12. נבדק ב-2015-11-12.
- ^ "Q&A with Xavier Conort". kaggle.com. 2013-04-10. נבדק ב-12 בנובמבר 2015.
{{cite web}}
: (עזרה) - ^ Domingos, Pedro (2012-10-01). "A few useful things to know about machine learning" (PDF). Communications of the ACM (באנגלית). pp. 78–87. doi:10.1145/2347736.2347755.
- ^ "Big Data: Week 3 Video 3 - Feature Engineering". youtube.com.
- ^ Jalal, Ahmed Adeeb (1 בינואר 2018). "Big data and intelligent software systems". International Journal of Knowledge-based and Intelligent Engineering Systems. pp. 177–193. doi:10.3233/KES-180383.
{{cite web}}
: (עזרה) - ^ "Creating Features". kaggle.com (באנגלית). נבדק ב-2021-09-30.
- ^ "Category Encoders — Category Encoders 2.2.2 documentation". contrib.scikit-learn.org. נבדק ב-2021-10-01.
- ^ "Feature Engineering" (PDF). 2010-04-22. נבדק ב-12 בנובמבר 2015.
{{cite web}}
: (עזרה) - ^ "Feature engineering and selection" (PDF). Alexandre Bouchard-Côté. 1 באוקטובר 2009. נבדק ב-12 בנובמבר 2015.
{{cite web}}
: (עזרה) - ^ "Feature engineering in Machine Learning" (PDF). Zdenek Zabokrtsky. אורכב מ-המקור (PDF) ב-4 במרץ 2016. נבדק ב-12 בנובמבר 2015.
{{cite web}}
: (עזרה) - ^ Knobbe, Arno J.; Siebes, Arno; Van Der Wallen, Daniël (1999). "Multi-relational Decision Tree Induction" (PDF). Principles of Data Mining and Knowledge Discovery. Lecture Notes in Computer Science. Vol. 1704. pp. 378–383. doi:10.1007/978-3-540-48247-5_46. ISBN 978-3-540-66490-1.
- ^ "Its all about the features". Reality AI Blog. בספטמבר 2017.
{{cite web}}
: (עזרה) - ^ A Comparative Study Of Multi-Relational Decision Tree Learning Algorithm.
- ^ Leiva, Hector; Atramentov, Anna; Honavar, Vasant (2002). "Experiments with MRDTL – A Multi-relational Decision Tree Learning Algorithm" (PDF).
- ^ Yin, Xiaoxin; Han, Jiawei; Yang, Jiong; Yu, Philip S. (2004). "CrossMine: Efficient Classification Across Multiple Database Relations". Proceedings. 20th International Conference on Data Engineering. Proceedings of the 20th International Conference on Data Engineering. pp. 399–410. doi:10.1109/ICDE.2004.1320014. ISBN 0-7695-2065-0.
- ^ Frank, Richard; Moser, Flavia; Ester, Martin (2007). "A Method for Multi-relational Classification Using Single and Multi-feature Aggregation Functions". Knowledge Discovery in Databases: PKDD 2007. Lecture Notes in Computer Science. Vol. 4702. pp. 430–437. doi:10.1007/978-3-540-74976-9_43. ISBN 978-3-540-74975-2.
- ^ "Automating big-data analysis".
- ^ Kanter, James Max; Veeramachaneni, Kalyan (2015). "Deep Feature Synthesis: Towards Automating Data Science Endeavors". 2015 IEEE International Conference on Data Science and Advanced Analytics (DSAA). IEEE International Conference on Data Science and Advanced Analytics. pp. 1–10. doi:10.1109/DSAA.2015.7344858. ISBN 978-1-4673-8272-4.
- ^ "Featuretools | An open source framework for automated feature engineering Quick Start". www.featuretools.com. נבדק ב-2019-08-22.
- ^ "ExploreKit: Automatic Feature Generation and Selection" (PDF).
הנדסת מאפיינים33633732Q22245680