הנדסת מאפיינים

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש

הנדסת מאפיינים היא התהליך של שימוש בידע תחומי לחילוץ מאפיינים (תכונות, הגדרות, ערכים) מנתונים גולמיים.[1]

מאפיין היא תכונה משותפת ליחידות עצמאיות שעליהן יש לבצע ניתוח או חיזוי.[2]

מאפיינים משמשים במודלים חזויים ומשפיעות על התוצאות.[3]

הנדסת מאפיינים משמשת בתחרויות Kaggle[4] ובפרויקטים של למידת מכונה.[5]

תהליך

תהליך איטרטיבי של הנדסת המאפיינים הוא:[6]

  • סיעור מוחות או בדיקת מאפיינים[7]
  • החלטה אילו מאפיינים ליצור
  • יצירת המאפיינים
  • בדיקת ההשפעה של המאפיינים שזוהו על המשימה או היעד
  • שיפור המאפיינים במידת הצורך
  • חזרה לשלב הראשון

מאפיינים מהונדסים אופייניים

הרשימה הבאה[8] מספקת כמה דרכים טיפוסיות להנדסת מאפיינים שימושיים:

  • טרנספורמציות נומריות (כמו לקיחת שברים או שינוי קנה מידה)
  • מקודד קטגוריות כמו מקודד חם או יעד (למשתנים איכותיים)[9]
  • מקבוץ (Clustering)
  • קיבוץ ערכים מצטברים
  • ניתוח רכיבים עיקריים (Principal component) לנתונים נומריים

חשיבות

למאפיינים פרמטר חשיבות משתנה.[10] אפילו מאפיינים לא משמעותיים יחסית עשויים לתרום ליעילות המידול. בחירת מאפיין טובה יכולה להפחית את מספר המאפיינים כדי למנוע מדגם להפוך ספציפי מדי למערך נתוני האימון (התאמת יתר - overfitting).[11]

התפוצצות מאפיינים

"התפוצצות מאפיינים" מתרחשת כאשר מספר המאפיינים המזוהים גדל באופן לא הולם. הסיבות השכיחות כוללות:

  • תבניות מאפיינים - הטמעת תבניות מאפיינים במקום קידוד מאפיינים חדשים
  • שילובי מאפיינים - צירופים שלא ניתן לייצגם על ידי מערכת ליניארית

ניתן להגביל את פיצוץ המאפיינים באמצעות טכניקות כגון: רגולריזציה, שיטת ליבה ובחירת מאפיינים.[12]

אוטומציה

אוטומציה של הנדסת מאפיינים היא נושא מחקר שראשיתו בשנות ה-90.[13] תוכנת למידת מכונה המשלבת הנדסת מאפיינים אוטומטית זמינה מסחרית מאז 2016.[14] ניתן להפריד באופן גס את הספרות האקדמית הקשורה לשני סוגים:

  • למידת עץ החלטות רב-יחסית (MRDTL) משתמשת באלגוריתם מפוקח הדומה לעץ החלטות.
  • Deep Feature Synthesis משתמש בשיטות פשוטות יותר.

למידת עץ החלטות רב-יחסיות (MRDTL)

MRDTL מייצר מאפיינים בצורה של שאילתות SQL על ידי הוספת סעיפים ברציפות לשאילתות.[15] לדוגמה, האלגוריתם עשוי להתחיל עם:

SELECT COUNT(*) FROM ATOM t1 LEFT JOIN MOLECULE t2 ON t1.mol_id = t2.mol_id GROUP BY t1.mol_id

לאחר מכן ניתן לחדד את השאילתה ברציפות על ידי הוספת תנאים, כגון "WHERE t1.charge <= -0.392".[16]

עם זאת, רוב מחקרי MRDTL מבססים יישומים על מסדי נתונים יחסיים, מה שמביא לפעולות מיותרות רבות. ניתן לצמצם את היתירות הללו על ידי שימוש ב"טריקים" כגון הפצת tuple id.[17][18] ניתן להגביר את היעילות באמצעות עדכונים מצטברים, אשר מבטל יתירות.

סינתזת מאפיינים עמוקה

אלגוריתם Deep Feature Synthesis ניצח 615 מתוך 906 צוותים אנושיים בתחרות.[19][20]

ספריות:

לקריאה נוספת

  • Boehmke, Bradley; Greenwell, Brandon (2019). "Feature & Target Engineering". Hands-On Machine Learning with R. Chapman & Hall. pp. 41–75. ISBN 978-1-138-49568-5.
  • Zheng, Alice; Casari, Amanda (2018). Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists. O'Reilly. ISBN 978-1-4919-5324-2.
  • Zumel, Nina; Mount, John (2020). "Data Engineering and Data Shaping". Practical Data Science with R (2nd ed.). Manning. pp. 113–160. ISBN 978-1-61729-587-4.

הערות שוליים

  1. ^ "Machine Learning and AI via Brain simulations". Stanford University. נבדק ב-2019-08-01.
  2. ^ "Discover Feature Engineering, How to Engineer Features and How to Get Good at It - Machine Learning Mastery". Machine Learning Mastery. 25 בספטמבר 2014. נבדק ב-2015-11-11. {{cite web}}: (עזרה)
  3. ^ "Feature Engineering: How to transform variables and create new ones?". Analytics Vidhya. 2015-03-12. נבדק ב-2015-11-12.
  4. ^ "Q&A with Xavier Conort". kaggle.com. 2013-04-10. נבדק ב-12 בנובמבר 2015. {{cite web}}: (עזרה)
  5. ^ Domingos, Pedro (2012-10-01). "A few useful things to know about machine learning" (PDF). Communications of the ACM (באנגלית). pp. 78–87. doi:10.1145/2347736.2347755.
  6. ^ "Big Data: Week 3 Video 3 - Feature Engineering". youtube.com.
  7. ^ Jalal, Ahmed Adeeb (1 בינואר 2018). "Big data and intelligent software systems". International Journal of Knowledge-based and Intelligent Engineering Systems. pp. 177–193. doi:10.3233/KES-180383. {{cite web}}: (עזרה)
  8. ^ "Creating Features". kaggle.com (באנגלית). נבדק ב-2021-09-30.
  9. ^ "Category Encoders — Category Encoders 2.2.2 documentation". contrib.scikit-learn.org. נבדק ב-2021-10-01.
  10. ^ "Feature Engineering" (PDF). 2010-04-22. נבדק ב-12 בנובמבר 2015. {{cite web}}: (עזרה)
  11. ^ "Feature engineering and selection" (PDF). Alexandre Bouchard-Côté. 1 באוקטובר 2009. נבדק ב-12 בנובמבר 2015. {{cite web}}: (עזרה)
  12. ^ "Feature engineering in Machine Learning" (PDF). Zdenek Zabokrtsky. אורכב מ-המקור (PDF) ב-4 במרץ 2016. נבדק ב-12 בנובמבר 2015. {{cite web}}: (עזרה)
  13. ^ Knobbe, Arno J.; Siebes, Arno; Van Der Wallen, Daniël (1999). "Multi-relational Decision Tree Induction" (PDF). Principles of Data Mining and Knowledge Discovery. Lecture Notes in Computer Science. Vol. 1704. pp. 378–383. doi:10.1007/978-3-540-48247-5_46. ISBN 978-3-540-66490-1.
  14. ^ "Its all about the features". Reality AI Blog. בספטמבר 2017. {{cite web}}: (עזרה)
  15. ^ A Comparative Study Of Multi-Relational Decision Tree Learning Algorithm.
  16. ^ Leiva, Hector; Atramentov, Anna; Honavar, Vasant (2002). "Experiments with MRDTL – A Multi-relational Decision Tree Learning Algorithm" (PDF).
  17. ^ Yin, Xiaoxin; Han, Jiawei; Yang, Jiong; Yu, Philip S. (2004). "CrossMine: Efficient Classification Across Multiple Database Relations". Proceedings. 20th International Conference on Data Engineering. Proceedings of the 20th International Conference on Data Engineering. pp. 399–410. doi:10.1109/ICDE.2004.1320014. ISBN 0-7695-2065-0.
  18. ^ Frank, Richard; Moser, Flavia; Ester, Martin (2007). "A Method for Multi-relational Classification Using Single and Multi-feature Aggregation Functions". Knowledge Discovery in Databases: PKDD 2007. Lecture Notes in Computer Science. Vol. 4702. pp. 430–437. doi:10.1007/978-3-540-74976-9_43. ISBN 978-3-540-74975-2.
  19. ^ "Automating big-data analysis".
  20. ^ Kanter, James Max; Veeramachaneni, Kalyan (2015). "Deep Feature Synthesis: Towards Automating Data Science Endeavors". 2015 IEEE International Conference on Data Science and Advanced Analytics (DSAA). IEEE International Conference on Data Science and Advanced Analytics. pp. 1–10. doi:10.1109/DSAA.2015.7344858. ISBN 978-1-4673-8272-4.
  21. ^ "Featuretools | An open source framework for automated feature engineering Quick Start". www.featuretools.com. נבדק ב-2019-08-22.
  22. ^ "ExploreKit: Automatic Feature Generation and Selection" (PDF).
Logo hamichlol 3.png
הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0