זיהוי אנומליות
קפיצה לניווט
קפיצה לחיפוש
בכריית מידע, זיהוי אנומליות (באנגלית: Anomaly Detection) (לעיתים מכונה גם גילוי אנומליות או זיהוי חריגים) מתייחס לאיתור תצפיות או אירועים אשר אינם תואמים לדפוס הצפוי או ליתר התצפיות בבסיס הנתונים.[1]
לרוב, התצפיות החריגות מעידות על בעיה. למשל, אנומליה בתוצאות בדיקה רפואית עשויה להעיד על בעיה רפואית. אנומליה בתעבורת רשת תקשורת עשויה להעיד על מתקפת סייבר על רשת התקשורת.
ניתן לחלק את הטכניקות לזיהוי אנומליות לשלושה סוגים:
- טכניקות לא מונחות (unsupervised), אשר מניחות כי רוב התצפיות בבסיס הנתונים מייצגות מקרים נורמליים או תקינים. לשם כך ניתן, למשל, להשתמש בטכניקות של ניתוח אשכולות כדי לאפיין את התצפיות הנורמליות. תצפית שאינה שייכת לאף אשכול מוגדרת כאנומליה.
- טכניקות מונחות (supervised), אשר בהן התצפיות בבסיס הנתונים סווגו מראש לתצפיות "נורמליות" או לתצפיות "לא נורמליות". במקרה כזה, ניתן להשתמש בשיטות של למידה חישובית לאימון מסַווגים, המאפשרים סיווג של מקרים חדשים שאותם לא פגשנו בתהליך הלמידה.
- טכניקות מונחות למחצה (semi-supervised), אשר בונות מודל המייצג את דפוס ההתנהגות הרגיל מתוך אוסף של תצפיות נורמליות. לאחר מכן בוחנים באמצעות המודל את הנראות של תצפיות חדשה.
ראו גם
הערות שוליים
- ^ Chandola, V.; Banerjee, A.; Kumar, V. (2009). "Anomaly detection: A survey" (PDF). ACM Computing Surveys. 41 (3): 1. doi:10.1145/1541880.1541882.