סילואט (אשכולות)

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש

מדד סילואט (Silhouette) הוא מדד בתורת האשכולות שמאפשר למדוד עד כמה חלוקת הנתונים במאגר המידע לקבוצות בעלות מאפיינים דומים שביצענו נכונה ומתאימה.

סילואט הינה שיטה שתוארה לראשונה על ידי פיטר ג'יי ריסיו בשנת 1986[1] לטובת פירוש ואימות אחידות הנתונים באשכולות נתונים במאגרי מידע. השיטה מייצגת בצורה גרפית תמציתית עד כמה דומה נתון מסוים באשכול נתונים בהשוואה לכלל הנתונים באותו אשכול. ערך הסילואט, הנע בין (1-) ל-1, מציין עד כמה דומה נתון מסוים לנתונים האחרים באשכול אליו הוא משויך (לכידות) ועד כמה הוא שונה מהנתונים באשכולות הסמוכים (הפרדה).

ערכי סילואט נמוכים או שליליים לנתונים רבים במאגר המידע מעידים על בניה לקויה של  האשכולות או חלוקת נתונים שגויה לאשכולות (כדוגמת מרחב אוקלידי או מרחק מנהטן).

הגדרה

בהנחה כי קיים מאגר מידע שחולק לאשכולות בכל שיטה שהיא (כדוגמת K-means המחלק את הנתונים ל-K אשכולות), לכל נתון במאגר המידע מוגדרים שני פרמטרים:

  1. פרמטר המגדיר עד כמה מאפייני הנתון דומים למאפייני הנתונים האחרים באותו אשכול.
    • הינו חישוב ממוצע המרחקים בין הנתון לשאר הנתונים באשכול ונקרא מדד הלכידות (בין הנתון לחבריו באותו אשכול).
    • ככל שערך קטן יותר כך הנתון תואם יותר לאשכול בו הוא נמצא.
  2. פרמטר המגדיר עד כמה מאפייני הנתון שונים ממאפייני שאר הנתונים באשכולות הנוספים.
    • הינו חישוב ממוצע המרחקים בין הנתון לנתונים באשכולות אחרים ומחישוב זה נבחר את ערך ממוצע המרחקים הקטן ביותר לאשכול אחר, ונקרא מדד ההפרדה בין הנתון לנתונים באשכולות אחרים.
    • ככל שערך גדול יותר כך הנתון שונה יותר משאר האשכולות.
    • האשכול בעל ערך ממוצע המרחקים הקטן ביותר מהנתון הנבדק נקרא אשכול שכן.

הינו הערך אשר מצביע עד כמה הנתון הנבדק מתאים לאשכול בו הוא נמצא. ערך זה הינו ערך סילואט ומחושב באופן הבא:

כאשר

כלומר,

משמעות ערך סילואט הינה :

  1. כאשר קרוב ל-1 ניתן לומר כי הנתון מתאים לאשכול בו הוא נמצא. ערך שכזה מתקבל כאשר ערך הלכידות קטן בצורה מש מעותית מערך ההפרדה  .
  2. כאשר קרוב ל-0 ניתן לומר כי הנתון נמצא קרוב מאד לגבול בין שני אשכולות שכנים.
  3. כאשר קרוב ל- (1-) ניתן לומר כי הנתון נמצא באשכול שלא מתאים לו.

חישוב ממוצע ערכי סילואט של הנתונים באשכול מסוים מצביע על צפיפות הנתונים באשכול, או במילים אחרות, עד כמה הפרטים שבו דומים אחד לשני.

חישוב ממוצע ערכי הסילואט של כלל הנתונים במאגר המידע מצביע על טיב בחירת מרכזי הכובד, או במילים אחרות, האם מספר מרכזי הכובד שנבחרו נכון והאם מוקמו במקום הנכון.

את ערך הסילואט של הנתונים, האשכולות והמאגר כולו ניתן למקסם על ידי בחירת מספר האשכולות וחלוקת הנתונים אליהם בכלים המיועדים לסידור אשכולות מיטבי (כדוגמת k-means, EM)[2]

ראו גם

הערות שוליים

  1. ^ Peter J. Rousseeuw (1987), "Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis", Computational and Applied Mathematics 20, עמ' 53-65
  2. ^ R.C. de Amorim, C. Hennig (2015), "Recovering the number of clusters in data sets with noise features using feature rescaling factors", Information Sciences 324, עמ' 126-145