ניתוח אשכולות: הבדלים בין גרסאות בדף

*>KotzBot
מ שינוי סדר הפרקים (בוט סדר הפרקים)
 
עדכון מוויקיפדיה גרסה 35678297
 
(2 גרסאות ביניים של 2 משתמשים אינן מוצגות)
שורה 1: שורה 1:
ב[[כריית מידע]], [[סטטיסטיקה]] ו[[למידה חישובית]], '''ניתוח אשכולות''' (ב[[אנגלית]]: '''Cluster Analysis''') מתייחס למשימה של קיבוץ אובייקטים לקבוצות (אשכולות) כך שהאובייקטים הנמצאים באותה קבוצה דומים זה לזה יותר מאשר לאובייקטים השייכים לקבוצות אחרות.{{הערה|שם=bailey|{{cite book | last = Bailey  | first = Ken | year = 1994 | title = Typologies and Taxonomies | chapter = Numerical Taxonomy and Cluster Analysis | page = 34 | isbn = 9780803952591}}}}{{הערה|{{cite book | title = Cluster Analysis: Correlation Profile and Orthometric (factor) Analysis for the Isolation of Unities in Mind and Personality | first = Robert C. | last = Tryon | authorlink =  | publisher = Edwards Brothers | year = 1939}}}}
ב[[כריית מידע]], [[סטטיסטיקה]] ו[[למידה חישובית]], '''ניתוח אשכולות''' (ב[[אנגלית]]: '''Cluster Analysis''') מתייחס למשימה של קיבוץ אובייקטים לקבוצות (אשכולות) כך שהאובייקטים הנמצאים באותה קבוצה דומים זה לזה יותר מאשר לאובייקטים השייכים לקבוצות אחרות.{{הערה|שם=bailey|{{cite book | last = Bailey  | first = Ken | year = 1994 | title = Typologies and Taxonomies | chapter = Numerical Taxonomy and Cluster Analysis | page = 34 | isbn = 9780803952591}}}}{{הערה|{{cite book | title = Cluster Analysis: Correlation Profile and Orthometric (factor) Analysis for the Isolation of Unities in Mind and Personality | first = Robert C. | last = Tryon | authorlink =  | publisher = Edwards Brothers | year = 1939}}}}


לניתוח אשכולות יש שימושים רבים במגוון תחומים. לדוגמה במחקר שיווקי, ניתוח אשכולות משמש לביצוע [[פלח שוק|פילוח של הלקוחות]] לפי התנהגות צרכנים ותכונות דמוגרפיות. ביולוגים מקבצים מידע גנטי לאשכולות כדי לאתר תתי אוכלוסיות או זנים. בסוציולוגיה נעזרים בניתוח אשכולות כדי לחלק את החברה לתת-קבוצות על בסיס [[קשרים בין אישיים|קשרים בין-אישיים]].
לניתוח אשכולות יש שימושים רבים במגוון תחומים. לדוגמה במחקר שיווקי, ניתוח אשכולות משמש לביצוע [[פלח שוק|פילוח של הלקוחות]] לפי [[התנהגות צרכנים]] ותכונות דמוגרפיות. ביולוגים מקבצים מידע גנטי לאשכולות כדי לאתר תתי אוכלוסיות או זנים. בסוציולוגיה נעזרים בניתוח אשכולות כדי לחלק את החברה לתת-קבוצות על בסיס [[קשרים בין-אישיים]].


הקיבוץ לאשכולות יכול להיות משני סוגים:
הקיבוץ לאשכולות יכול להיות משני סוגים:
* '''קיבוץ קשה''' (ב[[אנגלית]]: '''Hard Clustering''') – שבו כל אובייקט שייך לאשכול אחד בלבד.
* '''קיבוץ קשה''' (ב[[אנגלית]]: '''Hard Clustering''') – שבו כל אובייקט שייך לאשכול אחד בלבד.
* '''קיבוץ רך''' (ב[[אנגלית]]: '''Soft Clustering''') – שבו כל אובייקט שייך למספר אשכולות בדרגות שייכות שונות.
* '''קיבוץ רך''' (ב[[אנגלית]]: '''Soft Clustering''') – שבו כל אובייקט שייך למספר אשכולות בדרגות שייכות שונות.


במהלך השנים פותחו אלגוריתמים מסוגים שונים לניתוח אשכולות. להלן המודלים הטיפוסיים:
במהלך השנים פותחו אלגוריתמים מסוגים שונים לניתוח אשכולות. להלן המודלים הטיפוסיים:
 
* '''מודל מבוסס קישוריות''' – בהתאם להגדרת מרחק בין האובייקטים, המודל מאתר אשכולות באופן היררכי.
* '''מודל מבוסס קישוריות''' – בהתאם להגדרת מרחק בין האובייקטיים, המודל מאתר אשכולות באופן היררכי.
* '''מודל מבוסס מרכז הכובד''' – שבו כל אשכול מיוצג על ידי מרכז הכובד של כל החברים שבו.
* '''מודל מבוסס מרכז הכובד''' – שבו כל אשכול מיוצג על ידי מרכז הכובד של כל החברים שבו.
* '''מודל המבוסס על התפלגות סטטיסטית'''.
* '''מודל המבוסס על התפלגות סטטיסטית'''.
* '''מודל מבוסס צפיפות''' – שבו אשכול מוגדר כאזור צפוף שבו מתקבצים מספר גדול של אובייקטיים.
* '''מודל מבוסס צפיפות''' – שבו אשכול מוגדר כאזור צפוף שבו מתקבצים מספר גדול של אובייקטים.
* '''מודל המבוסס על [[תורת הגרפים]]''' שבו אשכול מיוצג על ידי תת-קבוצה של צמתים בגרף כך שכל שני צמתים בתת-קבוצה מחוברים באמצעות קשתות.
* '''מודל המבוסס על [[תורת הגרפים]]''' שבו אשכול מיוצג על ידי תת-קבוצה של צמתים בגרף כך שכל שני צמתים בתת-קבוצה מחוברים באמצעות קשתות.
יש כמה [[שיטות של קיבוץ|שיטות של ניתוח אשכולות]]. למשל, bag of words, bottom-up, top-down ועוד.
* '''ניתוח אשכולות היררכי (agglomerative clustering)''' – קיבוץ היררכי, היא שיטה לחלוקה של רשימת איברים לקבוצות. השיטה מכונה "bottom-up" כי בהתחלה כל איבר מהווה קבוצה בפני עצמה (קבוצה בעלת איבר אחד) ובכל צעד של ה[[אלגוריתם]] מספר הקבוצות קטן באחד. כלומר, האלגוריתם בונה את הקבוצות ממצב שבו אין למעשה חלוקה לקבוצות למצב שבו נוצרות קבוצות ההולכות וגדלות. בכל שלב האלגוריתם מבצע צעד אחד פשוט - איחוד בין שתי קבוצות. בתחילת ריצת האלגוריתם כל איבר מהווה קבוצה בת איבר אחד. בהמשך, כאשר קבוצות מאוחדות זו עם זו, מספר הקבוצות קטן באחד ומספר האיברים בקבוצה החדשה הוא סכום מספר האיברים בשתי הקבוצות שאוחדו. האלגוריתמים השונים לקלסטרינג (clustering) היררכי נבדלים זה מזה באופן שהם מחליטים אילו קבוצות לאחד בכל צעד של האלגוריתם. האלגוריתמים נבדלים זה מזה באופן שבו הם מחשבים את המרחק בין כל זוג של קבוצות.
*'''ניתוח אשכולות חלוקתי (divisive clustering)''' – שיטה בה כל המידע מצוי בהתחלה באותו אשכול ואז עובר חלוקה עד הגעה למספר הקבוצות הרצוי, על כן מכונה "top-down".
פרופ' משה יזראלביץ' מייסד קבוצת [[למידה מונחית]] ייסד את שיטה זו.


== ראו גם ==
== ראו גם ==
* [[סילואט (אשכולות)|סילואט]]
* [[כריית מידע]]
* [[כריית מידע]]
* [[אלגוריתם k-מרכזים]]
* [[אלגוריתם k-מרכזים]]
* [[BIRCH]]


==קישורים חיצוניים==
==קישורים חיצוניים==
{{ויקישיתוף בשורה}}
{{ויקישיתוף בשורה|Category:Cluster analysis}}
* {{בריטניקה|topic/cluster-analysis}}
* {{MathWorld|ClusterAnalysis}}
* {{דף שער בספרייה הלאומית|987007283912705171|ניתוח אשכולות}}


== הערות שוליים ==
== הערות שוליים ==
{{הערות שוליים|יישור=שמאל}}
{{הערות שוליים|יישור=שמאל}}
[[קטגוריה:בסיסי נתונים]]
{{בקרת זהויות}}
 
[[קטגוריה:מסדי נתונים]]
[[קטגוריה:כריית מידע]]
[[קטגוריה:כריית מידע]]
{{וח}}
{{מיון ויקיפדיה|דף=ניתוח אשכולות|גרסה=35678297|פריט=Q622825}}