ClustVis
מפתח | Tauno Metsalu, Jaak Vilo |
---|---|
קטגוריה | למידת מכונה, כריית מידע, הורדת ממד,ביואינפורמטיקה |
https://biit.cs.ut.ee/clustvis |
קלאסטוויס (באנגלית:ClustVis) היא תוכנה לניתוח נתונים באמצעות למידת מכונה. באמצעות התוכנה משתמשים יכולים להעלות נתונים משלהם, ליצור בקלות גרפים של ניתוח גורמים ראשיים (באנגלית: Principal Components Analysis, בראשי תיבות: PCA) וגם ליצור גרפים של מפת חום (באנגלית: Heat map).
לקלאסטוויס קיים ממשק אינטרנטי חינמי, הפתוח לקהל הרחב אשר מחולק לגרסה הרגילה וגרסה למידע בנפח גדול. בנוסף לממשק האינטרנטי ניתן להוריד ולהתקין את התוכנה על המחשב המקומי. (ראו בקישורים חיצוניים)
היסטוריה
מתחילת המילניום במקביל להתפתחות המדע, הטכנולוגיה ופרויקט גנום האדם כמויות המידע הביולוגי הלכו והתעצמו. בכדי להשתמש בנתוני העתק שהצטברו היה צורך להמציא אלגוריתמים חדשים למניפולציות וניתוח המידע. מיזמים רבים כדוגמת ביופייתון (באנגלית: Biopython) וביופרל (באנגלית: BioPerl) עודדו שיתוף אלגורתמים ועזרו בתחום החקר הביואינפורמטי. מיזמים כדוגמת R עזרו בתחום האינפוגרפיקה להסברת המידע על ידי גרפים. למרות השימוש הרב בקוד פתוח (באנגלית: Open source) עדיין קיים קושי בהשתלבות בתחום המחקר הביואינפורמטי בשל הדרישה לידע רב בתכנות והצורך ברכישת תוכנות או מחשוב עוצמתי בכסף רב. בהשפעת BoxPlotR [1], שהוא ממשק אינטרנטי להצגת תרשים קופסאות שפורסם בשנת 2014, זוג חוקרים מהפקולטה למדעי המחשב שבאוניברסיטת טרטו יצרו את קלאסטוויס (באנגלית:ClustVis), כלי אינטרנט שמטרתו להקל על ניתוח נתונים רבי ממדים. קלאסטוויס הושק באוקטובר 2014 ופורסם במאמר [2] ב Nucleic Acids Research של הוצאת אוניברסיטת אוקספורד במאי 2015.
מאפיינים
באמצעות קלאסטוויס ניתן להעלות ולנתח נתונים על ידי ניקוי, טיוב, עיבוד ומידול של נתונים ממקורות שונים של המשתמש או ממאגרי מידע שבאתר. לאחר העיבוד הראשוני של המידע הגולמי, ניתן לנתח את המידע על ידי ניתוח גורמים ראשיים שהיא שיטה להתמרה ליניארית של נתונים למערכת קואורדינטות חדשה שבה המידע בקואורדינטות השונות הוא אורתוגונלי ובעל שונות הולכת וקטנה או על ידי מפת חום שהיא שיטה לייצוג גרפי של מידע בה הייצוג בא לידי בצורת מטריצה, טבלה דו ממדית, והערכים הבודדים מיוצגים בצבעים בתוך התאים במטריצה. הגרפים הנוצרים הם אינטראקטיביות וניתן לשמור אותם לעריכה עתידית או להורידם למחשב המקומי.
ממשקים דומים
- MORPHEUS - כלי להדמיה המייצר מפות חום עבור מערכי נתונים גדולים. מורפוס הוא תוצר של מכון ברוד המאפשר לחוקרים לייצר במהירות ובקלות מטריצות נתונים גדולות כמפת חום. בנוסף ניתן באמצעותו לבצע אשכולות היררכיים, למיין ולסנן את הנתונים, ולחקור עוד יותר את מערך הנתונים. המשתמשים יכולים להעלות נתונים ל- MORPHEUS במגוון דרכים, כולל כקובץ Excel מהמחשב, כתובת URL, קובץ טקסט או קובץ המיובא מ- Google Drive או Dropbox. ב- MORPHEUS קיימים ממערכי נתונים גנומיים רבים הנטענים מראש ובאמצעותם אפשר ללמוד יותר על השימוש בכלי. עבור מערך נתונים נתון, משתמשים יכולים לבחור לנתח ביטוי גנים, מתילציה פרוטאומיקה או היבטים ספציפיים אחרים של הנתונים. כל עיבוד הנתונים מתרחש באופן מקומי במחשב של אחד בניגוד לשרת.
- PCAGO - כלי קל לשימוש אינטראקטיבי לניתוח נתוני כימות גנים הנגזרים מריצוף - RNA על ידי ניתוח גורמים ראשיים (PCA). הכלי כולל תכונות כגון נורמליזציה, סינון לפי הערת גנים ואפשרויות הדמיה שונות. PCAGO מסייע בבחירת פרמטרים מתאימים כגון מספר הגנים והרכיבים העיקריים ליצירת ויזואליזציות משמעותיות.
ראו גם
לקריאה נוספת
- The big challenges of big data | Nature
- Jolliffe, Ian. Principal component analysis. John Wiley & Sons, Ltd, 2002
קישורים חיצוניים
- האתר הרשמי, ClustVis
- גרסה לקבצים גדולים, ClustVis
- האתר הרשמי, ClustVis GitHub page
- הוראות שימוש באתר והסברים נוספים בדף וויקיספר של ClustVis
- האתר הרשמי, MORPHEUS
- האתר הרשמי, PCAGO
הערות שוליים
- ^ Michaela Spitzer, Jan Wildenhain, Juri Rappsilber, Mike Tyers, BoxPlotR: a web tool for generation of box plots, Nature Methods 11, 2014-02, עמ' 121–122 doi: 10.1038/nmeth.2811
- ^ Tauno Metsalu, Jaak Vilo, ClustVis: a web tool for visualizing clustering of multivariate data using Principal Component Analysis and heatmap, Nucleic Acids Research 43, 2015-07-01, עמ' W566–W570 doi: 10.1093/nar/gkv468
32600263ClustVis