כריית טקסט
כריית טקסט (באנגלית: Text Mining) המכונה גם כריית נתונים של טקסט, היא תהליך של הפקת מידע איכותי מטקסט. התהליך, המתבצע על ידי מחשב, הוא למעשה גילוי של מידע חדש באמצעות על ידי חילוץ אוטומטי של מידע ממשאבים כתובים שונים.[1] משאבים כתובים הם, למשל, אתרי אינטרנט, ספרים, מיילים, ביקורות ומאמרים, והליך הגילוי מתבצע, לרוב, באמצעות למידה סטטיסטית של דפוסים ומגמות. כריית טקסט כוללת בדרך כלל תהליך של בניית (structuring) משאבי טקסט (בדרך כלל ניתוח, יחד עם הוספת כמה תכונות לשוניות נגזרות והסרה של אחרות, והכנסה למסד נתונים), לאחר מכן מציאת דפוסים בתוך המידע המובנה (structured data), ולבסוף הערכה ופרשנות של התוצאות. משימות כריית טקסטים אופייניות כוללות סיווג טקסט לפי קטגוריות, חלוקת טקסט לאשכולות שונים, סיכום מסמכים, ניתוח סנטימנט (למשל, האם טקסט מסוים מעורר רגשות שליליים או חיוביים) ועוד.
ניתוח טקסט כולל תהליכים כמו אחזור מידע, ניתוח מילוני ללימוד התפלגות תדירות מילים, זיהוי תבניות (פאטרנים), טכניקות כריית נתונים (כולל ניתוח קישורים ואסוציאציות), ו-ויזואליזציה. מטרת העל של ההליך היא בסופו של דבר להפוך טקסט לנתונים אשר ניתן לנתח, באמצעות יישום של עיבוד שפה טבעית (NLP), סוגים שונים של אלגוריתמים ושיטות אנליטיות.
יש המכנים את הליך כריית הטקסט כניתוח טקסט, ואלו לרוב מתייחסים למספר טכניקות לשוניות, סטטיסטיות וכאלו מעולם למידת המכונה, המבנות (structuring) את תוכן המידע של מקורות טקסטואליים, ובונות מודלים על מנת להסיק מסקנות הנדרשות למחקרים שונים ולבינה עסקית.[2] המונח "ניתוח טקסט" משמש כיום בתדירות גבוהה יותר בהקשרים עסקיים בעוד ש-״כריית טקסט״ משמשת בעיקר במחקרים מודיעיניים ובמחקר מדעי החיים.
אופן התהליך
אופן התהליך, באופן טיפוסי, מתבצע באמצעות סריקת קבוצה של מסמכים הכתובים בשפה טבעית ואכלוס מסד נתונים או אינדקס חיפוש עם המידע שחולץ. המסמך הוא האלמנט הבסיסי בכריית הטקסט, והוא מוגדר במסגרת ההליך כיחידה של נתונים טקסטואליים.[3]
התהליך מורכב ממספר תתי משימות, לרוב:
- הפחתת ממדים (המשמשת גם בעיבוד נתונים). טכניקת זיהוי מילת השורש של מילים בפועל והקטנת גודל נתוני הטקסט.[4]
- מציאת הקורפוס (מאגר טקסט רחב) הרלוונטי. כלומר, איסוף או זיהוי קבוצת חומרים טקסטואליים, ברשת, במערכת קבצים, או במסד נתונים, לצורך ניתוח.
- עיבוד נרחב של שפה טבעית, כמו ניתוח תחבירי.
- זיהוי ישויות בשם (NER - Named Entity Recognition), כלומר זיהוי מאפייני טקסט בעלי שם: אנשים, ארגונים, שמות מקומות, סמלי מניות, קיצורים מסוימים וכו'.
- חלוקת מונח למשמעות הנכונה. כלומר, שימוש ברמזים הקשריים כדי להחליט היכן, למשל, המילה "פורד" מתייחסת לנשיא ארצות הברית לשעבר, מתי לחברת הרכבים, מתי לכוכב הקולנוע או לישות אחרת.[5]
- זיהוי תבניות כמו מספרי טלפון, כתובות דואר אלקטרוני, כמויות (עם יחידות) באמצעות ביטוי רגולרי ועוד.
- אִשְׁכּוּל מסמכים: זיהוי וחלוקה לקבוצות של מסמכי טקסט דומים.[6]
- זיהוי של ביטויי עצם ומונחים אחרים המתייחסים לאותו אובייקט. למשל, מהביטוי "יוסי אמר לשרגא שהוא יקבל העלאה בדרגה" לא ניתן לדעת מי מהשניים יקבל את ההעלאה. לשם כך נדרש ניתוח טקסט של יתר המסמך כדי להבין מההקשר במי מדובר.
- חילוץ קשרים, עובדות ואירועים: זיהוי של אסוציאציות בין ישויות ומידע אחר בטקסט.
- ניתוח סנטימנט: הפקת צורות שונות של מידע בנוגע לסנטימנט, דעה, מצב רוח ורגש. טכניקות ניתוח טקסט מועילות בניתוח סנטימנט ברמת הישות, המושג או הנושא.[7]
יישומים
כיום, טכנולוגיות כריית טקסט מיושמות באופן נרחב למגוון רחב של צרכים ממשלתיים, מחקריים ועסקיים. כך למשל, ממשלות וגופים ביטחוניים משתמשים בכריית טקסט למטרות ביטחון לאומי ומודיעין (למשל, על מנת לזהות טקסט המעיד על כוונה לבצע פיגוע טרור) ובפענוח או הצפנה של טקסט.[8] בעסקים, יישומים משמשים לתמיכה במודיעין עסקי ובמציאת מיקום אידיאלי למודעות פרסומיות, ועוד.
יישומים ביו-רפואיים
יישומי כריית טקסט משמשים בספרות הביו-רפואית, ומסייעים בחישובים שונים הנדרשים למחקרי כולל גישות חישוביות לסיוע במחקרים הנוגעים, למשל, לאינטראקציות חלבון,[9] ומחלות הקשורות בחלבון.[10] בנוסף, כריית טקסט מסייעת במחקרים קליניים של אוכלוסיות מסוימות בהן המטופלים מדווחים על תופעות לוואי מסוימות, באמצעות ניתוחים על מערכי נתונים של מידע דמוגרפי.[11]
יישומי תוכנה
נכון לסוף 2022, ענף כריית הטקסט עודנו בצמיחה, והדבר מתבטא בפיתוח תוכנות המשתמשות בטכנולוגיות ושיטות שונות של טכנולוגיה זו, בין היתר על ידי חברות ענק כמו IBM ומיקרוסופט. דוגמה לתוכנה פופולרית למטרות לימוד, שפותחה על ידי אוניברסיטת וואיקאטו בניו זילנד, היא תוכנת Weka, המשמשת גם כנקודת כניסה מצוינת למתחילים. בפייתון קיימות ספריות שונות לכריית טקסט, בהן NLTK ו-Gensim.
יישומי מדיה
כריית טקסט נמצאת בשימוש על ידי חברות מדיה גדולות, על מנת לשפר את בהירות המידע ולשפר את יעילות חיפוש המסמכים.
יישומים עסקיים ושיווקיים
כריית טקסט נמצאת בשימושים שונים בענף השיווק, בין היתר באמצעות מודלים המאפשרים לחזות נטישת לקוחות,[12] ומודלים המאפשרים לחזות תשואות מניות.[13]
ניתוח סנטימנט
ניתוח סנטימנט עשוי לשמש בניתוח ביקורות. כך למשל, התהליך יכול להעריך עד כמה ביקורת טובה לסרט, ובכך לאתר מבקרים שליליים במיוחד.[14] הדבר גם מאפשר לחזות האם לסיפור ילדים מסוים תהיה השפעה חיובית או שלילית על ילדים.
השלכות
עד לאחרונה, מנועי חיפוש אינטרנטיים, כמו גוגל, השתמשו לרוב בחיפושים מבוססי טקסט, שמצאו רק מסמכים המכילים מילים או ביטויים ספציפיים שהוגדרו על ידי המשתמש. כיום, באמצעות שימוש ברשת סמנטית (בסיס נתונים רשתי המבוסס על הקשרים סמנטיים בין הפריטים ברשת), כריית טקסט יכולה למצוא תוכן בהתבסס על משמעות והקשר. כריית טקסט משמשת גם בשירותי סינון דואר זבל, באמצעות זיהוי המאפיינים של הודעות שסביר להניח שהם פרסומות או חומר לא רצוי אחר.
קישורים חיצוניים
הערות שוליים
- ^ "Marti Hearst: What is Text Mining?".
- ^ [1] (אורכב 29.11.2009 בארכיון Wayback Machine)
- ^ Feldman, R. and Sanger, J. (2007). The text mining handbook. Cambridge University Press. New York
- ^ Kumar, A. Anil (2 באוגוסט 2012). "Text Data Pre-processing and Dimensionality Reduction Techniques for Document Clustering". International Journal of Engineering Research & Technology. 1 (5). doi:10.17577/IJERTV1IS5278. ISSN 2278-0181. נבדק ב-27 בספטמבר 2022.
{{cite journal}}
: (עזרה) - ^ Moro, Andrea; Raganato, Alessandro; Navigli, Roberto (בדצמבר 2014). "Entity Linking meets Word Sense Disambiguation: a Unified Approach". Transactions of the Association for Computational Linguistics. 2: 231–244. doi:10.1162/tacl_a_00179. ISSN 2307-387X.
{{cite journal}}
: (עזרה) - ^ Chang, Wui Lee; Tay, Kai Meng; Lim, Chee Peng (2017-02-06). "A New Evolving Tree-Based Model with Local Re-learning for Document Clustering and Visualization". Neural Processing Letters. 46 (2): 379–409. doi:10.1007/s11063-017-9597-3. ISSN 1370-4621.
- ^ "Full Circle Sentiment Analysis". Breakthrough Analysis. 2010-06-14. נבדק ב-2015-02-23.
- ^ Zanasi, Alessandro (2009). "Virtual Weapons for Real Wars: Text Mining for National Security". Proceedings of the International Workshop on Computational Intelligence in Security for Information Systems CISIS'08. Advances in Soft Computing. Vol. 53. p. 53. doi:10.1007/978-3-540-88181-0_7. ISBN 978-3-540-88180-3.
- ^ Papanikolaou, Nikolas; Pavlopoulos, Georgios A.; Theodosiou, Theodosios; Iliopoulos, Ioannis (2015). "Protein–protein interaction predictions using text mining methods". Methods. 74: 47–53. doi:10.1016/j.ymeth.2014.10.026. ISSN 1046-2023. PMID 25448298.
- ^ Liem, David A.; Murali, Sanjana; Sigdel, Dibakar; Shi, Yu; Wang, Xuan; Shen, Jiaming; Choi, Howard; Caufield, John H.; Wang, Wei; Ping, Peipei; Han, Jiawei (2018-10-01). "Phrase mining of textual data to analyze extracellular matrix protein patterns across cardiovascular disease". American Journal of Physiology. Heart and Circulatory Physiology. 315 (4): H910–H924. doi:10.1152/ajpheart.00175.2018. ISSN 1522-1539. PMC 6230912. PMID 29775406.
- ^ Van Le, D; Montgomery, J; Kirkby, KC; Scanlan, J (10 באוגוסט 2018). "Risk Prediction using Natural Language Processing of Electronic Mental Health Records in an Inpatient Forensic Psychiatry Setting". Journal of Biomedical Informatics. 86: 49–58. doi:10.1016/j.jbi.2018.08.007. PMID 30118855.
{{cite journal}}
: (עזרה) - ^ Coussement, Kristof; Van Den Poel, Dirk (2008). "Integrating the voice of customers through call center emails into a decision support system for churn prediction". Information & Management. 45 (3): 164–74. CiteSeerX 10.1.1.113.3238. doi:10.1016/j.im.2008.01.005.
- ^ Ramiro H. Gálvez; Agustín Gravano (2017). "Assessing the usefulness of online message board mining in automatic stock prediction systems". Journal of Computational Science. 19: 1877–7503. doi:10.1016/j.jocs.2017.01.001.
- ^ Pang, Bo; Lee, Lillian; Vaithyanathan, Shivakumar (2002). "Thumbs up?". Proceedings of the ACL-02 conference on Empirical methods in natural language processing. Vol. 10. pp. 79–86. doi:10.3115/1118693.1118704.
35274204כריית טקסט