היתוך מידע

מתוך המכלול, האנציקלופדיה היהודית
(הופנה מהדף מיזוג מידע)
קפיצה לניווט קפיצה לחיפוש

היתוך מידע הוא תהליך שמטרתו קישור, מציאת קורלציה, חיבור והצלבת נתונים (Data), מידע (Information) וידע (Knowledge) לצורך שיפור הערכת נתוני המיקום וזיהוי ישויות עליהם מבצעים איסוף ולצורך יצירת תמונת מצב והערכת איומים ורמת החשיבות שלהם. בנוסף, כחלק בלתי נפרד מתהליך היתוך המידע ובמטרה לשפר את תוצריו, מתבצעת הערכה של איכות התוצרים ונוצרות דרישות ממקורות המידע. דרישות אלה הן הבסיס ליצירת תוכנית האיסוף.

היתוך מידע יכול להתבצע באופן אוטומטי מלא, בסיוע של אלגוריתמים לעיבוד עבור גורם אנוש, או באופן אנושי לחלוטין. בכל המקרים התהליך זהה, אולם חלוקת נטל העבודה בין הגורם האנושי לגורם הממוכן שונה.

בעברית משתמשים לעיתים במונח מיזוג מידע, המקביל למונח האנגלי Data Merging. ההבדל התפיסתי בין מיזוג (merge) והיתוך (fusion), הוא שבמיזוג מספר אלמנטים מאותו טיפוס מקבלים אלמנט מאותו הטיפוס עצמו (בדרך כלל אלמנט יחיד במקום מספר האלמנטים שיצרו אותו), ואילו בהיתוך מקבלים אלמנט מטיפוס אחר - למשל שתי תמונות ברזולוציה נמוכה יותכו לתמונה אחת ברזולוציה גבוהה יותר. הבחירה במונח היתוך מידע קשורה למונח האנגלי (Data Fusion).

רקע וצורך

קבלת החלטות במצבי אי-ודאות היא מצב שכיח ביותר. בין היישומים הנפוצים אפשר למצוא מצבי מלחמה, אך גם מצבים אזרחיים, כגון בקרת מרחב אווירי או קבלת החלטה להפסיק את מתן האשראי לכרטיס אשראי שחשוד כנגנב על פי חריגה בהיקף ובסוג הרכישות שמבוצעות על ידי הכרטיס.

קבלת החלטות מושכלת מתבססת בראש ובראשונה על הבנת המצב, כלומר מהי המשמעות של סט נתונים שזורמים ממקורות שונים לגבי האובייקט או האובייקטים שלגביהם נדרש לקבל החלטות. תהליך היתוך המידע נועד לסייע במצבים בהם לפחות אחד מהתנאים הבאים מתקיימים:

  • קיימים אובייקטים רבים במרחב העניין.
  • קיימים מקורות מידע רבים.
  • מידת אי הוודאות גבוהה או מהימנות מקורות המידע נמוכה.
  • מקורות המידע מספקים מידע חלקי.
  • ישנה חפיפה חלקית ביכולת הכיסוי המרחבית או בסוגי הדיווחים שכל מקור מידע מספק.

לדוגמה, תמונת כלי טיס בשמים נדרשת לצורך קבלת החלטות לגבי בטיחות טיסה והגנת שמי מדינה כנגד גורמים עוינים. במקרה זה ניתן להבחין במאפיינים הבאים:

  • ישנם כלי טיס רבים בשמיים (מאות ולעיתים אלפים).
  • ישנם מספר מקורות מידע מסוגים שונים - בעיקר מכ"מים.
  • למקורות המידע השונים רמת דיוק (כחלק מהמהימנות) נמוכה. לעיתים עד מאות מטרים או יותר.
  • מקורות המידע מספקים מידע חלקי. למשל, מכ"ם מספק רק מיקום ומהירות אבל לא זיהוי.
  • לכל מכ"ם גזרת כיסוי מרחבית והחפיפה ביניהם משתנה לאורך השנים.

במהלך המחצית השנייה של המאה ה-20 הוחל בפיתוח מערכות שנועדו להתמודד עם מצבים אלה.

היסטוריה

המודל הפונקציונלי

מודל רמות היתוך המידע של JDL-DFG

בשנת 1992 יצרו מעבדות המחקר של משרד ההגנה האמריקאי מודל המתאר את תהליך היתוך המידע כקשר בין חמש רמות עיבוד פונקציונליות, המשלבות מידע המתקבל ממקורות מידע (לדוגמה: חיישנים) ומאפשרות התערבות אנושית. המודל, הידוע בראשי התיבות JDL-DFG-92 מהווה כיום תקן דה פקטו למערכות היתוך מידע ולמחקר אקדמי בנושא בעולם.

בין הרמות הפונקציונליות של היתוך המידע קיים קשר מלא. רמת שחזור הישויות (רמה 1) יוצרת את אבני הבסיס המשמשות את רמת שחזור המצב (רמה 2) וזו משמשת להערכת המצב והאיומים (רמה 3). במקביל, גם מידע מרמות גבוהות יותר משמש את הרמות הנמוכות. כך, למשל, מידע מתמונת המצב משמש את שחזור הישויות (רמה 1) באמצעות שיפור הפרדיקציה של הישויות.

לגורם האנושי חשיבות רבה בתהליך היתוך המידע והוא בעל יכולת להתערב בכל אחת מהרמות, כמו גם לקבל את המידע הלא-מעובד (גולמי) של החישנים / מקורות המידע ולהתייחס אליו.

כדי לשפר את הבנת המודל נעשה שימוש בדוגמה הבאה: יומנאי של תחנת משטרה נדרש לנווט ניידת משטרה מדרום תל אביב לאירוע בצפון תל אביב דרך התנועה הסואנת של תל אביב בשעות העומס. לרשותו עומדים מקורות המידע הבאים: שוטרי הניידת, מצלמות תנועה בנתיבי איילון, מכשירים למדידת מהירות וגלאי המספק את מספר הרישוי של כלי רכב. נבחן את התהליכים העוברים על כל סוג מידע בכל רמת עיבוד.

רמה 0: עיבודים ברמת אותות החישן

ברמה 0 מתבצעים עיבודים ברמת החישן, שמטרתם לשפר את דיוק החישן ולתרגם נתונים ממרחב האותות של החישן למרחב המדידה בו נעשה שימוש במערכת היתוך המידע.

בדוגמה שלעיל, מצלמות התנועה מבצעות עיבוד ברמת החישן כדי לתרגם את האותות האופטיים לתמונת וידאו. עיבוד נוסף יכול להתבצע על ידי גלאי תנועה, שיכולים למצות מתמונת הווידאו אלמנטים שנעים, כלי רכב ולשייך מדידות בזמנים שונים זו לזו. נניח, לצורך הדוגמה, שגלאים כאלה יכולים לדווח מספר רכבים ועבור כל רכב לספק מידע לגבי מיקומו, גודלו והצבע שלו.

רמה 1: שחזור הישויות

ברמה זו מידע המגיע ממקורות מידע שונים משויך, מעדכן ומשפר את השערוך של כל ישות עניין. התהליך מתבצע הן לגבי גדלים רציפים, לדוגמה מיקום ומהירות (קינמטיקה), והן לגבי גדלים בדידים, כמו סוג, צבע או גודל.

הרמה כוללת את השלבים הבאים:

  1. התאמת המדידות של החישנים השונים מבחינת מיקום מרחבי, זמן ויחידות מדידה. הבאת כל המדידות לייחוס אחיד.
  2. שיוך מדידות לפי מערכת קריטריונים. בתום השיוך, מדידות החישנים משויכות לישויות העניין המתאימות, או יוצרות ישויות עניין חדשות.
  3. שערוך המיקום והמהירות של ישות העניין: פרדיקציה, עדכון המצב באמצעות המדידות המשויכות. הגדרת אי ודאות בנוגע למהירות ולמיקום.
  4. שערוך הזיהוי, על פי המדידות ועל פי הנתונים הקודמים. מדידת אי הוודאות לגבי נתוני הזיהוי.

חשוב בשלב תכנון המערכת להחליט מהי ישות העניין שלגביה מבצעים עיבוד. בדוגמה לעיל, ניתן לבחור בכלי רכב בודד כישות עניין. לפיכך, ברמה זו נבצע שערוך של כלי הרכב בכבישי תל אביב.

רמה 2: שחזור מצב

ברמה זו נבחן הקשר בין ישויות העניין, שלגביהן בוצע השחזור ברמה 1 לצורך יצירת תמונת מצב. בדוגמה שהוצגה קודם לכן, תמונת המצב יכולה להיות מיקום ומהירות התנועה של הרכבים בנתיבי איילון. תמונה זו ניתנת לחישוב מסך כל כלי הרכב ששערכנו את תנועתם בשלב הקודם (למרות, שניתן גם להגדיר ישות נעקבת אחרת ולחשב את תמונת המצב ממנה).

העיבודים המתבצעים ברמה זו הם:

  1. קיבוץ (Aggregation) ישויות - על פי מיקום וזמן, תקשורת או קשרים תפקודיים שלהן.
  2. קיבוץ אירועים ופעילויות.
  3. סיווג על פי הקשר - למשל אבחנה בין עמית, טורף ונייטרלי, קישור לדוקטרינה.
  4. הערכה כוללת - הקשר בין מצב האויב, הידיד והנייטרלי.

מובן, שלא כל העיבודים נדרשים בכל מערכת. למשל, בדוגמה שהוצגה קודם לכן, די לקבץ את כל הרכבים על פי אזור ולהעריך את מהירות התנועה הממוצעת בכל קטע כביש.

רמה 3: הערכת מצב ואיומים

ברמה זו נבחנת תמונת המצב, שהושגה ברמה הקודמת, ואת אופן ההתפתחות העתידי שלה. באופן זה, ניתן להבחין בדרכי פעולה אפשריות של כל גורם בתמונת המצב ולהעריך את האופן בו אויב מאיים על ידיד.

סוגי העיבוד המתבצעים הם:

  1. שיוך ושערוך של מבנים ארגוניים.
  2. הערכת כוונות של כל מבנה ארגוני.
  3. זיהוי איומים (סיכון להשגת יעדי הארגון שלנו) והזדמנויות (יכולת לפגוע ביעדי ארגון מתחרה).
  4. שערוך של ההשלכות - מידת הפגיעות של ארגוננו, תזמון אירועים קריטיים, עדיפויות של הארגון המתחרה ושלנו.
  5. הערכת כוללת - בהגנה ובהתקפה.

בדוגמה שלמעלה, רמה זו יכולה לבחון מהם הסיכונים שבנסיעה באזור עמוס לעומת היתרונות של נסיעה בכבישים צדדיים ופנויים, כמו גם הערכה של מה יקרה אם שאר הרכבים יבצעו בחירה דומה.

רמה 4: בקרת תהליך

בקרת התהליך נועדה לבחון באופן מתמיד את תוצרי היתוך המידע מכל הרמות ולהציע דרכים לשיפורם באמצעות הפעלה משופרת של מקורות המידע או שיפור בתהליכי העיבוד.

לפיכך, העיבודים המתבצעים הם:

  1. בקרת זמן אמת ולאורך זמן של תוצרי התהליך: זיהוי כשלים, מדידת ביצועים, מדידת אפקטיביות ופיתוח ידע על נתונים אלה לעתיד.
  2. דרישות מידע לרמות השונות: מיקום וזיהוי ישויות העניין, פערים בתמונת המצב ופערים בהערכת האיומים.
  3. ניהול דרישות ממקורות המידע: שירותי חישה של החישנים, מידע ממקורות מוסמכים, מידע לייחוס.
  4. ניהול משימה: הגדרת דרישות משימה, ניהול האמצעים להשגת הדרישות.

בדוגמת ניידת המשטרה הנעה בכבישי תל אביב: הפעלת מצלמות התנועה בעיר היא ניהול מקורות המידע והכוונות התנועה לניידת הן ניהול משימה.

שיטות

היתוך מידע ניתן לבצע בשיטות שונות, ולכל שיטה יתרונות וחסרונות.

בחינת השערה בודדת

בשיטה זו, דיווח של מקור מידע עובר את תהליכי העיבוד שתוארו קודם לכן. בתום תהליך העיבוד, הדיווח יכול להשתייך למספר ישויות עניין עם ציון עבור כל חלופת שיוך. בהתאם לציון נבחרת רק ההשערה הטובה ביותר ושאר ההשערות אינן נשמרות.

יתרונות השיטה הם בפשטותה ובסיבוכיות הנמוכה שלה. לעומת זאת, חסרונות השיטה בשיוך של מספר רב של מקורות מידע עבור מספר רב של ישויות עניין לאורך זמן. לדוגמה, נניח ששני מטוסים טסים בקו ישר בסמיכות זה לזה. מכ"מים מדווחים על מיקום המטוסים ומערכת היתוך מידע משערכת את מצב שניהם. בשלב מסוים מטוס כלשהו מתחיל לבצע פניה. המכ"מים מדווחים על הסטייה מקו הטיסה הקודם, אולם הדיווחים יכולים להיות משויכים לכל אחד מהמטוסים. שיוך מוטעה יכול להוביל לכך שהמערכת תטעה במטוס הפונה או שני המטוסים הפונים.

בחינת מספר השערות

כדי לענות על חסרונות השיטה הקודמת פותחו שיטות של בחינת מספר השערות (Multiple Hypothesis Testing). בשיטות אלה, כל דיווח שיכול להיות משויך ליותר מישות עניין אחת מעדכן עותק אחר של תמונת המצב. העותקים מנוהלים וכל עדכון עוקב ממשיך לעדכן את כל העותקים של התמונה עד שציון אחד העותקים נהיה עדיף במידה משמעותית מעל שאר העותקים של התמונה.

בדוגמת המטוסים שהוזכרה קודם לכן, ינוהלו 4 אפשרויות של תמונות:

  1. שני המטוסים פונים ודיווחי המכ"מים על מטוס שממשיך בקו ישר מוטעים.
  2. שני המטוסים ממשיכים בקו ישר ודיווחי המכ"מים על המטוס הפונה מוטעים.
  3. מטוס 1 פונה ומטוס 2 ממשיך בקו ישר.
  4. מטוס 2 פונה ומטוס 1 ממשיך בקו ישר.

בהמשך, כל מידע נוסף ייבחן למול כל אחד מהעותקים האלה. למשל, רציפות של דיווחי מכ"ם על מטוס שממשיך בטיסה ישרה ומטוס שפונה יקטינו את הציון של אפשרויות 1 ו-2 אבל לא יאפשרו אבחנה בין האפשרויות 3 ו- 4. בשלב מסוים, יישארו רק אפשרויות 3 ו- 4 ופתרון אי הוודאות יתבצע באמצעים אחרים, למשל דיווח הטייס של אחד המטוסים שהוא פונה.

החסרונות העיקריים של שיטה זו היא הסיבוכיות העצומה מבחינה חישובית ומבחינת ארגון המידע בזיכרון המחשב. עבור כל אפשרות לישות בודדת מנוהלות השערות, וסך כל האפשרויות המנוהלות הוא הקומבינטוריקה של כל האפשרויות. בחלק מהיישומים שיטה זו נחשבת ללא-מעשית במערכות זמן אמת.

אלגוריתמים

בהיתוך מידע נעשה שימוש במספר רב של אלגוריתמים. להלן רשימה חלקית:

אלגוריתמים לעיבוד מקדים

אלגוריתמים לשחזור מאפיינים רציפים

המאפיינים הרציפים הם מסוג של מיקום, מהירות ובאופן כללי וקטור מצב של ישות העניין. אלגוריתמים אלה שייכים לתחום השערוך. בתחום זה נעשה שימוש בסוגים הבאים של אלגוריתמים:

אלגוריתמים לשחזור מאפיינים בדידים

המאפיינים הבדידים יכולים להיות רבים ותלויים בסוג ישות העניין ובמידת הפירוט עבור כל ישות. אלגוריתמים אלה שייכים לתחומים של הסקת מסקנות בתנאי אי ודאות, רשתות אמונה ומתבססים על מודלים שהוצעו על ידי באייס (Bayes) או תיאורית דמפסטר-שייפר (Dempster Shafer).

אלגוריתמים לבניית תמונת מצב

בניית תמונת מצב מישויות העניין מתבססת על השוואה למבני ידע ושיטות שונות לחישוב מתאם וקשרים בין ישויות העניין לבין עצמן ובינן לבין מבני הידע. דוגמאות לאלגוריתמים אלה הם:

  • השוואה לתבניות (Pattern Matching).
  • התאמה למבנה ארגוני.
  • מציאת צבירים (Clustering) על פי מאפיינים גאומטריים, גאוגרפיים ואחרים.

אלגוריתמים להערכת מצב ואיומים

תחום זה מחייב ידיעה ומידול של ההקשר (Context) בו מערכת היתוך המידע נדרשת לפעול. בתחום זה יש יתרון לגורם אנושי על פני מערכת מחשב, בעיקר בשל הקושי למדל את ההקשר לסט פרמטרים מתמטיים.

אלגוריתמים לבקרת התהליך

בבקרת התהליך עושים שימוש באלגוריתמים מהתחומים הבאים:

  • השוואה בין המצב הקיים לבין התכנון או המצב הרצוי.
  • תעדוף (prioritizing) של פערי התמונה
  • תזמון (scheduling) של משימות
  • מיטוב (optimization)

בכל אחד מהתחומים האלה פותחו אלגוריתמים רבים במהלך השנים, שניתן לעשות בהם שימוש במסגרת מערכות היתוך מידע.

ארכיטקטורות היתוך מידע

המונח ארכיטקטורת מערכת היתוך מידע מתייחס לקשר בין מרכזי (או צומתי) עיבוד במערכת, האחראים על היבטים של היתוך המידע ועל חלוקת התפקידים ביניהם.

ניתן לממש מערכות היתוך מידע בארכיטקטורות תוכנה שונות, ולעיתים קרובות יש בכך גם צורך בהתאם לדרישות המשתמש, מקורות המידע ותשתיות העברת הנתונים. אין "פתרון נכון" לארכיטקטורת מערכת היתוך מידע ובדרך כלל נדרש לבחון את הפתרונות המוצעים לאור הבעיות עליהן המערכת נדרשת לענות באמצעות סימולציה.

ניתן גם לשלב בין ארכיטקטורות שונות, או לאפשר למערכת שבנויה באופן מסוים לתמוך גם במצבים שונים מהמתוכנן. לדוגמה, ניתן לאפשר למערכת היתוך מידע ריכוזית במצבים של אובדן קשר בין צומתי עיבוד (computer node) להפוך למערכת מבוזרת על ידי כך שכל צומת עיבוד יהיה אחראי על היתוך הנתונים המגיעים אליו. כאשר הקשר יחזור שוב בין הצמתים יידרשו מנגנונים האחראיים על סינכרון הנתונים ועל בחירת המרכז האחראי על עיבוד המידע.

ארכיטקטורה ריכוזית

בארכיטקטורה ריכוזית קלאסית, ישנו צומת עיבוד מרכזי, שמקבל את כל המידע הגולמי (או מעובד חלקית ברמת החיישן) ואחראי על ביצוע היתוך המידע בכל הרמות. תוצרי ההיתוך נשלחים לכל צרכני ההיתוך, שחלקם יכולים להיות צומתי עיבוד אחרים.

לארכיטקטורה ריכוזית היתרונות הבאים:

  1. הצרכנים מקבלים תוצרי היתוך מידע זהים ובכך מובטח שלכולם אותה תמונת ייחוס, דבר המקל על קבלת החלטות משותפת.
  2. רוב או כל המידע הגולמי מגיע למרכז היתוך המידע, וכך לא אובד מידע שנדרש לצורך העיבוד, לדוגמה להצלבת נתונים בין חיישנים.
  3. ניהול מקורות המידע מתבצע באופן ריכוזי ולפיכך יש אפשרות להגיע למיטוב גלובאלית של משאבי האיסוף.

חסרונות הארכיטקטורה הריכוזית הם:

  1. המידע הגולמי נדרש לעבור ממקורות המידע לצומת העיבוד המרכזי, ובכך מתחייב רוחב פס גבוה יותר מאשר אם חלק מהמידע היה מעובד לפני שליחתו.
  2. המערכת תלויה בצומת עיבוד מרכזי ולפיכך פגיעה יותר לתקלות או לנזקים שנגרמים על ידי היריב. ניתן להתגבר על כך אם חלק מהצרכנים הם צומתי עיבוד שיכולים להפוך להיות מרכזיים כאשר הצומת המרכזי נופל (גיבוי חם).
  3. עיבוד כל המידע בצומת אחד מעמיד דרישות עיבוד וזיכרון גבוהות יחסית.

ארכיטקטורה מבוזרת

כדי להתגבר על חסרונות הארכיטקטורה הריכוזית ניתן לבזר את היתוך המידע בין צומתי עיבוד שונים. הביזור יכול להתבטא בחלוקת תפקידים ורמות היתוך מידע בין צמתים שונים, חלוקת אחריות דיווח בין הצמתים או אפילו ביצוע של אותן משימות היתוך מידע בכמה צמתים שונים, כאשר לכל אחת צרכנים שלה.

ארכיטקטורות מבוססת רשת

לאור התפתחות יכולת תקשורת המחשבים בשנים האחרונות, התפתחה תורת לחימה מבוססת רשת (Network Centric Warfare), שבה גורמי צבא שונים מחוברים זה לזה על ידי רשתות תקשורת ברוחבי פס שונים וכל גורם מספק מידע ודורש מידע מסוגים שונים. ברשתות אלה נדרשת ארכיטקטורה המאפשרת לכל גורם לתרום את חלקו, לצרוך את הנדרש לו, להתחבר ולהתנתק באופן דינמי. נושא זה נמצא היום בחזית המחקר בתחום היתוך מידע.

יישומים אופייניים

יישומים אזרחיים

  • בקרה אווירית
  • גילוי הונאות אשראי
  • בקרת המרחב הימי

יישומים צבאיים

הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

27630915היתוך מידע