תוכנית התאוששות מאסון
תוכנית התאוששות מאסון (באנגלית: Disaster Recovery Plan או DRP) היא תוכנית הכוללת תהליכים, מדיניות ונהלים המשמשים להתאוששות מאסון המשבית לזמן לא קצר את התשתית הטכנולוגית החיונית לפעילותו של ארגון. דוגמאות לאירועי אסון שבהם נדרש שימוש בתוכנית ההתאוששות: שרפה, רעידת אדמה, הצפה, התפוצצות פצצה, קריסת בניין, מחיקה מוטעית וכדומה.
תכנון תוכנית התאוששות מאסון היא קבוצת משנה של תהליך גדול יותר הידוע כהבטחת רציפות הפעילות העסקית (באנגלית: Business Continuity Program) המנסה להתמודד עם מכלול רחב יותר של תקלות. תוכנית ההתאוששות מאסון צריכה לכלול תכנון לחידוש של יישומים, נתונים, חומרה, תקשורת (כגון רשת) ואלמנטים אחרים של טכנולוגיית המידע. תוכנית הבטחת הרציפות העסקית (BCP) כוללת בנוסף תכנון של היבטים שאינם קשורים לטכנולוגיית המידע כגון שמירה על אנשי מפתח, מתקנים, תקשורת והגנה על המוניטין.
המרכזיות של מערכות המחשוב בתפקודם של ארגונים רבים מדגישה את הצורך ב-DRP בתחום זה. לא רק חנות אינטרנט, שעיקר קיומה מתבסס על תשתיות מחשוב תחדל לתפקד בעקבות השבתה שלהן. גם בנק, שהמחשוב הוא רק אחד ממרכיבי התשתית של פעילותו (יחד עם סניפים, הון, משאבי אנוש וכדומה), אינו מסוגל לתפקד בעת השבתה של מערכת המחשוב. מטרת ה־DRP היא המשך ביצוע עבודות המחשוב של הארגון על מנת שהארגון יוכל להמשיך בפעילותו העסקית. במקרה אסון הפתרון הוא המשך עבודה ממרכז מחשבים אחר הנמצא באתר פיזי רחוק ממרכז המחשבים שקרס. תכנון תהליך ההתאוששות מאסון ומימוש ההתאוששות בפועל עשויים להיות תהליכים מורכבים. לתוכנית ה-DRP עשויים להיות מספר רבדים: עסקי, טכנולוגי ולוגיסטי.
רקע
עם חשיבותה הגוברת של טכנולוגיית מידע להמשך פונקציות עסקיות קריטיות, בשילוב עם מעבר לעבודה גלובלית הנעשית מסביב לשעון, חשיבות ההגנה על תשתיות המידע של ארגון נתונים מפני פגיעה מקבלת עדיפות הולכת גוברת יותר ויותר.
כיום, בניגוד לעבר הרחוק בו היו מערכות המחשוב מערכות תומכות בעבודת ארגונים, מערכות המחשוב המודרניות הפכו למרכיב הכרחי לביצוע פעילות עסקית ותהליכים עסקיים. כתוצאה מכך להפסקת פעולתן עלולות להיות השלכות קשות על ארגונים בתחום העסקי, בתחום התפעולי, בתחום הכספי ובתחום התדמיתי. כך למשל הפסקת עבודת מרכז מחשבים של בנק למספר שעות עלולה להביא בין השאר לתוצאות הבאות:
- פגיעה ביכולת של לקוחות עסקיים לבצע טרנזקציות עסקיות, משום שהפעולה הכספית עשויה להוות תנאי הכרחי לביצוע עסקאות
- פגיעה ביכולת של לקוחות קמעונאיים של הבנק למשוך כספים, לקבל כספים ולשלם חשבונות
- אי-יכולת לבצע פעולות השקעת כספים בבורסות בעולם
- אי-יכולת של הבנק לבצע פעילות עסקית שלו למשל: העברות כספים בינו לבין בנקים בחו"ל, תיאומים בינו לבין חברות כרטיסי אשראי, ייעוץ פנסיוני ללקוחות וקבלת חיובי לקוחות מגופים הנותנים שירות.
מתיאור זה ברור לגמרי, שהפסקה בעבודת מערכות המחשוב כתוצאה מאסון עלולה לגרום נזק כספי משמעותי לבנק, ובנוסף לכך עלולה להיפגע תדמיתו משום שהוא אינו יכול במצב זה לספק שירותים ללקוחותיו.
ההערכה היא כי החברות הגדולות ביותר משקיעות בין 2% ל־4% מתקציב טכנולוגיית המידע שלהן על תכנון התאוששות מאסון, במטרה למנוע הפסדים גדולים יותר במקרה שהעסק לא יכול להמשיך לתפקד בשל אובדן של תשתית טכנולוגיית המידע והנתונים. מתוך החברות שבהן היה אובדן גדול של נתונים עסקיים, 43% מעולם לא נפתחו מחדש, 51% נסגרו תוך שנתיים ורק 6% ישרדו בטווח הארוך[1]. נושא זה קיבל דחיפה משמעותית בעקבות פיגועי 11 בספטמבר שלא רק הביאו לתודעה את האפשרות של פגיעה מכוונת במרכז עסקים אלא אף הביאו לקבלת מספר חוקים המחייבים חברות מסוימות (בתי חולים למשל) לנהל תוכנית התאוששות מאסון אפקטיבית.
על מנת למזער את הנזקים מתכננים ארגונים את אופן ההתמודדות במקרה אסון באמצעות ביצוע עבודות המחשוב במרכז מחשבים אחר. במקרים רבים כמות משאבי המחשב וכמות המשאבים הלוגיסטיים העומדים לרשות הארגון באתר החלופי קטנים מכמות המשאבים באתר בו התרחש אירוע האסון, כתוצאה מכך עלול הארגון להידרש לוותר על חלק מהמערכות ולספק רמת שירות נמוכה יותר במערכות אחרות. קביעת העדיפויות, כלומר: ההחלטה אילו מערכות יפגעו ובאיזו מידה היא חלק מתוכנית ההתאוששות מאסון. תהליך ההתאוששות הוא תהליך האורך זמן. בזמן ביצוע תהליך ההתאוששות עשויים לא להינתן כל השירותים או חלק מהשירותים. החזרה למתן שירותים היא הדרגתית.
האסונות איתם צריכה התוכנית להתמודד יכולים להיות מסווגים עקרונית לשתי קטגוריות רחבות (ששילוב ביניהן הוא לרוב האפשרות הגרועה ביותר):
- אסון טבע - מניעת אסונות טבע היא קשה מאד עד בלתי אפשרית אבל אפשר לנקוט אמצעי זהירות כדי למנוע הפסדים. קטגוריה זו כוללות אסונות כמו שיטפון, שריפה, רעידת אדמה, הוריקן, וכדומה
- אסונות מסיבות אנושיות - האסונות האלה הם הסיבות המרכזיות לכישלון. טעות אנוש עשויה להיות התערבות מכוונת או לא מכוונת אשר יכול לגרום תקלות כגון אובדן מאסיבי של יכולת התקשורת. האסונות האלה כוללים תאונות דרכים, שביתה, חבלה, נוזקות, התקפה צבאית, חדירה בלתי מורשית, וכדומה
התוכנית ברמה העקרונית
הפעולות לבניית התוכנית כוללות:
- זיהוי של היקף וגבולות תוכנית הרציפות העסקית. השלב כולל גם דוחות ביקורת וניתוח סיכונים עבור נכסי הארגון
- עריכת ניתוח השפעה עסקית (BIA) שהיא חקר והערכה של השפעות הארגון במקרה של אובדן או דעיכה של הפונקציות העסקיות הנובעות מאירוע הרסני. אובדנים כאלו יכולים להיות כספיים, או פחות מוחשיים אך עם זאת חיוניים (למשל, משאבי אנוש, קשרי משקיעים)
- השגת מחויבות ארגונית וכספית של ההנהלה הבכירה
- קביעה והסברת תפקידה של כל מחלקה בתוכנית התמיכה כך שבמקרה של אסון כל מחלקה בארגון תהיה מוכנה לפעולה. משום שכדי לשחזר ולשמור על פונקציות קריטיות על כל מחלקה להבין את התוכנית ולפעול בהתאם.
- יישום התוכנית עצמה
תוכנית הרציפות העסקית של הארגון אמורה לכלול מדדים מרכזיים של נקודת התאוששות (RPO - הזמן המרבי שלגביו ניתן לאבד מידע) ואת זמן ההתאוששות (RTO - הזמן המרבי עד לחזרתה של המערכת לתפקוד מלא) עבור תהליכים עסקיים שונים (כגון תהליך הפקת סדר, ביצוע הזמנה, וכדומה). מדדים אלו שצוינו עבור תהליכים עסקיים צריכים להיות ממופים למערכות טכנולוגיית המידע ולתשתיות התומכות בתהליכים אלה, תוך התייחסות לתקציב שניתן להם.
חלק מהותי מהתוכנית הם אמצעי הבקרה שהן פעולות או מנגנונים שיכולים להפחית או למנוע אסונות במערכת המחשוב הכוללים:
- אמצעי מניעה שנועדו למנוע התרחשות אירועי אסון
- אמצעים בדיקה המגלים אירועים לא רצויים
- אמצעי תיקון - המתקנים או משחזרים את המערכת לאחר אסון
אמצעים אלו צריכים להיות תמיד מתועדים ולהיבדק בקביעות.
רובד עסקי
הרובד העסקי הוא הרובד בו מתחיל תכנון ההתאוששות מאסון. התכנון ברמה העסקית הוא הרמה העליונה של התכנון המהווה בסיס לתכנון ביתר הרמות. ברובד זה נשאלות שאלות של מהות או שאלות מה. ברובד זה מנסים להגדיר:
- טווח הזמן הנדרש להפעלה מחדש של הפעילות העסקית (RTO) של הארגון וכפועל יוצא גם הפעלת מערכות המחשוב. טווח הזמן משתנה מארגון לארגון בהתאם לצרכיו ולאופיו ועשוי לנוע ממספר קטן מאד של שעות עד לימים.
- טווח הזמן שאת הנתונים שנצברו בו ניתן לאבד (RPO). טווח זמן זה משתנה באותה סקלה כמו ה־RTO אולם איננו תלוי בהכרח בו (מערכת מסחר בסחורות עשויה לדרוש RPO אפס אך לאפשר RTO גדול יותר).
- סיווג המערכות על פי הקריטיות שלהן לארגון
מדד זה עשוי להשפיע על:- סדר הקמת המערכות באתר החלופי - החשובות יותר עשויות להיות משוחזרות לפני החשובות פחות.
- אילו מערכות לא ישוחזרו כלל - הארגון עשוי להימנע מהעלאת מערכות בעלות תועלת עסקית שולית על מנת לאפשר פעולה תקינה של מערכות אחרות
- רמת השירות של מערכות - רמת השירות שתינתן במסגרת האילוצים הנובעים ממצב החירום. רמת השירות עשויה להיות שונה מרמת השירות במצב הרגיל. רמת השירות של מערכות חשובות פחות עלולה להיפגע. מהגדרות אלו יגזרו כמות המשאבים שיוקצו לכל מערכת ברבדים שמתחת לרובד העסקי.
התכנון ברובד זה מספק מענה לשאלות המה: מה נכלל בתוכנית ההתאוששות ? מה סדר המערכות בזמן ההתאוששות ? מה העדיפויות לאחר ההתאוששות ?
רובד טכנולוגי
התכנון ברובד זה עוסק בשאלות ובאילוצים טכנולוגיים הנוגעים להתאוששות מאירוע אסון. התכנון ברובד העסקי מהווה בסיס לתכנון זה. כך למשל הנתונים להם נדרש שחזור באתר החלופי, הם נתוני המערכות שהוגדרו ברובד העסקי כמערכות שצריכות להתבצע גם בהתרחש אסון. השאלות הנשאלות הן שאלות תפעוליות מסוג כיצד, כלומר: שאלות אופרטיביות. ברובד זה נשאלות שאלות כגון:
- אילו נתונים יש לגבות ? כיצד מגבים נתונים ? באיזה תדירות מגבים נתונים ? כיצד משחזרים נתונים באתר החלופי ? כיצד מתקינים ומתפעלים את מערכת ההפעלה באתר החלופי ? כיצד מפעילים את רשת התקשורת באתר החלופי ? איזה תשתיות טכנולוגיות נדרשות באתר החלופי ? וכיוצא בזה.
החלטה אופרטיבית חשובה מתייחסת לסוג אתר הגיבוי: האם אתר הגיבוי יהיה אתר גיבוי חם או אתר גיבוי קר ?
אתר גיבוי חם הוא אתר העומד מידית לרשות הארגון וכבר מותקנות בו תשתיות תוכנה מתאימות לעומת זאת באתר גיבוי קר נדרש שחזור התשתיות והמערכות היישומיות לאחר התרחשות אירוע האסון. לעומת זאת העלות של אתר גיבוי חם עשויה להיות גבוהה מהעלות של אתר גיבוי קר.
- החלטה חשובה אחרת מתייחסת למיקום אתר הגיבוי. האם אתר הגיבוי יהיה חיצוני לארגון באתר ספק המתמחה בכך או אתר חלופי בתוך הארגון עצמו במיקום גאוגרפי שונה מהמקום שבו ממוקם מרכז המחשבים של הארגון.
- בדרך כלל קיימת התייחסות מפורטת במיוחד לנושא של שחזור נתונים באתר החלופי. תוכניות DRP מודרניות נשענות במידה רבה על מאפיינים טכנולוגיים מתקדמים של חומרת דיסקים. מאפיינים אלה מאפשרים שכפול נתונים באתר מרוחק כחלק מפעולת כתיבת או עדכון הנתונים בדיסק במרכז המחשבים הפעיל, כלומר: כמעט בו זמנית לביצוע עבודת המחשוב מתעדכנים הנתונים במערכות האחסון של האתר החלופי. כתוצאה מכך בהתרחש אירוע אסון, מתקצר באופן משמעותי זמן שחזור הנתונים הקריטיים.
- גם טכנולוגיות של וירטואליזציה, המנתקות בין המימוש הפיזי של מערכות לבין המערכות עצמן, עשויות במקרים מסוימים לקצר את משך זמן ההתאוששות מאסון. טכנולוגיות אלה עשויות לשמש גם כבסיס לחלוקת משאבי מחשוב פיזיים באתר גיבוי בין מספר ארגונים או בין מספר יחידות באותו ארגון.
אסטרטגיות נפוצות להגנת הנתונים כוללות:
- גיבויים שנעשו לטייפ גיבוי הנשלח מחוץ לאתר במרווחי זמן קבועים (רצוי יומי)
- גיבויים שנעשים על דיסק באתר ומועתקים באופן אוטומטי לדיסק מחוץ לאתר, או נעשים ישירות לדיסק מחוץ לאתר
- שכפול של הנתונים אל מחוץ לאתר, אשר מתגברת על הצורך לשחזר את הנתונים (רק במערכות שבהן יש צורך בשחזור או סנכרון). מערכת כזאת יכולה לספק RPO ו־RTO אפס (כאשר השכפול סינכרוני) או קטן מאד (כאשר השכפול אסינכרוני) אולם היא לרוב איננה מגינה מטעויות לוגיות
- מערכות לזמינות גבוהה (אשכולות) השומרת על הנתונים, משכפלת אותם מחוץ לאתר ומאפשרת גישה רציפה למערכות ולנתונים
- טכנולוגיית אופטימיזציה ברשת רחבה (WAN) - משפרת את זמן התגובה של התאוששות מאסון ומגבירה את קצב הפעילות ברשת. טכנולוגיה זו גם מוודאת כי הנתונים עדיין עוברים דרך רשת גם כאשר היא נפלה.
נקודה בעייתית במיוחד ברובד הטכנולוגי של התוכנית היא ההטרוגניות הבסיסית שלה, התוכנית צריכה לכלול לכל הפחות טיפול ביישומים, מערכות הפעלה, מסדי נתונים וברשתות התקשורת ופעמים רבות גם טיפול במערכי האחסון, בחיבורי המחשבים הניידים, בגישה מרחוק לרשת התקשורת הארגונית ועוד. בארגונים גדולים מתווספת להטרוגניות בסיסית זו גם שימוש בציוד מספקים שונים ומדגמים שונים המסבך עוד יותר את הבעיה. הבעיה חמורה במיוחד משום שבעיות רבות בתוכנית אינן נובעות מחלק אחד במערכת אלא משילוב שלהם - למשל חוסר הגדרה של גיבוי לאתר המשני של אחד מהדיסקים עליו נשמר מסד הנתונים איננה בעיה במסד הנתונים או בהגדרת הדיסק אלא בשילוב ביניהם. בעוד וירטואליזציה עשויה להקל על חלק מבעיות אלו הרי היא מוסיפה גורם מסבך נוסף לבעיה זו.
בנוסף להתאוששות מאסון התוכנית כוללת גם אמצעים למניעת האסון מלכתחילה שברמה הטכנולוגית כוללים בין השאר:
- שיקוף של מערכות או נתונים ושימוש בטכנולוגיה של הגנה על דיסקים כגון RAID
- מגיני מתח המקטינים את השפעתן של עליות מתח על ציוד אלקטרוני עדין
- מערכות אל פסק (UPS) וגנרטורי גיבוי השומרים על המערכות במקרה של הפסקת חשמל
- מערכות כיבוי אש וגלאי אש
- תוכנות אנטי וירוס ואמצעי אבטחה אחרים
- במקרה שלעסק יש צורך בתוכנית התאוששות מאסון DRP ותוכנית המשכיות עסקית BCP - יש להבין
רובד לוגיסטי
לצורך תפעול המערכות על פי הקריטריונים שנקבעו ברובד העסקי, אין די בהתאוששות ברמה טכנולוגית. נדרש טיפול גם בנושאי לוגיסטיקה. כך למשל צוות עובדים המספק שירותים ללקוחות מערכת שאוששה מאירוע אסון ברמה הטכנולוגית, זקוק לחדרים, עמדות קצה, מכשירי טלפון וכיוצא בזה על מנת לתמוך בפעולה תקינה של המערכת. נדרש תכנון המספק את התנאים הלוגיסטיים הנדרשים, באתר החלופי או במקום אחר. חשוב לזכור, שהאילוצים הלוגיסטיים בקרות אסון קשים יחסית, משום שלא בהכרח ניתן להקצות כמות דומה של חדרים ומשאבים פיזיים, שהיו קיימים באתר המקורי.
הרובד הלוגיסטי, בדומה לרובד הטכנולוגי, עוסק בשאלות הכיצד על פי המהויות שנקבעו ברובד העסקי. נושאים בהם צריך לטפל בתכנון ברמה הלוגיסטית הם: מקומות ישיבה לצוותים, תשתיות שאינן תשתיות מחשוב (כגון: קווי ומכשירי טלפון לתקשורת בין העובדים ובינם לבין לקוחות הארגון), ציוד משרדי, מערך הסעות לאתר הפיזי המרוחק ובחזרה ממנו, שירותי הסעדה וכיוצא בזה.
ניסויים
יש צורך לבחון האם תוכנית ה-DRP, אכן עונה על הדרישות האמיתיות של הארגון להתאוששות מאירוע אסון. לצורך כך נדרש דימוי של אירוע אסון ומימוש מתוכנן של תוכנית ה-DRP. מתוצאות הניסוי אפשר להפיק לקחים ולתקן ליקויים שנמצאו במהלך הניסוי. תדירות והיקף הניסויים נקבעת על פי איזון בין חשיבותה העסקית של התאוששות מהירה מאירוע אסון לבין עלויות ביצוע הבדיקה. בדרך כלל מקובל לבצע בדיקה של תוכנית ה-DRP בתדירות של פעם או פעמיים בשנה.
היבטים דינאמיים של DRP
תכנון DRP אינו פעולה חד-פעמית משום שבארגונים חלים שינויים. כך למשל עשויה להשתנות חשיבותה העסקית של מערכת מסוימת וכתוצאה מכך עשוי להידרש שינוי באופן ההתמודדות עם התאוששותה במקרה אסון.
- תשתיות תוכנה, חומרה ותקשורת משתנות או משודרגות. מערכות יישומיות מורחבות או משתנות, מבנה וארכיטקטורת נתונים עשויים להשתנות, היקפי עבודה עשויים לגדול או לקטון, מספר אנשי הצוות העוסקים במערכת עשוי לגדול או לקטון מה שעשוי לחייב שינוי בהיערכות הלוגיסטית בהתרחש אירוע אסון. תשתיות ומערכות חדשות מתווספות למצאי הקיים בארגון. תשתיות או מערכות שעבר זמנן מוחלפות בתשתיות ומערכות אחרות.
- בעידן הנוכחי של שינויים עסקיים תכופים ומערכות מחשוב גמישות וזריזות וארכיטקטורת SOA ,תדירות שינויים שיכולה להיות להם השפעה על תוכנית ה-DRP, עשויה להיות גבוהה במיוחד.
- על מנת לענות על השינויים נדרשת מדיניות עדכון תוכנית ה-DRP ומנגנוני Governance לאכיפת המדיניות ולעדכון ההנחיות הנגזרות ממנה.
הערות שוליים
- ^ Hoffer, Jim. "Backing Up Business - Industry Trend or Event" Health Management Technology, Jan 2001
תוכנית התאוששות מאסון23510660