הרשת העמוקה

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש
יש לעדכן ערך זה.
ייתכן שהמידע המצוי בדף זה אינו מעודכן, אתם מוזמנים לסייע ולעדכן את הערך. אם לדעתכם אין צורך בעדכון הערך, ניתן להסיר את התבנית.
יש לעדכן ערך זה.
ייתכן שהמידע המצוי בדף זה אינו מעודכן, אתם מוזמנים לסייע ולעדכן את הערך. אם לדעתכם אין צורך בעדכון הערך, ניתן להסיר את התבנית.
יש לערוך ערך זה. הסיבה היא: שפה לא אנציקלופדית, נתונים מיושנים ביותר.
אתם מוזמנים לסייע ולערוך את הערך. אם לדעתכם אין צורך בעריכת הערך, ניתן להסיר את התבנית.
יש לערוך ערך זה. הסיבה היא: שפה לא אנציקלופדית, נתונים מיושנים ביותר.
אתם מוזמנים לסייע ולערוך את הערך. אם לדעתכם אין צורך בעריכת הערך, ניתן להסיר את התבנית.

הרשת העמוקה (או הרשת הבלתי נראית) היא המידע ברשת האינטרנט שאינו ניתן למיפוי על ידי מנועי חיפוש.

מידע כזה יכול להיות מידע המוגן מאחורי סיסמה או CAPTCHA, כך שזחלני רשת לא מסוגלים לארכב אותו והוא לא מופיע במנועי החיפוש. לדוגמה, אזור אישי באתר אינטרנט, המוצג לחשבון בעל המידע בלבד, וזאת לאחר אימות זהותו.

אין לבלבל בין מושג זה לבין רשתות אפלות או השירותים הנסתרים של Tor. אמנם רשתות אפלות הן חלק מהרשת העמוקה, אך הן רק חלק קטן מרשת זו. ישנם דפים רבים שאינם מאורכבים על אף שהם אינם נמצאים ברשתות האפלות: רוב המידע ברשת נמצא בעמודים דינמיים הנוצרים באופן אוטומטי על ידי פעולתו של סקריפט רשת, ומתקיימים זמן מועט בלבד. למשל, עמוד תוצאות החיפוש במנוע החיפוש גוגל הוא עמוד דינמי, שאינו מאורכב.

מייק ברגמן, מייסד BrightPlanet‏,[1] הוא שטבע את המושג,[2] באמירתו המפורסמת כי "חיפוש באינטרנט כיום ניתן להשוואה לגרירת רשת דייגים על פני מי האוקיינוס: ניתן לתפוס לא מעט ברשת, אבל ישנו מידע רב שנמצא עמוק ולכן מתפספס".

מספר העמודים ברשת העמוקה הוערך בשנת 2001 כגדול פי 500 מהרשת הגלויה.[3]

נפח

הערכות מחקר שנערך באוניברסיטת קליפורניה בברקלי בשנת 2001 שיערו כי הרשת העמוקה הכילה אז מידע בנפח של כ-7,500 טרה בייט.[3] ד"ר שסטקוב ואחרים זיהו בשנת 2004 כ-300,000 אתרי רשת עמוקה באינטרנט בכללותה.[4] לפי שסטקוב, היו 14,000 אתרים עמוקים במרחב הרוסי בלבד בשנת 2006.[5]

מקור השם

ברגמן, במאמר שפרסם אודות הרשת העמוקה ב-Journal of Electronic Publishing, ציין כי ג'יל אלסוורת' השתמשה במושג "הרשת הבלתי נראית" ב-1994 כדי להתייחס לאתרים שלא היו רשומים במנוע חיפוש כלשהו. ברגמן ציטט מאמר של פרנק גרסיה מינואר 1996:

"זה יהיה אתר שסביר להניח שעוצב כהלכה, אך בעליו לא טרחו לרשום אותו באף מנוע חיפוש. אז, אף אחד לא יכול למצוא אותו! אתר חבוי. אני קורא לזה, הרשת הבלתי נראית".

שימוש מוקדם נוסף במונח "הרשת הבלתי נראית" נעשה על ידי ברוס מאונט ומתיו ב. קול מ-Personal Library Software, בתיאור של כלי הרשת עמוקה שנמצא בפרסום לעיתונות מדצמבר 1996.[6]

השימוש הראשון במונח "רשת עמוקה", שכעת מוסכם על הכל, הופיע במאמר של ברגמן, משנת 2001.[3]

סוגי תכנים ברשת העמוקה

ניתן לסווג את תוכני הרשת העמוקה לאחת או יותר מהקטגוריות הבאות:

  • תוכן דינמי: דפים דינמיים הנוצרים כתשובה לשאילתה שנשלחה, או שניתן לגשת אליהם רק דרך טופס, במיוחד אם משתמשים באלמנטים של קלט של שרת פתוח (כמו שדות טקסט); קשה לנווט בשדות כאלו ללא ידע בשרת. לדוגמה עמוד תוצאות חיפוש במנוע חיפוש.
  • תוכן לא מקושר: דפים שלא מקושרים מאף דף אחר, מה שעשוי למנוע גישה לתוכן לזחלן רשת. מתייחסים לתוכן הזה כדפים ללא קישורים מפנים (או קישורים תומכים).
  • תכנים מוגנים בסיסמה: אתרים שדורשים רישום וכניסה או הרשאה ספציפית. לדוגמה עמוד פייסבוק שהוגדר כפרטי.
  • רשת לפי הקשר: דפים עם תוכן המשתנה לפי הקשרי גישה שונים (לדוגמה, טווחים של כתובות IP, או רצף ניווט קודם).
  • תוכן מוגבל גישה: אתרים שמגבילים את הגישה לדפים שלהם בדרך טכנית (לדוגמה אתרים שמוגנים ב-CAPTCHA, או ב-HTTP headers מונעי מטמון, שמונעים ממנועי חיפוש לגלוש בהם וליצור עותקי מטמון[7]).
  • תוכן סקריפטים: דפים שניתן לגשת אליהם רק דרך קישורים המיוצרים על ידי JavaScript, כמו גם תוכן המורד בדינמיות משרתי רשת דרך פתרונות פלאש או Ajax.
  • תוכן טקסט המשתמש בפרוטוקול גופר וקבצים המאוחסנים על שרת FTP שאינם מאונדקסים על ידי רוב מנועי החיפוש. מנועים כגון גוגל לא מאנדקסים דפים מלבד HTTP או HTTPS‏.[8]
  • רשתות אפלות: רשתות שניתן לגשת אליהן רק באמצעות פרוטוקולי גלישה לא תקניים, ושלרוב משתמשות בטכנולוגיית אנונימיות כמו רשת Tor.

גישה

כדי לגלות תוכן על הרשת, מנועי חיפוש משתמשים בזחלני רשת שעוקבים אחרי היפר-קישורים דרך פרוטוקול מספרי פורטים וירטואליים ידועים. השיטה הזו אידיאלית לגילוי משאבים ברשת שעל פני השטח, אולם לרוב לא אפקטיבית במציאת משאבי רשת עמוקה. לדוגמה, הזחלנים לא מנסים למצוא דפים דינמיים שהם תוצאה של שאילתות מסדי נתונים עקב המספר האינסופי של שאילתות אפשריות.[2] ניתן לפתור זאת חלקית על ידי מתן קישורים לתוצאות השאילתה, אבל הדבר יכול לנפח באופן בלתי מכוון את הפופולריות של אתר ברשת העמוקה.

ב-2005, יאהו! הפכה חלק קטן מהרשת העמוקה לאפשרי לחיפוש על ידי שירות Yahoo! Subscriptions. מנוע החיפוש הזה מחפש בכמה אתרים הדורשים רישום כמנוי בלבד. חלק מאתרי המנוי מציגים את התוכן המלא שלהם לרובוטי מנוע החיפוש כך שהם יוצגו בחיפושי המשתמש, אולם אז מציגים למשתמשים דף כניסה או רישום כשהם לוחצים על דף בתוצאות החיפוש.

זחילה ברשת העמוקה

חוקרים בדקו כיצד ניתן לזחול ברשת העמוקה בדרך אוטומטית. ב-2001, סריראם רגהאבאן והקטור גרסיה-מולינה[9][10] הציגו מודל אדריכלי לזחלן של הרשת הנסתרת שמשתמש במושגי מפתח המסופקים על ידי המשתמשים או נאספים מממשקי השאילתה כדי לתשאל טופס אינטרנט ולזחול במשאבי הרשת העמוקה. אלכסנדרוס נטולס, פטרוס זרפוס, וג'ונגו צ'ו מאוניברסיטת קליפורניה, לוס אנג'לס, יצרו זחלן רשת עמוקה שיצר באופן אוטומטי שאילתות בעלות משמעות עבור טופסי חיפוש.[11] ניסיון נוסף היה DeepPeep, פרויקט של אוניברסיטת יוטה, שמומן על ידי קרן המדע הלאומית בארצות הברית, שאסף משאבי רשת חבויה (טופסי רשת) בשרתים שונים בהתבסס על שיטות זחלן ממוקדות.[12][13]

מנועי חיפוש מסחריים החלו לחקור שיטות חלופיות לזחול ברשת העמוקה. פרוטוקול Sitemap (שפותח לראשונה על ידי גוגל) ו-mod oai הם מנגנונים המאפשרים למנועי חיפוש ולגופים מעוניינים אחרים לגלות משאבי רשת עמוקה על שרתי רשת מסוימים. שני המנגנונים מאפשרים לשרתי אינטרנט לפרסם את כתובות ה-URL הנגישות בהם, ובכך לאפשר גילוי אוטומטי של משאבים שאינם מקושרים אוטומטית לרשת שעל פני השטח. מערכת ה"הגחה" של הרשת העמוקה של גוגל מחשבת מראש שאילתות לכל טופס HTML ומוסיפה את דפי ה-HTML הנוצרים לאינדקס של מנוע החיפוש. התוצאות ה"מגיחות" מוערכות באלף שאילתות לשנייה של תוכן רשת עמוקה.[14] במערכת הזו, החישוב המקדים של שאילתות מבוצע על ידי שלושה אלגוריתמים:

  1. בחירת ערכי קלט עבור קלט המקבל מילות מפתח
  2. זיהוי קלטים שמקבל רק ערכים מסוג מסוים (לדוגמה, תאריך)
  3. בחירה של מספר קטן של קומבינציות קלט שמייצרות כתובות URL המתאימות להיכלל באינדקס החיפוש

כלים שמשמשים לזחילה ברשת העמוקה

  • Torch Search Engine[15]

Torch, או TorSearch, הוא מנוע חיפוש שנועד לחקור את החלקים הנסתרים של האינטרנט. לפיד טוענת שיש לה יותר ממיליארד דפי רשת אפלים באינדקס, ומאפשרת למשתמשים לגלוש ברשת האפלה ללא צנזורה וללא מעקב.

Dark.fail הוכתר כוויקי הנסתר החדש. הוא מוסיף לאינדקס כל אתר Darknet גדול ועוקב אחר כל הדומיינים המקושרים לשירות נסתר מסוים.

ניטור הרשת האפלה

אוסף של מקורות מודיעין איומי סייבר מהרשת העמוקה והאפלה, מטרת הפרויקט היא לאסוף את המקורות, הקיימים ברשת העמוק והאפל, שיכולים להיות שימושיים בהקשרים של מודיעין איומי סייבר.

מיפוי הרשת האפלה

בפרויקט ahmia ניתן להזין את אתר ה-onion ותראה לאילו אתרים נוספים ב-onion הוא משויך.[18]

סיווג משאבים

קשה לקבוע אוטומטית האם משאב רשת הוא חלק מהרשת שעל פני השטח או מהרשת העמוקה. אם משאב מאונדקס על ידי מנוע חיפוש, הוא לא בהכרח חלק מהרשת שעל פני השטח, מפני שייתכן שהמשאב נמצא על ידי שיטה אחרת (לדוגמה, פרוטוקול Sitemap, mod oai, OAlster) במקום זחילה מסורתית. אם מנוע חיפוש מספק קישור מפנה למשאב, ניתן להניח שהוא ברשת שעל פני השטח. לרוע המזל, מנועי חיפוש לא תמיד מספקים קישורים מפנים למשאבים. אפילו אם קישור מפנה קיים, אין דרך לקבוע אם המשאב המספק את הקישור הוא בעצמו ברשת שעל פני השטח, ללא זחילה על פני כל הרשת. זאת ועוד, משאב עשוי להימצא ברשת שעל פני השטח, אבל הוא טרם נמצא על ידי מנוע חיפוש. לכן, אם יש לנו משאב שרירותי, לא נוכל לדעת באופן מלא אם המשאב נמצא ברשת שעל פני השטח או בזו העמוקה ללא זחילה מלאה של הרשת.

רוב עבודת סיווג תוצאות החיפוש היא קטלוג הרשת שעל פני השטח לפי נושאים. לשם קטלוג משאבי הרשת העמוקה, איפיירוטיס ואחרים.[19] הציגו אלגוריתם שמסווג אתר רשת עמוקה לקטגוריה שמייצרת את המספר הגדול ביותר של בחירות של שאילתות שנבחרו בקפידה לפי נושאים. תיקיות רשת עמוקה תחת פיתוח כוללות את OAlster באוניברסיטת מישיגן, Intute באוניברסיטת מנצ'סטר, Infomine‏[20] באוניברסיטת קליפורניה בריברסייד, ו-DirectSearch (על ידי Gary price). הסיווג הזה מציב אתגר בסריקת הרשת העמוקה, בו נדרשות שתי רמות של קטלוג. הרמה הראשונה היא קטלוג אתרים לנושאים אנכיים (לדוגמה, בריאות, נסיעות, כלי רכב) ותתי-נושאים לפי טבע התוכן הנמצא במסדי הנתונים שלהם.

האתגר המסובך יותר הוא לקטלג ולמפות את המידע שנלקח ממספר משאבי רשת עמוקה לפי צורכי משתמש הקצה. דוחות חיפוש ברשת העמוקה לא יכולים להציג כתובות URL כמו דוחות חיפוש מסורתיים. משתמשי הקצה מצפים שכלי החיפוש שלהם לא רק ימצאו את מה שהם מחפשים במהירות, אבל גם יהיו אינטואיטיביים וידידותיים למשתמש. כדי להיות בעלי משמעות, דוחות החיפוש חייבים להציע עומק לטבע התוכן הנמצא במשאבים הללו, אחרת משתמש הקצה ילך לאיבוד בתוך אינסוף כתובות URL שלא מצביעות על התוכן הנמצא בהן. המבנה בו תוצאות חיפוש מוצגות משתנה לפי נושא החיפוש ולפי סוג המידע המוצג. האתגר הוא למצוא ולמפות פרטי מידע דומים ממשאבים מרובים שונים, כך שתוצאות החיפוש יוצגו במבנה אחיד בדו"ח החיפוש, ללא קשר למקור שלהם.

עתיד ופתרונות

ספקיות החיפוש הגדולות, כמו גם חברות מתמחות בנושא כמו BrightPlanet של ברגמן המוזכר לעיל, מנסות כל הזמן להפוך כמה שיותר מן התוכן של הרשת העמוקה לגלוי ואפשרי לחיפוש עבור גולשי האינטרנט. צעדים רבים בנושא נעשו החל מהעשור הראשון של המאה ה-21. חלק מן הפתרונות הם כלהלן:

  • חיפוש בקבצים ומסמכים המאוחסנים על גבי שרתי רשת. אם בעבר מסמכים כגון קובצי Word, מצגות PowerPoint או מסמכי PDF היו בלתי נראים למנועי החיפוש ולגולש הנעזר בהם, כיום מנועי החיפוש מסוגלים לחפש בתוכן שלהם ולהציג אותו לצד תוצאות החיפוש הרגילות.
  • חיפוש בתמונות מתוך אתרי אינטרנט. מנועי חיפוש כיום מסוגלים לחפש תמונות רלוונטיות לפי הטקסט הקשור אליהן, וטכנולוגיה נוספת שמתפתחת היא חיפוש לפי תמונה, ואף זיהוי פנים בתמונה. האפשרויות הללו הופכות את התמונות המאוחסנות על גבי שרתי רשת לנגישות יותר מבעבר.
  • חיפוש במנועי חיפוש ייעודיים, המתמחים בנושא מסוים (חיפוש אנכי). גולש המודע לעובדה שמנוע חיפוש כללי לא מסוגל לאתר חומרים מן הרשת העמוקה, בין היתר כאלו המוגנים בסיסמה או נוצרים על ידי שאילתה דינמית, עליו להיעזר במנוע חיפוש ייעודי, המחפש אך ורק בתוכן אותו הוא מחפש. לדוגמה, מנוע חיפוש של מאמרים אקדמיים, מנוע חיפוש של חנות מקוונת, וכן הלאה.

הגבולות בין תוכן מנוע החיפוש והרשת העמוקה החלו להיטשטש, כאשר שירותי חיפוש התחילו לספק גישה לחלק או כל התוכן שפעם היה מוגבל. חלק הולך וגדל של תוכן הרשת העמוקה נפתח לחיפוש חופשי, כאשר מוציאים לאור וספריות חותמים על הסכמים עם מנועי חיפוש גדולים. בעתיד, תוכן הרשת העמוקה עשוי להיות מוגדר פחות על ידי האפשרות לחפש בו, ויותר על ידי דמי גישה או סוגים אחרים של זיהוי.

רבים קושרים את נושא הרשת העמוקה לפער הדיגיטלי. הטענה היא, כי גם גולש מיומן היודע להשתמש במנוע חיפוש באופן מתקדם, עדיין עלול שלא להצליח להגיע למידע אותו הוא מבקש, עקב החסמים המוזכרים לעיל. כיוון שהפער הדיגיטלי מורכב מכמה רמות, כאשר הבסיסית היא נגישות לטכנולוגיה והשנייה היא יכולת שימוש בה, נניח כי לגולש יש נגישות, אולם כל עוד מנועי החיפוש, המהווים את הדלת שלנו לעולם האינטרנט, לא מציגים את מרב המידע, הפער עתיד להישמר. אך, האם כאשר יצליחו לאנדקס את מירב המידע, האם לא יהיה עוד פער דיגיטלי? שאלה זו, אם התנאים לה יתרחשו בעתיד, מעסיקה את השואפים לביטול הפער ההולך וגדל בין כמות המידע לבין האנשים המסוגלים לגשת אליו.

קישורים חיצוניים

ויקישיתוף מדיה וקבצים בנושא הרשת העמוקה בוויקישיתוף

סרטון מבוא לרשת העמוקה : סקירת ספרות

הערות שוליים

  1. ^ Bergman, Michael K (ביולי 2000). The Deep Web: Surfacing Hidden Value (PDF). BrightPlanet LLC. אורכב מ-המקור (PDF) ב-2013-11-02. נבדק ב-2012-06-23. {{cite book}}: (עזרה)
  2. ^ 2.0 2.1 Wright, Alex (2009-02-22). "Exploring a 'Deep Web' That Google Can't Grasp". The New York Times. נבדק ב-2009-02-23.
  3. ^ 3.0 3.1 3.2 Bergman, Michael K (באוגוסט 2001). "The Deep Web: Surfacing Hidden Value". The Journal of Electronic Publishing. doi:10.3998/3336451.0007.104. {{cite web}}: (עזרה)
  4. ^ He, Bin; Patel, Mitesh; Zhang, Zhen; Chang, Kevin Chen-Chuan (במאי 2007). "Accessing the Deep Web: A Survey". Communications of the ACM (CACM). pp. 94–101. doi:10.1145/1230819.1241670. {{cite web}}: (עזרה)
  5. ^ Shestakov, Denis, (2001). Proceedings of the 22nd International Conference on Database and Expert Systems Applications (DEXA). Springer. pp. 331-340. Retrieved on June 23, 2012
  6. ^ @1 started with 5.7 terabytes of content, estimated to be 30 times the size of the nascent World Wide Web; PLS was acquired by AOL in 1998 and @1 was abandoned. PLS introduces AT1, the first 'second generation' Internet search service. Personal Library Software, December 1996. Retrieved on June 23, 2012.
  7. ^ "HTTP 1.1: Header Field Definitions (14.32 Pragma)". HTTP — Hypertext Transfer Protocol. World Wide Web Consortium. 1999. נבדק ב-2009-02-24.
  8. ^ "Gopher — DeepGeek". www.talkgeektome.us. 29 בנובמבר 2009. אורכב מ-המקור ב-2011-07-25. נבדק ב-25 ביולי 2011. {{cite web}}: (עזרה)
  9. ^ Sriram Raghavan; Hector Garcia-Molina (2000). "Crawling the Hidden Web" (PDF). Stanford Digital Libraries Technical Report. נבדק ב-2008-12-27.
  10. ^ Raghavan, Sriram, & Garcia-Molina, Hector, (2001). Proceedings of the 27th International Conference on Very Large Data Bases (VLDB). pp 129-138. Retrieved on June 23, 2012.
  11. ^ Alexandros, Ntoulas; Petros Zerfos; Junghoo Cho (2005). "Downloading Hidden Web Content" (PDF). UCLA Computer Science. נבדק ב-2009-02-24.
  12. ^ Barbosa, Luciano; Juliana Freire (2007). "An Adaptive Crawler for Locating Hidden-Web Entry Points" (PDF). WWW Conference 2007. אורכב מ-המקור (PDF) ב-2011-06-05. נבדק ב-2009-03-20.
  13. ^ Barbosa, Luciano; Juliana Freire (2005). "Searching for Hidden-Web Databases" (PDF). WebDB 2005. אורכב מ-המקור (PDF) ב-2011-06-05. נבדק ב-2009-03-20.
  14. ^ Madhavan, Jayant; David Ko; Łucja Kot; Vignesh Ganapathy; Alex Rasmussen; Alon Halevy (2008). "Google's Deep-Web Crawl" (PDF). VLDB Endowment, ACM. נבדק ב-2009-04-17.
  15. ^ http://xmh57jrzrnw6insl.onion/
  16. ^ http://darkfailllnkf4vf.onion/
  17. ^ deepdarkCTI, 2022-03-29, נבדק ב-2022-03-29
  18. ^ Link Graph of onions, ahmia.fi
  19. ^ Ipeirotis, Panagiotis G.; Gravano, Luis; Sahami, Mehran, (2001). Proceedings of the 2001 ACM SIGMOD International Conference on Management of Data. pp. 67-78. Retrieved on June 23, 2012
  20. ^ UCR.edu
הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

33635290הרשת העמוקה