פורמט BED

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש

פורמט BED (ראשי תיבות של Browser Extensible Data) הוא מונח בביואינפורמטיקה המתאר פורמט של קובץ טקסט שמשמש לאחסון מידע גנומי כקואורדינטות ובנוסף מאחסן מידע מאנוטציית DNA. הפורמט מציג את המידע כעמודות המופרדות על ידי רווח או טאב, כאשר כל עמודה מכילה מידע שונה. פורמט BED פותח במהלך פרויקט גנום האדם[1] ולאחר מכן אומץ לשימוש על ידי פרויקטים נוספים. כתוצאה משימוש נרחב בפורמט BED בעולם הביואינפורמטיקה, פורמט זה הפך לסטנדרט.

אחד היתרונות העיקריים של פורמט BED הוא הצגת המידע הגנומי כקואורדינטות במקום הצגת המידע כרצף נוקלאוטידים. אופן הצגה זה מקל על קריאת וניתוח המידע בשפת תסריט כגון: Python‏, Ruby,‏ Perl ובכלים מיוחדים כמו BEDTools.

היסטוריה

בסוף המאה העשרים הופיעו הפרויקטים הראשונים לריצוף הגנום המלא. בין הפרויקטים הללו, פרויקט הגנום האנושי היה הבולט ביותר באותה תקופה, מטרתו הייתה לרצף לראשונה גנום של כמה ג'יגה-בסיסים. עם יצירת רצף הגנום, נדרש ממרכזי הריצוף לפתח כלים לעיבוד הנתונים וניתוח אוטומטי שלהם. עקב דרישה זאת, פורמטים רבים נוצרו כגון: FASTQ[2], ‏ GTF&GFF‏[3], BED.

תבנית קובץ BED

לקובץ BED אין מפרט ספציפי, עם זאת התיאור שמספק דפדפן הגנום UCSC[4] נמצא בשימוש רחב. לקובץ BED קיימות לפחות 3 עמודות, אליהן ניתן להוסיף עוד 9 עמודות (סה"כ 12 עמודות). שלוש עמודות החובה הן:

Chromosome – מספר הכרומוזום בו נמצא מקטע ה-DNA שרוצף. לרוב ניתן יהיה למצוא את התבנית הבאה: המילה ch ולאחר מכן מספר הכרומוזום הרלוונטי.

Start position – נקודת ההתחלה של הרצף.

End position – נקודת הסיום של הרצף.

תשע העמודות הנוספות מספקות מידע נוסף על הרצף. בין העמודות יש להפריד בין רווחים או טאב. כמו כן, כל שורה בקובץ חייבת להכיל את אותו מספר עמודות.

עמודות בקובץ BED, בתכלת עמודות החובה
מספר עמודה כותרת תיאור
1 Chromosome מספר הכרומוזום (לדוגמה: chr3,chrY)
2 Start position נקודת ההתחלה של הרצף
3 End position נקודת הסיום של הרצף
4 Name שם הגן או שם הרצף
5 Score ציון בין 1 עד 1000
6 Strand + או -, כאשר + מייצג את הגדיל sense ומינוס מייצג את הanti-sense
7 thick start נקודת ההתחלה של אלמנטים בגנום שמוצגים בדפדפן כאלמנטים עבים יותר (מבחינה תצוגה גרפית) למשל: cds gene
8 thick end נקודת הסיום של אלמנטים בגנום שמוצגים בדפדפן כעבים יותר
9 itemRGB ערך RGB שמייצג את צבע הרצף
10 blockCount מספר הבלוקים (לדוגמה: אקסונים) בשורת ה-BED
11 blockSizes רשימה של ערכים שמופרדים בנקודה והם מייצגים את גודל הבלוקים (מספר הערכים חייב להיות מתאים ל-blockCount)
12 blockStarts רשימה של ערכים שמופרדים בנקודה והם מייצגים את נקודת ההתחלה של כל בלוק

דוגמאות

קובץ BED בפורמט מינימלי:

chr7 127471196 127472363

chr7 127472363 127473530

chr7 127473530 127474697

קובץ BED עם 9 עמודות:

chr7 127471196 127472363 Pos1 0 + 127471196 127472363 255,0,0

chr7 127472363 127473530 Pos2 0 + 127472363 127473530 255,0,0

chr7 127473530 127474697 Pos3 0 + 127473530 127474697 255,0,0

chr7 127474697 127475864 Pos4 0 + 127474697 127475864 255,0,0

chr7 127475864 127477031 Neg1 0 - 127475864 127477031 0,0,255

chr7 127477031 127478198 Neg2 0 - 127477031 127478198 0,0,255

chr7 127478198 127479365 Neg3 0 - 127478198 127479365 0,0,255

chr7 127479365 127480532 Pos5 0 + 127479365 127480532 255,0,0

chr7 127480532 127481699 Neg4 0 - 127480532 127481699 0,0,255

סיומות הקובץ

קובץ מפורמט BED נשמר לרוב בסיומת "bed.". לעיתים מוסיפים את מספר העמודות בסיום הקובץ[5]. לדוגמה: הפורמט המינימלי בעל 3 עמודות יסתיים ב"bed3.", פורמט עם 6 עמודות יסתיים ב"bed6.".

הערות שוליים

  1. ^ W. James Kent, Charles W. Sugnet, Terrence S. Furey, Krishna M. Roskin, The Human Genome Browser at UCSC, Genome Research 12, 2002-6, עמ' 996–1006 doi: 10.1101/gr.229102
  2. ^ Peter J. A. Cock, Christopher J. Fields, Naohisa Goto, Michael L. Heuer, The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants, Nucleic Acids Research 38, 2010-4, עמ' 1767–1771 doi: 10.1093/nar/gkp1137
  3. ^ Geo Pertea, Mihaela Pertea, GFF Utilities: GffRead and GffCompare, F1000Research 9, 2020-09-09 doi: 10.12688/f1000research.23297.2
  4. ^ Genome Browser FAQ, genome.cse.ucsc.edu
  5. ^ Datatypes, galaxyproject.org
הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

29764784פורמט BED