פורמט BED
פורמט BED (ראשי תיבות של Browser Extensible Data) הוא מונח בביואינפורמטיקה המתאר פורמט של קובץ טקסט שמשמש לאחסון מידע גנומי כקואורדינטות ובנוסף מאחסן מידע מאנוטציית DNA. הפורמט מציג את המידע כעמודות המופרדות על ידי רווח או טאב, כאשר כל עמודה מכילה מידע שונה. פורמט BED פותח במהלך פרויקט גנום האדם[1] ולאחר מכן אומץ לשימוש על ידי פרויקטים נוספים. כתוצאה משימוש נרחב בפורמט BED בעולם הביואינפורמטיקה, פורמט זה הפך לסטנדרט.
אחד היתרונות העיקריים של פורמט BED הוא הצגת המידע הגנומי כקואורדינטות במקום הצגת המידע כרצף נוקלאוטידים. אופן הצגה זה מקל על קריאת וניתוח המידע בשפת תסריט כגון: Python, Ruby, Perl ובכלים מיוחדים כמו BEDTools.
היסטוריה
בסוף המאה העשרים הופיעו הפרויקטים הראשונים לריצוף הגנום המלא. בין הפרויקטים הללו, פרויקט הגנום האנושי היה הבולט ביותר באותה תקופה, מטרתו הייתה לרצף לראשונה גנום של כמה ג'יגה-בסיסים. עם יצירת רצף הגנום, נדרש ממרכזי הריצוף לפתח כלים לעיבוד הנתונים וניתוח אוטומטי שלהם. עקב דרישה זאת, פורמטים רבים נוצרו כגון: FASTQ[2], GTF&GFF[3], BED.
תבנית קובץ BED
לקובץ BED אין מפרט ספציפי, עם זאת התיאור שמספק דפדפן הגנום UCSC[4] נמצא בשימוש רחב. לקובץ BED קיימות לפחות 3 עמודות, אליהן ניתן להוסיף עוד 9 עמודות (סה"כ 12 עמודות). שלוש עמודות החובה הן:
Chromosome – מספר הכרומוזום בו נמצא מקטע ה-DNA שרוצף. לרוב ניתן יהיה למצוא את התבנית הבאה: המילה ch ולאחר מכן מספר הכרומוזום הרלוונטי.
Start position – נקודת ההתחלה של הרצף.
End position – נקודת הסיום של הרצף.
תשע העמודות הנוספות מספקות מידע נוסף על הרצף. בין העמודות יש להפריד בין רווחים או טאב. כמו כן, כל שורה בקובץ חייבת להכיל את אותו מספר עמודות.
מספר עמודה | כותרת | תיאור |
---|---|---|
1 | Chromosome | מספר הכרומוזום (לדוגמה: chr3,chrY) |
2 | Start position | נקודת ההתחלה של הרצף |
3 | End position | נקודת הסיום של הרצף |
4 | Name | שם הגן או שם הרצף |
5 | Score | ציון בין 1 עד 1000 |
6 | Strand | + או -, כאשר + מייצג את הגדיל sense ומינוס מייצג את הanti-sense |
7 | thick start | נקודת ההתחלה של אלמנטים בגנום שמוצגים בדפדפן כאלמנטים עבים יותר (מבחינה תצוגה גרפית) למשל: cds gene |
8 | thick end | נקודת הסיום של אלמנטים בגנום שמוצגים בדפדפן כעבים יותר |
9 | itemRGB | ערך RGB שמייצג את צבע הרצף |
10 | blockCount | מספר הבלוקים (לדוגמה: אקסונים) בשורת ה-BED |
11 | blockSizes | רשימה של ערכים שמופרדים בנקודה והם מייצגים את גודל הבלוקים (מספר הערכים חייב להיות מתאים ל-blockCount) |
12 | blockStarts | רשימה של ערכים שמופרדים בנקודה והם מייצגים את נקודת ההתחלה של כל בלוק |
דוגמאות
קובץ BED בפורמט מינימלי:
chr7 127471196 127472363 chr7 127472363 127473530 chr7 127473530 127474697 |
קובץ BED עם 9 עמודות:
chr7 127471196 127472363 Pos1 0 + 127471196 127472363 255,0,0 chr7 127472363 127473530 Pos2 0 + 127472363 127473530 255,0,0 chr7 127473530 127474697 Pos3 0 + 127473530 127474697 255,0,0 chr7 127474697 127475864 Pos4 0 + 127474697 127475864 255,0,0 chr7 127475864 127477031 Neg1 0 - 127475864 127477031 0,0,255 chr7 127477031 127478198 Neg2 0 - 127477031 127478198 0,0,255 chr7 127478198 127479365 Neg3 0 - 127478198 127479365 0,0,255 chr7 127479365 127480532 Pos5 0 + 127479365 127480532 255,0,0 chr7 127480532 127481699 Neg4 0 - 127480532 127481699 0,0,255 |
סיומות הקובץ
קובץ מפורמט BED נשמר לרוב בסיומת "bed.". לעיתים מוסיפים את מספר העמודות בסיום הקובץ[5]. לדוגמה: הפורמט המינימלי בעל 3 עמודות יסתיים ב"bed3.", פורמט עם 6 עמודות יסתיים ב"bed6.".
הערות שוליים
- ^ W. James Kent, Charles W. Sugnet, Terrence S. Furey, Krishna M. Roskin, The Human Genome Browser at UCSC, Genome Research 12, 2002-6, עמ' 996–1006 doi: 10.1101/gr.229102
- ^ Peter J. A. Cock, Christopher J. Fields, Naohisa Goto, Michael L. Heuer, The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants, Nucleic Acids Research 38, 2010-4, עמ' 1767–1771 doi: 10.1093/nar/gkp1137
- ^ Geo Pertea, Mihaela Pertea, GFF Utilities: GffRead and GffCompare, F1000Research 9, 2020-09-09 doi: 10.12688/f1000research.23297.2
- ^ Genome Browser FAQ, genome.cse.ucsc.edu
- ^ Datatypes, galaxyproject.org
29764784פורמט BED