פורמט VCF
פורמט Variant Call Fomat-VCF (פורמט רשומות משתנים) הוא מאפיין פורמט של קובץ טקסט (txt) המשמש בביואינפורמטיקה על מנת לאחסן מידע על וריאציות רצפי גנים. הפורמט פותח בד בבד עם התקדמות היכולת בגילוי השונות הגנטית ופרויקטי ריצוף הדנ"א, כמו למשל מיזם אלף הגנומים. פורמטים קיימים עבור המידע הגנטי כמו General Feature format-GFF (פורמט מאפיינים כללי) אחסנו בתוכם את כל המידע הגנטי, שחלקים רבים ממנו הם מיותרים, היות שהוא יהיה משותף לחלקים רבים בגנום. על ידי שימוש בפורמט VCF, ניתן לשמור רק את הווריאציות ויחד עימם את הקישור לגנום.
הפורמט המקובל לשימוש הוא גרסה 4.3 של הפורמט,[1][2] אף על פי שמיזם אלף הגנומים פיתח אפיון משלו עבור וריאציות מבניות, כמו דופליקציות, אשר לא מתאימות בקלות לרישום בפורמטים הקיימים.[3] בנוסף, קיים גם פורמט VCF גנומי, (gVCF-genomic VCF) אשר מרחיב את פורמט הVCF, ומוסיף אליו מידע נוסף אודות 'הבלוקים' אשר מתאימים לגנום הרפרנס ולסוגים שלו.[4] כמו כן, קיימת ערכת כלים הזמינה לעריכה ושינוי של הקבצים.[5]
דוגמה
##fileformat=VCFv4.3 ##fileDate=20090805 ##source=myImputationProgramV3.1 ##reference=file:///seq/references/1000GenomesPilot-NCBI36.fasta ##contig=<ID=20,length=62435964,assembly=B36,md5=f126cdf8a6e0c7f379d618ff66beb2da,species="Homo sapiens",taxonomy=x> ##phasing=partial ##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data"> ##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth"> ##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency"> ##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele"> ##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129"> ##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership"> ##FILTER=<ID=q10,Description="Quality below 10"> ##FILTER=<ID=s50,Description="Less than 50% of samples have data"> ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype"> ##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality"> ##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth"> ##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality"> #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003 20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:.,. 20 17330 . T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 0/0:41:3 20 1110696 rs6040355 A G,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4 20 1230237 . T . 47 PASS NS=3;DP=13;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:2 20 1234567 microsat1 GTC G,GTCT 50 PASS NS=3;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3
כותרת הפורמט
הכותרת היא בראשית הקובץ ומספקת את רשימת הנתונים המאפיינים את גוף הקובץ. שורות הכותרת מאופיינות בכך שמתחילות בתיו #. כאשר ישנו שימוש במילות מפתח מיוחדות, השורה תתחיל ב-##. מילות מפתח מומלצות הם:
- גרסת הקובץ - fileformat
- תאריך הקובץ - fileDate
- רפרנסים - reference
אופציונלי: הכותרת יכולה להכיל מילות מפתח אשר יתארו סמנטית ותחבירית שדות אשר בשימוש בגוף הקובץ, בעיקר: INFO, FILTER, FORMAT. אנא ראה בהרחבה מטה על משמעות השדות.
עמודות הפורמט
גוף פרומט הVCF יבוא לאחר הכותרת, והוא בנוי מערכים המופרדים על ידי התו <TAB>, ל:8 עמודות חובה (ראה הטבלה להלן), ומספר לא מוגבל של עמודות בחירה נוספות אשר ניתן להשתמש בהם כדי לאחסן מידע על הרשומה. כאשר משתמשים בעמודות נוספות מעבר לעמודות החובה, העמודה האופציונלית הראשונה משמשת לתיאור הפורמט של העמודות האופציונליות האחרות שיבואו אחריה.
שם | פירוש | הסבר מקוצר | |
---|---|---|---|
1 | CHROM | כרומוזום | שם הרצף (לרוב כרומוזום) אשר בו נמצאת הווריאציה. הרצף לרוב מוכר בתור 'רצף הרפרנס' אשר כנגדו ניתנת רשומת הווריאציה. |
2 | POS | מיקום | מיקום נקודתי של הוראיציה על הרצף הנתון. |
3 | ID | ת.ז, מזהה | מזהה הווריאציה, לדוגמה: dbSNP rs identifier (מזהה ממאגר הdbSNP, שונות בנוקלאוטיד נקודתי)
אם לא ידוע יסומן '.' מספר מזהים יופרדו על ידי ';' ללא רווחים. |
4 | REF | רפרנס | בסיס ההרפרנס (או בסיסים במקרה של indel (הוספה/מחיקה של מספר בסיסים) במיקום הנתון ברצף הרפרנס. |
5 | ALT | חילופי | רשימת האללים החילופיים לנקודה זו |
6 | QUAL | איכות | ציון האיכות הקשור להופעת האללים בעמודה 5. |
7 | FILTER | פילטר | דגל, מציין אילו מהפילטרים האמורים בכותרת הרשומה עברה.
PASS אם עברה הכול. אחרת, יופיע השם של הפילטר אשר נכשלה בו. |
8 | INFO | מידע | רשימה הניתנת להרחבה של צמדי ערך-מפתח (key-value) - המתארים את הווריאציה. אנא ראה מטה מספר שדות נפוצים.
מספר שדות לאותה רשומה יופרדו ביניהם בתיו ';' עם ערכים אופציונליים ביניהם. כך למשל, הרשומה בעמודה השמינית יכולה להראות: <key>=<data>[,data] |
9 | FORMAT | (אופציונלי) פורמט | רשימה אופציונלית הניתנת להרחבה של שדות לתיאור הדוגמאות. אנא ראה מטה למספר שדות נפוצים |
+ | SAMPLEs | (אופציונלי) רשומות | עבור כל רשומה אשר תוארה בעמודות לפני כן, ניתן להוסיף ערכים אשרהרשום בעמודה 9 (הפורמט) |
שדות מידע נפוצים אופציונליים
להלן שדות INFO נפוצים לשימוש. ניתן להוסיפם בעמודה 8, ובכותרת קובץ הVCF. ניתן להוסיף מפתחות שרירותיתיים אשר אינם מופיעים כאן, אם כי המפתחות שכאן שמורים (גם אם אופציונליים ולא חובה לממש אותם):
שם שדה | ראשי תיבות | הסבר מקוצר |
---|---|---|
AA | ancestral allele | אלל קדום |
AC | allele count | מספר האללים בגנוטיפ עבור כל ALT, באותו סדר כמו שנרשם |
AF | allele frequency | תדירות האללים בכל אלל אלטרנטיבי, באותו הסדר כמו שנרשם (השתמש בזה כאשר ההערכה היא מהמידע הראשוני, לא הגנוטיפ בשימוש) |
AN | total number of alleles | המספר הכול של האללים בגנוטיפ האמור |
BQ | RMS base quality at this position | ממוצע השורש הריבועי (RMS) במיקום זה. |
CIGAR | cigar | מחרוזת ה'cigar' המתארת איך להתאים אלל אלטרנטיבי לאלל הרפרנס. |
DB | dbSNP | מספר שייכות למאגר ה-dbSNP |
DP | combined depth across samples, e.g. DP=154 | העומק המשולב סביב הרשומות |
END | end position of the variant | סוף המקטע השונה, המתואר ברשימה (לשימוש יחד עם אללים סמליים) |
H2 | hapmap2 | מספר שייכות אל hapmap2 |
H3 | hapmap3 | מספר שייכות אל hapmap3 |
MQ | RMS mapping quality, e.g. MQ=52 | איכות ממוצע השורש הריבועי (RMS) |
MQ0 | Number of MAPQ == 0 reads covering this record | מספר הקריאות אשר בהם MQ שווה ל-0 באזור זה. |
NS | Number of samples with data | מספר הרשומות עם מידע |
SB | strand bias at this position | הטיות הגדיל בעמדה זו. |
SOMATIC | סומטית | סומטי, מציין שהרשומה היא מוטציה סומטית, עבור גנומיקה סרטנית |
VALIDATED | validated by follow-up experiment | נבדק על ידי ניסוי המשך |
1000G | membership in 1000 Genomes | הימצאות במאגר אלף הגנומים |
ראו גם
- פורמט FASTA, המשמש לייצוג רצפים גנומיים.
- פורמט FASTQ, המשמש לייצוג רצפי דנ"א מרוצפים, יחד עם ציון איחוצ לכל ריצוף.
אפיון הVCF כבר לא מתוחזק על ידי מיזם אלף הגנומים. הקבוצה שמובילה את התחזוק וההרחבה של הפורמט היא: Global Alliance for Genomics and Health-GA4GH,[6][7]
קישורים חיצוניים
הערות שוליים
- ^
שגיאות פרמטריות בתבנית:צ-מאמר
פרמטרי חובה [ מחבר ] חסרים , קובץ אפיון לפורמט VCF, גרסה 4.3, 22 באוגוסט, 2019 - ^ אפיוני SAM/BAM וקבצי פורמטי ריצוף רחבים קשורים, באתר https://github.com/samtools/hts-specs, 24.06.2014
- ^ Encoding Structural Variants in VCF (Variant Call Format) version 4.0, https://www.internationalgenome.org/, 20.10.2016
- ^ VCF/GVCF Long-term support overview and knowledge base, WABI wiki, 16.07.19
- ^ VCFtools from github.io, 20.10.2016
- ^ bio-itworld, 26.10.2018
- ^ The Global Alliance for Genomics and Health site
31946761פורמט VCF