פורמט FASTA
פורמט FASTA הוא מונח בביואינפורמטיקה המתאר את צורת הכתיבה המוסכמת לייצוג של רצף הנוקלאוטידים בחומצת גרעין או את רצף חומצות האמינו בחלבון. בפורמט מתיר גם קיום של שורת פתיחה, בו ניתן להוסיף תווי הערות באופן חופשי. מקור הפורמט הוא בתוכנה FASTA, על אף קיומם של פורמטים אחרים, פורמט FASTA הפך להיות הפורמט המקובל בביואינפורמטיקה. הפשטות של הפורמט הופכת את הרצף להיות קל לעיבוד באמצעות כלי עיבוד טקסט ושפות תכנות כמו פייתון, פרל ורובי.
תיאור הפורמט
בשורת הפתיחה יופיע הסימן “<” ולאחריו תיאור הרשומה. בשורות לאחר מכן מופיע הרצף, וכל נוקלאוטיד או חומצה אמינית מיוצגים באות אחת ללא רווחים או מספור.
דוגמאות לרצפים בפורמט FASTA:
;LCBO - Prolactin precursor - Bovine
; a sample sequence in FASTA format
MDSKGSSQKGSRLLLLLVVSNLLLCQGVVSTPVCPNGPGNCQVSLRDLFDRAVMVSHYIHDLSS
EMFNEFDKRYAQGKGFITMALNSCHTSSLPTPEDKEQAQQTHHEVLMSLILGLLRSWNDPLYHL
VTEVRGMKGAPDAILSRAIEIEEENKRLLEGMEMIFGQVIPGAKETEPYPVWSGLPSLQTKDED
ARYSAFYNLLHCLRRDSSKIDTYLKLLNCRIIYNNNC*
>MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken
ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID
FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA
DIDGDGQVNYEEFVQMMTAK*
>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]
LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV
EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG
LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL
GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX
IENY
אורך השורה הוא לרוב 80 אותיות, אך הגבול המרבי הוא 120 אותיות. האורך נקבע לפי הגודל הסטנדרטי של מסופי מחשב, וכן בדף מודפס שורה (כתלות בגופן) ישנם 70-80 תווים. שורת הפתיחה אינה נצרכת, אך היא אפשרית. ניתן גם להשתמש בשורת הפתיחה בסימן ";" כדי להוסיף הערה, אך זה פחות מקובל. בשורת הפתיחה יופיעו לרוב שם הרצף, שם האורגניזם ומזהה ייחודי לרצף. לאחר שורת הפתיחה יבוא הרצף עצמו, כאשר כל תו שאינו תקני לא יזוהה (ראו פירוט בהמשך). הרצף יכול להסתיים בכוכבית (*), המסמל את קודון הסיום.
ניתן להכניס בקובץ מספר רצפי FASTS שונים, כאשר הם מופרדים זה מזה בתחילת שורה חדשה ובסימן "<".
שורת הפתיחה
לשורת הפתיחה, או שורת ההערה, המתחילה בסימן "<" מקובל להכניס תיאור של הרצף ומזהה ייחודי שלו. ישנם מאגרים המשתמשים בתו "|" כדי להפריד בין שדות שונים. ישנן תוכנות שמציגות את שורת התיאור כשם החלבון, אך לעיתים הן יקרא עד הרווח הראשון או לחלופין יהיו מוגבלים למספר מסוים של תווים. לכן מקובל לערוך את שורת הפתיחה לפי תוכנת היעד.
ה-NCBI הגדיר תקן למזהה ייחודי (accession) של רצפים שבו מקובל להשתמש בשורת הפתיחה. השדות המקובלים במאגרי מידע שונים כוללים לרוב קיצור של שם מאגר המידע, מספר המזהה הייחודי ושם הרצף:
מאגר מידע | שדות הפורמט |
---|---|
GenBank | gb|accession|locus
|
EMBL Data Library | emb|accession|locus
|
DDBJ, DNA Database of Japan | dbj|accession|locus
|
NBRF PIR | pir||entry
|
Protein Research Foundation | prf||name
|
SWISS-PROT | sp|accession|entry name
|
Brookhaven Protein Data Bank | pdb|entry|chain
|
Patents | pat|country|number
|
GenInfo Backbone Id | bbs|number
|
General database identifier | gnl|database|identifier
|
NCBI Reference Sequence | ref|accession|locus
|
Local Sequence identifier | lcl|identifier
|
הרצף
הרצף חייב להיות של תווים התקניים המייצגים חומצות אמינו או נוקליאוטידים. מלבד זאת, ניתן להשתמש בתו "-" כדי לייצג רווח, ובתו "*" לייצג קודון סיום. אותיות קטנות (a) יומרו לאותיות גדולות (A). שימוש במספרים אסור, אך לעיתים יימצא במאגרי מידע כדי לתת מידע על אורך הרצף.
התווים המותרים לחומצות גרעין:
קוד חומצת גרעין | משמעות הקוד | משמעות הסימול |
---|---|---|
A | A | אדנין (Adenine) |
C | C | ציטוזין (Cystosine) |
G | G | גואנין (Guanine) |
T | T | תימין (Thymine) |
U | U | אורציל (Uracil) |
R | A\G | פורין (Purine) |
Y | C\T\U | פירימידין (Pyrimidine) |
K | G\T\U | בסיסים קטוניים (Ketones) |
M | A\C | בסיסים עם קבוצות אמיניות (Amino) |
S | C\G | בסיסים בעלי זיווג חזק (Strong) |
W | A\T\U | בסיסים בעלי זיווג חלש (Weak) |
B | הכל מלבד אדנין (C\G\T\U) | האות B מופיעה לאחר A בא"ב |
D | הכל מלבד ציטוזין (A\G\T\U) | האות D מופיעה לאחר C בא"ב |
H | הכל מלבד גואנין (A\C\T\U) | האות H מופיעה לאחר G בא"ב |
V | הכל מלבד תימין או אורציל | האות V מופיעה לאחר U בא"ב |
N | כל חומצה אמינית | נוקליאוטיד (Nucleotide) |
- | רווח |
התווים המותרים לחומצות אמינו:
קוד חומצת אמינו | משמעות הקוד |
---|---|
A | אלנין |
B | חומצה אספרטית או אספרגין (D\N) |
C | ציסטאין |
D | חומצה אספרטית |
E | חומצה גלוטמית |
F | פנילאלנין |
G | גליצין |
H | היסטידין |
I | איזולאוצין |
J | לאוצין או איזולאוצין (L\I) |
K | ליזין |
L | לאוצין |
M | מתיונין |
N | אספרגין |
O | פירוליזין |
P | פרולין |
Q | גלוטמין |
R | ארגינין |
S | סרין |
T | תראונין |
U | סלנוציסטאין |
V | ואלין |
W | טריפטופן |
Y | טירוזין |
Z | חומצה גלוטמית או גלוטמין (E\Q) |
X | כל חומצה אמינית |
* | קודון סיום |
- | רווח |
סיומת קובץ
אין סיומת תקנית לקבצים המכילים רצפים בצורת FASTA. הטבלה שלהלן מכילה סיומות מקובלות ומשמעותן:
סיומת | משמעות | הערות |
---|---|---|
fasta | סיומת כללית | מתאים לכל קובץ FASTA. סיומות מקוצרות יותר הן: fas, fa, seq, fsa |
fna | fasta nucleic acid | מייחד את הקובץ כקובץ FASTA של חומצות גרעין |
ffn | רצפי נוקליאוטידים של גנים | מכיל אזורים מקודדים לחלבון מתוך גנום |
faa | fasta amino acid | מייחד את הקובץ כקובץ FASTA של חומצות אמינו |
frn | fasta non-coding RNA | מכיל רצפים של RNA לא מקודד (כגון tRNA, rRNA) |