GenBank

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש

שגיאת לואה ביחידה יחידה:תבנית_מידע בשורה 261: תבנית תוכנה ריקה. GenBank (בעברית בנק הגנים) הוא מסד הנתונים עבור רצפים האוסף בגישה חופשית של כל רצפי הנוקלאוטידים הזמינים לציבור והחלבונים המתורגמים מהם. GenBank הוקם ומתוחזק על ידי המרכז הלאומי למידע ביוטכנולוגי (NCBI; חלק המכונים הלאומיים לבריאות בארצות הברית) כחלק משיתוף הפעולה הבינלאומי ביצירת מסדי נתונים עבור רצפים (INSDC).

GenBank ושותפיו מקבלים ממעבדות ברחבי העולם רצפים של יותר מ-100,000 אורגניזמים שונים. מסד הנתונים החל לפעול בשנת 1982 על ידי וולטר גוד והמעבדה הלאומית לוס אלמוס. GenBank הפך למסד נתונים חשוב למחקר בתחומים ביולוגיים וצמח בשנים האחרונות בקצב אקספוננציאלי על ידי הכפלה בערך כל 18 חודשים[1][2].

מהדורה 247.0, שיצאה בדצמבר 2021, הכילה למעלה מ-15 טריליון בסיסי נוקלאוטידים ביותר מ-2 מיליארד רצפים[3]. GenBank נבנה על ידי הגשות ישירות ממעבדות בודדות, כמו גם מהגשות בכמות גדולה ממרכזי ריצוף DNA בקנה מידה גדול.

הוספה למאגר

ניתן להגיש ל-GenBank רק רצפים מקוריים. הגשות ישירות מתבצעות ל-GenBank באמצעות BankIt שהוא טופס אינטרנטי, או תוכנת ההגשה העומדת בפני עצמה - Sequin. עם קבלת רצף חדש, צוות GenBank בוחן את מקוריות הנתונים, מקצה מספר גישה לרצף ומבצע בדיקות הבטחת איכות. לאחר מכן, ההגשות משוחררות למסד הנתונים הציבורי, כאשר הערכים ניתנים לאחזור על ידי Entrez או להורדה באמצעות FTP . הגשות בכמות גדולה של נתוני תג רצף מפורש (EST), אתר מתויג ברצף (STS), רצף סקר גנום (GSS) וריצוף גנום בתפוקה גבוהה - (HTGS) מוגשות לרוב על ידי מרכזי ריצוף בקנה מידה גדול. קבוצת ההגשות הישירות של GenBank מעבדת גם רצפי גנום מיקרוביאליים מלאים.

היסטוריה

וולטר גוד מקבוצת הביולוגיה והביופיזיקה התאורטית המעבדה הלאומית לוס אלמוס (LANL) ושותפים הקימו את מסד הנתונים של רצפי לוס אלמוס ב-1979, שהגיע לשיאו ב-1982 עם הקמת ה-GenBank הציבורי[4]. המימון ניתן על ידי המכונים הלאומיים לבריאות, הקרן הלאומית למדע, משרד האנרגיה ומשרד ההגנה. LANL שיתפה פעולה ב-GenBank עם חברות נוספות ועד סוף 1983 אוחסנו בה יותר מ-2,000 רצפים.

Genbank and EMBL: NucleotideSequences 1986/1987 כרכים 1-7.
תקליטור המכיל את גרסה 100 של Genbank
צמיחת GenBank, בזוגות בסיסים, בשנים 1982–2018 בקנה מידה חצי לוגריתמי

באמצע שנות ה-80, חברת הביואינפורמטיקה Intelligenetics באוניברסיטת סטנפורד ניהלה את פרויקט GenBank בשיתוף עם LANL[5]. כאחד מפרויקטי הביואינפורמטיקה המוקדמים ביותר באינטרנט, פרויקט GenBank הקים את קבוצות החדשות BIOSCI/Bionet לקידום תקשורת בגישה חופשית בין מדענים ביולוגיים. במהלך 1989 עד 1992 פרויקט GenBank עבר אל המרכז הלאומי למידע ביוטכנולוגי[6].

צמיחה

הערת השיחרור של GenBank לגרסה 162.0 (אוקטובר 2007) קובעים כי "משנת 1982 ועד היום, מספר הבסיסים ב-GenBank הוכפל בערך כל 18 חודשים"[7][8]. על פי נתוני 15 ביוני 2019, גרסה 232.0 של GenBank מכילה 213,383,758 לוקוסים, 329,835,282,370 בסיסים, מתוך 213,383,758 רצפים מדווחים[7].

מסד הנתונים של GenBank כולל מערכי נתונים נוספים שנבנים באופן מכני מאוסף הנתונים ברצף הראשי, ולכן אינם נכללים בספירה זו.

אורגניזמים מובילים ב-GenBank (מהדורה 247)[7]
זוגות בסיסים אורגניזם
172,374,634,626
Triticum aestivum
97,059,428,399
Hordeum vulgare subsp. vulgare
80,497,317,866
Severe acute respiratory syndrome coronavirus 2
27,714,770,678
Homo sapiens
13,502,686,559
Escherichia coli
10,890,050,390
Danio rerio
10,650,539,694
Bos taurus
10,459,557,283
Mus musculus
9,981,497,962
Triticum turgidum subsp. durum
7,411,312,909
Zea mays
7,083,888,984
Klebsiella pneumoniae
6,749,236,152
Secale cereale
6,547,403,015
Rattus norvegicus
5,775,151,674
Canis lupus familiaris
5,178,626,132
Rhinatrema bivittatum
5,083,049,438
Sus scrofa
4,991,603,121
Bufo bufo
4,548,077,046
Microcaecilia unicolor
4,348,333,235
Hordeum vulgare subsp. spontaneum
4,262,019,239
Macrobrachium nipponense

זיהויים לא מושלמים

במאגרי מידע ציבוריים שניתן לחפש על ידי "National Center for Biotechnology Information Basic Local Alignment Search Tool (NCBI BLAST)", חסרים רצפים שעברו ביקורת עמיתים לרצפי type strains ורצפי non-type strains. מנגד, בעוד שמסדי נתונים מסחריים עשויים להכיל נתוני רצף מסוננים באיכות גבוהה, יש מספר מוגבל של רצפי רפרנס.

מאמר שפורסם ב-Journal of Clinical Microbiology[9] העריך את תוצאות רצף הגנים של 16S rRNA שנותחו עם GenBank בשילוב עם מאגרי מידע ציבוריים אחרים זמינים בחינם, בעלי ביקורת איכות ומבוססי אינטרנט, כגון EzTaxon -e[10] BIBI[11] התוצאות הראו כי ניתוחים שבוצעו באמצעות GenBank בשילוב עם EzTaxon-e (kappa = 0.79) היו מובחנים יותר מאשר שימוש ב- GenBank (kappa = 0.66) או מאגרי מידע אחרים בלבד.

GenBank, בהיותו מסד נתונים ציבורי, עשוי להכיל רצפים שיוחסו בצורה מוטעית למין מסוים מכיוון שהזיהוי הראשוני של האורגניזם היה שגוי. מאמר שפורסם לאחרונה בכתב העת Genome הראה כי 75% מהרצפים של הציטוכרום C אוקסידאז תת-מקטע 1 המיטוכונדריאלי, בטעות יוחסו לדג Nemipterus mesoprion. טעות זאת נבעה משימוש מתמשך ברצפים פרטניים שמלכתחילה זוהו לא נכון[12]. המחברים מספקים המלצות כיצד להימנע מהפצה נוספת של רצפים פומביים עם שמות מדעיים שגויים.

ראו גם

הפניות

  1. ^ Benson D; Karsch-Mizrachi, I.; Lipman, D. J.; Ostell, J.; Wheeler, D. L.; et al. (2008). "GenBank". Nucleic Acids Research. 36 (Database): D25–D30. doi:10.1093/nar/gkm929. PMC 2238942. PMID 18073190.
  2. ^ Benson D; Karsch-Mizrachi, I.; Lipman, D. J.; Ostell, J.; Sayers, E. W.; et al. (2009). "GenBank". Nucleic Acids Research. 37 (Database): D26–D31. doi:10.1093/nar/gkn723. PMC 2686462. PMID 18940867.
  3. ^ "GenBank release notes". NCBI.
  4. ^ Hanson, Todd (2000-11-21). "Walter Goad, GenBank founder, dies". Newsbulletin: obituary. Los Alamos National Laboratory.
  5. ^ LANL GenBank History
  6. ^ Benton D (1990). "Recent changes in the GenBank On-line Service". Nucleic Acids Research. 18 (6): 1517–1520. doi:10.1093/nar/18.6.1517. PMC 330520. PMID 2326192.
  7. ^ 7.0 7.1 7.2 "GenBank release notes". NCBI."GenBank release notes". NCBI.
  8. ^ Benson, D. A.; Cavanaugh, M.; Clark, K.; Karsch-Mizrachi, I.; Lipman, D. J.; Ostell, J.; Sayers, E. W. (2012). "GenBank". Nucleic Acids Research. 41 (Database issue): D36–D42. doi:10.1093/nar/gks1195. PMC 3531190. PMID 23193287.
  9. ^ Kyung Sun Parka, Chang-Seok Kia, Cheol-In Kangb, Yae-Jean Kimc, Doo Ryeon Chungb, Kyong Ran Peckb, Jae-Hoon Songb and Nam Yong Lee (במאי 2012). "Evaluation of the GenBank, EzTaxon, and BIBI Services for Molecular Identification of Clinical Blood Culture Isolates That Were Unidentifiable or Misidentified by Conventional Methods". J. Clin. Microbiol. 50: 1792–1795. doi:10.1128/JCM.00081-12. PMC 3347139. PMID 22403421. {{cite journal}}: (עזרה)תחזוקה - ציטוט: multiple names: authors list (link)
  10. ^ EzTaxon-e Database eztaxon-e.ezbiocloud.net (archive accessed 25 March 2021)
  11. ^ leBIBI V5 pbil.univ-lyon1.fr (archive accessed 25 March 2021)
  12. ^ Ogwang, Joel; Bariche, Michel; Bos, Arthur R. (2021). "Genetic diversity and phylogenetic relationships of threadfin breams (Nemipterus spp.) from the Red Sea and eastern Mediterranean Sea". Genome (באנגלית). 64 (3): 207–216. doi:10.1139/gen-2019-0163.

קישורים חיצוניים

ויקישיתוף מדיה וקבצים בנושא GenBank בוויקישיתוף
הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

32890736GenBank