UniProt
UniProt הוא מאגר מידע הכולל מידע על רצפי חלבונים ותפקודם. מקור השם הוא קיצור של המילים Universal Protein, המבטא את היותו של המאגר אוניברסלי. המאגר מכיל מידע רב לגבי תפקודם הביולוגי של חלבונים, שנאסף מתוך ספרות המחקר. המאגר מתוחזק על ידי תאגיד שהקימו מספר ארגוני ביואינפורמטיקה מאירופה ומארצות הברית.
תאגיד UniProt
בשנת 2002 חברו יחד שלושה ארגונים ליצירת תאגיד UniProt[1]:
- המכון האירופאי לביואינפורמטיקה (European Bioinformatics Institute (EBI)) - ממוקם במרכז ולקם, אנגליה. מאחסן מספר מאגרי מידע ושירותיים ביואינפורמטיקאיים.
- המכון השווייצרי לביואינפורמטיקה (Swiss Institute of Bioinformatics (SIB)) - ממוקם בז'נבה, שווייץ. מתחזק את שרתי Expasy (Expert Protein Analysis System), שהם משאב מרכזי לכלי פרוטאומיקה ולמאגרי המידע.
- משאב המידע לחלבונים (Protein Information Resource (PIR)) - מתוחזק על ידי הקרן הלאומי למחקר ביו-רפואי (National Biomedical Research Foundation (NBRF)) במרכז הרפואי של אוניברסיטת ג'ורג'טאון. זהו מאגר המידע שנשען על המאגר הקדום ביותר, האטלס של מרגרט דייהוף לרצפי ומבני חלבונים, אשר פורסם לראשונה ב-1965.
מבנה מאגר המידע
כל אחד מהארגונים השותפים לתאגיד נוטל חלק פעיל ביצירת ותחזוק המאגר, והוא הושק בדצמבר 2003. כ-100 אנשי צוות משלושת הארגונים עוסקים בכריית המידע, פיתוח תוכנה ותמיכה[1].
UniProtKB
המאגר הראשי נקרא UniProtKB, והוא מכיל שני תתי מאגרים:
- תת-המאגר Swiss-Prot - הוקם בשנת 1986 על ידי עמוס ביירוך, אז תלמיד לתואר שלישי ב-SIB, ולאחר מכן פותח ב-EBI על ידי רולף אפוויילר. ייעודו של המאגר היה לספק רצפי חלבונים עם רמת אנוטציה גבוהה (כגון תיאור פעילות החלבון, מבני המתחמים, עיבודים לאחר התרגום ועוד), ללא חוזרנות ועם קישורים רבים למאגרי מידע נוספים.
- מאגר זה עובר מינוח ידני, ומכיל מידע שנאסף מפרסומים מדעיים וממאגרי מידע שונים. המינוח נבדק מעת לעת ומעודכן בהתאם. רצפים מאותו הגן ומאותו מין מאוחדים לאותו הערך במאגר, בעלי מספר זיהוי ייחודי. הבדלים בין רצפים שונים לאותו חלבון מזוהים (תוצאות של שחבור חליפי, שונות גנטית, אתר אתחול שגוי, גבולות אקסון שגויים, מוטציית היסט). כלים רבים משמשים למינוח, כאשר תוצאות ניבוי מחשב עוברות בקרה ידנית. חיזויים אלה כוללים עיבודים לאחר התרגום, מבני מתחמים חוצי ממברנה והכיווניות שלהם, אותות פפטידיים, זיהוי מתחמים וסיווג למשפחות חלבונים. פרסומים מדעיים נכרים ממאגר ה-PubMed, נקראים על ידי הצוות והמידע נוסף לערך. מידע זה כולל בין היתר: שם הגן והחלבון, פעילות, פעילות אנזימטית (זרז, קופקטורים, אתרים פעילים), מיקום תוך-תאי, פרופיל הביטוי, מיקום ותפקיד מתחמים ואזורים חשובים, אתרי קישור ליונים, קופקטורים וסובסטרטים, רצפי חלבון שונים.
- נכון ל-2021, תת-מאגר זה מכיל 565,254 חלבונים.
- תת-המאגר TrEMBL (Translated EMBL Nucleotide Sequence Data Library) - נוצר בכדי לספק מינוח אוטומטי לחלבונים שאינם נמצאים בתת-המאגר Swiss-Prot. מכיוון שהמידע הרצפי יוצר בקצב הגובר על היכולת של Swiss-Prot לעמוד בו, תת-המאגר הזה מספק מידע רב באיכות נמוכה יותר. הרצפים עוברים עיבוד אוטומטי, ומקושרים למאגרי מידע שונים.
- נכון ל-2021, תת-מאגר זה מכיל 219,174,961 חלבונים.
UniParc
UniProt Archive (UniParc) הוא מאגר מקיף ולא חוזרני, האוסף את המידע מכלל מאגרי החלבונים הציבוריים האחרים. חלבונים יכולים להופיע במספר מאגרי מידע שונים, במספר עותקים שונה. בכדי למנוע חזרתיות של המידע, UniParc מאחסן כל רצף פעם אחת בלבד. רצפים זהים מאוחדים, ללא תלות במין המקור, ומוענק לו מזהה ייחודי הנקרא UPI. באמצעות מזהה זה ניתן לזהות את החלבון בין מאגרי מידע שונים. שינויים שנעשים ברצף במאגרי המידע נרשמים בהיסטוריית הרצף.
UniRef
UniProt Reference Clusters (UniRef) הוא מאגר של שלושה תתי-מאגרים של קבוצות רצפי חלבונים מתוך המאגרים האחרים. תת-המאגר UniRef100 מכיל רצפי חלבונים זהים וקטעי חלבונים מכל יצור בערך יחיד. הרצף המייצג של החלבון, המזהים הייחודים של כל הרצפים בקבוצה וקישור לערכים במאגרים האחרים נמצאים בערך. בצורה דומה תתי-המאגרים UniRef90 ו-UniRef50 מכילים רצפים להם זהות רצפית של 90% או 50% לרצף הארוך ביותר בקבוצה. איחוד החלבונים לקבוצת מצמצם משמעותית את נפח המאגר, ומאפשר ביצוע חיפושים מהירים יותר.
מימון
UniProt ממומן על ידי גורמים רבים[1], ובהם המכון הלאומי לחקר הגנום האנושי, המכונים הלאומיים לבריאות, הנציבות האירופית, הממשלה השווייצרית (באמצעות המשרד הפדרלי לחינוך ולמדע), המכון הלאומי לסרטן ומחלקת ההגנה של ארצות הברית.
קישורים חיצוניים
- אתר האינטרנט הרשמי של UniProt
הערות שוליים
31947780UniProt