מזהה כימי בין-לאומי
מזהה כימי בין-לאומי (International Chemical Identifier או InChI בקצרה) הוא מזהה טקסטואלי עבור חומרים כימיים, המספק תקן הנהוג לקידוד מידע מולקולרי ומקל על החיפוש אחר מידע כזה במאגרי המידע ובאינטרנט.
פיתוח
הפיתוח התבצע תחילה על ידי האיגוד הבין-לאומי לכימיה טהורה ויישומית (International Union of Pure and Applied Chemistry או IUPAC בקצרה)(אנ') וכן על ידי המכון הלאומי לתקנים וטכנולוגיה (National Institute of Standards and Technology או NIST בקצרה). הגרסה הראשונה יצאה ב-15 באפריל בשנת 2005[1][2]. החל ממאי 2009 הפיתוח עבר להיות תחת עמותת InChI Trust, שהיא עמותה ללא מטרות רווח מבריטניה, הפועלת לקידום השימוש במזהה הכימי הבין-לאומי[3].
חומרים כימיים מאופיינים על ידי שכבות של מידע, הכוללים את האטומים והקשרים שלהם, מידע טאוטומרי, איזוטופי, סטויכיומטרי וחשמלי[4]. אין צורך תמיד לספק את כל שכבות המידע, בעיקר כשהמידע לא רלוונטי ליישום הספציפי. האלגוריתם של המזהה הכימי הבין-לאומי מעביר את המידע המבני למזהה ייחודי בשלושה שלבים: הסרת המידע המיותר, יצירת מזהה ייחודי לכל אטום, ונתינת מחרוזת לכלל התווים.
כיום נעשה שימוש במזהה נוסף הנקרא מספר CAS, שהינו מספר זיהוי ייחודי הניתן לכל חומר כימי שתואר בספרות המקצועית. המזהה הכימי הבין-לאומי שונה ממספר CAS בשלושה אופנים: ראשית, המזהה הכימי הבין-לאומי ניתן לשימוש חופשי. שנית, ניתן לחשב את המזהה הכימי הבין-לאומי ממידע מבני. לבסוף, רוב המידע הינו מובן. לכן, ניתן לראות את המאפיינים הכימיים הבין-לאומיים כדומים לגרסה הכללית והרשמית ביותר של מונחון IUPAC. הם יכולים לבטא יותר מידע מהסימון הפשוט שניתן על ידי מחרוזות SMILES, ובניגוד ל-SMILES, לכל מבנה כימי יש מזהה ייחודי של המזהה הכימי הבין-לאומי, עובדה שחשובה מאוד ליישומים.
על מנת להקל על השימוש ההולך ומתרחב במזהה הכימי הבין-לאומי, פותח מפתח המזהה הכימי הבין-לאומי, שהוא מחרוזת באורך 27 תווים. המפתח מקל על החיפוש האינטרנטי אחר תרכובות כימיות, שהיו בעייתיות עם מזהה כימי בין-לאומי באורך מלא[5]. המפתח אינו ייחודי כך שישנן חפיפות ידועות עבור מבנים כימיים שונים, אך הן נדירות[6].
הגרסה הנוכחית של המזהה הכימי הבין-לאומי הינה 1.07 ששוחררה במרץ 2024[7] וניתנת לשימוש במערכות הפעלה Microsoft Windows וכן במערכות הפעלה דמויות יוניקס. הגרסה ממשיכה להתעדכן ולהתפתח על ידי ארגון InChI Trust, כאשר השינויים עוסקים באפיון תרכובות כימיות חדשות בפיתוח.
תוספות נרמול בכתיבה
על מנת למנוע יישום של מספר סוגי מזהה כימי בין-לאומי במולקולות בעלות איזומרים מבניים, יש צורך בנרמול המבנה הכימי של המולקולה ביישום המזהה הכימי הבין-לאומי, זאת על ידי אפיון יחידת הבסיס של המולקולה ותוספותיה. הנרמול מגיע לאחר רישום המבנה הכללי של המולקולה ויכול לכלול שינוי של הסדר הקשרים הכימיים, החסרת או הוספת אטומי מימן וסידור מטענים מחדש במולקולה. חשיבות נוספת לנרמול נובעת מהעובדה שעבור קלטים שונים יכולים להתקבל תוצאות זהות. לדוגמה, חומצה אצטית ויון אצטט, הנרשמות באופן שונה זה מזה במזהה הכימי הבין-לאומי, נותנות מולקולה זהה של חומצה אצטית. במידה והמולקולה מורכבת מיותר מתוסף אחד המחובר ליחידת הבסיס, יש צורך בהגדרת יחידות משנה במזהה הכימי הבין-לאומי, כאשר כל יחידת מבנה מופרדת באמצעות פסיק. כך לדוגמה, עבור מולקולת עופרת טטרה-אתילית (Pb(C2H5)4), יתקבלו חמישה מרכיבים: מרכיב עופרת וארבע יחידות משנה של קבוצות אתיל[4].
בנרמול המולקולה, יש לבצע "הוספת שכבה" לקלט המזהה הכימי הבין-לאומי כתלות בסוג היחידה:
- יש לקבוע את מבנה המולקולה הכללי, תת-מבנה /c המתייחס לקשרים אשר אינם מימניים, וכן תת-מבנה /h המתייחס למימן.
- יש להוסיף את המידע על שכבת המטען, הניתן על ידי תת-מבנה /q, וכן יש להוסיף את תת-המבנה /p הנותן את יחס המטען ומתייחס למספר הפרוטונים שיש להוסיף או להחסיר בכדי לייצר את מבנה המולקולה הרצויה.
- במידה ויש צורך, תתי מבנה /b, /t, /m, /s מספקים את המידע הסטויכיומטרי של המולקולה.
- ניתן גם לספק מידע עבור איזוטופים שונים על ידי תת-מבנה /i כאשר תתי היחידות האחרות מוכלות בה במידת הצורך.
- עבור קבלת איזומר ספציפי, יש צורך בשימוש בתת-מבנה /f כאשר שימוש זה אינו פעיל עבור מזהה כימי בין-לאומי סטנדרטי. עבור המזהה הכימי הבין-לאומי, כל אפשרויות האיזומר נכתבות באופן זהה.
פורמט כתיבת המזהה הכימי הבין-לאומי ותתי המבנה
כל מזהה כימי בין-לאומי מתחיל בפתיחת "InChI=" ולאחריו מספר הגרסה (1 נכון לעכשיו). במידה והמזהה סטנדרטי, יש להמשיך באות “s”, משמעות הדבר היא שמירה על אותה רמת פרטי המבנה וציור המולקולה המוסכם. לאחר מכן, שאר האינפורמציה המוזנת הינה פירוט לפי יחידת המבנה של המולקולה ותתי המבנים המתוארים ביישום. הפרדת המבנה ותת המבנה תבוצע על ידי "/" ותחל בציון סוג התת-מבנה הרצוי (כמפורט בחלק "תוספות נרמול הכתיבה").
להלן תיאור של תתי המבנה החשובים[4]:
- המבנה הראשי (מופיע תמיד)
- הנוסחה הכימית, תת-יחידה החייבת להופיע בכל מזהה כימי בין-לאומי. מתארת את המבנה הבסיסי של המולקולה. המספר ליד כל יסוד מתאר את כמותו ואת מספור היסודות מלבד מימן. לדוגמה, עבור מולקולת גלוקוז, C6O12H6, אטומי הפחמן ממוספרים מ-1-6 ואטומי החמצן ממוספרים מ-7-12. עבור מולקולת ATP, בעלת הנוסחה המולקולרית C10H16N5O13P3, אטומי הפחמן ממוספרים מ-1-10, אטומי החנקן ממוספרים מ-11-15, אטומי החמצן ממוספרים מ-16-28 ואטומי הפוספט ממוספרים מ-29-31.
- קשר אטומי מסומן לפי סימון c, כאשר האטומים בנוסחה הכימית ממוספרים לפי הסדר. סוג הקשר בין האטומים יתואר בסוף על ידי הסימון b.
- חיבור לאטום מימן יסומן בסימון h.
- שכבת המטען: מסומנת על ידי הסימון q כאשר שכבת פרוטון (טעונה חיובית) מסומנת על ידי p.
- שכבת הסטויכיומטריה: מסומנת על ידי הסימון s. קשר כפול או יותר יסומן על ידי הסימון b, סטויכיומטריה טטרהידרלית תסומן על ידי t, m.
- שכבה איזוטופית (לא חובה): מסומנת על ידי הסימון i. עבור שכבה איזוטופית של מימן – הסימון h.
דוגמאות
מזהה כימי בין-לאומי | מבנה המולקולה |
InChI=1S/C6H12O6/c7-1-2-3(8)4(9)5(10)6(11)12-2/h2-11H,1H2/t2-,3-,4+,5-,6?/m1/s1 | ![]() |
InChI=1S/C3H6O3/c1-2(4)3(5)6/h2,4H,1H3,(H,5,6)/t2-/m0/s1 | ![]() |
מפתח המזהה הכימי הבין-לאומי, InChIKey
מפתח המזהה הכימי הבין-לאומי מכיל 27 תווים של פונקציית גיבוב (hash), בעזרת שימוש באלגוריתם SHA-256, שפותח על מנת להקל את החיפושים האינטרנטיים של מולקולות ותרכובות כימיות. עד שנת 2007, רוב הייצוגים של מולקולות הכימיות היו כתמונות GIF, אשר לא אפשרו את החיפוש האינטרנטי של מולקולות אלו. המזהה הכימי הבין-לאומי המלא הוא ארוך מידי לחיפוש מהיר באינטרנט ולכן פותח מפתח המזהה הכימי הבין-לאומי. קיימות חפיפות בין מולקולות כימיות שונות כחלק מהמפתח המזהה הכימי הבין-לאומי, אבל הסבירות למצוא חפיפה ב־14 התווים הראשונים היא אחת לביליון, מה שמגמד את החפיפות הללו[8].
המפתח של המזהה הכימי הבין-לאומי מכיל שלושה חלקים המתוארים על ידי XXXXXXXXXXXXXX-YYYYYYYYFV-P. ארבעה עשר התווים הראשונים (המתוארים על ידי האות X) מתקבלים בעזרת אלגוריתם הגיבוב של SHA-256 שנעשה על סמך המידע על הקשרים בתוך המולקולה, אשר מתקבל משכבת המבנה הראשי ומשכבת המטען. 10 התווים הבאים (המתוארים על ידי האותיות Y, F, V) הם תוצאה של אלגוריתם הגיבוב על שאר השכבות של המזהה הכימי הבין-לאומי, וכן תו יחיד (המתואר על ידי האות V) המתאר את סוג המפתח, כאשר S זה עבור מפתח סטנדרטי ו-N עבור מפתח לא סטנדרטי. התו האחרון (המתואר על ידי האות P) מתאר את הפרוטונציה במבנה המולקולרי[דרוש מקור].
דוגמה
אפיון בעזרת המזהה הכימי הבין-לאומי[דרוש מקור] | מבנה המולקולה | |
InChI=1S/C17H19NO3/c1-18-7-6-17-10-3-5-13(20)16(17)21-15-12(19)4-2-9(14(15)17)8-11(10)18/h2-5,10-11,13,16,19-20H,6-8H2,1H3/t10-,11+,13-,16-,17-/m0/s1 | מזהה כימי בין-לאומי | ![]() |
BQJCRHHNABKAKU-KBQPJGBKSA-N | מפתח המזהה הכימי הבין-לאומי |
מקור השם
תחילה המזהה הכימי הבין-לאומי נקרא IChI (מזהה כימי עבור IUPAC). ביולי 2004 שונה השם ל-INChI (מזהה כימי עבור IUPAC-NIST). בנובמבר 2004 שונה השם לשמו הנוכחי, InChI (מזהה כימי בין לאומי).
המשך פיתוח
המשך הפיתוח עבור המזהה הכימי הבין-לאומי ממשיך על ידי IUPAC Division VIII Subcommitte ובעזרת קבוצות נוספות, זאת במטרה להרחיב את המזהה הנוכחי. קרן InChI ממשיכה לממן את הפיתוח והגדלת מאגר הידע של המזהה הכימי הבין-לאומי. הפיתוחים הנוכחיים מתרכזים בעיקרם באפיון פולימרים, תערובות, תגובות כימיות ואורגנו-מתכות[9].
תוכנה
בוצעו פיתוחי תוכנה על ידי קרן InChI על מנת לייצר ולתרגם את המזהה הכימי הבין-לאומי וכן את InChIKey. היסטורית התפתחות התוכנה מצורפת בטבלה.
הערות | רישיון תוכנה | תאריך שחרור | שם התוכנה והגרסה |
אפריל 2005 | InChI v. 1 | ||
אוגוסט 2006 | InChI v. 1.01 | ||
מוסיף את פעילות מפתח המזהה הכימי הבין-לאומי | LGPL 2.1 | ספטמבר 2007 | InChI v. 1.02beta |
שינוי פורמט עבור InChIKey והצגת מזהה כימי בין-לאומי סטנדרטי | LGPL 2.1 | ינואר 2009 | InChI v. 1.02 |
LGPL 2.1 | יוני 2010 | InChI v. 1.03 | |
מרץ 2011 | InChI v. 1.03 source code docs | ||
רישיון חדש, הוספת תמיכה לאטומים 105-112 (מולקולות גדולות). | IUPAC/InChI Trust InChI License 1.0 | ספטמבר 2011 | InChI v. 1.04 |
הגדלת גודל המולקולה- אטומים 113-118, הוספת ניסיון תמיכה בפולימרים, הוספת ניסיון תמיכה במולקולות גדולות. | IUPAC/InChI Trust InChI License 1.0 | ינואר 2017 | InChI v. 1.05 |
חישוב ריאקציות מסוג InChIs | IUPAC/InChI Trust InChI License 1.0, and BSD-style | מרץ 2017 | RInChI v. 1.00 |
שיפור תמיכה בפולימרים | IUPAC/InChI Trust InChI License 1.0[דרוש מקור] | דצמבר 2020 | InChI v. 1.06 |
אימוץ המזהה הכימי הבין-לאומי
המזהה הכימי הבין-לאומי אומץ במאגרי מידע גדולים כדוגמת ChemSpider, Golm Merabolome Database, PubChem ועוד[10]. אולם, עדיין ישנן אי התאמות במאגרי המידע בין מבנה המולקולה ובין ערך המזהה הכימי הבין-לאומי המשויך לה, עקב אי התאמה נכונה במאגר המידע[10].
ראו גם
הערות שוליים
- ↑
שגיאות פרמטריות בתבנית:צ-מאמר
פרמטרי חובה [ מחבר ] חסרים The IUPAC International Chemical Identifier:, Chemistry International -- Newsmagazine for IUPAC 28, 2006-01 doi: 10.1515/ci.2006.28.6.12 - ↑ Stephen Heller, Alan McNaught, Stephen Stein, Dmitrii Tchekhovskoi, Igor Pletnev, InChI - the worldwide chemical structure identifier standard, Journal of Cheminformatics 5, 2013-01-24 doi: 10.1186/1758-2946-5-7
- ↑ The International Chemical Identifier, InChI Trust
- ^ 4.0 4.1 4.2 Stephen R Heller, Alan McNaught, Igor Pletnev, Stephen Stein, Dmitrii Tchekhovskoi, InChI, the IUPAC International Chemical Identifier, Journal of Cheminformatics 7, 2015-12 doi: 10.1186/s13321-015-0068-4
- ↑ The IUPAC International Chemical Identifier (InChI). 5 September 2007
- ↑ Egon Willighagen, InChIKey collision: the DIY copy/pastables, doi.org, 2011-09-17
- ↑ IUPAC-InChI/InChI, 2025-02-23, נבדק ב-2025-02-25
- ↑ Igor Pletnev, Andrey Erin, Alan McNaught, Kirill Blinov, Dmitrii Tchekhovskoi, Steve Heller, InChIKey collision resistance: an experimental testing, Journal of Cheminformatics 4, 2012-12 doi: 10.1186/1758-2946-4-39
- ↑ Guenter Grethe, Gerd Blanke, Hans Kraut, Jonathan M. Goodman, International chemical identifier for reactions (RInChI), Journal of Cheminformatics 10, 2018-12 doi: 10.1186/s13321-018-0277-8
- ^ 10.0 10.1 Wendy A. Warr, Many InChIs and quite some feat, Journal of Computer-Aided Molecular Design 29, 2015-08, עמ' 681–694 doi: 10.1007/s10822-015-9854-3
מזהה כימי בין-לאומי40726497Q203250