Method Article
מאמר זה מתאר את AMOS, מסד הנתונים מבוסס האינטרנט של שיטות אנליטיות וספקטרה פתוחה, יישום כימי שנועד לספק לחוקרים גישה קלה לשיטות אנליטיות ונתונים ספקטרליים.
שיטות אנליטיות יכולות לנוע בין מסמכים רגולטוריים מפורטים לסיכומים פשוטים יותר. שיטות רגולטוריות עשויות לכלול מידע על אנליטים מתאימים, מטריצות נתמכות, ריאגנטים נדרשים, ביצועים סטטיסטיים, אימות בין-מעבדתי ופרטים אחרים. סיכומים מספקים בדרך כלל סקירה כללית של ריאגנטים, מכשור, ולעתים קרובות רשימה קצרה של אנליטים. שיטות אנליטיות של גופים ממשלתיים בארה"ב, כולל הסוכנות להגנת הסביבה של ארה"ב (USEPA), הסקר הגיאולוגי של ארה"ב (USGS), משרד החקלאות האמריקני (USDA), מינהל המזון והתרופות (FDA) ואחרים, מציעות מידע פרוצדורלי מפורט. ספקי מכשירים כגון Agilent, Shimadzu, Thermo Fisher Scientific, Sciex ואחרים מספקים גם גישה למאות הערות יישום, שעשויות להיחשב כשיטות סיכום. מחקר זה פיתח מסד נתונים התומך בכימיה של שיטות שבהן כימיקלים מופקים ממסמכי שיטות, עם מזהים (שמות ו/או מספרי רישום של שירות התקצירים הכימיים (CASRN)) הממופים למבנים כימיים. מסד הנתונים המתקבל, המכיל כ-7,000 שיטות, ניתן לחיפוש לפי מזהה, מבנה כימי ודמיון מבני, ומתווסף על ידי כמיליון ספקטרום נחלת הכלל (LC/MS, GC/MS, NMR ו-IR). האפליקציה תומכת בחיפוש שיטות אנליטיות וסינון על סמך אנליטים, שימוש פונקציונלי, מקורות שיטות ומטא נתונים קשורים אחרים.
אספקה מבוססת אינטרנט של נתוני כימיה לקהילה מודגמת על ידי יישומים כגון PubChem1, ChemSpider2 ו-CompTox Chemicals Dashboard (CCD)3. נעשו מאמצים להפיץ פרטי שיטות אנליטיות שפורסמו במאמרים בכתבי עת, שפורסמו על ידי ספקי מכשירים כהערות יישום טכניות, שסופקו על ידי סוכנויות ממשלתיות כנהלי הפעלה סטנדרטיים או שיטות רגולטוריות, והונפקו על ידי ארגוני תקינה כגון ארגון התקינה הבינלאומי (ISO). עשרות אלפי כימיקלים נחקרו על ידי מקורות אלה במגוון רחב של תנאים וטכניקות אנליטיות. מאגר מקורות נרחב זה מכסה חומרים מגוונים וכולל תרחישים החל מכימות של כימיקל בודד במטריצה מסוימת (למשל, דם), דרך תערובות של חומרי הדברה ושאריותיהם בגידולים ספציפיים, ועד למאות כימיקלים שזוהו במי השתייה. בעוד שניתן לגלות שיטות אנליטיות רבות באמצעות מנועי חיפוש ציבוריים, לא כולן זמינות באופן חופשי או בגישה פתוחה.
איתור מידע ספציפי מעניין יכול להיות מאתגר. מנועי חיפוש למטרות כלליות אינם מותאמים לנתוני כימיה, ואלגוריתמי הדירוג שלהם עשויים לטשטש תוכן איכותי המיועד לקהלים צרים. חיפושים באתרי כתבי עת יכולים להניב תוצאות ממוקדות יותר, אך הגישה מוגבלת לעתים קרובות, כאשר רק תקצירים זמינים לציבור, מה שמקשה על הערכת התועלת של השיטה. יתר על כן, פרמטרים קריטיים - כגון מטריצות דגימה, גבולות זיהוי וכימות - לרוב אינם מאוחסנים בפורמט מובנה. אתגר משמעותי נוסף טמון בשונות וחוסר העקביות של מזהים כימיים, שמות ומילים נרדפות הקשורים לכימיקל בודד. היעדר נתונים בשיטות מובנות מגביל את הפיתוח של כלי תוכנה שיכולים למנף עשרות שנים של ידע מצטבר בכימיה אנליטית ופרסומים קשורים.
כתוצאה מהאתגרים והמגבלות הללו, יש צורך ביישום אוצר ומכוון כימיה להרמוניה וחיפוש שיטות אנליטיות - כזה שלא זוהה במקומות אחרים. כדי להתמודד עם הפער הזה, הסוכנות להגנת הסביבה של ארה"ב פיתחה את AMOS, מסד הנתונים של שיטות אנליטיות וספקטרה פתוחה ויישום מבוסס אינטרנט. עמוס אוספת ומארגנת כיום שלושה סוגים של רשומות נתונים: שיטות אנליטיות, ספקטרומים אנליטיים שונים וקטגוריה רחבה של מסמכים משלימים המכונים ביחד דפי עובדות. כל רשומה מקושרת לאנליטים ולריאגנטים הכימיים של השיטה. הנתונים ניתנים לחיפוש במספר דרכים, כולל על ידי שאילתות טקסט, מבנה כימי ודמיון מבני או ספקטרלי.
אפליקציית AMOS מתמקדת בעיקר באספקת גישה פתוחה ורשומות נתונים פתוחות. במידת האפשר, רשומות במסד הנתונים מקושרות למקורות המקוריים שלהן. רשומות שאינן ברישיון פתוח ולכן אינן מאוחסנות ישירות במסד הנתונים עדיין ניתנות לשילוב וגישה באמצעות כתובת URL, בתנאי שהן זמינות אחרת. זה חל על שני סוגים של רשומות: שיטות אנליטיות שנמצאות מאחורי חומות תשלום, בדרך כלל מכתבי עת או ארגוני תקנים שאליהם יש ל-EPA גישה, וספקטרום זמין אך דורש גישת כניסה.
מקורות הנתונים משתנים באופן שבו הרשומות בנויות, מה שמחייב מאמץ ניכר בחילוץ ואוצרות כדי להרכיב וליצור הרמוניה של התוכן. רוב הרשומות מספקות מזהי חומרים (למשל, CASRN, DTXSID, InChIKey, שמות נפוצים), ובמקרים רבים, החילוץ הוא פשוט. עם זאת, התאמת מזהים אלה למבנים כימיים ולפרטי חומר יכולה להיות מורכבת. ניתן להתאים מזהים מסוימים ישירות לערכים במסד הנתונים של ה-EPA Distributed Structure-Searchable Toxicity (DSSTox)4; כאשר לא נמצאו התאמות, מזהים מקושרים לחומרים קיימים, או חומרים חדשים נרשמים. יוזמת AMOS הובילה כתוצאה מכך להרחבת מסד הנתונים DSSTox, ושיפר את נתוני היסוד התומכים במסדי נתונים ויישומים אחרים של EPA, כגון CompTox Chemicals Dashboard3.
נדרשת אוצרות ידנית עבור מידע נוסף בעל ערך מסוים. עבור שיטות אנליטיות, פרמטרים ניסיוניים כגון גבולות זיהוי וכימות, מטריצת דגימה ומתודולוגיה אנליטית אינם מאורגנים בצורה סטנדרטית, וכלים אוטומטיים אינם יכולים לזהות מידע זה בשל האחסון הלא עקבי שלו.
שני מרכיבים של מידע רשום, המדיה הקשורה לדגימה והשימוש הפונקציונלי באנליט, רלוונטיים מאוד למאמצים המתמשכים לנטר חששות מסיכון וחשיפה ממזהמים. ככזה, תשומת לב רבה ניתנה למבנה תכונות אלה בתוך נתוני הרשומות. אונטולוגיה של סיווגי שימוש פונקציונלי פותחה עבור פרויקט זה. אונטולוגיה זו מארגנת את השימושים הפונקציונליים של חומרים למבנה היררכי, החל משימושים כלליים יותר של "הורה" ועד לשימושים ספציפיים יותר של "ילדים". האונטולוגיה מקלה על חקר חומרים מנקודת מבט יישומית, ותומכת ביוזמות מחקר המדגישות שימושים פונקציונליים כאמצעי להערכת חשיפה וסכנה 5,6. בנוסף, השיטות סומנו בהתאם לקטגוריית המדיה ההרמונית של הדגימות שלהן, כמפורט במסד הנתונים לניטור מולטימדיה (MMDB) של ה-EPA. סיווג זה מאפשר חיפוש כימיקלים על סמך הופעתם במדיה ספציפית, ומייעל את הפיתוח של פתרונות המתמקדים בגילוי כימיקלים בדגימות סביבתיות או ביולוגיות ספציפיות. הערות אלה משפרות את השילוב של AMOS בתהליכי עבודה מוכווני חשיפה וסיכונים הנמצאים בפיתוח במסגרת ה-EPA.
בהרכבת הספקטרום, האתגר של עיבוד פורמטים שונים של קבצים - שחלקם סטנדרטיים רק באופן נומינלי - וניתוח מטא נתונים נלווים דורש לעתים קרובות טיפול מותאם אישית. במקרים שבהם אוספים ספקטרליים מקושרים לפרסום, ייתכן שיהיה צורך לחלץ פרטים המתועדים בתוך הפרסום באופן ידני לצורך טעינת נתונים. מאמץ זה הביא למסד נתונים המשלב ובונה את הספקטרום השונה הזה, ומאפשר לחוקרים להימנע מהצורך באוצרות מייגעת במאמצים עתידיים.
נכון למרץ 2025, מסד הנתונים מכיל כ-935,000 ספקטרום, כאשר כמעט 99% הם ספקטרום מסה ואוספים קטנים יותר של NMR (~2,000) ו-IR (~400). בנוסף, ישנם כ-770,000 ספקטרומים מקושרים חיצונית (המחוברים למסד הנתונים של SpectraBase8), ~36,000 דפי עובדות ו~7,400 שיטות אנליטיות. החומרים המשולבים באפליקציה הם תת-קבוצה של אלה ממסד הנתונים של DSSTox, המשולב בלוח המחוונים של CompTox Chemicals (CCD) ומכיל למעלה מ-1.2 מיליון חומרים.
ניתן לחלק את רוב הפונקציונליות של עמוס לשלוש קטגוריות: חיפוש רשומות עבור חומרים מסוימים, חיפוש אוספים מסוימים של חומרים או חיפוש בין קטגוריות של רשומות. ניתן לגשת לדפים הבודדים עבור פונקציות אלה מסרגל הניווט בראש כל עמוד. האפליקציה נפרסת כעת ב-https://hcd.rtpnc.epa.gov/#/ באמצעות מודול עמוס. כלי התוכנה המשמשים במחקר זה מפורטים בטבלת החומרים.
1. חיפוש רשומות לחומרים ספציפיים
איור 1: תוצאות חיפוש עבור רשומות המכילות כולסטרול. חיפוש כללי של "כולסטרול" מציג רשימה של רשומות תואמות בטבלה (משמאל). ספקטרום המסה של רשומה שנבחרה מוצג מימין. אנא לחץ כאן לצפייה בגרסה גדולה יותר של איור זה.
איור 2: ממשק חיפוש אצווה. שדה החיפוש מכיל שני חומרים המזוהים על ידי ה-DTXSID שלהם. אפשרויות חיפוש המוגדרות כברירת מחדל נבחרות עבור השאילתה. אנא לחץ כאן לצפייה בגרסה גדולה יותר של איור זה.
איור 3: מבנה תוצאות חיפוש עבור 1P-LSD. הטבלה מפרטת שיטות המכילות חומרים דומים מבחינה מבנית. שיטה שנבחרה מוצגת מימין. אין ערכים מודגשים בטבלה המציינים ש-1P-LSD אינו מופיע באף שיטה רשומה. אנא לחץ כאן לצפייה בגרסה גדולה יותר של איור זה.
2. חיפוש חומרים
איור 4: תוצאות חיפוש סיווג ClassyFire. התוצאות כוללות מידע ברמת החומר ומספר הרשומות לכל קבוצת סיווג. אנא לחץ כאן לצפייה בגרסה גדולה יותר של איור זה.
איור 5: תוצאות חיפוש חלקיות של מזהה עבור "טרזין". החיפוש מוצא חומרים עם שמות מועדפים או מילים נרדפות המכילות את מחרוזת המשנה "טרזין". שתיים מתוך שלוש התוצאות כוללות "טרזין" רק במילים הנרדפות שלהן, ולא בשמות המועדפים עליהן. אנא לחץ כאן לצפייה בגרסה גדולה יותר של איור זה.
3. חיפוש ברשומות
איור 6: רשימה מסוננת של שיטות אנליטיות. הטבלה מסוננת על ידי אנליט ומטריצה, ומציגה רק שיטות הקשורות ל-PFAS (חומרים פר-ופוליפלואורואלקיל) במים. הרשימה המקבילה של דפי העובדות דומה מאוד לפריסה זו. אנא לחץ כאן לצפייה בגרסה גדולה יותר של איור זה.
איור 7: תוצאות חיפוש של דמיון ספקטרום. ספקטרום קפאין ממסד הנתונים של AMOS משמש כקלט. ספקטרום דומה מקובץ לפי מהות, עם ציון דמיון מקסימלי של 1.0. התרשים המשקף מציג את ספקטרום הקלט (למעלה) וספקטרום מסד נתונים שנבחר (למטה). פסגות כחולות בהירות ייחודיות לקלט, פסגות כתומות להתאמה למסד הנתונים ופסגות כחולות כהות משותפות. אנא לחץ כאן לצפייה בגרסה גדולה יותר של איור זה.
איור 8: ויזואליזציה של סיווג שימוש פונקציונלי. המבנה ההיררכי מוצג כאשר הסמן מרחף מעל צומת "כימיקלים תעשייתיים" (מסומן בצהוב). כיתות הילדים שלה מתוארות בירוק. אנא לחץ כאן לצפייה בגרסה גדולה יותר של איור זה.
איור 9: הדמיה של חלקה משולשת בקרקע. החלקה מציגה נתוני הרכב עבור דגימות קרקע. תיאור כלי בפינה הימנית העליונה מציג את ההרכב המדויק של האזור שנמצא כעת מתחת לסמן. אנא לחץ כאן לצפייה בגרסה גדולה יותר של איור זה.
צילומי המסך של עמוס המוצגים לעיל מציגים תוצאות אופייניות מהחיפושים הבודדים באפליקציה, כולל חיפושים אחר חומרים מעניינים ובין ספקטרום, דפי עובדות ושיטות. מגוון הדרכים לחקירת מסד הנתונים נועד לכסות את סוגי החיפושים הסבירים והשימושיים ביותר בדרכים המאפשרות חקירה מעמיקה יותר של הנתונים והחומרים אליהם הם מתייחסים.
כדי לסייע לחיפוש של המשתמש, חלק גדול מהפונקציונליות מחובר בדרכים שנועדו לתמוך בבחינה מעמיקה יותר של הנתונים הזמינים. כדוגמה לזרימת עבודה, הדמיית סיווג השימוש הפונקציונלי מקשרת לתצוגות של השיטות ודפי העובדות הקשורים לאותה מחלקה פונקציונלית, שמהן ניתן לחלץ רשימות של חומרים ולהזין אותם לחיפוש האצווה, או לבחון מסמכים בודדים, ולחקור חומרים בודדים במסמכים אלה. מכיוון שלחומרים רבים בשיטות יש גם ספקטרום מסה ניסיוני במסד הנתונים, זה יכול לאפשר לחוקר לעבור במהירות מקטגוריה של חומרים לקבוצה של שיטות וספקטרום שיכולים לבדוק נוכחות של חומר ספציפי (ראה איור 9).
מכיוון שהתוצאות יהיו תלויות במידה רבה במה שמחפשים ואילו חיפוש או חיפושים מופעלים, קשה להגדיר תוצאות מייצגות עבור היישום כולו. באופן כללי, ייתכן שיהיה מדויק יותר לתאר "הצלחה" במונחים של חווית משתמש; במקרה כזה, יש לקוות שהדברים הבאים יתקיימו בדרך כלל: ששיטות החיפוש והסינון (והיכולת לעבור בין חיפושים ומסננים שונים) יעילות בזיהוי תת-קבוצות המידע שהמשתמש רוצה; שהתוצאות שהמשתמש מוצא מדויקות ושימושיות. איור 10 מתאר זרימת עבודה לדוגמה המדגימה פונקציונליות של AMOS.
איור 10: זרימת עבודה לדוגמה המדגימה פונקציות של AMOS. זרימת העבודה מתחילה בסיווג שימוש פונקציונלי (תרופות נשימתיות), מסננת שיטות הקשורות לתרופות נשימה בדם, בוחנת שיטה ספציפית אחת ומזהה ספקטרום לחומר הכלול בשיטה זו. אנא לחץ כאן לצפייה בגרסה גדולה יותר של איור זה.
בעוד שפרויקטים ויישומים רבים מתמקדים באיסוף וסטנדרטיזציה של מידע מסוג יחיד של רשומה, כגון שיטות, דפי עובדות או סוג מסוים של ספקטרום, AMOS הוא הכלי הראשון שזוהה שאוסף ומשלב כמויות גדולות של מידע על פני סוגי רשומות מרובים. האיחוד, ההרמוניה והבנייה של נתונים ממקורות מגוונים אלה מביאים למסד נתונים שניתן לשלב בקלות רבה יותר בתהליכי עבודה הדורשים גישה למתודולוגיות כימיה אנליטית. היכולת לחפש במסד הנתונים במספר דרכים משלימות מאפשרת אחזור יעיל של מידע שאחרת עשוי לדרוש מאמץ ידני נרחב על פני מספר אתרים או כלים.
לפני הפרסום הציבורי, התועלת של AMOS הודגמה באמצעות השימוש בו על ידי צוות ה-EPA לתמיכה במגוון רחב של פרויקטים. ל-EPA יש עניין מתמשך ביישום ספקטרומטריית מסה לניתוח לא ממוקד10,11, ויוזמות מרובות מינפו את ספקטרום המסה הניסיוני ב-AMOS כדי לשפר את החיפושים מול ספרייה ספקטרלית גדולה בסיליקו שנוצרה מכימיקלים DSSTox12,13. פרויקטים אחרים השתמשו בחיפוש דמיון מבני כדי לזהות נקודות התחלה לפיתוח שיטות חדשות, בחנו שיטות קיימות להערכת מגבלות גילוי וכימות, וניתחו אוספים של כימיקלים הקשורים לשיטות להערכת היקף כיסוי החלל הכימי.
צבירת נתוני האימון הפוטנציאליים על ידי עמוס תומכת עוד יותר בפיתוח מודלים כמותיים של התאמה לשיטות אנליטיות14, צורך ליבה לקידום זרימות עבודה של ניתוח לא ממוקד (NTA). מאמצי האוצרות בתוך עמוס מסייעים גם ליוזמות למידול, חקירה והדמיה של מרחבים כימיים הקשורים לכיסוי מתודולוגי14.
בעוד שפונקציונליות הליבה של עמוס בשלה, הפיתוח המתמשך מונחה על ידי משוב המשתמשים. המשימות הנוכחיות כוללות שילוב של נתונים נוספים, אוצרות של מטא נתונים נוספים לסינון משופר והרחבת יכולות החיפוש. בשיתוף עם בעלי עניין ב- EPA, ממשקי תכנות יישומים (API) נמצאים בפיתוח כדי לאפשר גישה פרוגרמטית, תוך התייחסות למקרי שימוש שבהם ממשק המשתמש הגרפי (GUI) עשוי להיות לא יעיל. דף הערות שחרור שולב ביישום כדי לעקוב אחר עדכוני קוד ולהעביר אותם לאורך זמן.
רשומות נתונים וכימיקלים חדשים מתווספים כעת על בסיס שבועי; עם זאת, לוח זמנים איטי יותר צפוי לאחר ההשקה הציבורית. בעוד שנעשה מאמץ משמעותי להבטיח את דיוק הרשומות והמטא-נתונים המשויכים, חלק גדול מהנתונים מקורם במאגרי מידע ציבוריים. ככזה, אימות מלא של כל רשומה אינו אפשרי, והמשתמשים צריכים להיות מודעים לכך שלא ניתן להבטיח דיוק נתונים מוחלט.
מסמך זה אינו מייצג בהכרח את ההשקפות או המדיניות של הסוכנות להגנת הסביבה האמריקאית.
המחברים מודים לצוות האוצרות על כל עבודתם באוצרות כימיקלים עבור מסד הנתונים, ולג'ושוע פאוול, אסיף ראשיד ופרדי ואלון על התמיכה הטכנית בבנייה ובפריסה של עמוס. אנו מודים גם לצ'ארלס לואו על סקירת כתב היד.
Name | Company | Catalog Number | Comments |
Git | N/A | https://git-scm.com/ | Open-source version control system. |
JavaScript | N/A | https://ecma-international.org/publications-and-standards/standards/ecma-262/ | Programming language. Defined by ECMA International standards. |
PostgreSQL | PostgreSQL Global Development Group | https://postgresql.org/about/licence | Open-source database management system. |
Python | Python Software Foundation | https://www.python.org/ | Open-source programming language. |
Request permission to reuse the text or figures of this JoVE article
Request PermissionThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. All rights reserved