Method Article
Questo articolo descrive AMOS, il database basato sul web Analytical Methods and Open Spectra, un'applicazione chemioinformatica progettata per fornire ai ricercatori un facile accesso ai metodi analitici e ai dati spettrali.
I metodi analitici possono variare da documenti normativi dettagliati a riassunti più semplici. I metodi normativi possono includere informazioni sugli analiti utilizzabili, le matrici supportate, i reagenti richiesti, le prestazioni statistiche, la convalida interlaboratorio e altre specifiche. I riassunti in genere forniscono una panoramica generale dei reagenti, della strumentazione e spesso un breve elenco di analiti. I metodi analitici degli enti governativi statunitensi, tra cui l'Agenzia per la protezione dell'ambiente degli Stati Uniti (USPA), l'US Geological Survey (USGS), il Dipartimento dell'Agricoltura degli Stati Uniti (USDA), la Food and Drug Administration (FDA) e altri, offrono informazioni procedurali dettagliate. Fornitori di strumenti come Agilent, Shimadzu, Thermo Fisher Scientific, Sciex e altri forniscono anche l'accesso a centinaia di note applicative, che possono essere considerate metodi di riepilogo. Questo studio ha sviluppato un database di metodi abilitati alla chemioformatica in cui le sostanze chimiche vengono estratte dai documenti del metodo, con identificatori (nomi e/o numeri di registro del Chemical Abstracts Service (CASRN)) mappati su strutture chimiche. Il database risultante, contenente circa 7.000 metodi, è ricercabile per identificatore, struttura chimica e somiglianza strutturale, ed è integrato da circa un milione di spettri di pubblico dominio (LC/MS, GC/MS, NMR e IR). L'applicazione supporta la ricerca di metodi analitici e il filtraggio in base ad analiti, utilizzo funzionale, fonti di metodi e altri metadati correlati.
La consegna di dati chimici alla comunità basata sul Web è esemplificata da applicazioni come PubChem1, ChemSpider2 e CompTox Chemicals Dashboard (CCD)3. Sono stati compiuti sforzi per far circolare i dettagli dei metodi analitici pubblicati in articoli di riviste, rilasciati dai fornitori di strumenti come note tecniche applicative, forniti da agenzie governative come procedure operative standard o metodi normativi ed emessi da organizzazioni di standardizzazione come l'Organizzazione internazionale per la standardizzazione (ISO). Decine di migliaia di sostanze chimiche sono state studiate da queste fonti in un'ampia gamma di condizioni e tecniche analitiche. Questo ampio corpus di fonti copre diverse sostanze e include scenari che vanno dalla quantificazione di una singola sostanza chimica in una matrice specifica (ad esempio, il sangue), alle miscele di pesticidi e ai loro residui in colture specifiche, a centinaia di sostanze chimiche identificate nell'acqua potabile. Sebbene molti metodi analitici possano essere scoperti tramite motori di ricerca pubblici, non tutti sono disponibili gratuitamente o ad accesso aperto.
Individuare informazioni specifiche di interesse può essere difficile. I motori di ricerca generici non sono ottimizzati per i dati chimici e i loro algoritmi di ranking possono oscurare i contenuti di alta qualità destinati a un pubblico ristretto. Le ricerche sui siti web delle riviste possono produrre risultati più mirati, ma l'accesso è spesso limitato, con solo gli abstract disponibili pubblicamente, rendendo difficile valutare l'utilità di un metodo. Inoltre, i parametri critici, come le matrici dei campioni, i limiti di rilevamento e la quantificazione, spesso non vengono memorizzati in un formato strutturato. Un'altra sfida significativa risiede nella variazione e nell'incoerenza degli identificatori chimici, dei nomi e dei sinonimi associati a una singola sostanza chimica. La mancanza di dati strutturati sui metodi limita lo sviluppo di strumenti software che potrebbero sfruttare decenni di conoscenze accumulate in chimica analitica e relative pubblicazioni.
Come risultato di queste sfide e limitazioni, c'è bisogno di un'applicazione curata e orientata alla chimica per armonizzare e cercare metodi analitici, che non è stata identificata altrove. Per colmare questa lacuna, l'Agenzia per la protezione dell'ambiente degli Stati Uniti ha sviluppato AMOS, il database e l'applicazione basata sul web AMOS, Analytical Methods and Open Spectra. AMOS attualmente raccoglie e organizza tre tipi di record di dati: metodi analitici, vari spettri analitici e un'ampia categoria di documenti supplementari denominati collettivamente schede informative. Ogni record è collegato agli analiti e ai reagenti chimici target del metodo. I dati possono essere ricercati in diversi modi, tra cui query di testo, struttura chimica e somiglianza strutturale o spettrale.
L'applicazione AMOS si concentra principalmente sulla fornitura di record di dati e accesso aperto. Ove possibile, i record nel database sono collegati alle loro fonti originali. I record non coperti da licenza aperta e quindi non memorizzati direttamente nel database possono comunque essere integrati e accessibili tramite URL, a condizione che siano altrimenti disponibili. Questo vale per due tipi di record: metodi analitici che si trovano dietro i paywall, in genere da riviste o organizzazioni di standardizzazione a cui l'EPA ha accesso, e spettri che sono disponibili ma richiedono l'accesso al login.
Le fonti di dati variano nel modo in cui i record sono strutturati, richiedendo uno sforzo sostanziale nell'estrazione e nella cura per assemblare e armonizzare il contenuto. La maggior parte dei record fornisce identificatori di sostanze (ad esempio, CASRN, DTXSID, InChIKey, nomi comuni) e, in molti casi, l'estrazione è semplice. Tuttavia, l'abbinamento di questi identificatori con strutture chimiche e dettagli della sostanza può essere complesso. Alcuni identificatori possono essere abbinati direttamente alle voci del database DSSTox (Distributed Structure-Searchable Toxicity)dell'EPA 4; Quando non vengono trovate corrispondenze, gli identificatori vengono collegati a sostanze esistenti o vengono registrate nuove sostanze. L'iniziativa AMOS ha di conseguenza portato all'espansione del database DSSTox, migliorando i dati fondamentali a supporto di altri database e applicazioni EPA, come il CompTox Chemicals Dashboard3.
La cura manuale è necessaria per alcune preziose informazioni aggiuntive. Per i metodi analitici, i parametri sperimentali come i limiti di rilevazione e quantificazione, la matrice del campione e la metodologia analitica non sono organizzati in modo standardizzato e gli strumenti automatizzati non sono in grado di identificare queste informazioni a causa della loro memorizzazione incoerente.
Due elementi delle informazioni registrate, il terreno associato al campione e l'uso funzionale dell'analita, sono estremamente rilevanti per gli sforzi in corso per monitorare i pericoli e i problemi di esposizione ai contaminanti. Pertanto, è stata prestata notevole attenzione alla strutturazione di questi attributi all'interno dei dati di registrazione. Per questo progetto è stata sviluppata un'ontologia delle classificazioni funzionali dell'uso. Questa ontologia organizza gli usi funzionali delle sostanze in una struttura gerarchica, che va da usi più generali "genitori" a usi "bambini" più specifici. L'ontologia facilita l'esplorazione delle sostanze da una prospettiva applicativa, supportando iniziative di ricerca che enfatizzano gli usi funzionali come mezzo per valutare l'esposizione e il pericolo 5,6. Inoltre, i metodi sono stati etichettati in base alla categoria di media armonizzati dei loro campioni, come specificato nel database di monitoraggio multimediale (MMDB) dell'EPA7. Questa categorizzazione consente la ricerca di sostanze chimiche in base alla loro presenza in mezzi specifici, semplificando lo sviluppo di soluzioni incentrate sulla rilevazione di sostanze chimiche in specifici campioni ambientali o biologici. Queste annotazioni migliorano l'integrazione di AMOS nei flussi di lavoro orientati all'esposizione e ai pericoli in fase di sviluppo all'interno dell'EPA.
Nell'assemblaggio degli spettri, la sfida di elaborare vari formati di file, alcuni dei quali sono solo nominalmente standardizzati, e l'analisi dei metadati di accompagnamento spesso richiedono una gestione personalizzata. Nei casi in cui le collezioni spettrali sono collegate a una pubblicazione, potrebbe essere necessario estrarre manualmente i dettagli documentati all'interno della pubblicazione per il caricamento dei dati. Questo sforzo ha portato a un database che integra e struttura questi spettri disparati, consentendo ai ricercatori di evitare la necessità di una laboriosa cura negli sforzi futuri.
A marzo 2025, il database contiene circa 935.000 spettri, di cui quasi il 99% sono spettri di massa e raccolte più piccole di NMR (~2.000) e IR (~400). Inoltre, ci sono circa 770.000 spettri collegati esternamente (collegati al database SpectraBase8), ~36.000 schede informative e ~7.400 metodi analitici. Le sostanze integrate nell'applicazione sono un sottoinsieme di quelle del database DSSTox, che è incorporato nel CompTox Chemicals Dashboard (CCD) e contiene oltre 1,2 milioni di sostanze.
La maggior parte delle funzionalità di AMOS può essere suddivisa in tre categorie: ricerca di record per determinate sostanze, ricerca di determinate raccolte di sostanze o ricerca tra categorie di record. È possibile accedere alle singole pagine di queste funzionalità dalla barra di navigazione nella parte superiore di ogni pagina. L'applicazione è attualmente distribuita su https://hcd.rtpnc.epa.gov/#/ tramite il modulo AMOS. Gli strumenti software utilizzati in questo studio sono elencati nella Tabella dei materiali.
1. Ricerca di registri per sostanze specifiche
Figura 1: Risultati della ricerca di record contenenti colesterolo. Una ricerca generale di "colesterolo" visualizza un elenco di record corrispondenti nella tabella (a sinistra). Lo spettro di massa di un record selezionato viene mostrato a destra. Clicca qui per visualizzare una versione più grande di questa figura.
Figura 2: Interfaccia di ricerca batch. Il campo di ricerca contiene due sostanze identificate dai loro DTXSID. Per la query sono selezionate le opzioni di ricerca predefinite. Clicca qui per visualizzare una versione più grande di questa figura.
Figura 3: Risultati della ricerca della struttura per 1P-LSD. La tabella elenca i metodi contenenti sostanze strutturalmente simili. A destra viene visualizzato un metodo selezionato. Nessuna voce in grassetto nella tabella indica che l'1P-LSD non appare in nessuno dei metodi elencati. Clicca qui per visualizzare una versione più grande di questa figura.
2. Ricerca di sostanze
Figura 4: Risultati della ricerca di classificazione ClassyFire. I risultati includono informazioni a livello di sostanza e il numero di registrazioni per gruppo di classificazione. Clicca qui per visualizzare una versione più grande di questa figura.
Figura 5: Risultati della ricerca dell'identificatore parziale per "trazina". La ricerca recupera sostanze con nomi preferiti o sinonimi contenenti la sottostringa "trazina". Due dei tre risultati includono "trazine" solo nei loro sinonimi, non nei loro nomi preferiti. Clicca qui per visualizzare una versione più grande di questa figura.
3. Ricerca tra i record
Figura 6: Elenco filtrato dei metodi analitici. La tabella è filtrata per analita e matrice, visualizzando solo i metodi relativi ai PFAS (sostanze per- e polifluoroalchiliche) nell'acqua. L'elenco corrispondente delle schede informative è molto simile a questo layout. Clicca qui per visualizzare una versione più grande di questa figura.
Figura 7: Risultati della ricerca per somiglianza dello spettro. Come input viene utilizzato uno spettro di caffeina dal database AMOS. Gli spettri simili sono raggruppati per sostanza, con un punteggio massimo di somiglianza di 1,0. Il grafico speculare mostra lo spettro di input (in alto) e uno spettro di database selezionato (in basso). I picchi azzurri sono univoci per l'input, i picchi arancioni per la corrispondenza del database e i picchi blu scuro sono condivisi. Clicca qui per visualizzare una versione più grande di questa figura.
Figura 8: Visualizzazione della classificazione dell'uso funzionale. La struttura gerarchica viene mostrata con il cursore che passa sopra il nodo "prodotti chimici industriali" (delineato in giallo). Le sue classi figlie sono delineate in verde. Clicca qui per visualizzare una versione più grande di questa figura.
Figura 9: Visualizzazione del grafico ternario del suolo. Il grafico mostra i dati di composizione per i campioni di terreno. Una descrizione comando in alto a destra mostra la composizione precisa dell'area attualmente sotto il cursore. Clicca qui per visualizzare una versione più grande di questa figura.
Gli screenshot di AMOS mostrati sopra mostrano i risultati tipici delle singole ricerche nell'applicazione, comprese le ricerche di sostanze di interesse e tra spettri, schede informative e metodi. La varietà di modi di interrogare la banca dati è intesa a coprire i tipi di ricerca più probabili e più utili in modo da consentire un'indagine più approfondita sui dati e sulle sostanze a cui si riferiscono.
Per facilitare la ricerca di un utente, gran parte delle funzionalità è interconnessa in modi destinati a supportare un esame più approfondito dei dati disponibili. Come flusso di lavoro di esempio, la visualizzazione della classificazione dell'uso funzionale si collega alle visualizzazioni dei metodi e alle schede informative correlate a tale classe funzionale, da cui è possibile estrarre elenchi di sostanze e inserirli nella ricerca per lotti, oppure esaminare singoli documenti e approfondire ulteriormente l'analisi delle singole sostanze in tali documenti. Poiché molte sostanze nei metodi hanno anche spettri di massa sperimentali nel database, ciò può consentire a un ricercatore di passare rapidamente da una categoria di sostanze a un insieme di metodi e spettri in grado di verificare la presenza di una sostanza specifica (vedi Figura 9).
Poiché i risultati dipenderanno in larga misura da ciò che viene cercato e dalla ricerca o dalle ricerche eseguite, è difficile definire risultati rappresentativi per l'intera applicazione. Nel complesso, potrebbe essere più accurato descrivere un "successo" in termini di esperienza utente; in tal caso, si spera che le seguenti cose siano generalmente vere: che i metodi di ricerca e filtraggio (e la capacità di spostarsi tra diverse ricerche e filtri) siano efficaci nell'identificare quali sottoinsiemi di informazioni un utente desidera; che i risultati trovati dall'utente siano accurati e utili. La Figura 10 illustra un flusso di lavoro di esempio che dimostra le funzionalità di AMOS.
Figura 10: Esempio di flusso di lavoro che dimostra le funzionalità AMOS. Il flusso di lavoro inizia con una classificazione dell'uso funzionale (farmaci respiratori), filtra i metodi relativi ai farmaci respiratori nel sangue, esamina un metodo specifico e identifica gli spettri per una sostanza inclusa in tale metodo. Clicca qui per visualizzare una versione più grande di questa figura.
Mentre molti progetti e applicazioni si concentrano sulla raccolta e la standardizzazione delle informazioni da un singolo tipo di record, come metodi, schede informative o un tipo specifico di spettri, AMOS è il primo strumento identificato che compila e integra grandi volumi di informazioni in più tipi di record. L'unificazione, l'armonizzazione e la strutturazione dei dati provenienti da queste diverse fonti si traducono in un database che può essere più facilmente incorporato nei flussi di lavoro che richiedono l'accesso alle metodologie di chimica analitica. La possibilità di eseguire ricerche nel database in diversi modi complementari consente un recupero efficiente di informazioni che altrimenti potrebbero richiedere un notevole sforzo manuale su più siti Web o strumenti.
Prima del rilascio pubblico, l'utilità di AMOS è stata dimostrata attraverso il suo utilizzo da parte del personale dell'EPA per supportare un'ampia gamma di progetti. L'EPA ha un interesse costante nell'applicazione della spettrometria di massa per l'analisi non mirata10,11 e molteplici iniziative hanno sfruttato gli spettri di massa sperimentali in AMOS per migliorare le ricerche su un'ampia libreria spettrale in silico generata da sostanze chimiche DSSTox12,13. Altri progetti hanno utilizzato la ricerca di somiglianza strutturale per identificare i punti di partenza per lo sviluppo di nuovi metodi, hanno esaminato i metodi esistenti per valutare i limiti di rilevamento e quantificazione e hanno analizzato raccolte di sostanze chimiche collegate ai metodi per valutare l'estensione della copertura dello spazio chimico.
L'aggregazione di potenziali dati di addestramento da parte di AMOS supporta ulteriormente lo sviluppo di modelli quantitativi di adattabilità per i metodi analitici14, un'esigenza fondamentale per l'avanzamento dei flussi di lavoro di analisi non mirata (NTA). Gli sforzi di curatela all'interno di AMOS facilitano anche le iniziative per modellare, esplorare e visualizzare gli spazi chimici associati alla copertura metodologica14.
Sebbene le funzionalità principali di AMOS siano mature, lo sviluppo continuo è guidato dal feedback degli utenti. Le attività attuali includono l'incorporazione di dati aggiuntivi, la cura di ulteriori metadati per un filtraggio avanzato e l'espansione delle capacità di ricerca. In collaborazione con le parti interessate dell'EPA, sono in fase di sviluppo interfacce di programmazione delle applicazioni (API) per consentire l'accesso programmatico, affrontando i casi d'uso in cui l'interfaccia utente grafica (GUI) potrebbe essere inefficiente. Nell'applicazione è stata integrata una pagina di note sulla versione per tenere traccia e comunicare gli aggiornamenti del codice nel tempo.
Attualmente vengono aggiunti nuovi record di dati e sostanze chimiche su base settimanale; Tuttavia, si prevede un programma di rilascio più lento dopo il lancio pubblico. Sebbene siano stati compiuti sforzi significativi per garantire l'accuratezza dei record e dei metadati associati, gran parte dei dati proviene da database pubblici. Pertanto, la verifica completa di ogni record non è fattibile e gli utenti devono essere consapevoli del fatto che l'accuratezza assoluta dei dati non può essere garantita.
Questo documento non rappresenta necessariamente le opinioni o le politiche dell'Agenzia per la protezione dell'ambiente degli Stati Uniti.
Gli autori ringraziano il team di curatore per tutto il loro lavoro di cura delle sostanze chimiche per il database, e Joshua Powell, Asif Rashid e Freddie Valone per il supporto tecnico nella costruzione e nell'implementazione di AMOS. Ringraziamo anche Charles Lowe per la sua revisione del manoscritto.
Name | Company | Catalog Number | Comments |
Git | N/A | https://git-scm.com/ | Open-source version control system. |
JavaScript | N/A | https://ecma-international.org/publications-and-standards/standards/ecma-262/ | Programming language. Defined by ECMA International standards. |
PostgreSQL | PostgreSQL Global Development Group | https://postgresql.org/about/licence | Open-source database management system. |
Python | Python Software Foundation | https://www.python.org/ | Open-source programming language. |
Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE
Richiedi AutorizzazioneThis article has been published
Video Coming Soon