Method Article
Cet article décrit AMOS, la base de données Web Analytical Methods and Open Spectra, une application de chimioinformatique conçue pour fournir aux chercheurs un accès facile aux méthodes analytiques et aux données spectrales.
Les méthodes d’analyse peuvent aller de documents réglementaires détaillés à des résumés plus simples. Les méthodes réglementaires peuvent inclure des informations sur les analytes adaptés, les matrices prises en charge, les réactifs requis, les performances statistiques, la validation interlaboratoire et d’autres spécificités. Les résumés fournissent généralement un aperçu général des réactifs, de l’instrumentation et souvent une courte liste d’analytes. Les méthodes d’analyse des organismes gouvernementaux américains, notamment l’Agence de protection de l’environnement des États-Unis (EPA), l’US Geological Survey (USGS), le ministère de l’Agriculture des États-Unis (USDA), la Food and Drug Administration (FDA) et d’autres, offrent des informations détaillées sur les procédures. Les fournisseurs d’instruments tels qu’Agilent, Shimadzu, Thermo Fisher Scientific, Sciex et d’autres donnent également accès à des centaines de notes d’application, qui peuvent être considérées comme des méthodes sommaires. Cette étude a permis de développer une base de données chimio-informatique des méthodes dans lesquelles les produits chimiques sont extraits des documents de méthode, avec des identificateurs (noms et/ou numéros d’enregistrement du Chemical Abstracts Service (CASRN)) associés aux structures chimiques. La base de données résultante, contenant environ 7 000 méthodes, peut être consultée par identifiant, structure chimique et similitude structurelle, et est complétée par environ un million de spectres du domaine public (LC/MS, GC/MS, RMN et IR). L’application prend en charge la recherche de méthodes analytiques et le filtrage en fonction des analytes, de l’utilisation fonctionnelle, des sources de méthode et d’autres métadonnées associées.
La diffusion de données chimiques sur le Web à la communauté est illustrée par des applications telles que PubChem1, ChemSpider2 et le CompTox Chemicals Dashboard (CCD)3. Des efforts ont été faits pour diffuser les détails des méthodes analytiques publiés dans des articles de revues, publiés par les fournisseurs d’instruments sous forme de notes d’application techniques, fournis par des organismes gouvernementaux sous forme de procédures opérationnelles normalisées ou de méthodes réglementaires, et publiés par des organismes de normalisation tels que l’Organisation internationale de normalisation (ISO). Des dizaines de milliers de produits chimiques ont été étudiés par ces sources dans un large éventail de conditions et de techniques d’analyse. Ce vaste ensemble de sources couvre diverses substances et comprend des scénarios allant de la quantification d’un seul produit chimique dans une matrice spécifique (p. ex., le sang), à des mélanges de pesticides et de leurs résidus dans des cultures spécifiques, en passant par des centaines de produits chimiques identifiés dans l’eau potable. Bien que de nombreuses méthodes d’analyse puissent être découvertes via les moteurs de recherche publics, toutes ne sont pas disponibles gratuitement ou en libre accès.
Il peut être difficile de trouver des informations spécifiques d’intérêt. Les moteurs de recherche généralistes ne sont pas optimisés pour les données de chimie, et leurs algorithmes de classement peuvent masquer le contenu de haute qualité destiné à des publics restreints. Les recherches sur les sites Web des revues peuvent donner des résultats plus ciblés, mais l’accès est souvent restreint, seuls les résumés étant accessibles au public, ce qui rend difficile l’évaluation de l’utilité d’une méthode. De plus, les paramètres critiques, tels que les matrices d’échantillons, les limites de détection et la quantification, ne sont souvent pas stockés dans un format structuré. Un autre défi important réside dans la variation et l’incohérence des identificateurs chimiques, des noms et des synonymes associés à un seul produit chimique. Le manque de données méthodologiques structurées limite le développement d’outils logiciels qui pourraient tirer parti de décennies de connaissances accumulées en chimie analytique et de publications connexes.
En raison de ces défis et de ces limites, il est nécessaire de disposer d’une application organisée, axée sur la chimie, pour l’harmonisation et la recherche des méthodes analytiques, une application qui n’a pas été identifiée ailleurs. Pour combler cette lacune, l’Environmental Protection Agency des États-Unis a mis au point la base de données AMOS, Analytical Methods and Open Spectra, ainsi qu’une application Web. À l’heure actuelle, AMOS recueille et organise trois types d’enregistrements de données : des méthodes analytiques, divers spectres analytiques et une vaste catégorie de documents supplémentaires collectivement appelés fiches d’information. Chaque enregistrement est lié aux analytes et réactifs chimiques cibles de la méthode. Les données peuvent être recherchées de plusieurs façons, notamment par des requêtes textuelles, la structure chimique et la similarité structurelle ou spectrale.
L’application AMOS se concentre principalement sur la fourniture d’enregistrements de données et de libre accès. Dans la mesure du possible, les enregistrements de la base de données sont liés par hyperlien à leurs sources originales. Les enregistrements qui ne sont pas sous licence ouverte et qui ne sont donc pas stockés directement dans la base de données peuvent toujours être intégrés et accessibles via une URL, à condition qu’ils soient autrement disponibles. Cela s’applique à deux types de documents : les méthodes analytiques qui se trouvent derrière des murs payants, généralement provenant de revues ou d’organismes de normalisation auxquels l’EPA a accès, et les spectres qui sont disponibles mais nécessitent un accès de connexion.
La structure des documents varie d’une source de données à l’autre, ce qui nécessite des efforts considérables d’extraction et de conservation pour assembler et harmoniser le contenu. La plupart des dossiers fournissent des identificateurs de substances (p. ex., CASRN, DTXSID, InChIKey, noms communs) et, dans de nombreux cas, l’extraction est simple. Cependant, il peut être complexe de faire correspondre ces identificateurs aux structures chimiques et aux détails des substances. Certains identificateurs peuvent être directement associés aux entrées de la base de données DSSTox (Distributed Structure-Searchable Toxicity) de l’EPA4 ; Lorsqu’aucune correspondance n’est trouvée, les identificateurs sont liés à des substances existantes ou de nouvelles substances sont enregistrées. L’initiative AMOS a par conséquent conduit à l’expansion de la base de données DSSTox, améliorant ainsi les données de base à l’appui d’autres bases de données et applications de l’EPA, telles que le CompTox Chemicals Dashboard3.
Une sélection manuelle est nécessaire pour certaines informations supplémentaires précieuses. Pour les méthodes analytiques, les paramètres expérimentaux tels que les limites de détection et de quantification, la matrice d’échantillon et la méthodologie analytique ne sont pas organisés de manière normalisée, et les outils automatisés ne peuvent pas identifier ces informations en raison de leur stockage incohérent.
Deux éléments de l’information consignée, le milieu associé à l’échantillon et l’utilisation fonctionnelle de l’analyte, sont très pertinents pour les efforts continus de surveillance des dangers et des préoccupations d’exposition aux contaminants. Par conséquent, une attention considérable a été accordée à la structuration de ces attributs dans les données d’enregistrement. Une ontologie des classifications d’utilisation fonctionnelle a été développée pour ce projet. Cette ontologie organise les utilisations fonctionnelles des substances dans une structure hiérarchique, allant des utilisations « parentales » plus générales aux utilisations « enfants » plus spécifiques. L’ontologie facilite l’exploration des substances du point de vue de l’application, en soutenant les initiatives de recherche qui mettent l’accent sur les utilisations fonctionnelles comme moyen d’évaluer l’exposition et le danger 5,6. De plus, les méthodes ont été étiquetées en fonction de la catégorie de milieux harmonisés de leurs échantillons, comme spécifié dans la base de données de surveillance multimédia de l’EPA (MMDB)7. Cette catégorisation permet de rechercher des produits chimiques en fonction de leur présence dans des milieux spécifiques, rationalisant ainsi le développement de solutions axées sur la détection de produits chimiques dans des échantillons environnementaux ou biologiques spécifiques. Ces annotations améliorent l’intégration d’AMOS dans les flux de travail axés sur l’exposition et les dangers en cours d’élaboration au sein de l’EPA.
Lors de l’assemblage des spectres, le défi du traitement de divers formats de fichiers, dont certains ne sont que nominalement normalisés, et de l’analyse des métadonnées qui les accompagnent nécessite souvent une gestion personnalisée. Dans les cas où les collections spectrales sont liées à une publication, il peut être nécessaire d’extraire manuellement les détails documentés dans la publication pour le chargement des données. Cet effort a abouti à une base de données qui intègre et structure ces spectres disparates, permettant aux chercheurs d’éviter la nécessité d’une conservation laborieuse dans les efforts futurs.
En mars 2025, la base de données contenait environ 935 000 spectres, dont près de 99 % étaient des spectres de masse et de plus petites collections de RMN (~2 000) et d’IR (~400). De plus, il existe environ 770 000 spectres liés à l’externe (connectés à la base de données SpectraBase8), ~36 000 fiches d’information et ~7 400 méthodes d’analyse. Les substances intégrées dans l’application sont un sous-ensemble de celles de la base de données DSSTox, qui est intégrée au tableau de bord des produits chimiques CompTox (CCD) et contient plus de 1,2 million de substances.
La majorité des fonctionnalités d’AMOS peuvent être divisées en trois catégories : la recherche d’enregistrements pour des substances données, la recherche de certaines collections de substances ou la recherche parmi des catégories d’enregistrements. Les pages individuelles de ces fonctionnalités sont toutes accessibles à partir de la barre de navigation en haut de chaque page. L’application est actuellement déployée au https://hcd.rtpnc.epa.gov/#/ via le module AMOS. Les outils logiciels utilisés dans cette étude sont énumérés dans la table des matériaux.
1. Recherche d’enregistrements pour des substances spécifiques
Figure 1 : Résultats de la recherche d’enregistrements contenant du cholestérol. Une recherche générale pour « cholestérol » affiche une liste d’enregistrements correspondants dans le tableau (à gauche). Le spectre de masse d’un enregistrement sélectionné est illustré à droite. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Figure 2 : Interface de recherche par lots. Le champ de recherche contient deux substances identifiées par leur DTXSID. Les options de recherche par défaut sont sélectionnées pour la requête. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Figure 3 : Résultats de la recherche de structure pour le 1P-LSD. Le tableau énumère les méthodes contenant des substances de structure similaire. Une méthode sélectionnée est affichée sur la droite. Aucune entrée en gras dans le tableau n’indique que le 1P-LSD n’apparaît dans aucune des méthodes énumérées. Veuillez cliquer ici pour voir une version agrandie de cette figure.
2. Recherche de substances
Figure 4 : Résultats de la recherche de classification ClassyFire. Les résultats comprennent des renseignements au niveau de la substance et le nombre d’enregistrements par groupe de classification. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Figure 5 : Résultats de la recherche d’identificateur partiel pour « trazine ». La recherche permet d’extraire des substances dont les noms préférés sont utilisés ou dont les synonymes contiennent la sous-chaîne « trazine ». Deux des trois résultats incluent « trazine » uniquement dans leurs synonymes, et non dans leurs noms préférés. Veuillez cliquer ici pour voir une version agrandie de cette figure.
3. Recherche dans les documents
Figure 6 : Liste filtrée des méthodes d’analyse. Le tableau est filtré par analyte et matrice, affichant uniquement les méthodes liées aux PFAS (substances per- et polyfluoroalkylées) dans l’eau. La liste correspondante de fiches d’information ressemble beaucoup à cette mise en page. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Figure 7 : Résultats de la recherche de similarité spectrale. Un spectre de caféine de la base de données AMOS est utilisé comme entrée. Les spectres similaires sont regroupés par substance, avec un score de similarité maximal de 1,0. Le graphique en miroir montre le spectre d’entrée (en haut) et un spectre de base de données sélectionné (en bas). Les pics bleu clair sont uniques à l’entrée, les pics orange à la correspondance de base de données et les pics bleu foncé sont partagés. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Figure 8 : Visualisation de la classification de l’utilisation fonctionnelle. La structure hiérarchique est illustrée par le curseur placé sur le nœud « produits chimiques industriels » (encadré en jaune). Ses classes pour enfants sont encadrées en vert. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Figure 9 : Visualisation du graphique ternaire du sol. Le graphique affiche les données de composition des échantillons de sol. Une info-bulle en haut à droite montre la composition précise de la région actuellement sous le curseur. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Les captures d’écran d’AMOS ci-dessus montrent les résultats typiques des recherches individuelles dans l’application, y compris les recherches de substances d’intérêt et parmi les spectres, les fiches d’information et les méthodes. La variété des façons d’interroger la base de données vise à couvrir les types de recherches les plus probables et les plus utiles de manière à permettre une enquête plus approfondie sur les données et les substances auxquelles elles se rapportent.
Pour faciliter la recherche de l’utilisateur, une grande partie des fonctionnalités est interconnectée de manière à permettre un examen plus approfondi des données disponibles. À titre d’exemple de flux de travail, la visualisation de la classification de l’utilisation fonctionnelle est liée à des vues des méthodes et des fiches d’information liées à cette classe fonctionnelle, à partir desquelles des listes de substances peuvent être extraites et introduites dans la recherche par lots, ou des documents individuels peuvent être examinés, et des substances individuelles dans ces documents peuvent être étudiées plus avant. Étant donné que de nombreuses substances dans les méthodes ont également des spectres de masse expérimentaux dans la base de données, cela peut permettre à un chercheur de passer rapidement d’une catégorie de substances à un ensemble de méthodes et de spectres capables de tester la présence d’une substance spécifique (voir la figure 9).
Étant donné que les résultats dépendent fortement de ce qui est recherché et de la ou des recherches exécutées, il est difficile de définir des résultats représentatifs pour l’ensemble de l’application. Dans l’ensemble, il peut être plus exact de décrire un « succès » en termes d’expérience utilisateur ; Dans ce cas, il est à espérer que ce qui suit sera généralement vrai : que les méthodes de recherche et de filtrage (et la capacité de passer d’une recherche à l’autre et de passer d’une recherche à l’autre) sont efficaces pour identifier les sous-ensembles d’informations qu’un utilisateur souhaite ; que les résultats que l’utilisateur trouve sont exacts et utiles. La figure 10 représente un exemple de flux de travail illustrant les fonctionnalités d’AMOS.
Figure 10 : Exemple de flux de travail illustrant les fonctionnalités AMOS. Le flux de travail commence par une classification d’utilisation fonctionnelle (médicaments respiratoires), filtre les méthodes liées aux médicaments respiratoires dans le sang, examine une méthode spécifique et identifie les spectres d’une substance incluse dans cette méthode. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Alors que de nombreux projets et applications se concentrent sur la collecte et la normalisation d’informations à partir d’un seul type d’enregistrement, comme des méthodes, des fiches d’information ou un type spécifique de spectre, AMOS est le premier outil identifié qui compile et intègre de grands volumes d’informations dans plusieurs types d’enregistrements. L’unification, l’harmonisation et la structuration des données provenant de ces diverses sources se traduisent par une base de données qui peut être plus facilement intégrée dans les flux de travail nécessitant l’accès aux méthodologies de chimie analytique. La possibilité d’effectuer des recherches dans la base de données de plusieurs manières complémentaires permet de récupérer efficacement des informations qui pourraient autrement nécessiter un effort manuel considérable sur plusieurs sites Web ou outils.
Avant sa publication publique, l’utilité d’AMOS a été démontrée par son utilisation par le personnel de l’EPA pour soutenir un large éventail de projets. L’EPA s’intéresse de près à l’application de la spectrométrie de masse pour l’analyse non ciblée10,11, et de multiples initiatives ont tiré parti des spectres de masse expérimentaux d’AMOS pour améliorer les recherches par rapport à une vaste bibliothèque spectrale in silico générée à partir de produits chimiques DSSTox12,13. D’autres projets ont utilisé la recherche de similarité structurelle pour identifier les points de départ de l’élaboration de nouvelles méthodes, examiné les méthodes existantes pour évaluer les limites de détection et de quantification, et analysé des collections de produits chimiques liés à des méthodes pour évaluer l’étendue de la couverture spatiale chimique.
L’agrégation par AMOS des données d’entraînement potentielles soutient davantage le développement de modèles quantitatifs d’adaptation aux méthodes analytiques14, un besoin essentiel pour faire progresser les flux de travail d’analyse non ciblée (NTA). Les efforts de conservation au sein d’AMOS facilitent également les initiatives de modélisation, d’exploration et de visualisation des espaces chimiques associés à la couverture méthodologique14.
Bien que les fonctionnalités de base d’AMOS soient matures, le développement continu est guidé par les commentaires des utilisateurs. Les tâches actuelles comprennent l’incorporation de données supplémentaires, la conservation de métadonnées supplémentaires pour un filtrage amélioré et l’expansion des capacités de recherche. En collaboration avec les parties prenantes de l’EPA, des interfaces de programmation d’applications (API) sont en cours de développement pour permettre l’accès programmatique, répondant ainsi aux cas d’utilisation où l’interface utilisateur graphique (GUI) peut être inefficace. Une page de notes de version a été intégrée à l’application pour suivre et communiquer les mises à jour du code au fil du temps.
De nouveaux enregistrements de données et de produits chimiques sont ajoutés chaque semaine ; Cependant, un calendrier de publication plus lent est prévu après le lancement public. Bien que des efforts considérables soient déployés pour assurer l’exactitude des enregistrements et des métadonnées associées, une grande partie des données proviennent de bases de données publiques. Par conséquent, il n’est pas possible de procéder à une vérification complète de chaque enregistrement, et les utilisateurs doivent être conscients que l’exactitude absolue des données ne peut être garantie.
Ce document ne représente pas nécessairement les points de vue ou les politiques de l’Agence de protection de l’environnement des États-Unis.
Les auteurs remercient l’équipe de conservation pour tout leur travail de conservation des produits chimiques pour la base de données, ainsi que Joshua Powell, Asif Rashid et Freddie Valone pour leur soutien technique dans la construction et le déploiement d’AMOS. Nous remercions également Charles Lowe pour sa relecture du manuscrit.
Name | Company | Catalog Number | Comments |
Git | N/A | https://git-scm.com/ | Open-source version control system. |
JavaScript | N/A | https://ecma-international.org/publications-and-standards/standards/ecma-262/ | Programming language. Defined by ECMA International standards. |
PostgreSQL | PostgreSQL Global Development Group | https://postgresql.org/about/licence | Open-source database management system. |
Python | Python Software Foundation | https://www.python.org/ | Open-source programming language. |
Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE
Demande d’autorisationThis article has been published
Video Coming Soon