JoVE Logo

S'identifier

Dans cet article

  • Résumé
  • Résumé
  • Introduction
  • Protocole
  • Résultats
  • Discussion
  • Déclarations de divulgation
  • Remerciements
  • matériels
  • Références
  • Réimpressions et Autorisations

Résumé

Cet article décrit AMOS, la base de données Web Analytical Methods and Open Spectra, une application de chimioinformatique conçue pour fournir aux chercheurs un accès facile aux méthodes analytiques et aux données spectrales.

Résumé

Les méthodes d’analyse peuvent aller de documents réglementaires détaillés à des résumés plus simples. Les méthodes réglementaires peuvent inclure des informations sur les analytes adaptés, les matrices prises en charge, les réactifs requis, les performances statistiques, la validation interlaboratoire et d’autres spécificités. Les résumés fournissent généralement un aperçu général des réactifs, de l’instrumentation et souvent une courte liste d’analytes. Les méthodes d’analyse des organismes gouvernementaux américains, notamment l’Agence de protection de l’environnement des États-Unis (EPA), l’US Geological Survey (USGS), le ministère de l’Agriculture des États-Unis (USDA), la Food and Drug Administration (FDA) et d’autres, offrent des informations détaillées sur les procédures. Les fournisseurs d’instruments tels qu’Agilent, Shimadzu, Thermo Fisher Scientific, Sciex et d’autres donnent également accès à des centaines de notes d’application, qui peuvent être considérées comme des méthodes sommaires. Cette étude a permis de développer une base de données chimio-informatique des méthodes dans lesquelles les produits chimiques sont extraits des documents de méthode, avec des identificateurs (noms et/ou numéros d’enregistrement du Chemical Abstracts Service (CASRN)) associés aux structures chimiques. La base de données résultante, contenant environ 7 000 méthodes, peut être consultée par identifiant, structure chimique et similitude structurelle, et est complétée par environ un million de spectres du domaine public (LC/MS, GC/MS, RMN et IR). L’application prend en charge la recherche de méthodes analytiques et le filtrage en fonction des analytes, de l’utilisation fonctionnelle, des sources de méthode et d’autres métadonnées associées.

Introduction

La diffusion de données chimiques sur le Web à la communauté est illustrée par des applications telles que PubChem1, ChemSpider2 et le CompTox Chemicals Dashboard (CCD)3. Des efforts ont été faits pour diffuser les détails des méthodes analytiques publiés dans des articles de revues, publiés par les fournisseurs d’instruments sous forme de notes d’application techniques, fournis par des organismes gouvernementaux sous forme de procédures opérationnelles normalisées ou de méthodes réglementaires, et publiés par des organismes de normalisation tels que l’Organisation internationale de normalisation (ISO). Des dizaines de milliers de produits chimiques ont été étudiés par ces sources dans un large éventail de conditions et de techniques d’analyse. Ce vaste ensemble de sources couvre diverses substances et comprend des scénarios allant de la quantification d’un seul produit chimique dans une matrice spécifique (p. ex., le sang), à des mélanges de pesticides et de leurs résidus dans des cultures spécifiques, en passant par des centaines de produits chimiques identifiés dans l’eau potable. Bien que de nombreuses méthodes d’analyse puissent être découvertes via les moteurs de recherche publics, toutes ne sont pas disponibles gratuitement ou en libre accès.

Il peut être difficile de trouver des informations spécifiques d’intérêt. Les moteurs de recherche généralistes ne sont pas optimisés pour les données de chimie, et leurs algorithmes de classement peuvent masquer le contenu de haute qualité destiné à des publics restreints. Les recherches sur les sites Web des revues peuvent donner des résultats plus ciblés, mais l’accès est souvent restreint, seuls les résumés étant accessibles au public, ce qui rend difficile l’évaluation de l’utilité d’une méthode. De plus, les paramètres critiques, tels que les matrices d’échantillons, les limites de détection et la quantification, ne sont souvent pas stockés dans un format structuré. Un autre défi important réside dans la variation et l’incohérence des identificateurs chimiques, des noms et des synonymes associés à un seul produit chimique. Le manque de données méthodologiques structurées limite le développement d’outils logiciels qui pourraient tirer parti de décennies de connaissances accumulées en chimie analytique et de publications connexes.

En raison de ces défis et de ces limites, il est nécessaire de disposer d’une application organisée, axée sur la chimie, pour l’harmonisation et la recherche des méthodes analytiques, une application qui n’a pas été identifiée ailleurs. Pour combler cette lacune, l’Environmental Protection Agency des États-Unis a mis au point la base de données AMOS, Analytical Methods and Open Spectra, ainsi qu’une application Web. À l’heure actuelle, AMOS recueille et organise trois types d’enregistrements de données : des méthodes analytiques, divers spectres analytiques et une vaste catégorie de documents supplémentaires collectivement appelés fiches d’information. Chaque enregistrement est lié aux analytes et réactifs chimiques cibles de la méthode. Les données peuvent être recherchées de plusieurs façons, notamment par des requêtes textuelles, la structure chimique et la similarité structurelle ou spectrale.

L’application AMOS se concentre principalement sur la fourniture d’enregistrements de données et de libre accès. Dans la mesure du possible, les enregistrements de la base de données sont liés par hyperlien à leurs sources originales. Les enregistrements qui ne sont pas sous licence ouverte et qui ne sont donc pas stockés directement dans la base de données peuvent toujours être intégrés et accessibles via une URL, à condition qu’ils soient autrement disponibles. Cela s’applique à deux types de documents : les méthodes analytiques qui se trouvent derrière des murs payants, généralement provenant de revues ou d’organismes de normalisation auxquels l’EPA a accès, et les spectres qui sont disponibles mais nécessitent un accès de connexion.

La structure des documents varie d’une source de données à l’autre, ce qui nécessite des efforts considérables d’extraction et de conservation pour assembler et harmoniser le contenu. La plupart des dossiers fournissent des identificateurs de substances (p. ex., CASRN, DTXSID, InChIKey, noms communs) et, dans de nombreux cas, l’extraction est simple. Cependant, il peut être complexe de faire correspondre ces identificateurs aux structures chimiques et aux détails des substances. Certains identificateurs peuvent être directement associés aux entrées de la base de données DSSTox (Distributed Structure-Searchable Toxicity) de l’EPA4 ; Lorsqu’aucune correspondance n’est trouvée, les identificateurs sont liés à des substances existantes ou de nouvelles substances sont enregistrées. L’initiative AMOS a par conséquent conduit à l’expansion de la base de données DSSTox, améliorant ainsi les données de base à l’appui d’autres bases de données et applications de l’EPA, telles que le CompTox Chemicals Dashboard3.

Une sélection manuelle est nécessaire pour certaines informations supplémentaires précieuses. Pour les méthodes analytiques, les paramètres expérimentaux tels que les limites de détection et de quantification, la matrice d’échantillon et la méthodologie analytique ne sont pas organisés de manière normalisée, et les outils automatisés ne peuvent pas identifier ces informations en raison de leur stockage incohérent.

Deux éléments de l’information consignée, le milieu associé à l’échantillon et l’utilisation fonctionnelle de l’analyte, sont très pertinents pour les efforts continus de surveillance des dangers et des préoccupations d’exposition aux contaminants. Par conséquent, une attention considérable a été accordée à la structuration de ces attributs dans les données d’enregistrement. Une ontologie des classifications d’utilisation fonctionnelle a été développée pour ce projet. Cette ontologie organise les utilisations fonctionnelles des substances dans une structure hiérarchique, allant des utilisations « parentales » plus générales aux utilisations « enfants » plus spécifiques. L’ontologie facilite l’exploration des substances du point de vue de l’application, en soutenant les initiatives de recherche qui mettent l’accent sur les utilisations fonctionnelles comme moyen d’évaluer l’exposition et le danger 5,6. De plus, les méthodes ont été étiquetées en fonction de la catégorie de milieux harmonisés de leurs échantillons, comme spécifié dans la base de données de surveillance multimédia de l’EPA (MMDB)7. Cette catégorisation permet de rechercher des produits chimiques en fonction de leur présence dans des milieux spécifiques, rationalisant ainsi le développement de solutions axées sur la détection de produits chimiques dans des échantillons environnementaux ou biologiques spécifiques. Ces annotations améliorent l’intégration d’AMOS dans les flux de travail axés sur l’exposition et les dangers en cours d’élaboration au sein de l’EPA.

Lors de l’assemblage des spectres, le défi du traitement de divers formats de fichiers, dont certains ne sont que nominalement normalisés, et de l’analyse des métadonnées qui les accompagnent nécessite souvent une gestion personnalisée. Dans les cas où les collections spectrales sont liées à une publication, il peut être nécessaire d’extraire manuellement les détails documentés dans la publication pour le chargement des données. Cet effort a abouti à une base de données qui intègre et structure ces spectres disparates, permettant aux chercheurs d’éviter la nécessité d’une conservation laborieuse dans les efforts futurs.

En mars 2025, la base de données contenait environ 935 000 spectres, dont près de 99 % étaient des spectres de masse et de plus petites collections de RMN (~2 000) et d’IR (~400). De plus, il existe environ 770 000 spectres liés à l’externe (connectés à la base de données SpectraBase8), ~36 000 fiches d’information et ~7 400 méthodes d’analyse. Les substances intégrées dans l’application sont un sous-ensemble de celles de la base de données DSSTox, qui est intégrée au tableau de bord des produits chimiques CompTox (CCD) et contient plus de 1,2 million de substances.

Protocole

La majorité des fonctionnalités d’AMOS peuvent être divisées en trois catégories : la recherche d’enregistrements pour des substances données, la recherche de certaines collections de substances ou la recherche parmi des catégories d’enregistrements. Les pages individuelles de ces fonctionnalités sont toutes accessibles à partir de la barre de navigation en haut de chaque page. L’application est actuellement déployée au https://hcd.rtpnc.epa.gov/#/ via le module AMOS. Les outils logiciels utilisés dans cette étude sont énumérés dans la table des matériaux.

1. Recherche d’enregistrements pour des substances spécifiques

  1. Recherche générale : Effectuez une recherche générale pour obtenir une liste de tous les types de dossiers associés à une seule substance (voir la figure 1).
    1. Dans le champ de texte en haut à gauche de la barre de navigation ou dans le champ de recherche de la page d’accueil, entrez un nom de substance, un numéro CASRN, un identificateur InChIKey ou un identificateur de substance DSSTox (DTXSID). Appuyez sur Entrée ou cliquez sur Rechercher pour exécuter la recherche.
      REMARQUE : La barre de recherche sur la page d’accueil dispose d’une option supplémentaire permettant d’effectuer une recherche par sous-chaîne ; Pour plus d’informations, consultez la section sur la recherche d’identificateur partiel (étape 2.2).
    2. Si l’identificateur recherché est reconnu et correspond à une seule substance, le côté gauche de la page affichera des renseignements de base sur la substance et un tableau énumérant tous les enregistrements associés à cette substance. Sélectionnez une ligne dans cette table pour afficher l’enregistrement associé sur le côté droit de la page s’il est stocké directement dans la base de données.
    3. Si l’identificateur recherché correspond à plusieurs substances (p. ex., une abréviation utilisée pour plus d’une substance), une invite de désambiguïsation s’affichera pour permettre à l’utilisateur de sélectionner la substance qu’il souhaite voir. Sélectionnez une substance dans cette liste, et l’une d’entre elles sera redirigée vers l’affichage d’une substance reconnue.
    4. Pour filtrer le tableau des résultats, cliquez sur les onglets juste au-dessus du tableau pour filtrer par type d’enregistrement (cela masquera et affichera également différentes colonnes), saisissez du texte dans les champs en haut du tableau pour filtrer sur d’autres aspects des données, puis cochez les cases au-dessus des onglets pour filtrer sur les propriétés plus larges des données.
  2. Recherche par lots : Effectuez une recherche par lots pour générer et télécharger un fichier tableur qui répertorie les informations de tous les enregistrements de la base de données associés à une liste donnée de substances. (voir Figure 2).
    1. Dans le champ de données d’entrée, entrez une liste de DTXSID à rechercher, un par ligne. Si les DTXSID ne sont pas disponibles, utilisez le lien sur la page pour accéder à un outil CCD qui peut fournir des DTXSID avec d’autres identifiants.
    2. Utilisez les cases à cocher sous Options de recherche pour filtrer les résultats ou ajouter des informations supplémentaires aux enregistrements. Les options sont regroupées en cinq catégories : filtrage par types d’enregistrements, filtrage par méthodologies analytiques, ajout d’informations supplémentaires au niveau de la substance au fichier de résultats, ajout d’informations supplémentaires au niveau de l’enregistrement (actuellement disponibles uniquement pour les spectres de masse) et certaines options diverses.
      REMARQUE : Les options avec un trait pointillé ont un texte qui explique l’option plus en détail. Passez le curseur sur l’étiquette de l’option pour la voir.
    3. Cliquez sur Rechercher en bas de la page pour exécuter la recherche.
      REMARQUE : La feuille de calcul de sortie contient une liste d’associations d’enregistrements de substances ainsi que des identificateurs de substances, des liens vers des sources et d’autres informations de base. Si plusieurs substances ayant fait l’objet d’une recherche apparaissent dans un registre, celui-ci apparaîtra une fois pour chaque substance.
  3. Recherche de similarité structurelle : Effectuez cette recherche pour obtenir des listes de méthodes et de fiches d’information dans la base de données qui contiennent soit la substance recherchée, soit une substance avec un coefficient de similarité structurelle Tanimoto suffisamment élevé (voir figure 3).
    REMARQUE : Cette recherche peut être utile dans les cas où une substance d’intérêt n’apparaît dans aucune méthode, mais que des méthodes avec des substances très similaires pourraient potentiellement être utilisées comme référence.
    1. Entrez un DTXSID, InChIKey, un NCAS ou un nom de substance dans le champ de recherche et cliquez sur Rechercher ou appuyez sur Entrée. La recherche peut prendre de 20 à 30 secondes.
    2. Une fois la recherche terminée, un tableau à onglets apparaîtra ci-dessous. Sélectionnez un onglet pour consulter les résultats de la recherche.
      1. Les deux premiers onglets répertorient les méthodes et les fiches d’information qui ont été trouvées. Sélectionnez-en un pour afficher une vue de ce document sur le côté droit de la page. Les méthodes ou les fiches d’information qui contiennent la substance recherchée sont en caractères gras.
      2. Le troisième onglet énumère les substances similaires qui apparaissent dans les méthodes ou les fiches d’information. Sélectionnez une ligne dans le tableau pour afficher une comparaison entre la substance recherchée et celle sélectionnée dans le tableau. Si la substance recherchée elle-même a été trouvée dans des documents, elle sera en caractères gras.
      3. Utilisez le sélecteur Filtrer la similarité minimale des substances en haut pour masquer les résultats de la recherche qui ne contiennent pas de substances inférieures au seuil de similarité sélectionné.

figure-protocol-6561
Figure 1 : Résultats de la recherche d’enregistrements contenant du cholestérol. Une recherche générale pour « cholestérol » affiche une liste d’enregistrements correspondants dans le tableau (à gauche). Le spectre de masse d’un enregistrement sélectionné est illustré à droite. Veuillez cliquer ici pour voir une version agrandie de cette figure.

figure-protocol-7207
Figure 2 : Interface de recherche par lots. Le champ de recherche contient deux substances identifiées par leur DTXSID. Les options de recherche par défaut sont sélectionnées pour la requête. Veuillez cliquer ici pour voir une version agrandie de cette figure.

figure-protocol-7766
Figure 3 : Résultats de la recherche de structure pour le 1P-LSD. Le tableau énumère les méthodes contenant des substances de structure similaire. Une méthode sélectionnée est affichée sur la droite. Aucune entrée en gras dans le tableau n’indique que le 1P-LSD n’apparaît dans aucune des méthodes énumérées. Veuillez cliquer ici pour voir une version agrandie de cette figure.

2. Recherche de substances

  1. Recherche ClassyFire : Effectuez cette recherche pour répertorier toutes les substances qui appartiennent aux quatre premiers niveaux donnés d’une classification ClassyFire9 (voir Figure 4).
    1. À l’aide des quatre champs en haut de la page, sélectionnez les quatre premiers niveaux de la classification un par un. Après avoir sélectionné chacun des trois premiers, utilisez le bouton situé sous ce champ pour obtenir la liste des classifications un niveau plus bas. Pour le quatrième, le bouton ci-dessous lancera la recherche.
      REMARQUE : Une fois la recherche terminée, le tableau ci-dessous sera rempli d’une liste des substances qui existent sous cette classification. Le tableau comprend des identificateurs communs et des renseignements sur les substances, ainsi que le nombre d’enregistrements existants dans AMOS.
    2. Utilisez les boutons entre la sélection de classe et la table pour permettre quatre fonctionnalités :
      1. Cliquez sur Copier la classification dans l’URL pour copier une URL dans le presse-papiers, qui, si elle est chargée dans un nouvel onglet ou une nouvelle fenêtre du navigateur, préremplira automatiquement les niveaux de classification et lancera la recherche.
      2. Cliquez sur Réinitialiser la sélection pour réinitialiser les sélections dans les champs de classification. Il ne remet pas à zéro le tableau des substances trouvées.
      3. Cliquez sur Télécharger la table pour demander le téléchargement d’un fichier tableur contenant tous les champs et enregistrements visibles dans la table, à l’exception des images de substance. Si les filtres en haut de la table des résultats sont utilisés, les résultats téléchargés seront également filtrés, mais le contenu des filtres ne sera pas inclus.
      4. Cliquez sur Envoyer les substances sélectionnées à la recherche par lot pour ouvrir un nouvel onglet pour la recherche par lots avec le champ de liste des DTXSID préremplis avec les substances sélectionnées dans les résultats de recherche ClassyFire. La sélection des substances individuelles peut se faire à l’aide de la case à cocher dans chaque rangée ; La sélection ou la désélection de toutes les substances peut être effectuée en cochant la case dans l’en-tête du tableau. Voir l’étape 1.2 pour plus de détails sur la recherche par lots.
  2. Recherche d’identificateur partiel : Effectuez cette opération pour trouver toutes les substances qui correspondent à un identificateur non unique (voir la figure 5). Les options actuelles sont la sous-chaîne de nom (qui couvre à la fois le nom préféré par l’EPA et les synonymes courants), le premier bloc InChIKey, la formule moléculaire exacte et une gamme de masses monoisotopiques.
    1. En haut de la page, sélectionnez un identificateur et entrez les informations dans le(s) champ(s) adjacent(s).
    2. Cliquez sur Rechercher pour lancer la recherche.
    3. Une fois la recherche terminée, le tableau sera rempli d’une liste de substances qui correspondent à l’identificateur partiel, ainsi que de renseignements sur la fréquence à laquelle elles apparaissent dans la base de données d’AMOS et dans d’autres publications. Utilisez les filtres en haut des colonnes du tableau pour affiner les résultats, et utilisez la case à cocher Afficher les substances à plusieurs composants pour afficher ou masquer les substances composées de plusieurs composés.
      REMARQUE : Si une recherche de sous-chaîne de nom a été exécutée, une colonne répertoriant les synonymes trouvés apparaîtra. Si une substance n’est trouvée que par des synonymes - c’est-à-dire si le nom préféré ne contient pas la sous-chaîne - le nom préféré sera en italique.

figure-protocol-12473
Figure 4 : Résultats de la recherche de classification ClassyFire. Les résultats comprennent des renseignements au niveau de la substance et le nombre d’enregistrements par groupe de classification. Veuillez cliquer ici pour voir une version agrandie de cette figure.

figure-protocol-13039
Figure 5 : Résultats de la recherche d’identificateur partiel pour « trazine ». La recherche permet d’extraire des substances dont les noms préférés sont utilisés ou dont les synonymes contiennent la sous-chaîne « trazine ». Deux des trois résultats incluent « trazine » uniquement dans leurs synonymes, et non dans leurs noms préférés. Veuillez cliquer ici pour voir une version agrandie de cette figure.

3. Recherche dans les documents

  1. Fiche d’information et listes de méthodes : Ces pages répertorient toutes les fiches d’information et les méthodes qui se trouvent dans la base de données, avec diverses façons de les filtrer (voir la figure 6). Étant donné que la fonctionnalité des deux pages est en grande partie la même, elles sont regroupées ici.
    REMARQUE : En accédant à la page, les tables seront chargées. Cela peut prendre un certain temps en raison du nombre d’enregistrements présents.
    1. Une fois qu’une table est chargée, utilisez les entrées en haut de chaque colonne pour filtrer les données et les différents champs. Les champs exacts varient d’une table à l’autre, mais la plupart peuvent être sélectionnés ou filtrés.
    2. Utilisez le champ Filtre de table complète au-dessus de la table pour vérifier toutes les colonnes d’une certaine chaîne.
      REMARQUE : La liste des méthodes comprend deux champs qui sont masqués par défaut : auteur et éditeur. Le filtre de table complet interceptera les enregistrements qui ont le terme recherché dans l’un de ces champs.
    3. La liste des fiches d’information permet de filtrer les résultats individuels en recherchant une substance donnée. Entrez un nom de substance, un CASRN, InChIKey ou DTXSID, puis cliquez sur Rechercher pour filtrer le tableau. Cliquez sur Effacer le filtre pour effacer le filtre de substance.
      REMARQUE : Les deux tables disposent des boutons suivants : L’option Copier les filtres dans le presse-papiers copie une URL dans le presse-papiers qui, lorsqu’elle est accessible par un navigateur, charge la liste et préremplit les champs de filtre de la table avec les valeurs actuelles ; Télécharger le tableau télécharge une liste de tous les résultats et filtres visibles dans le tableau. Télécharger les substances Télécharge une liste de toutes les substances qui apparaissent dans le tableau (filtré) ; L’option Réinitialiser les filtres efface tous les filtres de table, y compris le filtre de table complet.
  2. Recherche de spectre de masse : Effectuez cette recherche pour récupérer une liste de correspondances spectrales de masse à partir de la base de données sur la base d’un spectre fourni par l’utilisateur (voir Figure 7).
    1. Remplissez ou ajustez les quatre champs de saisie obligatoires : une plage de masse pour la substance cible en Daltons, avec une marge d’erreur en Daltons ou en parties par million (ppm) ; une méthodologie, soit GC/MS ou LC/MS ; un spectre de masse, donné sous la forme d’une liste de paires charge/masse et d’intensité ; et la taille de la fenêtre de masse pour la similarité maximale.
    2. Une fois ces champs remplis, cliquez sur le bouton Rechercher en dessous d’eux.
      REMARQUE : Une fois la recherche terminée, si des spectres ont été trouvés, un tableau apparaîtra sur le côté droit de la page, énumérant les spectres qui correspondent à la méthodologie sélectionnée parmi toutes les substances qui correspondent à la gamme de masse, triés selon la similitude d’entropie entre le spectre soumis par l’utilisateur et le spectre de la base de données.
    3. Sélectionnez une ligne dans le tableau pour afficher un graphique montrant une comparaison du spectre de l’utilisateur avec le spectre de la base de données (respectivement en haut et en bas du graphique). Utilisez le champ Similarité minimale à afficher pour masquer les résultats qui sont inférieurs à une similarité d’entropie donnée.
  3. Visualisation de la classification de l’utilisation fonctionnelle : Cette page visualise l’ontologie d’utilisation fonctionnelle d’AMOS et des liens vers les méthodes et les fiches d’information pour ces classes d’utilisation. Les classes sont représentées dans un graphe orienté, avec des arêtes allant des classes parentes plus générales aux classes enfants plus spécifiques (voir Figure 8).
    1. Utilisez le champ de recherche sur le côté droit pour rechercher la liste des classes d’utilisation fonctionnelle. Passez la souris sur un nom de classe use pour mettre en surbrillance le nœud correspondant dans le graphique.
    2. Si vous examinez le graphique directement, passez la souris sur un nœud spécifié pour afficher une brève description de cette classe, ainsi que pour mettre en évidence les classes parentes ou enfants directes de ce nœud.
    3. Cliquez avec le bouton droit de la souris sur le nom d’une classe dans la liste sur le côté droit de la page ou sur un nœud dans le graphique pour faire apparaître un menu avec des options pour les listes de méthodes et de fiches d’information. Sélectionnez l’un d’entre eux, et un nouvel onglet du navigateur s’ouvrira dans cette liste, avec le champ de classe fonctionnelle pré-filtré avec la classe fonctionnelle sélectionnée.
  4. Graphique ternaire du sol : Cette page recrée la classification de la texture du sol du ministère de l’Agriculture des États-Unis, ce qui permet de rechercher les méthodes d’AMOS par type de sol.
    1. Survolez la région de la parcelle pour voir les détails de sa composition.
    2. Cliquez sur une région du graphique pour ouvrir un nouvel onglet dans la liste des méthodes avec le champ de matrice préfiltré sur la classification de sol sélectionnée.

figure-protocol-19500
Figure 6 : Liste filtrée des méthodes d’analyse. Le tableau est filtré par analyte et matrice, affichant uniquement les méthodes liées aux PFAS (substances per- et polyfluoroalkylées) dans l’eau. La liste correspondante de fiches d’information ressemble beaucoup à cette mise en page. Veuillez cliquer ici pour voir une version agrandie de cette figure.

figure-protocol-20152
Figure 7 : Résultats de la recherche de similarité spectrale. Un spectre de caféine de la base de données AMOS est utilisé comme entrée. Les spectres similaires sont regroupés par substance, avec un score de similarité maximal de 1,0. Le graphique en miroir montre le spectre d’entrée (en haut) et un spectre de base de données sélectionné (en bas). Les pics bleu clair sont uniques à l’entrée, les pics orange à la correspondance de base de données et les pics bleu foncé sont partagés. Veuillez cliquer ici pour voir une version agrandie de cette figure.

figure-protocol-21007
Figure 8 : Visualisation de la classification de l’utilisation fonctionnelle. La structure hiérarchique est illustrée par le curseur placé sur le nœud « produits chimiques industriels » (encadré en jaune). Ses classes pour enfants sont encadrées en vert. Veuillez cliquer ici pour voir une version agrandie de cette figure.

figure-protocol-21629
Figure 9 : Visualisation du graphique ternaire du sol. Le graphique affiche les données de composition des échantillons de sol. Une info-bulle en haut à droite montre la composition précise de la région actuellement sous le curseur. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Résultats

Les captures d’écran d’AMOS ci-dessus montrent les résultats typiques des recherches individuelles dans l’application, y compris les recherches de substances d’intérêt et parmi les spectres, les fiches d’information et les méthodes. La variété des façons d’interroger la base de données vise à couvrir les types de recherches les plus probables et les plus utiles de manière à permettre une enquête plus approfondie sur les données et les substances auxquelles elles se rapportent.

Pour faciliter la recherche de l’utilisateur, une grande partie des fonctionnalités est interconnectée de manière à permettre un examen plus approfondi des données disponibles. À titre d’exemple de flux de travail, la visualisation de la classification de l’utilisation fonctionnelle est liée à des vues des méthodes et des fiches d’information liées à cette classe fonctionnelle, à partir desquelles des listes de substances peuvent être extraites et introduites dans la recherche par lots, ou des documents individuels peuvent être examinés, et des substances individuelles dans ces documents peuvent être étudiées plus avant. Étant donné que de nombreuses substances dans les méthodes ont également des spectres de masse expérimentaux dans la base de données, cela peut permettre à un chercheur de passer rapidement d’une catégorie de substances à un ensemble de méthodes et de spectres capables de tester la présence d’une substance spécifique (voir la figure 9).

Étant donné que les résultats dépendent fortement de ce qui est recherché et de la ou des recherches exécutées, il est difficile de définir des résultats représentatifs pour l’ensemble de l’application. Dans l’ensemble, il peut être plus exact de décrire un « succès » en termes d’expérience utilisateur ; Dans ce cas, il est à espérer que ce qui suit sera généralement vrai : que les méthodes de recherche et de filtrage (et la capacité de passer d’une recherche à l’autre et de passer d’une recherche à l’autre) sont efficaces pour identifier les sous-ensembles d’informations qu’un utilisateur souhaite ; que les résultats que l’utilisateur trouve sont exacts et utiles. La figure 10 représente un exemple de flux de travail illustrant les fonctionnalités d’AMOS.

figure-results-2463
Figure 10 : Exemple de flux de travail illustrant les fonctionnalités AMOS. Le flux de travail commence par une classification d’utilisation fonctionnelle (médicaments respiratoires), filtre les méthodes liées aux médicaments respiratoires dans le sang, examine une méthode spécifique et identifie les spectres d’une substance incluse dans cette méthode. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Discussion

Alors que de nombreux projets et applications se concentrent sur la collecte et la normalisation d’informations à partir d’un seul type d’enregistrement, comme des méthodes, des fiches d’information ou un type spécifique de spectre, AMOS est le premier outil identifié qui compile et intègre de grands volumes d’informations dans plusieurs types d’enregistrements. L’unification, l’harmonisation et la structuration des données provenant de ces diverses sources se traduisent par une base de données qui peut être plus facilement intégrée dans les flux de travail nécessitant l’accès aux méthodologies de chimie analytique. La possibilité d’effectuer des recherches dans la base de données de plusieurs manières complémentaires permet de récupérer efficacement des informations qui pourraient autrement nécessiter un effort manuel considérable sur plusieurs sites Web ou outils.

Avant sa publication publique, l’utilité d’AMOS a été démontrée par son utilisation par le personnel de l’EPA pour soutenir un large éventail de projets. L’EPA s’intéresse de près à l’application de la spectrométrie de masse pour l’analyse non ciblée10,11, et de multiples initiatives ont tiré parti des spectres de masse expérimentaux d’AMOS pour améliorer les recherches par rapport à une vaste bibliothèque spectrale in silico générée à partir de produits chimiques DSSTox12,13. D’autres projets ont utilisé la recherche de similarité structurelle pour identifier les points de départ de l’élaboration de nouvelles méthodes, examiné les méthodes existantes pour évaluer les limites de détection et de quantification, et analysé des collections de produits chimiques liés à des méthodes pour évaluer l’étendue de la couverture spatiale chimique.

L’agrégation par AMOS des données d’entraînement potentielles soutient davantage le développement de modèles quantitatifs d’adaptation aux méthodes analytiques14, un besoin essentiel pour faire progresser les flux de travail d’analyse non ciblée (NTA). Les efforts de conservation au sein d’AMOS facilitent également les initiatives de modélisation, d’exploration et de visualisation des espaces chimiques associés à la couverture méthodologique14.

Bien que les fonctionnalités de base d’AMOS soient matures, le développement continu est guidé par les commentaires des utilisateurs. Les tâches actuelles comprennent l’incorporation de données supplémentaires, la conservation de métadonnées supplémentaires pour un filtrage amélioré et l’expansion des capacités de recherche. En collaboration avec les parties prenantes de l’EPA, des interfaces de programmation d’applications (API) sont en cours de développement pour permettre l’accès programmatique, répondant ainsi aux cas d’utilisation où l’interface utilisateur graphique (GUI) peut être inefficace. Une page de notes de version a été intégrée à l’application pour suivre et communiquer les mises à jour du code au fil du temps.

De nouveaux enregistrements de données et de produits chimiques sont ajoutés chaque semaine ; Cependant, un calendrier de publication plus lent est prévu après le lancement public. Bien que des efforts considérables soient déployés pour assurer l’exactitude des enregistrements et des métadonnées associées, une grande partie des données proviennent de bases de données publiques. Par conséquent, il n’est pas possible de procéder à une vérification complète de chaque enregistrement, et les utilisateurs doivent être conscients que l’exactitude absolue des données ne peut être garantie.

Déclarations de divulgation

Ce document ne représente pas nécessairement les points de vue ou les politiques de l’Agence de protection de l’environnement des États-Unis.

Remerciements

Les auteurs remercient l’équipe de conservation pour tout leur travail de conservation des produits chimiques pour la base de données, ainsi que Joshua Powell, Asif Rashid et Freddie Valone pour leur soutien technique dans la construction et le déploiement d’AMOS. Nous remercions également Charles Lowe pour sa relecture du manuscrit.

matériels

NameCompanyCatalog NumberComments
GitN/Ahttps://git-scm.com/Open-source version control system.
JavaScriptN/Ahttps://ecma-international.org/publications-and-standards/standards/ecma-262/Programming language.  Defined by ECMA International standards.
PostgreSQLPostgreSQL Global Development Grouphttps://postgresql.org/about/licenceOpen-source database management system.
PythonPython Software Foundationhttps://www.python.org/Open-source programming language.

Références

Réimpressions et Autorisations

Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE

Demande d’autorisation

Explorer plus d’articles

Chimienum ro 220

This article has been published

Video Coming Soon

JoVE Logo

Confidentialité

Conditions d'utilisation

Politiques

Recherche

Enseignement

À PROPOS DE JoVE

Copyright © 2025 MyJoVE Corporation. Tous droits réservés.