Method Article
Este artículo describe AMOS, la base de datos de Métodos Analíticos y Espectros Abiertos basada en la web, una aplicación de quimioinformática diseñada para proporcionar a los investigadores un fácil acceso a los métodos analíticos y a los datos espectrales.
Los métodos analíticos pueden variar desde documentos regulatorios detallados hasta resúmenes más simples. Los métodos regulatorios pueden incluir información sobre analitos susceptibles, matrices compatibles, reactivos requeridos, rendimiento estadístico, validación entre laboratorios y otros detalles. Los resúmenes suelen proporcionar una descripción general de los reactivos, la instrumentación y, a menudo, una breve lista de analitos. Los métodos analíticos de los organismos gubernamentales de los EE. UU., incluida la Agencia de Protección Ambiental de EE. UU. (USEP), el Servicio Geológico de EE. UU. (USGS), el Departamento de Agricultura de EE. UU. (USDA), la Administración de Alimentos y Medicamentos (FDA) y otros, ofrecen información detallada sobre los procedimientos. Los proveedores de instrumentos como Agilent, Shimadzu, Thermo Fisher Scientific, Sciex y otros también brindan acceso a cientos de notas de aplicación, que pueden considerarse métodos de resumen. Este estudio ha desarrollado una base de datos de métodos habilitada por la quimioinformática en la que los productos químicos se extraen de documentos de métodos, con identificadores (nombres y / o números de registro del Servicio de Resúmenes Químicos (CASRN)) asignados a estructuras químicas. La base de datos resultante, que contiene aproximadamente 7.000 métodos, se puede buscar por identificador, estructura química y similitud estructural, y se complementa con aproximadamente un millón de espectros de dominio público (LC/MS, GC/MS, RMN e IR). La aplicación admite la búsqueda de métodos analíticos y el filtrado en función de los analitos, el uso funcional, las fuentes de los métodos y otros metadatos relacionados.
La entrega de datos químicos a la comunidad basada en la web se ejemplifica con aplicaciones como PubChem1, ChemSpider2 y CompTox Chemicals Dashboard (CCD)3. Se han hecho esfuerzos para hacer circular los detalles de los métodos analíticos publicados en artículos de revistas, publicados por los proveedores de instrumentos como notas técnicas de aplicación, proporcionados por agencias gubernamentales como procedimientos operativos estándar o métodos regulatorios, y emitidos por organizaciones de normalización como la Organización Internacional de Normalización (ISO). Decenas de miles de productos químicos han sido estudiados por estas fuentes bajo una amplia gama de condiciones y técnicas analíticas. Este extenso cuerpo de fuentes abarca diversas sustancias e incluye escenarios que van desde la cuantificación de un solo producto químico en una matriz específica (por ejemplo, sangre), hasta mezclas de plaguicidas y sus residuos en cultivos específicos, hasta cientos de productos químicos identificados en el agua potable. Si bien muchos métodos analíticos se pueden descubrir a través de motores de búsqueda públicos, no todos están disponibles de forma gratuita o son de acceso abierto.
Localizar información específica de interés puede ser un desafío. Los motores de búsqueda de propósito general no están optimizados para datos de química, y sus algoritmos de clasificación pueden oscurecer el contenido de alta calidad destinado a audiencias limitadas. Las búsquedas en los sitios web de revistas pueden arrojar resultados más específicos, pero el acceso a menudo es restringido, ya que solo los resúmenes están disponibles públicamente, lo que dificulta la evaluación de la utilidad de un método. Además, los parámetros críticos, como las matrices de muestras, los límites de detección y la cuantificación, a menudo no se almacenan en un formato estructurado. Otro desafío importante radica en la variación e inconsistencia de los identificadores, nombres y sinónimos químicos asociados con un solo producto químico. La falta de datos de métodos estructurados limita el desarrollo de herramientas de software que podrían aprovechar décadas de conocimiento acumulado en química analítica y publicaciones relacionadas.
Como resultado de estos desafíos y limitaciones, existe la necesidad de una aplicación curada y orientada a la química para armonizar y buscar métodos analíticos, una que no se identificó en ningún otro lugar. Para abordar esta brecha, la Agencia de Protección Ambiental de los Estados Unidos (EPA, por sus siglas en inglés) desarrolló AMOS, la base de datos de Métodos Analíticos y Espectros Abiertos y una aplicación basada en la web. En la actualidad, AMOS recopila y organiza tres tipos de registros de datos: métodos analíticos, diversos espectros analíticos y una amplia categoría de documentos complementarios denominados colectivamente hojas informativas. Cada registro está vinculado a los analitos y reactivos químicos objetivo del método. Los datos se pueden buscar de múltiples maneras, incluidas las consultas de texto, la estructura química y la similitud estructural o espectral.
La aplicación AMOS se centra principalmente en la entrega de registros de datos y acceso abiertos. En la medida de lo posible, los registros de la base de datos tienen hipervínculos a sus fuentes originales. Los registros que no están bajo licencia abierta y, por lo tanto, no se almacenan directamente en la base de datos, aún se pueden integrar y acceder a ellos a través de una URL, siempre que estén disponibles de otra manera. Esto se aplica a dos tipos de registros: los métodos analíticos que están detrás de muros de pago, generalmente de revistas u organizaciones de estándares a los que la EPA tiene acceso, y los espectros que están disponibles pero requieren acceso de inicio de sesión.
Las fuentes de datos varían en la forma en que se estructuran los registros, lo que requiere un esfuerzo sustancial de extracción y conservación para ensamblar y armonizar el contenido. La mayoría de los registros proporcionan identificadores de sustancias (por ejemplo, CASRN, DTXSID, InChIKey, nombres comunes) y, en muchos casos, la extracción es sencilla. Sin embargo, hacer coincidir estos identificadores con las estructuras químicas y los detalles de las sustancias puede ser complejo. Algunos identificadores pueden coincidir directamente con las entradas de la base de datos de la EPA Distributed Structure-Searchable Toxicity (DSSTox)4; Cuando no se encuentran coincidencias, los identificadores se vinculan a sustancias existentes o se registran nuevas sustancias. En consecuencia, la iniciativa AMOS ha llevado a la expansión de la base de datos DSSTox, mejorando los datos fundamentales que respaldan otras bases de datos y aplicaciones de la EPA, como CompTox Chemicals Dashboard3.
La curación manual es necesaria para cierta información adicional valiosa. En el caso de los métodos analíticos, los parámetros experimentales, como los límites de detección y cuantificación, la matriz de muestras y la metodología analítica, no están organizados de forma estandarizada, y las herramientas automatizadas no pueden identificar esta información debido a su almacenamiento inconsistente.
Dos elementos de la información de registro, el medio asociado con la muestra y el uso funcional del analito, son muy relevantes para los esfuerzos en curso para monitorear los problemas de peligro y exposición a los contaminantes. Como tal, se prestó considerable atención a la estructuración de estos atributos dentro de los datos de registro. Para este proyecto se desarrolló una ontología de clasificaciones de uso funcional. Esta ontología organiza los usos funcionales de las sustancias en una estructura jerárquica, que va desde los usos "padres" más generales hasta los usos "secundarios" más específicos. La ontología facilita la exploración de sustancias desde una perspectiva de aplicación, apoyando iniciativas de investigación que enfatizan los usos funcionales como un medio para evaluar la exposición y el peligro 5,6. Además, los métodos se etiquetaron de acuerdo con la categoría de medios armonizados de sus muestras, según lo especificado en la base de datos de monitoreo multimedia (MMDB) de la EPA)7. Esta categorización permite la búsqueda de sustancias químicas en función de su presencia en medios específicos, agilizando el desarrollo de soluciones centradas en la detección de sustancias químicas en muestras ambientales o biológicas específicas. Estas anotaciones mejoran la integración de AMOS en los flujos de trabajo orientados a la exposición y los peligros que se están desarrollando dentro de la EPA.
Al ensamblar los espectros, el desafío de procesar varios formatos de archivo, algunos de los cuales solo están nominalmente estandarizados, y analizar los metadatos que los acompañan a menudo requiere un manejo personalizado. En los casos en los que las colecciones espectrales están vinculadas a una publicación, es posible que sea necesario extraer manualmente los detalles documentados en la publicación para la carga de datos. Este esfuerzo ha dado como resultado una base de datos que integra y estructura estos espectros dispares, lo que permite a los investigadores evitar la necesidad de una curación laboriosa en futuros esfuerzos.
A partir de marzo de 2025, la base de datos contiene aproximadamente 935,000 espectros, de los cuales casi el 99% son espectros de masas y colecciones más pequeñas de RMN (~2,000) e IR (~400). Además, hay aproximadamente 770.000 espectros enlazados externamente (conectados a la base de datos SpectraBase8), ~36.000 hojas informativas y ~7.400 métodos analíticos. Las sustancias integradas en la aplicación son un subconjunto de las de la base de datos DSSTox, que está incorporada en el CompTox Chemicals Dashboard (CCD) y contiene más de 1,2 millones de sustancias.
La mayor parte de la funcionalidad de AMOS se puede dividir en tres categorías: búsqueda de registros para sustancias determinadas, búsqueda de ciertas colecciones de sustancias o búsqueda entre categorías de registros. Se puede acceder a todas las páginas individuales de estas funcionalidades desde la barra de navegación en la parte superior de cada página. Actualmente, la aplicación se despliega en https://hcd.rtpnc.epa.gov/#/ a través del módulo AMOS. Las herramientas de software utilizadas en este estudio se enumeran en la Tabla de Materiales.
1. Búsqueda de registros de sustancias específicas
Figura 1: Resultados de la búsqueda de registros que contengan colesterol. Una búsqueda general de "colesterol" muestra una lista de registros coincidentes en la tabla (izquierda). El espectro de masas de un registro seleccionado se muestra a la derecha. Haga clic aquí para ver una versión más grande de esta figura.
Figura 2: Interfaz de búsqueda por lotes. El campo de búsqueda contiene dos sustancias identificadas por sus DTXSID. Se seleccionan las opciones de búsqueda predeterminadas para la consulta. Haga clic aquí para ver una versión más grande de esta figura.
Figura 3: Resultados de la búsqueda de estructuras para 1P-LSD. En la tabla se enumeran los métodos que contienen sustancias estructuralmente similares. A la derecha se muestra un método seleccionado. No hay entradas en negrita en la tabla que 1P-LSD no aparece en ninguno de los métodos enumerados. Haga clic aquí para ver una versión más grande de esta figura.
2. Búsqueda de sustancias
Figura 4: Resultados de la búsqueda de la clasificación de ClassyFire. Los resultados incluyen información a nivel de sustancia y el número de registros por grupo de clasificación. Haga clic aquí para ver una versión más grande de esta figura.
Figura 5: Resultados de la búsqueda de identificadores parciales para "trazine". La búsqueda recupera sustancias con nombres preferidos o sinónimos que contienen la subcadena "trazine". Dos de los tres resultados incluyen "trazine" solo en sus sinónimos, no en sus nombres preferidos. Haga clic aquí para ver una versión más grande de esta figura.
3. Búsqueda a través de registros
Figura 6: Lista filtrada de métodos analíticos. La tabla se filtra por analito y matriz, mostrando solo los métodos relacionados con las PFAS (sustancias perfluoroalquiladas y polifluoroalquiladas) en el agua. La lista correspondiente de hojas informativas se asemeja mucho a este diseño. Haga clic aquí para ver una versión más grande de esta figura.
Figura 7: Resultados de la búsqueda de similitud de espectro. Se utiliza como entrada un espectro de cafeína de la base de datos AMOS. Los espectros similares se agrupan por sustancia, con una puntuación máxima de similitud de 1,0. El gráfico reflejado muestra el espectro de entrada (arriba) y un espectro de base de datos seleccionado (abajo). Los picos de color azul claro son exclusivos de la entrada, los picos naranjas de la base de datos coinciden y los picos de color azul oscuro se comparten. Haga clic aquí para ver una versión más grande de esta figura.
Figura 8: Visualización de la clasificación de uso funcional. La estructura jerárquica se muestra con el cursor sobre el nodo "productos químicos industriales" (delineado en amarillo). Sus clases secundarias están delineadas en verde. Haga clic aquí para ver una versión más grande de esta figura.
Figura 9: Visualización de parcelas ternarias de suelo. El gráfico muestra los datos de composición de las muestras de suelo. Una información sobre herramientas en la parte superior derecha muestra la composición precisa de la región que se encuentra actualmente bajo el cursor. Haga clic aquí para ver una versión más grande de esta figura.
Las capturas de pantalla de AMOS que se muestran arriba muestran los resultados típicos de las búsquedas individuales en la aplicación, incluidas las búsquedas de sustancias de interés y entre espectros, hojas informativas y métodos. La variedad de formas de examinar la base de datos tiene por objeto abarcar los tipos de búsqueda más probables y útiles de manera que permitan una investigación más profunda de los datos y las sustancias con las que se relacionan.
Para ayudar a un usuario en la búsqueda, gran parte de la funcionalidad está interconectada de manera que permita un examen más profundo de los datos disponibles. Como ejemplo de flujo de trabajo, la visualización de la clasificación de uso funcional se vincula a vistas de los métodos y hojas de datos que están relacionados con esa clase funcional, de las que se pueden extraer listas de sustancias e introducirlas en la búsqueda de lotes, o se pueden examinar documentos individuales, y se pueden investigar más a fondo las sustancias individuales de esos documentos. Dado que muchas sustancias en los métodos también tienen espectros de masas experimentales en la base de datos, esto puede permitir a un investigador pasar rápidamente de una categoría de sustancias a un conjunto de métodos y espectros que pueden probar la presencia de una sustancia específica (ver Figura 9).
Dado que los resultados dependerán en gran medida de lo que se busque y de la búsqueda o búsquedas que se ejecuten, es difícil definir los resultados representativos de toda la aplicación. En general, puede ser más preciso describir un "éxito" en términos de experiencia de usuario; En ese caso, se espera que lo siguiente sea generalmente cierto: Que los métodos de búsqueda y filtrado (y la capacidad de moverse entre diferentes búsquedas y filtros) sean efectivos para identificar qué subconjuntos de información desea un usuario; que los resultados que encuentre el usuario sean precisos y útiles. En la figura 10 se muestra un ejemplo de flujo de trabajo que demuestra las funcionalidades de AMOS.
Figura 10: Ejemplo de flujo de trabajo que demuestra las funcionalidades de AMOS. El flujo de trabajo comienza con una clasificación de uso funcional (medicamentos respiratorios), filtra los métodos relacionados con los medicamentos respiratorios en la sangre, examina un método específico e identifica los espectros de una sustancia incluida en ese método. Haga clic aquí para ver una versión más grande de esta figura.
Si bien muchos proyectos y aplicaciones se centran en recopilar y estandarizar información de un solo tipo de registro, como métodos, hojas informativas o un tipo específico de espectros, AMOS es la primera herramienta identificada que compila e integra grandes volúmenes de información en múltiples tipos de registros. La unificación, armonización y estructuración de los datos de estas diversas fuentes da como resultado una base de datos que puede incorporarse más fácilmente a los flujos de trabajo que requieren acceso a las metodologías de química analítica. La capacidad de buscar en la base de datos de varias maneras complementarias permite una recuperación eficiente de información que, de otro modo, podría requerir un gran esfuerzo manual en múltiples sitios web o herramientas.
Antes de su publicación pública, se demostró la utilidad de AMOS a través de su uso por parte del personal de la EPA para apoyar una amplia gama de proyectos. La EPA tiene un interés sostenido en la aplicación de la espectrometría de masas para el análisis no dirigido10,11, y múltiples iniciativas han aprovechado los espectros de masas experimentales en AMOS para mejorar las búsquedas contra una gran biblioteca espectral in silico generada a partir de productos químicos DSSTox12,13. Otros proyectos han utilizado la búsqueda de similitudes estructurales para identificar puntos de partida para el desarrollo de nuevos métodos, han examinado los métodos existentes para evaluar los límites de detección y cuantificación, y han analizado colecciones de productos químicos vinculados a métodos para evaluar el alcance de la cobertura del espacio químico.
La agregación de datos de entrenamiento potenciales de AMOS apoya aún más el desarrollo de modelos cuantitativos de flexibilidad para los métodos analíticos14, una necesidad fundamental para avanzar en los flujos de trabajo de análisis no dirigido (NTA). Los esfuerzos de curaduría dentro de AMOS también facilitan iniciativas para modelar, explorar y visualizar espacios químicos asociados con la cobertura metodológica14.
Si bien la funcionalidad principal de AMOS está madura, el desarrollo continuo se guía por los comentarios de los usuarios. Las tareas actuales incluyen la incorporación de datos adicionales, la curación de metadatos adicionales para mejorar el filtrado y la expansión de las capacidades de búsqueda. En colaboración con las partes interesadas de la EPA, se están desarrollando interfaces de programación de aplicaciones (API) para permitir el acceso programático, abordando casos de uso en los que la interfaz gráfica de usuario (GUI) puede ser ineficiente. Se ha integrado una página de notas de la versión en la aplicación para realizar un seguimiento y comunicar las actualizaciones de código a lo largo del tiempo.
En la actualidad, se añaden semanalmente nuevos registros de datos y productos químicos; Sin embargo, se anticipa un calendario de lanzamiento más lento después del lanzamiento público. Si bien se realizan esfuerzos significativos para garantizar la exactitud de los registros y los metadatos asociados, gran parte de los datos se originan en bases de datos públicas. Como tal, no es factible la verificación completa de cada registro, y los usuarios deben ser conscientes de que no se puede garantizar la exactitud absoluta de los datos.
Este documento no representa necesariamente los puntos de vista o las políticas de la Agencia de Protección Ambiental de los Estados Unidos.
Los autores agradecen al equipo de conservación por todo su trabajo de selección de productos químicos para la base de datos, y a Joshua Powell, Asif Rashid y Freddie Valone por el apoyo técnico en la construcción e implementación de AMOS. También agradecemos a Charles Lowe por su revisión del manuscrito.
Name | Company | Catalog Number | Comments |
Git | N/A | https://git-scm.com/ | Open-source version control system. |
JavaScript | N/A | https://ecma-international.org/publications-and-standards/standards/ecma-262/ | Programming language. Defined by ECMA International standards. |
PostgreSQL | PostgreSQL Global Development Group | https://postgresql.org/about/licence | Open-source database management system. |
Python | Python Software Foundation | https://www.python.org/ | Open-source programming language. |
Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos
Solicitar permisoThis article has been published
Video Coming Soon
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados