Method Article
Este artigo descreve o AMOS, o banco de dados Analytical Methods and Open Spectra baseado na web, um aplicativo de quimioinformática projetado para fornecer aos pesquisadores acesso fácil a métodos analíticos e dados espectrais.
Os métodos analíticos podem variar de documentos regulatórios detalhados a resumos mais simples. Os métodos regulatórios podem incluir informações sobre analitos passíveis, matrizes suportadas, reagentes necessários, desempenho estatístico, validação interlaboratorial e outros detalhes. Os resumos geralmente fornecem uma visão geral dos reagentes, instrumentação e, muitas vezes, uma pequena lista de analitos. Métodos analíticos de órgãos governamentais dos EUA, incluindo a Agência de Proteção Ambiental dos EUA (USAPE), o Serviço Geológico dos EUA (USGS), o Departamento de Agricultura dos EUA (USDA), a Food and Drug Administration (FDA) e outros, oferecem informações detalhadas sobre os procedimentos. Fornecedores de instrumentos como Agilent, Shimadzu, Thermo Fisher Scientific, Sciex e outros também fornecem acesso a centenas de notas de aplicação, que podem ser consideradas métodos resumidos. Este estudo desenvolveu um banco de dados habilitado para quimioinformática de métodos nos quais os produtos químicos são extraídos de documentos de método, com identificadores (nomes e/ou números de registro do Chemical Abstracts Service (CASRN)) mapeados para estruturas químicas. O banco de dados resultante, contendo aproximadamente 7.000 métodos, pode ser pesquisado por identificador, estrutura química e similaridade estrutural, e é complementado por aproximadamente um milhão de espectros de domínio público (LC/MS, GC/MS, RMN e IR). O aplicativo suporta pesquisa de métodos analíticos e filtragem com base em analitos, uso funcional, fontes de método e outros metadados relacionados.
A entrega de dados químicos baseada na Web para a comunidade é exemplificada por aplicativos como PubChem1, ChemSpider2 e CompTox Chemicals Dashboard (CCD)3. Esforços têm sido feitos para divulgar detalhes de métodos analíticos publicados em artigos de periódicos, divulgados por fornecedores de instrumentos como notas técnicas de aplicação, fornecidos por agências governamentais como procedimentos operacionais padrão ou métodos regulatórios e emitidos por organizações de padronização, como a Organização Internacional de Padronização (ISO). Dezenas de milhares de produtos químicos foram estudados por essas fontes sob uma ampla gama de condições e técnicas analíticas. Esse extenso corpo de fontes abrange diversas substâncias e inclui cenários que vão desde a quantificação de um único produto químico em uma matriz específica (por exemplo, sangue), até misturas de pesticidas e seus resíduos em culturas específicas, até centenas de produtos químicos identificados na água potável. Embora muitos métodos analíticos possam ser descobertos por meio de mecanismos de pesquisa públicos, nem todos estão disponíveis gratuitamente ou em acesso aberto.
Localizar informações específicas de interesse pode ser um desafio. Os mecanismos de pesquisa de uso geral não são otimizados para dados químicos e seus algoritmos de classificação podem obscurecer o conteúdo de alta qualidade destinado a públicos restritos. As pesquisas em sites de periódicos podem produzir resultados mais direcionados, mas o acesso geralmente é restrito, com apenas resumos disponíveis publicamente, dificultando a avaliação da utilidade de um método. Além disso, parâmetros críticos - como matrizes de amostra, limites de detecção e quantificação - geralmente não são armazenados em um formato estruturado. Outro desafio significativo reside na variação e inconsistência de identificadores químicos, nomes e sinônimos associados a um único produto químico. A falta de dados de métodos estruturados limita o desenvolvimento de ferramentas de software que poderiam alavancar décadas de conhecimento acumulado de química analítica e publicações relacionadas.
Como resultado desses desafios e limitações, há a necessidade de uma aplicação com curadoria e orientada para a química para harmonizar e pesquisar métodos analíticos - um que não foi identificado em nenhum outro lugar. Para resolver essa lacuna, a Agência de Proteção Ambiental dos EUA desenvolveu o AMOS, o banco de dados de Métodos Analíticos e Espectros Abertos e um aplicativo baseado na web. Atualmente, o AMOS coleta e organiza três tipos de registros de dados: métodos analíticos, vários espectros analíticos e uma ampla categoria de documentos suplementares coletivamente chamados de fichas técnicas. Cada registro está vinculado aos analitos e reagentes químicos alvo do método. Os dados podem ser pesquisados de várias maneiras, inclusive por consultas de texto, estrutura química e semelhança estrutural ou espectral.
O aplicativo AMOS se concentra principalmente no fornecimento de acesso aberto e registros de dados abertos. Sempre que possível, os registros no banco de dados são hipervinculados às suas fontes originais. Os registros que não estão sob licenciamento aberto e, portanto, não armazenados diretamente no banco de dados ainda podem ser integrados e acessados via URL, desde que estejam disponíveis de outra forma. Isso se aplica a dois tipos de registros: métodos analíticos que estão por trás de paywalls, normalmente de periódicos ou organizações de padrões aos quais a EPA tem acesso, e espectros que estão disponíveis, mas exigem acesso de login.
As fontes de dados variam na forma como os registros são estruturados, exigindo um esforço substancial de extração e curadoria para reunir e harmonizar o conteúdo. A maioria dos registros fornece identificadores de substância (por exemplo, CASRN, DTXSID, InChIKey, nomes comuns) e, em muitos casos, a extração é direta. No entanto, combinar esses identificadores com estruturas químicas e detalhes de substâncias pode ser complexo. Alguns identificadores podem ser combinados diretamente com entradas no banco de dados de Toxicidade Pesquisável de Estrutura Distribuída (DSSTox) da EPA4; Quando não são encontradas correspondências, os identificadores são vinculados a substâncias existentes ou novas substâncias são registradas. A iniciativa AMOS consequentemente levou à expansão do banco de dados DSSTox, melhorando os dados fundamentais que suportam outros bancos de dados e aplicativos da EPA, como o CompTox Chemicals Dashboard3.
A curadoria manual é necessária para certas informações adicionais valiosas. Para métodos analíticos, parâmetros experimentais como limites de detecção e quantificação, matriz amostral e metodologia analítica não são organizados de forma padronizada, e ferramentas automatizadas não podem identificar essas informações devido ao seu armazenamento inconsistente.
Dois elementos das informações de registro, a mídia associada à amostra e o uso funcional do analito, são altamente relevantes para os esforços contínuos para monitorar as preocupações de perigo e exposição de contaminantes. Como tal, foi dada atenção considerável à estruturação desses atributos dentro dos dados do registro. Uma ontologia de classificações de uso funcional foi desenvolvida para este projeto. Essa ontologia organiza os usos funcionais das substâncias em uma estrutura hierárquica, variando de usos "pais" mais gerais a usos "filhos" mais específicos. A ontologia facilita a exploração de substâncias a partir de uma perspectiva de aplicação, apoiando iniciativas de pesquisa que enfatizam os usos funcionais como meio de avaliar a exposição e o perigo 5,6. Além disso, os métodos foram rotulados de acordo com a categoria de mídia harmonizada de suas amostras, conforme especificado no banco de dados de monitoramento multimídia (MMDB) da EPA7. Essa categorização permite a busca de produtos químicos com base em sua ocorrência em meios específicos, agilizando o desenvolvimento de soluções focadas na detecção de produtos químicos em amostras ambientais ou biológicas específicas. Essas anotações aprimoram a integração do AMOS em fluxos de trabalho orientados a exposição e risco em desenvolvimento na EPA.
Na montagem dos espectros, o desafio de processar vários formatos de arquivo - alguns dos quais são apenas nominalmente padronizados - e analisar os metadados que os acompanham geralmente requer tratamento personalizado. Nos casos em que as coleções espectrais estão vinculadas a uma publicação, os detalhes documentados na publicação podem precisar ser extraídos manualmente para o carregamento de dados. Esse esforço resultou em um banco de dados que integra e estrutura esses espectros díspares, permitindo que os pesquisadores evitem a necessidade de curadoria trabalhosa em empreendimentos futuros.
Em março de 2025, o banco de dados continha aproximadamente 935.000 espectros, com quase 99% sendo espectros de massa e coleções menores de RMN (~ 2.000) e IR (~ 400). Além disso, existem aproximadamente 770.000 espectros vinculados externamente (conectados ao banco de dados SpectraBase8), ~ 36.000 fichas técnicas e ~ 7.400 métodos analíticos. As substâncias integradas no aplicativo são um subconjunto daquelas do banco de dados DSSTox, que é incorporado ao CompTox Chemicals Dashboard (CCD) e contém mais de 1,2 milhão de substâncias.
A maior parte da funcionalidade do AMOS pode ser dividida em três categorias: pesquisa de registros para determinadas substâncias, pesquisa de certas coleções de substâncias ou pesquisa entre categorias de registros. As páginas individuais para essas funcionalidades podem ser acessadas na barra de navegação na parte superior de cada página. O aplicativo está atualmente implantado no https://hcd.rtpnc.epa.gov/#/ por meio do módulo AMOS. As ferramentas de software utilizadas neste estudo estão listadas na Tabela de Materiais.
1. Busca de registros de substâncias específicas
Figura 1: Resultados da pesquisa de registros contendo colesterol. Uma pesquisa geral por "colesterol" exibe uma lista de registros correspondentes na tabela (à esquerda). O espectro de massa de um registro selecionado é mostrado à direita. Clique aqui para ver uma versão maior desta figura.
Figura 2: Interface de pesquisa em lote. O campo de pesquisa contém duas substâncias identificadas por seus DTXSIDs. As opções de pesquisa padrão são selecionadas para a consulta. Clique aqui para ver uma versão maior desta figura.
Figura 3: Resultados da pesquisa de estrutura para 1P-LSD. O quadro enumera os métodos que contêm substâncias estruturalmente semelhantes. Um método selecionado é exibido à direita. Nenhuma entrada em negrito na tabela indica que o 1P-LSD não aparece em nenhum método listado. Clique aqui para ver uma versão maior desta figura.
2. Busca de substâncias
Figura 4: Resultados da pesquisa de classificação do ClassyFire. Os resultados incluem informações em nível de substância e o número de registros por grupo de classificação. Clique aqui para ver uma versão maior desta figura.
Figura 5: Resultados da pesquisa de identificador parcial para "trazina". A pesquisa recupera substâncias com nomes preferenciais ou sinônimos contendo a substring "trazina". Dois dos três resultados incluem "trazine" apenas em seus sinônimos, não em seus nomes preferidos. Clique aqui para ver uma versão maior desta figura.
3. Pesquisando registros
Figura 6: Lista filtrada de métodos analíticos. A tabela é filtrada por analito e matriz, exibindo apenas métodos relacionados a PFAS (substâncias per e polifluoroalquil) em água. A lista correspondente de fichas técnicas se assemelha muito a esse layout. Clique aqui para ver uma versão maior desta figura.
Figura 7: Resultados da pesquisa de similaridade de espectro. Um espectro de cafeína do banco de dados AMOS é usado como entrada. Espectros semelhantes são agrupados por substância, com uma pontuação máxima de similaridade de 1,0. A plotagem espelhada mostra o espectro de entrada (superior) e um espectro de banco de dados selecionado (inferior). Os picos azuis claros são exclusivos da entrada, os picos laranja correspondem à correspondência do banco de dados e os picos azuis escuros são compartilhados. Clique aqui para ver uma versão maior desta figura.
Figura 8: Visualização da classificação de uso funcional. A estrutura hierárquica é mostrada com o cursor pairando sobre o nó "produtos químicos industriais" (destacado em amarelo). Suas classes filhas são destacadas em verde. Clique aqui para ver uma versão maior desta figura.
Figura 9: Visualização do gráfico ternário do solo. O gráfico exibe dados de composição para amostras de solo. Uma dica de ferramenta no canto superior direito mostra a composição precisa da região atualmente sob o cursor. Clique aqui para ver uma versão maior desta figura.
As capturas de tela do AMOS mostradas acima mostram resultados típicos das pesquisas individuais no aplicativo, incluindo pesquisas por substâncias de interesse e entre espectros, fichas técnicas e métodos. A variedade de maneiras de interrogar o banco de dados destina-se a cobrir os tipos de pesquisas mais prováveis e úteis de maneiras que permitam uma investigação mais profunda dos dados e das substâncias a que se referem.
Para auxiliar a pesquisa de um usuário, grande parte da funcionalidade é interconectada de maneiras destinadas a dar suporte a um exame mais profundo dos dados disponíveis. Como exemplo de fluxo de trabalho, a visualização de classificação de uso funcional é vinculada a exibições dos métodos e fichas técnicas relacionadas a essa classe funcional, a partir das quais listas de substâncias podem ser extraídas e inseridas na pesquisa em lote, ou documentos individuais podem ser examinados e substâncias individuais nesses documentos podem ser investigadas mais detalhadamente. Como muitas substâncias em métodos também têm espectros de massa experimentais no banco de dados, isso pode permitir que um pesquisador passe rapidamente de uma categoria de substâncias para um conjunto de métodos e espectros que podem testar a presença de uma substância específica (ver Figura 9).
Como os resultados dependerão muito do que está sendo pesquisado e de qual pesquisa ou pesquisas são executadas, os resultados representativos de todo o aplicativo são difíceis de definir. No geral, pode ser mais preciso descrever um "sucesso" em termos de experiência do usuário; nesse caso, espera-se que o seguinte seja geralmente verdadeiro: Que os métodos de pesquisa e filtragem (e a capacidade de se mover entre diferentes pesquisas e filtros) sejam eficazes na identificação de quais subconjuntos de informações um usuário deseja; que os resultados que o usuário encontra são precisos e úteis. A Figura 10 mostra um exemplo de fluxo de trabalho demonstrando as funcionalidades do AMOS.
Figura 10: Exemplo de fluxo de trabalho demonstrando as funcionalidades do AMOS. O fluxo de trabalho começa com uma classificação de uso funcional (medicamentos respiratórios), filtra métodos relacionados a medicamentos respiratórios no sangue, examina um método específico e identifica espectros para uma substância incluída nesse método. Clique aqui para ver uma versão maior desta figura.
Embora muitos projetos e aplicativos se concentrem na coleta e padronização de informações de um único tipo de registro, como métodos, fichas técnicas ou um tipo específico de espectro, o AMOS é a primeira ferramenta identificada que compila e integra grandes volumes de informações em vários tipos de registro. A unificação, harmonização e estruturação de dados dessas diversas fontes resultam em um banco de dados que pode ser mais prontamente incorporado a fluxos de trabalho que exigem acesso a metodologias de química analítica. A capacidade de pesquisar o banco de dados de várias maneiras complementares permite a recuperação eficiente de informações que, de outra forma, exigiriam um grande esforço manual em vários sites ou ferramentas.
Antes do lançamento público, a utilidade do AMOS foi demonstrada por meio de seu uso pela equipe da EPA para apoiar uma ampla gama de projetos. A EPA tem um interesse sustentado na aplicação de espectrometria de massa para análise não direcionada10,11, e várias iniciativas alavancaram os espectros de massa experimentais no AMOS para aprimorar as pesquisas contra uma grande biblioteca espectral in silico gerada a partir de produtos químicos DSSTox12,13. Outros projetos usaram a pesquisa de similaridade estrutural para identificar pontos de partida para o desenvolvimento de novos métodos, examinaram métodos existentes para avaliar os limites de detecção e quantificação e analisaram coleções de produtos químicos ligados a métodos para avaliar a extensão da cobertura do espaço químico.
A agregação de dados de treinamento potencial do AMOS apóia ainda mais o desenvolvimento de modelos quantitativos de amenabilidade para métodos analíticos14, uma necessidade central para o avanço dos fluxos de trabalho de análise não direcionada (NTA). Os esforços de curadoria dentro do AMOS também facilitam iniciativas para modelar, explorar e visualizar espaços químicos associados à cobertura metodológica14.
Embora a funcionalidade principal do AMOS esteja madura, o desenvolvimento contínuo é guiado pelo feedback do usuário. As tarefas atuais incluem a incorporação de dados adicionais, a curadoria de metadados adicionais para filtragem aprimorada e a expansão dos recursos de pesquisa. Em colaboração com as partes interessadas da EPA, interfaces de programação de aplicativos (APIs) estão em desenvolvimento para permitir o acesso programático, abordando casos de uso em que a interface gráfica do usuário (GUI) pode ser ineficiente. Uma página de notas de versão foi integrada ao aplicativo para rastrear e comunicar atualizações de código ao longo do tempo.
Novos registros de dados e produtos químicos são adicionados semanalmente; no entanto, um cronograma de lançamento mais lento é esperado após o lançamento público. Embora um esforço significativo seja feito para garantir a precisão dos registros e metadados associados, muitos dos dados se originam de bancos de dados públicos. Como tal, a verificação completa de todos os registros não é viável e os usuários devem estar cientes de que a precisão absoluta dos dados não pode ser garantida.
Este artigo não representa necessariamente os pontos de vista ou políticas da Agência de Proteção Ambiental dos EUA.
Os autores agradecem à equipe de curadoria por todo o seu trabalho de curadoria de produtos químicos para o banco de dados, e a Joshua Powell, Asif Rashid e Freddie Valone pelo suporte técnico na construção e implantação do AMOS. Também agradecemos a Charles Lowe por sua revisão do manuscrito.
Name | Company | Catalog Number | Comments |
Git | N/A | https://git-scm.com/ | Open-source version control system. |
JavaScript | N/A | https://ecma-international.org/publications-and-standards/standards/ecma-262/ | Programming language. Defined by ECMA International standards. |
PostgreSQL | PostgreSQL Global Development Group | https://postgresql.org/about/licence | Open-source database management system. |
Python | Python Software Foundation | https://www.python.org/ | Open-source programming language. |
Solicitar permissão para reutilizar o texto ou figuras deste artigo JoVE
Solicitar PermissãoThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Todos os direitos reservados