Method Article
本文介绍了 AMOS,这是一个基于 Web 的分析方法和 Open Spectra 数据库,这是一个化学信息学应用程序,旨在让研究人员能够轻松访问分析方法和光谱数据。
分析方法的范围可以从详细的监管文件到更简单的摘要。监管方法可能包括有关适合分析物、支持的基质、所需试剂、统计性能、实验室间验证和其他细节的信息。摘要通常提供试剂、仪器的一般概述,通常还提供简短的分析物列表。美国政府机构(包括美国环境保护署 (USPA)、美国地质调查局 (USGS)、美国农业部 (USDA)、食品和药物管理局 (FDA) 等)的分析方法提供了详细的程序信息。Agilent、Shimadzu、Thermo Fisher Scientific、Sciex 等仪器供应商也提供数百份应用简报,这些简报可被视为汇总方法。本研究开发了一个支持化学信息学的方法数据库,其中化学物质从方法文件中提取,并将标识符(名称和/或化学文摘社登记号 (CASRN))映射到化学结构。生成的数据库包含大约 7,000 种方法,可按标识符、化学结构和结构相似性进行搜索,并辅以大约 100 万张公共领域谱图(LC/MS、GC/MS、NMR 和 IR)。该应用程序支持搜索分析方法,并根据分析物、功能使用情况、方法来源和其他相关元数据进行过滤。
PubChem1、ChemSpider2 和 CompTox Chemicals Dashboard (CCD)3 等应用程序就是向社区提供基于 Web 的化学数据的示例。已努力传播期刊文章中发表的分析方法详细信息,这些细节由仪器供应商作为技术应用说明发布,由政府机构作为标准作程序或监管方法提供,并由国际标准化组织 (ISO) 等标准组织发布。这些来源已经在各种条件和分析技术下研究了数以万计的化学品。这些广泛的来源涵盖了多种物质,包括从特定基质(例如血液)中单一化学物质的定量,到特定作物中的农药及其残留物的混合物,再到饮用水中鉴定的数百种化学物质。虽然许多分析方法 可以通过公共搜索引擎 发现,但并非所有方法都是免费提供或开放获取的。
查找感兴趣的特定信息可能具有挑战性。通用搜索引擎没有针对化学数据进行优化,它们的排名算法可能会掩盖面向狭小受众的高质量内容。跨期刊网站搜索可以产生更有针对性的结果,但访问通常受到限制,只有摘要公开可用,因此很难评估方法的有用性。此外,关键参数(如样品基质、检测限和定量)通常不会以结构化格式存储。另一个重大挑战在于与单一化学品相关的化学标识符、名称和同义词的变化和不一致。缺乏结构化方法数据限制了可以利用数十年积累的分析化学知识和相关出版物的软件工具的开发。
由于这些挑战和限制,需要一个精心策划的、以化学为导向的应用程序来协调和搜索分析方法——一个在其他地方没有发现的应用程序。为了解决这一差距,美国环境保护署开发了 AMOS、分析方法和开放光谱数据库以及基于 Web 的应用程序。AMOS 目前收集和组织三种类型的数据记录:分析方法、各种分析光谱和一大类统称为情况说明书的补充文件。每条记录都与方法的目标化学分析物和试剂相关联。数据可通过多种方式进行搜索,包括文本查询、化学结构以及结构或光谱相似性。
AMOS 应用程序主要专注于提供开放访问和开放数据记录。在可能的情况下,数据库中的记录将超链接到其原始来源。未采用开放许可且因此不直接存储在数据库中的记录仍 可通过 URL 集成 和访问,前提是它们在其他方面可用。这适用于两种类型的记录:付费墙后面的分析方法,通常来自 EPA 有权访问的期刊或标准组织,以及可用但需要登录访问权限的光谱。
数据源在记录的结构上各不相同,因此需要在提取和管理方面付出大量努力来组合和协调内容。大多数记录都提供物质标识符(例如 CASRN、DTXSID、InChIKey、通用名称),在许多情况下,提取非常简单。然而,将这些标识符与化学结构和物质详细信息进行匹配可能很复杂。一些标识符可以直接与 EPA 的分布式结构可搜索毒性 (DSSTox) 数据库中的条目匹配4;如果未找到匹配项,则标识符将与现有物质相关联,或者注册新物质。因此,AMOS 计划导致了 DSSTox 数据库的扩展,改进了支持其他 EPA 数据库和应用程序(例如 CompTox Chemicals Dashboard3)的基础数据。
对于某些有价值的附加信息,需要手动管理。对于分析方法,检测限和定量限、样品基质和分析方法等实验参数未以标准化方式组织,并且由于存储不一致,自动化工具无法识别此信息。
记录信息的两个要素,即与样品相关的介质和分析物的功能用途,与持续监测污染物的危害和暴露问题高度相关。因此,在记录数据中构建这些属性受到了相当大的关注。为该项目开发了功能使用分类的本体。这个本体论将物质的功能用途组织成一个分层结构,范围从更一般的“母”用途到更具体的“子”用途。本体有助于从应用角度探索物质,支持强调功能用途作为评估暴露和危害手段的研究计划 5,6。此外,根据 EPA 多媒体监测数据库 (MMDB) 7 中规定的样品的协调培养基类别对方法进行标记。这种分类能够根据化学品在特定介质中的出现情况来搜索化学品,从而简化专注于检测特定环境或生物样品中化学品的解决方案的开发。这些注释增强了 AMOS 与 EPA 内部正在开发的面向暴露和危害的工作流程的集成。
在组装光谱时,处理各种文件格式(其中一些只是名义上标准化的)和解析附带元数据的挑战通常需要自定义处理。在光谱集合链接到出版物的情况下,可能需要手动提取出版物中记录的详细信息以进行数据加载。这项工作产生了一个数据库,可以集成和构建这些不同的光谱,使研究人员能够在未来的工作中避免费力的管理。
截至 2025 年 3 月,该数据库包含大约 935,000 个波谱,其中近 99% 是质谱和 NMR (~2,000) 和 IR (~400) 的较小集合。此外,还有大约 770,000 张外部链接的光谱(连接到 SpectraBase 数据库8)、~36,000 份情况说明书和 ~7,400 种分析方法。集成到应用程序中的物质是 DSSTox 数据库中的物质的子集,该数据库已纳入 CompTox 化学品仪表板 (CCD) 并包含超过 120 万种物质。
AMOS 的大部分功能可以分为三类:搜索给定物质的记录、搜索某些物质集合或在记录类别之间搜索。这些功能的各个页面都可以从每个页面顶部的导航栏访问。该应用程序目前 通过 AMOS 模块在 https://hcd.rtpnc.epa.gov/#/ 部署。本研究中使用的软件工具列在 材料表中。
1. 检索特定物质的记录
图 1:包含胆固醇的记录的检索结果。 对 “cholesterol” 进行常规搜索时,将在表中显示匹配记录的列表(左)。所选记录的质谱显示在右侧。 请单击此处查看此图的较大版本。
图 2:批量搜索界面。 检索字段包含两种由 DTXSID 标识的物质。为查询选择了默认搜索选项。 请单击此处查看此图的较大版本。
图 3:1P-LSD 的结构搜索结果。 下表列出了包含结构相似物质的方法。所选方法将显示在右侧。表中没有粗体条目表示 1P-LSD 未出现在列出的任何方法中。 请单击此处查看此图的较大版本。
2. 寻找物质
图 4:ClassyFire 分类搜索结果。 结果包括物质级别信息和每个分类组的记录数。 请单击此处查看此图的较大版本。
图 5:“trazine ”的部分标识符搜索结果。 检索检索具有首选名称或包含子字符串 “trazine” 的同义词的物质。三个结果中有两个仅在其同义词中包含 “trazine”,而不在其首选名称中包含。 请单击此处查看此图的较大版本。
3. 搜索记录
图 6:过滤后的分析方法列表。 该表按分析物和基质进行过滤,仅显示与水中 PFAS(全氟烷基和多氟烷基物质)相关的方法。相应的情况说明书列表与此布局非常相似。 请单击此处查看此图的较大版本。
图 7:光谱相似性搜索结果。 来自 AMOS 数据库的咖啡因光谱用作输入。相似谱图按物质分组,最大相似性得分为 1.0。镜像图显示了输入光谱(顶部)和选定的数据库光谱(底部)。浅蓝色峰值对于输入是唯一的,橙色峰值对于数据库匹配,深蓝色峰值是共享的。 请单击此处查看此图的较大版本。
图 8:功能使用分类可视化。 显示层次结构时,光标悬停在“industrial chemicals”节点(以黄色轮廓显示)上。其子类的轮廓为绿色。 请单击此处查看此图的较大版本。
图 9:土壤三元图可视化。 该图显示土壤样本的成分数据。右上角的工具提示显示当前光标下区域的精确组成。 请单击此处查看此图的较大版本。
上面显示的 AMOS 屏幕截图显示了应用程序中单个搜索的典型结果,包括搜索目标物质和光谱、情况说明书和方法。查询数据库的多种方式旨在涵盖最可能和最有用的搜索类型,以便对数据及其相关的物质进行更深入的调查。
为了帮助用户进行搜索,许多功能都以旨在支持对可用数据进行更深入检查的方式相互关联。作为一个示例工作流,功能使用分类可视化链接到与该功能类别相关的方法和情况说明书的视图,从中提取物质列表并将其输入到批量搜索中,或者可以检查单个文档,并且可以进一步研究这些文档中的单个物质。由于方法中的许多物质在数据库中也有实验质谱,因此研究人员可以快速从一类物质转到一组可以测试特定物质存在的方法和谱图(见 图 9)。
由于结果在很大程度上取决于正在搜索的内容以及运行的搜索或搜索,因此很难定义整个应用程序的代表性结果。总的来说,从用户体验的角度来描述“成功”可能更准确;在这种情况下,希望以下内容通常成立:搜索和筛选方法(以及在不同搜索和筛选之间移动的能力)可以有效地识别用户想要的信息子集;用户找到的结果是准确且有用的。 图 10 描述了一个演示 AMOS 功能的示例工作流。
图 10:演示 AMOS 功能的示例工作流程。 该工作流程从功能使用分类(呼吸药物)开始,过滤与血液中呼吸系统药物相关的方法,检查一种特定方法,并识别该方法中包含的物质的谱图。 请单击此处查看此图的较大版本。
虽然许多项目和应用程序专注于从单一类型的记录(例如方法、情况说明书或特定类型的光谱)中收集和标准化信息,但 AMOS 是第一个被发现的工具,它可以编译和集成多种记录类型的大量信息。来自这些不同来源的数据的统一、协调和结构化使数据库更容易整合到需要访问分析化学方法的工作流程中。以多种互补方式搜索数据库的能力使信息能够高效检索,否则可能需要跨多个网站或工具进行大量手动作。
在公开发布之前,EPA 工作人员使用它来支持广泛的项目,证明了 AMOS 的实用性。EPA 对质谱法在非靶向分析中的应用有着持续的兴趣10,11,并且多项举措都利用 AMOS 中的实验质谱来增强对 DSSTox 化学品生成的大型计算机模拟谱库的搜索12,13。其他项目使用结构相似性搜索来确定开发新方法的起点,检查了评估检测和定量限的现有方法,并分析了与评估化学空间覆盖程度的方法相关的化学品集合。
AMOS 对潜在训练数据的聚合进一步支持了分析方法14 适应性定量模型的开发,这是推进非靶向分析 (NTA) 工作流程的核心需求。AMOS 中的策展工作还促进了与方法覆盖率相关的化学空间建模、探索和可视化的举措14。
虽然 AMOS 的核心功能已经成熟,但持续开发以用户反馈为指导。当前的任务包括合并其他数据、管理更多元数据以增强筛选以及扩展搜索功能。通过与 EPA 利益相关者合作,正在开发应用程序编程接口 (API),以实现编程访问,从而解决图形用户界面 (GUI) 效率低下的用例。应用程序已集成一个发行说明页面,用于跟踪和传达随时间推移的代码更新。
目前每周都会添加新的数据记录和化学品;但是,预计在公开发布后,发布时间会较慢。虽然我们付出了大量努力来确保记录和相关元数据的准确性,但大部分数据都来自公共数据库。因此,对每条记录进行完全验证是不可行的,用户应该意识到无法保证绝对的数据准确性。
本文不一定代表美国环境保护署的观点或政策。
作者感谢策展团队为数据库策展化学品所做的所有工作,并感谢 Joshua Powell、Asif Rashid 和 Freddie Valone 在 AMOS 的构建和部署中提供的技术支持。我们还感谢 Charles Lowe 对手稿的审阅。
Name | Company | Catalog Number | Comments |
Git | N/A | https://git-scm.com/ | Open-source version control system. |
JavaScript | N/A | https://ecma-international.org/publications-and-standards/standards/ecma-262/ | Programming language. Defined by ECMA International standards. |
PostgreSQL | PostgreSQL Global Development Group | https://postgresql.org/about/licence | Open-source database management system. |
Python | Python Software Foundation | https://www.python.org/ | Open-source programming language. |
请求许可使用此 JoVE 文章的文本或图形
请求许可This article has been published
Video Coming Soon
版权所属 © 2025 MyJoVE 公司版权所有,本公司不涉及任何医疗业务和医疗服务。