JoVE Logo

登录

本文内容

  • 摘要
  • 摘要
  • 引言
  • 研究方案
  • 结果
  • 讨论
  • 披露声明
  • 致谢
  • 材料
  • 参考文献
  • 转载和许可

摘要

本文介绍了 AMOS,这是一个基于 Web 的分析方法和 Open Spectra 数据库,这是一个化学信息学应用程序,旨在让研究人员能够轻松访问分析方法和光谱数据。

摘要

分析方法的范围可以从详细的监管文件到更简单的摘要。监管方法可能包括有关适合分析物、支持的基质、所需试剂、统计性能、实验室间验证和其他细节的信息。摘要通常提供试剂、仪器的一般概述,通常还提供简短的分析物列表。美国政府机构(包括美国环境保护署 (USPA)、美国地质调查局 (USGS)、美国农业部 (USDA)、食品和药物管理局 (FDA) 等)的分析方法提供了详细的程序信息。Agilent、Shimadzu、Thermo Fisher Scientific、Sciex 等仪器供应商也提供数百份应用简报,这些简报可被视为汇总方法。本研究开发了一个支持化学信息学的方法数据库,其中化学物质从方法文件中提取,并将标识符(名称和/或化学文摘社登记号 (CASRN))映射到化学结构。生成的数据库包含大约 7,000 种方法,可按标识符、化学结构和结构相似性进行搜索,并辅以大约 100 万张公共领域谱图(LC/MS、GC/MS、NMR 和 IR)。该应用程序支持搜索分析方法,并根据分析物、功能使用情况、方法来源和其他相关元数据进行过滤。

引言

PubChem1、ChemSpider2 和 CompTox Chemicals Dashboard (CCD)3 等应用程序就是向社区提供基于 Web 的化学数据的示例。已努力传播期刊文章中发表的分析方法详细信息,这些细节由仪器供应商作为技术应用说明发布,由政府机构作为标准作程序或监管方法提供,并由国际标准化组织 (ISO) 等标准组织发布。这些来源已经在各种条件和分析技术下研究了数以万计的化学品。这些广泛的来源涵盖了多种物质,包括从特定基质(例如血液)中单一化学物质的定量,到特定作物中的农药及其残留物的混合物,再到饮用水中鉴定的数百种化学物质。虽然许多分析方法 可以通过公共搜索引擎 发现,但并非所有方法都是免费提供或开放获取的。

查找感兴趣的特定信息可能具有挑战性。通用搜索引擎没有针对化学数据进行优化,它们的排名算法可能会掩盖面向狭小受众的高质量内容。跨期刊网站搜索可以产生更有针对性的结果,但访问通常受到限制,只有摘要公开可用,因此很难评估方法的有用性。此外,关键参数(如样品基质、检测限和定量)通常不会以结构化格式存储。另一个重大挑战在于与单一化学品相关的化学标识符、名称和同义词的变化和不一致。缺乏结构化方法数据限制了可以利用数十年积累的分析化学知识和相关出版物的软件工具的开发。

由于这些挑战和限制,需要一个精心策划的、以化学为导向的应用程序来协调和搜索分析方法——一个在其他地方没有发现的应用程序。为了解决这一差距,美国环境保护署开发了 AMOS、分析方法和开放光谱数据库以及基于 Web 的应用程序。AMOS 目前收集和组织三种类型的数据记录:分析方法、各种分析光谱和一大类统称为情况说明书的补充文件。每条记录都与方法的目标化学分析物和试剂相关联。数据可通过多种方式进行搜索,包括文本查询、化学结构以及结构或光谱相似性。

AMOS 应用程序主要专注于提供开放访问和开放数据记录。在可能的情况下,数据库中的记录将超链接到其原始来源。未采用开放许可且因此不直接存储在数据库中的记录仍 可通过 URL 集成 和访问,前提是它们在其他方面可用。这适用于两种类型的记录:付费墙后面的分析方法,通常来自 EPA 有权访问的期刊或标准组织,以及可用但需要登录访问权限的光谱。

数据源在记录的结构上各不相同,因此需要在提取和管理方面付出大量努力来组合和协调内容。大多数记录都提供物质标识符(例如 CASRN、DTXSID、InChIKey、通用名称),在许多情况下,提取非常简单。然而,将这些标识符与化学结构和物质详细信息进行匹配可能很复杂。一些标识符可以直接与 EPA 的分布式结构可搜索毒性 (DSSTox) 数据库中的条目匹配4;如果未找到匹配项,则标识符将与现有物质相关联,或者注册新物质。因此,AMOS 计划导致了 DSSTox 数据库的扩展,改进了支持其他 EPA 数据库和应用程序(例如 CompTox Chemicals Dashboard3)的基础数据。

对于某些有价值的附加信息,需要手动管理。对于分析方法,检测限和定量限、样品基质和分析方法等实验参数未以标准化方式组织,并且由于存储不一致,自动化工具无法识别此信息。

记录信息的两个要素,即与样品相关的介质和分析物的功能用途,与持续监测污染物的危害和暴露问题高度相关。因此,在记录数据中构建这些属性受到了相当大的关注。为该项目开发了功能使用分类的本体。这个本体论将物质的功能用途组织成一个分层结构,范围从更一般的“母”用途到更具体的“子”用途。本体有助于从应用角度探索物质,支持强调功能用途作为评估暴露和危害手段的研究计划 5,6。此外,根据 EPA 多媒体监测数据库 (MMDB) 7 中规定的样品的协调培养基类别对方法进行标记。这种分类能够根据化学品在特定介质中的出现情况来搜索化学品,从而简化专注于检测特定环境或生物样品中化学品的解决方案的开发。这些注释增强了 AMOS 与 EPA 内部正在开发的面向暴露和危害的工作流程的集成。

在组装光谱时,处理各种文件格式(其中一些只是名义上标准化的)和解析附带元数据的挑战通常需要自定义处理。在光谱集合链接到出版物的情况下,可能需要手动提取出版物中记录的详细信息以进行数据加载。这项工作产生了一个数据库,可以集成和构建这些不同的光谱,使研究人员能够在未来的工作中避免费力的管理。

截至 2025 年 3 月,该数据库包含大约 935,000 个波谱,其中近 99% 是质谱和 NMR (~2,000) 和 IR (~400) 的较小集合。此外,还有大约 770,000 张外部链接的光谱(连接到 SpectraBase 数据库8)、~36,000 份情况说明书和 ~7,400 种分析方法。集成到应用程序中的物质是 DSSTox 数据库中的物质的子集,该数据库已纳入 CompTox 化学品仪表板 (CCD) 并包含超过 120 万种物质。

研究方案

AMOS 的大部分功能可以分为三类:搜索给定物质的记录、搜索某些物质集合或在记录类别之间搜索。这些功能的各个页面都可以从每个页面顶部的导航栏访问。该应用程序目前 通过 AMOS 模块在 https://hcd.rtpnc.epa.gov/#/ 部署。本研究中使用的软件工具列在 材料表中

1. 检索特定物质的记录

  1. 常规检索:执行常规检索以获取与单一物质相关的所有类型记录的列表(参见 图 1)。
    1. 在导航栏左上角的文本字段或首页的搜索字段中,输入 物质名称、CASRN、InChIKey DSSTox 物质标识符 (DTXSID)。Enter 键或单击 Search 以执行搜索。
      注意:首页上的搜索栏有一个额外的选项,可以按子字符串进行搜索;有关更多信息,请参阅部分标识符搜索(步骤 2.2)部分。
    2. 如果检索到的标识符被识别并匹配单个物质,则页面左侧将显示有关该物质的一些基本信息,并列出与该物质相关的所有记录的表格。选择该表中的一行,以在页面右侧显示关联的记录(如果该记录直接存储在数据库中)。
    3. 如果搜索的标识符与多种物质匹配(例如,用于多种物质的缩写),则会出现消歧提示,让用户选择他们想要查看的物质。从该列表中选择一种物质,一种物质将被重定向到已识别物质的显示屏。
    4. 要筛选结果表,请单击表正上方的选项卡以按记录类型进行筛选(这也会隐藏和取消隐藏不同的列),在表顶部的字段中输入文本以筛选数据的其他方面,并选中选项卡上方的复选框以筛选更广泛的数据属性。
  2. 批量搜索:执行批量搜索以生成并下载电子表格文件,该文件列出了数据库中与给定物质列表关联的所有记录的信息。(参见 图 2)。
    1. 在 input data 字段中,输入要搜索的 DTXSID 列表,每行一个。如果 DTXSID 不可用,请使用页面上的链接导航到 CCD 工具,该工具可以提供给定其他标识符的 DTXSID。
    2. 使用 Search Options (搜索选项 ) 下的复选框筛选出结果或将其他信息附加到记录。这些选项分为五类:按记录类型筛选、按分析方法筛选、向结果文件附加其他物质水平信息、附加其他记录水平信息(当前仅适用于质谱)以及一些其他选项。
      注意:带有虚线下划线的选项包含更全面地解释选项的文本。将光标悬停在选项的标签上可查看它。
    3. 单击页面底部的 Search 以执行搜索。
      注:输出电子表格包含物质-记录关联列表以及物质标识符、来源链接和一些其他基本信息。如果记录中出现多个检索到的物质,则该记录将针对每种物质显示一次。
  3. 结构相似性检索:执行此检索可获取数据库中包含检索物质或具有足够高 Tanimoto 结构相似性系数的方法和情况说明书列表(见 图 3)。
    注:如果目标物质未出现在任何方法中,但具有高度相似物质的方法可能用作参考,则此搜索可能很有用。
    1. 在搜索字段中输入 DTXSID、InChIKey、CASRN 或物质名称,然后单击 搜索 或按 Enter。搜索可能需要 20-30 秒才能完成。
    2. 搜索完成后,下方将出现一个选项卡式表格。选择一个选项卡以查看搜索结果。
      1. 前两个选项卡列出了找到的方法和情况说明书。选择一个选项,在页面右侧显示该文档的视图。包含搜索到的物质的方法或情况说明书以粗体显示。
      2. 第三个选项卡列出了在方法或情况说明书中发现的类似物质。在表中选择一行,以显示搜索到的物质与从表中选择的物质之间的比较。如果在任何文档中找到搜索的物质本身,它将以粗体显示。
      3. 使用顶部的 Filter minimum substance similarity (筛选最低物质相似性) 选择器,在搜索中隐藏缺少低于所选相似性阈值的物质的结果。

figure-protocol-2250
图 1:包含胆固醇的记录的检索结果。 对 “cholesterol” 进行常规搜索时,将在表中显示匹配记录的列表(左)。所选记录的质谱显示在右侧。 请单击此处查看此图的较大版本。

figure-protocol-2638
图 2:批量搜索界面。 检索字段包含两种由 DTXSID 标识的物质。为查询选择了默认搜索选项。 请单击此处查看此图的较大版本。

figure-protocol-3001
图 3:1P-LSD 的结构搜索结果。 下表列出了包含结构相似物质的方法。所选方法将显示在右侧。表中没有粗体条目表示 1P-LSD 未出现在列出的任何方法中。 请单击此处查看此图的较大版本。

2. 寻找物质

  1. ClassyFire 搜索:执行此搜索以列出属于 ClassyFire 分类9 的给定前四个级别的所有物质(参见 图 4)。
    1. 使用页面顶部的四个字段,一次选择一个分类的前四个级别。选择前三个选项中的每一个后,使用该字段下方的按钮获取向下一级的分类列表。对于第四个,下面的按钮将运行搜索。
      注意: 搜索完成后,下表中将填充该分类下存在的物质列表。该表包括常用标识符和物质信息,以及 AMOS 中存在的记录数的计数。
    2. 使用类选择和表之间的按钮来允许四个功能:
      1. 单击 Copy Classification to URL 将 URL 复制到剪贴板,如果加载到新的浏览器选项卡或窗口中,则会自动预填充分类级别并运行搜索。
      2. 单击 Reset Selection 以重置分类字段中的选择。它不会重置找到的物质表。
      3. 单击 Download Table(下载表格 )以提示下载电子表格文件,其中包含表格中除 Substance 图像之外的所有可见字段和记录。如果结果表顶部的过滤器正在使用中,则下载的结果也将被过滤,但过滤器的内容将不包括在内。
      4. 单击 “Send Selected Substances to Batch Search ”以打开一个用于批量搜索的新选项卡,其中包含用于列出 DTXSID 的字段,其中预填充了从 ClassyFire 搜索结果中选择的物质。可以通过每行中的复选框选择单个物质;可以通过单击表格标题中的复选框来选择或取消选择所有物质。有关批量搜索的详细信息,请参阅步骤 1.2。
  2. 部分标识符搜索:执行此作以查找与非唯一标识符匹配的所有物质(参见 图 5)。当前选项包括名称子字符串(涵盖 EPA 首选名称和常见同义词)、InChIKey 第一个块、确切的分子式和一系列单同位素质量数。
    1. 在页面顶部,选择一个标识符并将信息输入到相邻字段中。
    2. 单击 Search 以运行搜索。
    3. 搜索完成后,表格中将填充与部分标识符匹配的物质列表,以及它们在 AMOS 数据库和其他文献中出现的频率信息。使用表格列顶部的过滤器进一步细化结果,并使用 Show multicomponent substances(显示多组分物质 )复选框显示或隐藏由多种化合物组成的物质。
      注意:如果运行了名称子字符串搜索,则将显示一列,其中列出了找到的同义词。如果物质只能通过同义词找到 - 即,如果首选名称 不包含 子字符串 - 首选名称将变为斜体。

figure-protocol-4854
图 4:ClassyFire 分类搜索结果。 结果包括物质级别信息和每个分类组的记录数。 请单击此处查看此图的较大版本。

figure-protocol-5213
图 5:“trazine ”的部分标识符搜索结果。 检索检索具有首选名称或包含子字符串 “trazine” 的同义词的物质。三个结果中有两个仅在其同义词中包含 “trazine”,而不在其首选名称中包含。 请单击此处查看此图的较大版本。

3. 搜索记录

  1. 情况说明书和方法列表: 这些页面列出了数据库中的所有情况说明书和方法,以及各种过滤方法(参见 图 6)。由于这两个页面的功能基本相同,因此它们在此处分组在一起。
    注意:导航到该页面将提示加载表。由于存在的记录数量,这可能需要一些时间。
    1. 加载表后,使用每列顶部的输入来筛选数据和各种字段。确切的字段因表而异,但大多数字段都可以选择或筛选。
    2. 使用表上方的 Full Table Filter 字段检查特定字符串的所有列。
      注意:方法列表包括两个默认隐藏的字段 - author 和 publisher。完整表筛选器将捕获在任一字段中包含搜索词的记录。
    3. 产品说明书列表允许通过搜索给定物质来筛选单个结果。输入 物质名称 CASRN、InChIKey DTXSID,然后点击 搜索 以筛选表。单击 Clear Filter 以清除物质过滤器。
      注意:两个表都有以下可用按钮: Copy Filters to Clipboard 将 URL 复制到剪贴板,当浏览器访问该 URL 时,将加载列表并使用当前值预填充表中的过滤器字段; Download Table (下载表 ) 下载表中所有可见结果和过滤器的列表; 下载 Substances 下载(过滤的)表格中出现的所有物质的列表; Reset Filters (重置筛选器 ) 清除所有表筛选器,包括整个表筛选器。
  2. 质谱搜索:执行此搜索以根据用户提供的谱图从数据库中检索质谱匹配列表(参见 图 7)。
    1. 填写或调整四个必填输入字段:目标物质 的质量范围 (以道尔顿为单位),误差幅度以道尔顿或百万分之一 (ppm) 为单位; 方法,GC/MS 或 LC/MS;质谱,以电荷质量比和强度对的列表形式给出;以及峰相似性 的质量数窗口的大小
    2. 填写完这些字段后,单击它们下方的 Search 按钮。
      注:搜索完成后,如果找到任何谱图,页面右侧将出现一个表格,其中列出了与质量范围匹配的所有物质中与所选方法匹配的谱图,并按用户提交的谱图和数据库谱图之间的熵相似性排序。
    3. 在表中选择一行以显示一个图表,显示用户频谱与数据库频谱的比较(分别位于图表的顶部和底部)。使用 Minimum similarity to show 字段可隐藏低于给定熵相似性的结果。
  3. 功能使用分类可视化:此页面可视化了 AMOS 的功能使用本体以及这些使用类别的方法和情况说明书的链接。这些类以有向图表示,边从更通用的父类变为更具体的子类(参见 图 8)。
    1. 使用右侧的搜索字段搜索功能使用类列表。将鼠标悬停在 use class name 上可突出显示图表中的相应节点。
    2. 如果直接检查图形,请将鼠标悬停在指定节点上以显示该类的简短描述,并突出显示该节点的任何直接父类或子类。
    3. 右键单击页面右侧列表中的 类名称 或图表中的 节点 ,以显示一个菜单,其中包含方法和产品说明书列表的选项。选择其中一个,将打开一个新的浏览器选项卡,并显示该列表,其中 functional class 字段使用所选的 functional class 预先过滤。
  4. 土壤三元图:此页面重新创建了美国农业部的土壤质地分类,允许按土壤类型搜索 AMOS 的方法。
    1. 将鼠标悬停在绘图区域上可查看有关其组成的详细信息。
    2. 点击绘图的某个区域,打开方法列表的新选项卡,其中矩阵字段在所选土壤分类上预先过滤。

figure-protocol-7687
图 6:过滤后的分析方法列表。 该表按分析物和基质进行过滤,仅显示与水中 PFAS(全氟烷基和多氟烷基物质)相关的方法。相应的情况说明书列表与此布局非常相似。 请单击此处查看此图的较大版本。

figure-protocol-8081
图 7:光谱相似性搜索结果。 来自 AMOS 数据库的咖啡因光谱用作输入。相似谱图按物质分组,最大相似性得分为 1.0。镜像图显示了输入光谱(顶部)和选定的数据库光谱(底部)。浅蓝色峰值对于输入是唯一的,橙色峰值对于数据库匹配,深蓝色峰值是共享的。 请单击此处查看此图的较大版本。

figure-protocol-8520
图 8:功能使用分类可视化。 显示层次结构时,光标悬停在“industrial chemicals”节点(以黄色轮廓显示)上。其子类的轮廓为绿色。 请单击此处查看此图的较大版本。

figure-protocol-8908
图 9:土壤三元图可视化。 该图显示土壤样本的成分数据。右上角的工具提示显示当前光标下区域的精确组成。 请单击此处查看此图的较大版本。

结果

上面显示的 AMOS 屏幕截图显示了应用程序中单个搜索的典型结果,包括搜索目标物质和光谱、情况说明书和方法。查询数据库的多种方式旨在涵盖最可能和最有用的搜索类型,以便对数据及其相关的物质进行更深入的调查。

为了帮助用户进行搜索,许多功能都以旨在支持对可用数据进行更深入检查的方式相互关联。作为一个示例工作流,功能使用分类可视化链接到与该功能类别相关的方法和情况说明书的视图,从中提取物质列表并将其输入到批量搜索中,或者可以检查单个文档,并且可以进一步研究这些文档中的单个物质。由于方法中的许多物质在数据库中也有实验质谱,因此研究人员可以快速从一类物质转到一组可以测试特定物质存在的方法和谱图(见 图 9)。

由于结果在很大程度上取决于正在搜索的内容以及运行的搜索或搜索,因此很难定义整个应用程序的代表性结果。总的来说,从用户体验的角度来描述“成功”可能更准确;在这种情况下,希望以下内容通常成立:搜索和筛选方法(以及在不同搜索和筛选之间移动的能力)可以有效地识别用户想要的信息子集;用户找到的结果是准确且有用的。 图 10 描述了一个演示 AMOS 功能的示例工作流。

figure-results-731
图 10:演示 AMOS 功能的示例工作流程。 该工作流程从功能使用分类(呼吸药物)开始,过滤与血液中呼吸系统药物相关的方法,检查一种特定方法,并识别该方法中包含的物质的谱图。 请单击此处查看此图的较大版本。

讨论

虽然许多项目和应用程序专注于从单一类型的记录(例如方法、情况说明书或特定类型的光谱)中收集和标准化信息,但 AMOS 是第一个被发现的工具,它可以编译和集成多种记录类型的大量信息。来自这些不同来源的数据的统一、协调和结构化使数据库更容易整合到需要访问分析化学方法的工作流程中。以多种互补方式搜索数据库的能力使信息能够高效检索,否则可能需要跨多个网站或工具进行大量手动作。

在公开发布之前,EPA 工作人员使用它来支持广泛的项目,证明了 AMOS 的实用性。EPA 对质谱法在非靶向分析中的应用有着持续的兴趣10,11并且多项举措都利用 AMOS 中的实验质谱来增强对 DSSTox 化学品生成的大型计算机模拟谱库的搜索12,13。其他项目使用结构相似性搜索来确定开发新方法的起点,检查了评估检测和定量限的现有方法,并分析了与评估化学空间覆盖程度的方法相关的化学品集合。

AMOS 对潜在训练数据的聚合进一步支持了分析方法14 适应性定量模型的开发,这是推进非靶向分析 (NTA) 工作流程的核心需求。AMOS 中的策展工作还促进了与方法覆盖率相关的化学空间建模、探索和可视化的举措14

虽然 AMOS 的核心功能已经成熟,但持续开发以用户反馈为指导。当前的任务包括合并其他数据、管理更多元数据以增强筛选以及扩展搜索功能。通过与 EPA 利益相关者合作,正在开发应用程序编程接口 (API),以实现编程访问,从而解决图形用户界面 (GUI) 效率低下的用例。应用程序已集成一个发行说明页面,用于跟踪和传达随时间推移的代码更新。

目前每周都会添加新的数据记录和化学品;但是,预计在公开发布后,发布时间会较慢。虽然我们付出了大量努力来确保记录和相关元数据的准确性,但大部分数据都来自公共数据库。因此,对每条记录进行完全验证是不可行的,用户应该意识到无法保证绝对的数据准确性。

披露声明

本文不一定代表美国环境保护署的观点或政策。

致谢

作者感谢策展团队为数据库策展化学品所做的所有工作,并感谢 Joshua Powell、Asif Rashid 和 Freddie Valone 在 AMOS 的构建和部署中提供的技术支持。我们还感谢 Charles Lowe 对手稿的审阅。

材料

NameCompanyCatalog NumberComments
GitN/Ahttps://git-scm.com/Open-source version control system.
JavaScriptN/Ahttps://ecma-international.org/publications-and-standards/standards/ecma-262/Programming language.  Defined by ECMA International standards.
PostgreSQLPostgreSQL Global Development Grouphttps://postgresql.org/about/licenceOpen-source database management system.
PythonPython Software Foundationhttps://www.python.org/Open-source programming language.

参考文献

转载和许可

请求许可使用此 JoVE 文章的文本或图形

请求许可

探索更多文章

220

This article has been published

Video Coming Soon

JoVE Logo

政策

使用条款

隐私

科研

教育

关于 JoVE

版权所属 © 2025 MyJoVE 公司版权所有,本公司不涉及任何医疗业务和医疗服务。