瑞士和德国的学者在ECHA的REACH注册物质数据库中分析了8,590种物质,发现其中4.3%的物质,基于分子结构的化学身份信息存在不一致的情况。这样的信息可能会导致对化学风险得出错误的结论,特别是当风险评估依赖于群组或QSAR结果时,因此,正确的化学结构至关重要。
研究人员对以下三个数据库进行了对比分析:
1. ECHA数据库,涵盖了23,000多种物质;
2. 由美国国家卫生研究院运营的开放式化学数据库PubChem,包含1.1亿个独立的化学结构;
3. 由美国环境保护局运营的CompTox化学品指示板,包含900,000多种化学物质。
他们重点关注了ECHA数据库中37%的有机单组分物质,不包括中间体和卷宗中没有来源或成分信息的物质,研究人员在其他数据库中查询相同的物质进行了比较。在这三个数据库中,共有736个不一致的条目,还有48个条目的物质身份不明确。根据简化分子线性输入规范(SMILES)字符串,这些条目是不一致的,该字符串通过一行文本描述了化合物的完整分子结构。
在ECHA数据库中,不一致的条目数量占4.3%,在CompTox化学品指示板中占3%,在PubChem中占2.8%。如果SMILES字符串中的单个原子、分子的部分或整个物质是不正确的,可能会导致QSAR建模的预测出现“重大错误”,将会导致风险评估结果出现极大的不确定性。因此,不一致的条目数量表明数据库中的数据筛选工作进行得仍然不够充分,还需要进行更多的工作。
相关推荐: