前言组学 | 首个包含 15646 个脂质的高精度 CCS 库面世,预测精度提升至 1%
继首个大规模代谢组学 CCS 库面世后,中国科学院上海有机化学研究所生物与化学交叉研究中心的朱正江研究员课题组近期在 Analytical Chemistry 杂志上又发表了一篇题为 LipidCCS: Prediction of Collision Cross-Section Values for Lipids with High Precision to Support Ion Mobility-Mass Spectrometry based Lipidomics 的文章,报道了首个大规模、高精度的脂质分子 CCS 库的建成。文中介绍了一种机器学习算法对脂质分子的碰撞截面积(Collision Cross-Section, CCS)进行大规模预测,并进一步结合 IM-QTOF-MS 离子淌度质谱进行验证,最终建立了首个应用于非靶向脂质组学研究的大规模脂质 CCS 值数据库(LipidCCS),该数据库包含了 22 大类来自 LipidMAPS 的 15646 个脂质, 实现将预测精度提升至 1%。
脂质是生物体的重要组成部分,脂代谢跟生命体众多生理功能密切相关。然而因其数目庞大、同分异构体众多,脂质组的分析和鉴定一直是困扰研究者的难点和挑战。
离子淌度质谱(IM-MS)可以获得代表化合物尺寸大小的碰撞截面积数据、区分电荷异构体和同分异构体,进而提供超越传统质谱平台的第四维鉴定信息,将有效提升对脂质分子的分析和鉴定能力。将离子淌度质谱应用于脂质组学研究是当前发展的趋势和前沿,然而制约其广泛应用的技术瓶颈在于缺少脂质鉴定的大规模 CCS 值数据库。
因此,本文作者旨在通过实验数据结合人工智能算法大规模、高精度预测脂质分子的 CCS 值,拓展这一领域的研究。
利用人工智能算法精确预测脂质分子的 CCS 值
首先,作者利用安捷伦 DTIM-QTOF-MS 6560 离子淌度质谱,分别在正负模式下准确测定了 329 和 129 个脂质分子的实验 CCS 数值构成训练样本集;接着,在分子描述符的选择上进行了优化。与先前报道的 MetCCS 选择 14 个分子描述符相比,作者通过生物信息学方法对两百多个分子描述符(molecular descriptors)进行了选择和优化,最终选取了最重要的 45 个和 66 个分子描述符组合分别用于构建正负离子模式下的预测模型。利用新构建的预测方法实现了近1%的预测精度,与现有方法相比,极大提高了预测的准确性。
预测方法的外部验证及预测性能评估
为了客观地评估该方法预测的准确性,作者选取了四组不同脂质分子的 CCS 数据集来评估该方法的预测精度,包括了不同实验室和仪器平台。结果表明,本文开发的预测方法所获得的 CCS 预测值与安捷伦 6560 IM-MS 实验测量值十分接近,正负模式下相对偏差(MER, Median Relative Error)分别为 0.50% 和 0.42%。同时,该方法与最新的文献报道实验值比较,相对偏差亦低于 1%,充分证明了该方法具备出色的预测能力和极高的准确度。
碰撞横截面积(CCS)和脂质结构的相关性
利用预测的脂质 CCS 值数据库,作者对数据库中脂质分子结构与 CCS 数值之间的关系进行了分析。实验结果表明,不同脂质具有不同的趋势线(trend line)。对同一类脂质(比如 PE),随着双键数目逐个增多,不同类脂质 CCS 的数值有 0.4%-1.9% 的降低。碳链长度每增加一个碳,CCS 数值则有 0.7%-1.5% 的增加。这和以前的报道相一致,进一步说明该预测方法的准确性和可信度。本文还发现 CCS 数值的变化能够很好地反映脂质结构的变化;加合物形式和正负离子模式对 CCS 数值也有微小的影响,不过仍然呈现很好的相关性。
LipidCCS 网站上线并开放使用
基于上述方法,作者建立了世界上首个大规模的脂质 CCS 数据库— LipidCCS,包含了 22 大类来自 LipidMAPS 的 15646 个脂质。对于每一个脂质,分别预测了 5 种不同加合离子的 CCS 值([M+H]+, [M+Na]+, [M+NH4]+, [M-H]-, [M+HCOO]-),最终数据库中共计包含 63434 个 CCS 值。
目前 LipidCCS 网站也已上线并开放使用(http://www.zhulab.cn/LipidCCS/)。该网站目前具有 CCS 数值预测、数据库搜索和脂质匹配三大功能:
-
CCS 预测能够实现从 SMLIES 结构式到 CCS 值的一步预测;
-
数据库可支持分子式或脂质名称的快速搜索;
-
脂质匹配可实现灵活地调整 m/z 和 CCS 的精度窗口进行脂质鉴定。
该网站操作简便,处理速度快,为脂质鉴定提供了很大的便利。在实际的生物样品研究中,作者发现结合 CCS 数据可以显著降低非靶标脂质组学研究中脂质鉴定的假阳性率,从而提高了准确性和有效性。
作者通过本文的研究,开发了机器学习算法来大规模预测脂质分子的 CCS 值,最终建立了包含 15646 个脂质的 LipidCCS 数据库,这是目前已知的最大规模的脂质 CCS 数据库,预测精度可以提升至 1%。LipidCCS 官网也已上线并开放使用。结合 CCS 数据库,可以显著提升非靶标脂质组学研究中脂质鉴定的有效性和精确度。本文作者的工作无疑将推动离子淌度质谱在脂质组学中的深入应用,推开脂质分子鉴定的新大门。
移动端阅读原文