竹石生物发布癌症早检关键算法技术DeepTrace

竹石生物
2022-03-15


人工智能技术被誉为第四次工业革命,已经应用到了生命科学各个领域。例如,谷歌旗下的DeepMind提出的AlphaFold,能够根据氨基酸序列准确预测蛋白质结构,颠覆了整个结构生物学领域。在癌症早检行业中,也已有大量结合运用机器学习的案例。

但是,现有的癌症早检应用大多使用相对简单的机器学习模型在面对基因测序结果这样庞大的数据集时,只能在相对宏观层面,如位点均值、分布等经统计汇总结果上进行分析,对数据利用效率较低,也不能获得很好的结果。

为改善以上问题竹石生物开发了基于大型预训练神经网络的癌症早检算法DeepTrace。该技术充分利用深度神经网络的能力,成功实现在单分子水平识别癌症。



基因组甲基化是广泛应用于各癌种早期筛查的重要指标之一。

过去,受到计算能力/机器训练模型的限制,人们只能以单个位点的平均甲基化率作为甲基化状态的指标。而随着研究的不断深入,目前已可以将位点组合成区域、区块来实现更好的识别效果。

尽管如此,癌症早检(尤其是液体活检中的关键痛点依然存在:


在癌症早期,来自于肿瘤细胞的DNA占血液中细胞游离DNA(cfDNA)的比例很低,在位点平均甲基化率指标中很容易被噪音所淹没。


为解决以上问题,实现在单分子水平识别癌症,竹石生物人工智能首席科学家熊德意教授带领团队开发了DeepTrace模型。


借助大型预训练深度神经网络,DeepTrace从单分子分辨率识别来自肿瘤的ctDNA,精准判断每个DNA分子来源于癌细胞的可能性。



机器学习算法和生物信息分析的结合在疾病检测领域,特别是癌症早检领域已有较多研究成果,其发展脉络如下:


目前机器学习模型已普遍应用癌症早检行业,例如在甲基化位点组合、片段分布等组学中均有充分应用。

同时,基于RNN、LSTM的神经网络在全基因组甲基化数据的运用亦有相应学术探索。

竹石生物DeepTrace技术则进一步发展,将自然语言处理NLP中最前沿的大型预训练神经网络应用到以全基因组甲基化数据为核心的多组学数据中。

作为NLP领域的新宠,预训练神经网络架构一经面世就迅速被谷歌、百度、字节、阿里等顶尖AI企业所广泛运用,并表现出远超传统神经网络的实际性能。

借助苏州国科数据中心的大GPU算力储备,竹石生物DeepTrace先采用超过1亿条NEEM-seq单分子测序数据进行预训练,让模型获取人类基因组数据的基础知识,再通过对训练好的模型进行微调,以适应具体的下游学习/预测任务,取得了良好的结果:


在采用同一数据集进行训练的结果中,DeepTrace大型预训练神经网络表现出优异的性能,不仅远超传统机器学习模型,还表现出优于GRU、LSTM等神经网络的预测表现。



此外,得益于预训练神经网络架构的优越性,在进行新癌种、泛癌种项目开发时,只需使用具体应用数据对预训练模型进行Fine-tune训练,而无需对完整大模型进行重复训练,可节省超过90%的算力开销。



现有的癌症早检算法模型往往仅针对单个组学数据,在需要进行多组学分析时,需要对每个组学对应模型独立进行训练和预测,再通过算法将其整合。

DeepTrace将竹石生物独家NEEM-seq实验技术点此可查看详情】所得多组学测序数据整体输入预训练神经网络,实现在一个模型中多组学数据训练和预测。


癌症的形成、发展机制较为复杂,目前针对大多数癌种的早筛早检仍然依赖高通量的第二代测序(NGS)技术,并以LDT形式提供服务。如何能尽量精简marker体系,减少筛查所需的数据量,从而降低成本,提供更简便、易行、普惠的早检早筛服务,是行业面临的最大技术挑战之一。

为此,竹石生物DeepTrace从模型设计之初就考虑到未来精简Marker体系的需求,在架构的各个环节设置了可视化节点。随着实验数据的增加,模型可以将所学习到的不同Marker间权重大小、相互关联等信息通过可视化指标进行反馈,竹石生物正在以此为依据精简Marker,进行IVD产品的开发。


关于竹石生物 /Profile/

竹石生物科技(苏州)有限公司是一家由生物计算驱动,专注疾病诊断与治疗的生物科技企业。当前正致力将领先组学技术与先进AI技术相结合,聚焦于肿瘤早期检测技术的研发和临床应用。







下一篇:这是最后一篇
上一篇:这是第一篇