NGS、AI和合成生物学,让无创液体活检实现癌症早筛成为可能

ZAODX
2021-09-14

概要
1、二代测序成本的急剧下降推动了我们对肿瘤生物学的理解。
2、使癌症变得危险的奇怪生物学(现象)也给科学家们提供了更早发现癌症的机会。
3、与NGS、AI和合成生物学相关的指数成本下降使得液体活检能够用于检测癌症。


图片来源:Marcin Klapczynski/iStock via Getty Images

作者:Simon Barnett, 分析师


今天,来自生物化学、测序硬件和人工智能(AI)的新方法正在融合并改变着肿瘤学。例如,在不久之后,通过简单的无创抽血,临床医生就能在早期阶段检测出多种形式的癌症。本文试图强调癌症是如何在人体中出现和演变的,以及不同的技术是如何检测癌症的信号的。就像我们在“癌症筛查的基因组学时代: 实现更早期癌症检测”的文章中提到的一样,我们的目标是开源我们的模型并将学术社区反馈纳入更全面的白皮书中。



癌症是一种基因组疾病


二代测序 (NGS)成本的急剧下降增强了我们对肿瘤生物学的理解。实体瘤通过称为体细胞进化的过程肆意、迅速地发展。这个过程描述了肿瘤是如何随着时间的推移从细胞中积累的基因突变进化而来的。与几乎存在于身体每个细胞中的遗传性突变不同,体细胞突变是自发发生的,并可能导致肿瘤。危险的体细胞突变虽然极为罕见,但它可以随着细胞分裂过程中的错误、DNA 修复过程中的错误或个体暴露于致癌物而发生。

实体瘤是紧密堆积的基因突变细胞群。从狗到猫再到癌细胞,所有种群都受到自然选择定律的影响。某些称为致癌突变的体细胞突变可以为癌细胞提供进化优势,使其在竞争中赢过健康细胞。一旦发生突变,负责调控细胞分裂的基因就会导致癌细胞群迅速且不受控制地生长。

幸运的是,涉及 NGS、生物信息学、合成生物学和数据处理的创新拓宽了我们对癌症的整体理解。较新的基因组领域,如单细胞测序长读长测序光学映射数字空间分析,也增强了我们对肿瘤生物学的理解。ARK认为,过去二十年间建立的知识基础将使临床医生能够更早地发现癌症并更成功地进行治疗。


cfDNA 是癌症的致命弱点,但也带来了挑战


使癌症变得危险的奇怪的生物学(现象)也给了科学家更早发现癌症的机会。当癌细胞生长、分裂和死亡时,它们将遗传物质的碎片释放到血液中,称为循环肿瘤DNA(ctDNA)。一些ctDNA片段含有导致或与肿瘤相关的基因变化。不幸的是,健康的细胞也会向血液中释放称为游离DNA(cfDNA)的DNA。从血液检测中检测健康cfDNA海洋中罕见的突变ctDNA是早期癌症检测的核心技术挑战—即如何通过噪声找到信号。

癌症相关 ctDNA 与背景 cfDNA 的比率称为变异等位基因分数 (VAF) 或肿瘤分数,量化与早期癌症检测相关的“大海捞针”问题。VAF 与体内肿瘤的大小成正比。对于某些早期肿瘤,VAF 可低至 1:10,000 (0.01%),如下图所示。

图片来源:ARK Investment Management LLC, 2021

在下一节中,我们将描述液体活检似乎如何克服核心 VAF 挑战。重要的是,NGS、人工智能 (AI) 和合成生物学等技术平台的指数级改进使液体活检的高性能及其在癌症筛查中的商业化成为可能。


体细胞 DNA 突变


致癌基因中的体细胞 DNA 突变--突变时有可能导致癌症的基因--似乎提供了肿瘤正在形成的最可靠信号。虽然名单在不断增加,但似乎只有大约 1-2% 的人类基因具有致癌潜力。尽管如此,在如此低的 VAF 下检测体细胞突变成本高昂又容易出错。

在样本制备过程中,实验室技术人员经常使用一种称为聚合酶链反应(PCR)的技术来复制癌基因进行分析。虽然PCR放大了体细胞突变的信号,但它并不完美。每一个周期都可能引入看起来像实际突变的错误。如果不加控制,这些PCR伪影可能导致假阳性。Guardant Health(GH)、Invitae(NVTA)、Natera(NTRA)、EXAS等公司正在利用合成生物学和人工智能克服这一挑战。

合成生物学(syn-bio)是一个新兴的生物制造领域,其成本正在下降,单位规模正在迅速扩大。合成生物学使专注于液体活检的公司能够使用精心设计的分子条形码纠正PCR错误,如下所示。在整个测序过程中,这些条形码附着并跟随原始DNA分子。通过比较具有相同条形码的片段,生物信息学家可以区分真实突变和自发PCR伪影。不幸的是,这种纠错方式需要大量冗余测序,这会显著增加液体活检的测序工作量。

图片来源:ARK Investment Management LLC, 2021

有信心地检测罕见变异需要非常深入的测序。我们使用覆盖率来测量测序深度。粗略地说,覆盖率是测序仪读取DNA碱基的次数。作为参考,研究人员以30倍的平均覆盖率对整个人类基因组进行测序。测序运行的成本与覆盖率成正比。重要的是,VAF和序列覆盖率之间的关系是指数关系,而不是线性关系。纠错会使已经很高的测序成本增加五到十倍。然而,由于NGS成本的快速下降和可扩展、高效的合成生物学解决方案的结合,使得超低VAF突变的错误检测和纠正变得更加经济。


甲基化和机器学习 (ML)


虽然体细胞DNA突变通常被认为是癌症最特异的指标,但AI在患者血液样本上的大规模应用可以提供替代信号。例如,GRAIL和其他人最近的研究已经使用机器学习来分析DNA甲基化,并能比单独的DNA突变更早期地检测癌症。

DNA甲基化是指DNA外部的化学修饰,如下所示。若一个细胞的基因组是一本书,那个么体细胞突变将类似于拼写错误,而甲基化将以正确的拼写呈现单词,以粗体或斜体显示。甲基化可以改变细胞阅读、反应或表达DNA指令的方式。在人类基因组中,甲基化只影响四个DNA碱基中的一个——胞嘧啶*(C)和2800万个CpG位点中的聚集体——甲基化主要发生在这些位点。

图片来源: ARK Investment Management LLC, 2021

作者:Simon Barnett


GRAIL在数千名患者血液样本上部署了无偏机器学习(ML),以细化一组100000个与各种癌症相关的CpG位点。因为我们不清楚甲基化是如何导致或加速癌症的,所以它与肿瘤的关系与其说是致病的,不如说是相关的。因此,单一甲基化位点的预测能力弱于致癌体细胞DNA突变。然而,总的来说,遍布数千个位点的甲基化信号是癌症存在的有力预测因子。

我们的研究表明,机器学习大大降低了基于甲基化的液体活组织检查的成本,使其更接近商业化。由于甲基化位点过多,检测异常甲基化的肿瘤DNA不需要极高的覆盖率。由于神经网络随着更多的数据、更大的模型和更多的计算而改进,包括甲基化在内的液体活检的准确性和成本效益可能会随着时间的推移而提高。

虽然DNA甲基化有利于早期癌症检测,但在缺乏合成生物学的情况下,很难从血液样本中检测到DNA 甲基化。与标准DNA测序不同,甲基化测序涉及额外的样品制备。实验室技术人员通常使用亚硫酸氢盐处理或酶将未甲基化的胞嘧啶(C)碱基转换为胸腺嘧啶(T)碱基,同时保持甲基化的胞嘧啶(C)碱基完好无损。然后,下游算法可以识别原始样本中甲基化的胞嘧啶(CS)。这一过程增加了复杂性,并可能阻止测序仪将其读数集中在基因组的正确区域,如下所示。所谓的“脱靶”测序对测试结果没有任何贡献,只会导致更高的运营成本和时间损失。

图片来源:ARK Investment Management LLC, 2021

作为合成生物学领域的领导者,Twist Biosciences(TWST)利用其制造和数据科学专业知识来应对这一挑战。Twist工程甲基化特异性捕获探针能靶向结合特定基因组区域的小分子,有助于将测序重点放在正确的区域,如上所示。Twist的高度统一的捕获探针使GRAIL的早期检测技术成为可能。我们相信, Twist的产品成本低、精度高、可定制,因此它有可能使甲基化研究平民化,并有可能促进液体活检用于癌症筛查。此外,最近被Exact Sciences收购的私人公司Base Genomics开发了一种不太激进的样本制备方法,该方法可以保留表观基因组信息,并能经济高效地准确检测甲基化等生物标记物。


机器学习支持多组学模型


癌症信号列表并不止于体细胞 DNA 突变和甲基化。多组学意味着组合多个“组学数据集”,例如:片段组学(cfDNA 如何分解)、蛋白质组学(哪些蛋白质在血液中循环)和转录组学(基因表达如何变化),如下所述。几个研究小组还指定了新的甲基化“口味”,如5hmC或称为新异构体的非天然 DNA 短片段作为癌症的标志物。
Freenome这样的公司正在开创包含多个这些信号的多分析物或多组学机器学习模型。重要的是,许多“组学”信号是正交的或相加的,产生的癌症信号使生物噪声相形见绌。我们认为多组学的一个关键推动因素是人工智能模型训练的成本急剧下降。

图片来源: ARK Investment Management LLC, 2021

结论


我们相信,由于下一代DNA测序(NGS)、人工智能(AI)和合成生物学(syn-bio)等曾经完全不同的技术平台的融合,检测人员可以通过非侵入性血液测试去检测早期癌症的存在。这些技术之间的界限已经消失,即使不是要求跨学科的创新和协作,也是令人鼓舞的。因此,不积极投资研发的现有企业很可能在新世界中失去立足点。

与NGS、AI和合成生物学相关的指数成本下降使得液体活检能够检测癌症。莱特定律是摩尔定律的一个相对物,摩尔定律是单位而不是时间的函数,是这些成本下降的模板。根据莱特定律,单位缩放应继续降低成本,以提高液体活检的可行性和准确性。




下一篇:这是最后一篇
上一篇:这是第一篇