早筛网讯:近日,求臻医学信息团队研发的一站式肿瘤精准诊疗知识挖掘平台OncoPubMiner,在国际权威生物信息学期刊Briefings in Bioinformatics(SCI影响因子:13.994,中科院JCR数学与计算生物学1区Top期刊)上在线发表 [1]。该平台利用自然语言处理技术(NLP,一种人工智能技术),对PubMed收录的2,343万篇摘要和PMC收录的437万篇全文进行了深入挖掘,识别出逾2.7亿实体-文献关系对。同时,平台创新性地设计了全流程一站式数据在线摘录功能,不仅为求臻医学实时追踪最新肿瘤学研究进展、快速更新肿瘤NGS检测结果解读知识库奠定了平台基础,也将为肿瘤患者的检测报告带来实时、全面、高质量的自动化解读。
研究背景
近年来,高通量测序技术(NGS)在精准医学领域发挥的作用日益凸显,在肿瘤精准医学领域更是方兴未艾,相关的研究论文数量也呈现指数式增长。作为开发新算法、新工具的金标准,高质量且实时更新的肿瘤精准诊疗知识库肩负着快速追踪科研进展,更好地服务于临床,辅助新研究发现的重要使命,更是实现自动化和智能化报告解读系统的基石。
诚然,现如今相关领域已有多款优秀数据库,如OncoKB [2]、CIViC [3]、JAX-CKB [4]、My Cancer Genome [5]、PMKB [6]、CGI [7]、OncoPDSS [8]等,但仍存在数据不全、缺乏持续或实时更新、数据无法批量获取等问题。因此,开发高质量且实时更新的自建知识库迫在眉睫。
研究设计
图1. OncoPubMiner平台工作流(workflow)
研究论文是科研发现的第一展示阵地,也是肿瘤精准诊疗知识数据的重要来源。本项目以文献数据挖掘为目标,从NCBI下载可公开使用(open-access)的PubMed摘要(Abstract)和PMC全文(Full-text),经过脚本处理、解析和格式转化后,利用基于人工智能的NLP技术对肿瘤精准诊疗相关的实体(如癌种、基因、变异、药物、临床意义、证据方向)进行挖掘。同时,利用业界常用的术语集(terminology)和本体(ontology),分别对自动化标注的实体进行标准化和层级化处理。最后,基于数据挖掘结果,构建一套包括文献检索、文库管理、团队搭建、表单定制、项目管理、数据摘录及审核等功能在内的全流程一站式平台。
研究结果
1.文献挖掘
该工作首先从NCBI的FTP服务器下载全量的可公开使用的数据集。所下载的XML格式的文献数据均通过Python脚本转化为BioC-JSON(untagged,http://bioc.sourceforge.net/,图2),一种NCBI认可的生物医学文本处理与交互格式。
图2. BioC数据格式示例
接着,利用NLP技术,对全部转换后的BioC-JSON(untagged)数据进行实体识别(Entity Recognition)。现阶段识别的实体主要有:癌种/疾病、基因、变异/生物标志物、药物/化合物、临床意义和证据方向等。识别得到的实体再经过词典库(从公共数据库整理得到)和规则库(求臻医学信息团队文本挖掘经验总结得到)过滤,并经过同义词匹配和相似度计算等方式,对标注得到的全部实体进行标准化处理,从而产生终版的带有标准化标注结果的BioC-JSON(tagged)数据。文献挖掘已实现全流程自动化处理。
此外,该工作还开发了NCBI FTP服务器实时监控脚本OncoPubMonitor.py,一旦监控到有新文献释放(release),该脚本会自动进行增量下载,下载完成即启动自动化文本挖掘工作流。截至发稿,OncoPubMiner已挖掘23,434,007篇PubMed摘要、4,379,600篇PMC全文,识别出了277,198,162对去重后的“实体-文献”关系对。
2.文献检索
文献挖掘结果分别以基于MongoDB的文档形式和基于MySQL的结构化形式进行存储。基于后者,该工作设计并开发了实体依赖的精准和模糊检索模式。此外,OncoPubMiner也集成了基于NCBI EUtilities API的远程检索模式。丰富的检索方式,能为用户带来更快更精准的文献检索体验。
图3. OncoPubMiner平台文献检索功能
为便于用户更直观地筛选目标文献,OncoPubMiner还展示了文献最近两年的影响因子(IF2020和IF2021),计算了HSL(Highest-sentence level)分值,显示文库收录、标星以及备注的状态。不仅如此,该工作还实时统计关联了每一篇文献引用(Reference)、被引用(Cited_by)以及相似(Similar)的文献列表。通过关联检索,能利用初步锁定的“种子”文献更快速地发掘其他可能感兴趣的文章。
3.表单定制
OncoPubMiner的设计初衷,既是为优化求臻医学的检测业务服务,也是为了整个肿瘤精准诊疗领域服务。不同的研究机构、企业,对于各自知识库的结构设计也有所差异,如何能让系统满足所有用户对于数据结构的需求,这是OncoPubMiner设计之初就在考虑的问题。求臻医学信息团队为OncoPubMiner集成了数据表单在线定制功能,所有用户均可根据实际需求,自定义数据采集表单,包括字段名称、类型、默认选项、是否必填/必选、排序位置、字段提示等,均可自行配置(图4)。
图4. OncoPubMiner表单自定义功能
值得一提的是,OncoPubMiner预定义了完全兼容CIViC数据平台的包括诊断(Diagnostic)、预测(Predictive)、预后(Prognostic)、功能(Functional)、易感性(Predisposing)、致癌性(Oncogenic)等6套数据采集表单。所有用户均可基于这些公共表单进行拷贝,并在此基础上进行修改,方便快速构建目标表单(图5)。
图5. OncoPubMiner预定义的兼容CIViC的数据采集表单
4.项目管理
除了上述功能,OncoPubMiner还提供了文库、团队以及项目管理等功能。
图6. OncoPubMiner 文献阅读及数据采集平台
通过关键词检索得到的文献可以通过文库进行集中管理,同时用户可以创建团队成员账号,并建立数据摘录(data curation)项目,将文库、表单和团队成员添加到项目中来:以团队的形式对目标文献进行阅读,利用表单进行数据采集,并对所采集的数据进行审核(图6),最终得到高质量的结构化知识数据(图7)。
图7. OncoPubMiner导出的结构化知识数据
研究总结
本项目中,求臻医学研发了一套用于肿瘤精准诊疗文献挖掘的一站式平台。通过基于NLP技术的文本挖掘,构建了全面的肿瘤学知识挖掘数据库。基于该数据库,提供了丰富的文献检索和筛选功能,并设计了全流程文献数据摘录与审核功能。通过该平台,用户能够实现“关键词进,知识库出”,一站式构建高质量、及时更新、结构化的自建肿瘤精准诊疗知识库,彻底解决利用公共数据库时所遇到的质量不高、数据不全、更新不及时、无法商用等痛点问题。
参考文献:
1.Quan Xu, Yueyue Liu, Jifang Hu, Xiaohong Duan, Niuben Song, Jiale Zhou, Jincheng Zhai, Junyan Su, Siyao Liu, Fan Chen, Wei Zheng, Zhongjia Guo, Hexiang Li, Qiming Zhou, Beifang Niu, OncoPubMiner: a platform for mining oncology publications, Briefings in Bioinformatics, 2022;, bbac383, https://doi.org/10.1093/bib/bbac383
2.Chakravarty D, Gao J, Phillips SM et al. OncoKB: A Precision Oncology Knowledge Base, JCO Precis Oncol 2017;2017.
3.Griffith M, Spies NC, Krysiak K et al. CIViC is a community knowledgebase for expert crowdsourcing the clinical interpretation of variants in cancer, Nat Genet 2017;49:170-174.
4.Patterson SE, Liu R, Statz CM et al. The clinical trial landscape in oncology and connectivity of somatic mutational profiles to targeted therapies, Hum Genomics 2016;10:4.
5.Holt ME, Mittendorf KF, LeNoue-Newton M et al. My Cancer Genome: Coevolution of Precision Oncology and a Molecular Oncology Knowledgebase, JCO Clin Cancer Inform 2021;5:995-1004.
6.Huang L, Fernandes H, Zia H et al. The cancer precision medicine knowledge base for structured clinical-grade mutations and interpretations, J Am Med Inform Assoc 2017;24:513-519.
7.Tamborero D, Rubio-Perez C, Deu-Pons J et al. Cancer Genome Interpreter annotates the biological and clinical relevance of tumor alterations, Genome Med 2018;10:25.
8.Xu Q, Zhai JC, Huo CQ et al. OncoPDSS: an evidence-based clinical decision support system for oncology pharmacotherapy at the individual level, BMC Cancer 2020;20:740.