快速识别恶性肿瘤细胞,厦大和上海交大开发
刘云涛 https://jbk.39.net/yiyuanzaixian/bjzkbdfyy/nxbdf/

编辑

萝卜皮

单细胞和空间转录组测序是两种最近优化的转录组测序方法,越来越多地用于研究癌症和相关疾病。

细胞注释,特别是恶性细胞注释,对于这些研究中的深入分析至关重要。然而,当前的算法缺乏准确性和泛化性,使得难以一致、快速地从泛癌数据中推断出恶性细胞。

为了解决这个问题,厦门大学和上海交通大学的研究团队提出了Cancer-Finder,一种基于域泛化(DomainGeneralization,DG)的深度学习算法,可以快速识别单细胞数据中的恶性细胞,平均准确率达到95.16%。重要的是,通过用空间转录组数据集替换单细胞训练数据,Cancer-Finder可以准确识别空间幻灯片上的恶性spots。

该研究以「Domaingeneralizationenablesgeneralcancercellannotationinsingle-cellandspatialtranscriptomics」为题,于年3月2日发布在《NatureCommunications》。

人们早已认识到肿瘤异质性是开发有效癌症治疗的重大障碍。单细胞RNA测序(scRNA-seq)技术能够在单细胞水平上全面了解肿瘤内和肿瘤间的异质性,从而促进个性化治疗的开发。

空间转录组学(ST)伴随着scRNA-seq的脚步,已经成为一种有前途的测序技术。它可以捕获完整组织内转录活动的空间背景,并越来越多地应用于癌症研究,在癌症异质性研究中产生了许多突破性的发现。在这些研究中,对单细胞spots(ST中的测量单位)恶性状态的精确注释至关重要且基础。

恶性细胞spots主要通过标记基因或拷贝数变异(CNV)事件来识别。目前,迫切需要一种精度高、泛化性能好、易于扩展以处理多种数据类型的无参考恶性细胞注释算法。

厦门大学和上海交通大学的研究团队提出了Cancer-Finder,一种基于域泛化的恶性细胞注释策略,可以从具有不同分布的多个数据集中学习泛化模型。这允许在具有未定义分布(未知域)的单细胞数据内直接区分泛癌肿瘤微环境中的恶性细胞和正常细胞。

此外,通过替换训练集,该团队快速扩展Cancer-Finder来注释ST数据中的恶性spots,并在使用小训练集训练后证明了其高预测精度。

通过精确识别5个ccRCCST载玻片上的恶性spots,该团队成功发现了由10个基因组成的基因特征;这些基因往往在肿瘤和正常组织之间的界面处富集,可能与侵袭性肿瘤微环境的形成有关,并可作为理想的预后指标。

图示:Cancer-Finder概述及其应用。(来源:论文)

由于该方法的高性能和计算简单性,这里采用风险外推法。在风险外推中结合平均风险和方差风险,使Cancer-Finder能够在数据集、癌症类型和技术平台上实现良好的泛化性能。

与现有技术相比,Cancer-Finder对多种癌症的scRNA-seq数据集的恶性注释建立了更高的精度和稳定性,在金标准数据集中实现了98.30%的准确率,在银标准数据集中实现了90.89%的相似性。Cancer-Finder更加准确,是因为深度学习模型比逻辑回归等传统模型更具适应性并且具有更大的拟合能力。

图示:Cancer-Finder的性能评估。(来源:论文)

此外,Cancer-Finder还有效利用了积累的癌组织数据和注释信息(主要通过算法计算和手动注释),从而增加了准确区分恶性和非恶性细胞的机会。虽然大多数现有算法都基于简单模型或单数据集分析,但前者容易受到模型限制,而后者容易受到重点数据集的质量及其包含的细胞类型的影响。

与其他方法不同(CopyKAT必须推断CNV并根据CNV配置文件进行分类,SCEVAN需要表征克隆结构,CaSee必须找到训练的参考),Cancer-Finder的推断过程只需要简单的前向传播线性计算。随着单细胞数据量的增加,相信使用更大量的数据进行再训练将为Cancer-Finder在癌症研究中提供巨大的潜力。

图示:Cancer-Finder在ccRCCST数据集中肿瘤间异质性分析中的应用。(来源:论文)

通过替换训练数据集,研究人员快速扩展Cancer-Finder来注释ST数据中的恶性spots,并在使用小训练集训练后证明了其超高的预测精度。

虽然训练集中只有少量相关ST数据,Cancer-Finder在训练组织的ST数据上显示出很高的准确性(82.00-97.37%)。

此外,预先训练的Cancer-Finder可以轻松扩展到由其他技术生成的具有相当序列分辨率的ST数据集,验证了Cancer-Finder强大的泛化能力。

除了扩展训练数据类型外,Cancer-Finder还可以扩展为通过替换训练标签来注释其他细胞状态(或细胞类型)。例如,将训练标签更改为免疫细胞,使得Cancer-Finder能够从单个细胞中准确识别免疫细胞。

在外部测试中,Cancer-Finder识别肺、乳腺、卵巢和肝脏中免疫细胞的准确度在85.21%到95.76%之间。随着单细胞数据的积累,研究人员将能够使用Cancer-Finder来注释各种细胞状态,例如稀有细胞。

图示:与基于外部验证数据集和大型数据库应用的现有方法进行性能比较。(来源:论文)

尽管有这些优势,但目前的模式仍然有发展空间。Cancer-Finder在大多数癌症上表现良好(准确度0.8),但其在血液肿瘤中的表现有限,可能是由于血液肿瘤和实体瘤之间存在显著差异。因此,研究人员不推荐Cancer-Finder用于血液肿瘤数据。

研究人员表示,Cancer-Finder忽略了ST数据中spots之间的空间关系,这是一个有可能提高其整体功效的因素。这些都值得进一步探索。

论文链接:


转载请注明:http://www.uwwth.com/jbbk/15592.html

  • 上一篇文章:
  •   
  • 下一篇文章: 没有了

  • 当前时间: