谷歌新模型提升肺癌筛查率:相关研究登上Nature Medicine

  • 时间: 2019-05-22 11:57:45

根据世界卫生组织,肺癌每年造成 1700 万人死亡,是致死率最高的癌症(死亡率超过乳腺癌、前列腺癌和结直肠癌的总和),是全球第六大死因。尽管肺癌在所有癌症中存活率最低,但如果发现得早并及早干预是可以有更多治疗机会的。然而,统计数据显示,大部分肺癌到了晚期才被诊断出来。

过去三十年,医生探索了很多方式来诊断肺癌高危人群。尽管低剂量 CT 筛查被证明能够降低肺癌死亡率,但是仍然存在一些问题导致不明确的诊断结果、后续不必要治疗、医疗成本等等。

谷歌的最新研究

根据谷歌博客介绍,谷歌于 2017 年末开始探索如何使用 AI 解决一些挑战。研究者利用 3D 体建模的进展,结合来自谷歌合作伙伴(包括美国西北大学)的数据集,在建模肺癌预测方面取得了很大进步,为未来临床测试奠定了基础。谷歌的相关研究已发布在 Nature Medicine 上。

该研究所用数据集:

  • LUNA: https://luna16.grand-challenge.org/data/

  • LIDC: https://wiki.cancerimagingarchive.net/display/Public/LIDC-IDRI

  • NLST: https://biometry.nci.nih.gov/cdas/learn/nlst/images/

该研究中来自美国西北大学的数据集暂未公开。

放射科医生在一次 CT 扫描中通常需要查看数百张 2D 图像,而癌症是很微小也很难看到的。谷歌研究者创建了一个模型,该模型不仅能够生成肺癌恶性肿瘤整体预测,还可以识别出肺部不易被察觉的恶性组织(肺结节)。该模型还可以将之前的扫描结果考虑在内,帮助预测肺癌风险,因为肺结节的增长速度有可能预示着有恶性肿瘤的存在。

整体建模框架图示。

在谷歌的这项研究中,研究者利用 45856 个去识别化的胸部 CT 扫描案例(其中一部分是癌症病例),这些案例来自美国国家肺癌筛查试验(National Lung Screening Trial, NLST)和美国西北大学的 NIH 研究数据集。研究者使用另一个数据集进行验证,并将实验结果与六名美国认证放射科医生的诊断结果进行对比。

在使用单次 CT 扫描进行诊断时,谷歌的模型性能堪比甚至优于六名放射科医生。与没有辅助的放射科医生相比,该模型检测出的癌症病例多出 5%,且假阳性检查结果减少了 11% 以上。谷歌的方法获得了 94.4% 的 AUC(曲线下面积)。

该模型在完整 NLST 数据集上和在单独测试集上的结果。

下图展示了在仅使用当前 CT 扫描时,该模型与人类放射科医生的肺癌检测性能对比:

下图展示了,在使用当前和之前 CT 扫描时,该模型与人类放射科医生的肺癌检测性能对比:

对于无癌症史的无症状病患,该 AI 系统审查和检测出了潜在肺癌,而该病患先前被诊断为正常。

下一步计划

尽管肺癌筛查具有很大价值,但现在美国仅有 2-4% 的相关病患接受筛查。谷歌的这项研究展示了人工智能在提升肺癌筛查准确率和一致性方面的潜力,这将有助于加速在全球范围内推广肺癌筛查。

这些初步结果令人鼓舞,但后续研究将对临床实践中的影响和效果进行评估。研究者正与 Google Cloud Healthcare 和 Life Sciencecs 团队合作,并通过 Cloud Healthcare API 提供该模型,同时与全球合作伙伴进行早期接洽以继续其他的临床验证研究和部署。

论文:End-to-end lung cancer screening with three-dimensional deep learning on low-dose chest computed tomography

论文地址:https://www.nature.com/articles/s41591-019-0447-x

2018 年,美国肺癌死亡人数约为 160000,是美国排名第一位的肿瘤死因。使用低剂量 CT 筛查进行肺癌扫描已被证实能够将死亡率降低 20–43%,低剂量 CT 筛查现已包含在美国筛查指南中。但仍然存在一些挑战,包括评估者差异可变性(inter-grader variability)以及较高的假阳性和假阴性率。

谷歌研究者提出了一种深度学习算法,利用病患当前和以前的 CT 来预测肺癌风险。他们提出的模型在 6716 个美国国家肺癌筛查试验病例上取得了当前最佳的效果(曲线下面积为 94.4%),并在包含 1139 个病例的独立临床验证集上获得了类似的性能。

研究者还进行了两项评估者研究。当以前的 CT 影像不可用时,模型效果优于所有六位放射科医生的诊断,将假阳性率降低 11%,假阴性率降低 5%。当以前的 CT 影像可用时,模型效果与放射科医生的诊断相当。这为利用计算机辅助和自动化来优化筛查过程提供了机会。目前绝大多数病患处于未接受筛查的状态,研究者认为深度学习模型有助于提升全球范围内肺癌的筛查准确率、一致性和推广。

原文链接:https://blog.google/technology/health/lung-cancer-prediction/