头颈癌放疗中深度学习结局预测模型的不确定性量化方法与指标的评估

发布时间：2026-05-30 17:02:53 细胞资源库平台访问量：11

乙肝病毒(HBV)感染是全球主要公共卫生问题之一，有超过2.5亿人慢性感染HBV。而其中有超三分之一的人口集中在我国，人数接近1亿人。NTCP工具细胞，特别是外源表达NTCP的肝癌细胞系如HepG2-NTCP和Huh7-NTCP，因其易操作、短周期、重现性佳的特点，在乙肝病毒(HBV)研究中扮演着至关重要的角色。这些细胞模型能够有效模拟HBV的感染过程，为研究HBV的生命周期、宿主限制因子、病毒复制以及药物筛选提供了一个强大而便捷的体外平台。它们不仅有助于揭示HBV感染的分子机制，如DDX3作为宿主限制因子阻碍cccDNA转录，GPC5作为附着因子在感染入胞过程中的作用，还能通过直接与NTCP相互作用或下调NTCP表达来筛选和验证抗病毒药物的活性，例如环孢菌素A及其衍生物、雷帕霉素及其衍生物等。此外，这些工具细胞还促进了对HBV宿主特异性分子的发现，为发展支持HBV感染的小动物模型提供了可能，这对于乙肝相关研究和药物开发具有重大意义。

基本信息

英文标题：An evaluation of uncertainty quantification methods and measures for deep learning outcome prediction models in head and neck cancer radiotherapy

中文标题：头颈癌放疗中深度学习结局预测模型的不确定性量化方法与指标的评估

发表期刊：《Physics and Imaging in Radiation Oncology》

影响因子：3.3

作者单位：

1.Department of Radiation Oncology, University Medical Center Groningen, University of Groningen, Groningen, the Netherlands

2.Department of Artificial Intelligence, Bernoulli Institute, University of Groningen, Groningen, the Netherlands

作者信息：

第一作者：Daniel C. MacRae

通讯作者：Daniel C. MacRae

研究背景

深度学习在放疗结局预测(如正常组织并发症概率和肿瘤控制概率)中展现出潜力，但由于难以评估模型预测的可靠性，临床采纳仍然有限。不确定性量化可以通过提供预测置信度估计来缓解这一问题。已有少量研究在NTCP/TCP模型中应用了UQ(如dropout、测试时增强、共形预测等)，并显示“确定”的预测更准确，剔除不确定预测可提升性能。然而，这些研究在UQ方法、指标和评价标准上存在较大异质性，缺乏共识。本研究旨在系统评估三种常用的UQ方法(蒙特卡洛dropout、深度集成、测试时增强)和三种不确定性度量(熵、方差、互信息)在头颈癌放疗NTCP和TCP模型中的可靠性，为未来UQ在放疗结局预测中的应用提供指导。

研究方法

本研究复现了四个已发表的深度学习模型：两个NTCP模型(预测放疗后6个月的2-4级吞咽困难和中重度口干症)和两个TCP模型(预测2年总生存和2年局部区域控制)。NTCP模型使用3D CT、剂量分布、勾画和临床特征输入;TCP模型使用3D CT、PET、GTV和临床特征输入。数据集来自荷兰格罗宁根大学医学中心：NTCP队列1205例(964训练/241验证)，TCP队列340例(255训练/85验证)。三种UQ方法：MC dropout(50次随机前向传播，dropout率经调优)、深度集成(10个不同初始化的模型)、测试时增强(50种训练时使用的随机增强)。三种不确定性度量：熵、方差、互信息。评价指标：区分度(AUC、准确率)、校准度(自适应校准误差ACE)、稀疏化分析(按不确定性排序后逐步剔除最不确定样本，观察AUC变化)。此外，通过增加训练集大小观察不确定性值的变化。

实验结果

图 1：模型与不确定性量化示意图

图 1：模型与不确定性量化示意图

图1A展示了NTCP和TCP模型的输入数据：NTCP使用3D CT、剂量分布和器官轮廓;TCP额外使用PET图像和GTV轮廓，但不使用剂量分布。图1B为确定性DL模型(基线)，输出单点预测。图1C展示了三种UQ方法：MC dropout、深度集成和测试时增强，它们通过引入随机性产生预测分布，从而计算不确定性。该图清晰地说明了UQ在放疗结局预测中的工作流程。

图 2：不确定性值与预测准确率之间的校准

图 2：不确定性值与预测准确率之间的校准

图中每个子图展示了对于不同UQ方法-度量组合，将预测按不确定性值分组后各组准确率的变化趋势。理想情况下，不确定性越低(越确定)的组准确率应越高。结果显示：深度集成在所有终点上都表现出最佳的正相关性;MC dropout效果接近，但口干症模型中使用互信息时校准较差;TTA的可靠性变化较大，尤其是在NTCP模型中。熵和方差普遍与准确率正相关，而互信息最不稳定。说明深度集成和MC dropout是更可靠的UQ方法。

图 3：稀疏化分析——剔除最不确定预测对准确率的影响

图 3：稀疏化分析——剔除最不确定预测对准确率的影响

图中展示了逐步剔除独立验证集中最不确定的一半患者后，模型准确率的变化。对于吞咽困难模型，使用MC dropout或深度集成时，剔除最不确定的一半患者后准确率从0.8提升至超过0.9。对于所有终点，这两种方法剔除不确定病例后准确率均明显上升。TTA在生存和LRC上也有类似表现，但在NTCP模型上效果不一。这证明UQ可以有效筛选出可靠预测，支持选择性预测的临床应用。

图 4：训练集大小对不确定性值的影响

图 4：训练集大小对不确定性值的影响

图中显示了随着训练集增大(从0逐步增加到约800例NTCP或200例TCP)，不同UQ方法-度量组合下不确定性值的变化趋势。有趣的是，二元熵值随着训练集增大反而略有增加或保持稳定，而方差和互信息仅在深度集成的口干症模型中下降。作者推测这是因为训练集较小时模型低估了真实的偶然不确定性，而偶然不确定性远远超过了认知不确定性;增加训练集引入的病例多样性反而增加了建模难度。这表明在结局预测中，数据异质性可能比数据量更重要。

研究结论

本研究在头颈癌放疗的大型队列上，系统评估了三种不确定性量化方法(MC dropout、深度集成、测试时增强)和三种不确定性度量(熵、方差、互信息)在深度学习NTCP和TCP预测模型中的可靠性。结果表明：MC dropout和深度集成能够在不损害模型区分度的情况下提供有意义的置信度估计，其不确定性值与预测准确率呈良好正相关;剔除最不确定的预测可显著提升模型性能，为“选择性预测”临床工作流程提供了可能。熵和方差是较为稳定的度量指标，而互信息表现不稳定，不推荐使用。测试时增强在多模态输入下的可靠性较差，部分情况下甚至降低了模型性能。与自动分割任务不同，结局预测中不确定性行为更复杂，训练集增大可能因引入数据异质性而增加不确定性。本研究为放疗结局预测中UQ方法的选择和评价提供了实证依据，并指出未来需要进一步研究如何在临床决策中直观展示不确定性以及跨中心泛化验证。