今天为大家介绍的是来自Søren 和Chris 研究团队的一篇关于胰腺癌预测的论文。胰腺癌是一种很严重侵扰性的疾病,通常在晚期才能检测出来,且患者的预后通常不乐观。这表明对于早期检测胰腺癌的需求非常迫切,早期发现可以显著改善患者的生存率和生活质量。在这项研究中,作者应用了人工智能方法对丹麦(丹麦国家患者登记数据库(DNPR))的600万患者(2.4万例胰腺癌病例)和美国(美国退伍军人事务部(US-VA))的300万患者(3900例病例)的临床数据进行了分析。作者使用临床病史中的疾病代码序列对机器学习模型进行训练,并测试了在不断增加的时间窗口内预测癌症发生的能力()。对于近36个月内的癌症发生进行预测,最佳DNPR模型的AUROC为0.88,并且在排除癌症诊断前3个月内的疾病事件的训练时,AUROC(3m)降至0.83,并且年龄超过50岁的最高风险患者相比于其他人,患上胰腺癌的风险要高出59倍。将丹麦模型应用于美国退伍军人事务部数据的交叉应用性能较低(AUROC = 0.71),需要重新训练以提高性能(AUROC = 0.78,AUROC(3m) = 0.76)。这些结果提高了设计针对高风险患者的现实监测计划的能力,通过早期发现这种癌症,潜在地改善了寿命和生活质量。
胰腺癌是全球癌症相关死亡的主要原因之一。早期诊断是胰腺癌的一个关键挑战,因为该疾病通常在晚期才被发现。大约80%的胰腺癌患者在诊断时已处于局部晚期或远处转移期,此时长期存活极为罕见(5年生存率为2-9%)。然而,早期病变的患者可以通过手术、化疗和放疗的综合治疗方法得到治愈。因此,更好地了解胰腺癌的风险因素并实现早期检测极具意义,可改善患者的生存率并降低总体死亡率。
与肺癌、乳腺癌和结直肠癌等其他癌症类型相比,胰腺癌的发病率要低得多。尽管年龄是一个主要的风险因素,但仅基于年龄的全人群胰腺癌筛查在临床上是不可行的,因为可能需要为大量患者进行昂贵的临床检测,而且还可能存在假阳性预测。此外,关于胰腺癌的高关联风险因素了解甚少,这也妨碍了对该疾病的早期诊断。多年来,人们基于家族史、行为和临床风险因素以及最近的循环生物标志物和遗传易感性对胰腺癌的风险进行评估。目前,一些由于家族史、罕见的遗传致病变异或胰腺囊性病变而具有高风险的患者进行连续胰腺成像,以便早期发现胰腺癌。然而,这些患者仅占发展胰腺癌的一小部分,并且在普通人群中通常没有家族史或遗传风险因素的数据。为了解决普通人群早期发现胰腺癌的挑战,作者的目标是从大量患者的真实世界纵向临床记录中预测胰腺癌的风险,并在其中确定一部分高风险患者,以便设计可负担的早期检测监测计划。
针对胰腺癌的风险评估,已经有先前工作使用患者记录构建了ML预测模型,包括健康访谈调查数据、与其他癌症类型患者进行比较的全科医生健康记录、实际医院系统数据以及,LLC提供的EHR数据库。尽管这些先前的研究证明了健康记录对于癌症风险的信息价值,但这些研究仅使用疾病的发生情况,而没有使用患者轨迹中的疾病状态形成的时间序列。先前的研究使用丹麦卫生注册数据生成了人群范围的疾病轨迹,但仅以描述性的方式进行了分析。
图1
个性化阳性预测的癌症风险模型中得到的预测,理想情况下应考虑在更短或更长的时间范围内发病的概率(图1)。因此,作者设计的AI方法,不仅预测癌症的可能性,还在风险预测之后的逐步时间间隔内提供风险评估。为了方便解释模型的学习内容,作者分析了患者诊断代码历史中被该方法标记为与癌症风险最相关的诊断,并提出了一个实用的监测计划方案,该方案考虑到现实世界数据的可用性、在这些数据上的预测准确性、监测计划的范围、监测方法的成本和成功率以及早期治疗的总体潜在好处(补充说明)。
数据来源
图2
表1
文章使用了来自DNPR的疾病轨迹数据,并结合了中央人口登记处(CPR)的人口统计信息。DNPR覆盖了大约860万名患者,有2.29亿次医院诊断记录,平均每位患者有26.7个诊断代码。在训练过程中,作者使用了国际疾病分类(ICD)的诊断代码轨迹,包括ICD层次结构中的三位字符分类,并为每个医院接触提供了明确的时间戳,时间跨度为1977年1月至2018年4月,共有620万名患者通过标准筛选获得了训练数据,其中包括23,985例胰腺癌病例(图2a,b,d,表1)。
为了在另一个医疗保健系统中进行验证,作者同样使用了来自美国退伍军人事务部(US-VA)CDW(数据仓库)的1999年至2020年的纵向临床记录,该数据仓库整合了全国范围内的电子健康记录和癌症登记数据(图2a,c,e)。在训练过程中,作者使用了一个选定的数据集的轨迹,共计300万名患者,其中包括3,864例胰腺癌病例(表1)。平均而言,US-VA数据集中的健康记录时间较短(US-VA的中位数为12年,而DNPR的中位数为23年),但疾病历史记录较为密集(US-VA的中位数为每位患者188个记录,而DNPR的中位数为每位患者22个记录)。这些差异很可能反映了人口的差异(丹麦的整个人口与美国退伍军人事务部的退伍军人)以及医疗保健系统的实践差异,如转诊、文档记录和计费方式。
模型结构
用于从疾病轨迹预测癌症风险的机器学习模型包括以下部分:(1)轨迹中每个事件的输入数据(诊断代码和时间戳);(2)将事件特征嵌入到实数向量中;(3)将轨迹编码到较低维度的潜在空间中;以及(4)预测时间相关的癌症风险。疾病轨迹的纵向性质使得我们可以使用顺序神经网络(如门控循环单元(GRU)模型和模型)构建时间序列模型。作为计算控制,作者还测试了一种忽略疾病事件的时间和顺序的词袋方法。每个模型学习估计在评估风险的时间点之后3个、6个、12个、36个或60个月内(而不仅仅是在评估后的任何时间)发生癌症的风险的概率,而不仅仅是二元(是或否)的风险预测。
为了避免过拟合并测试模型预测的泛化能力,作者将患者记录随机分成80%/10%/10%的训练/验证/测试集。只在训练集上进行训练,并使用验证集来检查不同超参数设置的性能,以指导模型选择。所选模型的性能是在完全保留的测试集上评估的,并报告作为对未来患者的性能估计。
模型评估
图3
图3
作者AUROC和相对风险(RR)曲线评估了在DNPR上训练的不同模型的预测性能(图3)。所有性能指标都是基于将每个训练的风险评估模型应用于测试集进行计算的。在训练和超参数搜索过程中,严格保留了测试集。在对测试集上不同类型的机器学习模型进行最终性能评估时,明确使用和编码疾病代码的时间序列的模型(即GRU和)通过AUROC得分最高(图3a、b)。对于在评估日期(风险预测日期)后3年内的癌症发生预测,模型表现最佳(AUROC = 0.879(0.877–0.880)),其次是GRU模型(AUROC = 0.852(0.850–0.854))。
为了更好地理解在实际情况下应用模型的影响,作者还报告了由机器学习模型预测的高风险组患有癌症的相对风险(RR)得分(图3b、d、f、h和4)。RR得分在给定的操作决策点上定义。它评估了预测方法相对于随机模型的优势倍数。在36个月预测间隔中,模型(带有时间序列)的RR得分为104.7,操作点由1000名高风险患者中的n = 1,000名确定,总共有100万名患者(最高风险的0.1%;记作N1000)。
其他研究也利用实际世界的临床记录开发了机器学习方法来预测胰腺癌风险。这些先前的研究取得了令人鼓舞的结果,但没有使用疾病历史的时间序列来提取时间序列的纵向特征。为了比较,作者实施了类似的方法,包括一个词袋模型和一个多层感知器(MLP)模型,在DNPR数据集上评估了非时间序列模型,并且在预测36个月内的癌症发生的性能方面,词袋模型的AUROC为0.807(0.805–0.809),MLP模型的AUROC为0.845(0.843–0.847)(图3a)。与时间序列模型(例如)相比,RR也要低得多(分别为2.1和26.6,而为104.7)。
在胰腺癌诊断前的非常短时间内的疾病编码(图2d和e)很可能直接指示疾病状况,即使没有任何机器学习,训练有素的临床医生也会将胰腺癌列为高排名的鉴别诊断之一。胰腺癌发生前的疾病编码可能间接涵盖胰腺癌(例如,消化道肿瘤),从而反映出想要推断的标签。为了减少 这些疾病编码在训练中的不适当影响,作者单独训练了模型,排除了胰腺癌诊断前3个、6个和12个月的输入疾病诊断。如预期的那样,当使用数据排除进行训练时,最佳模型的性能从AUROC = 0.879 下降到 AUROC = 0.843/0.829/0.827(分别对应3个月/6个月/12个月的数据排除),用于预测36个月内癌症发生的情况(DNPR数据集;图3c)。
除此之外,作者探索了训练疾病编码的适当细化程度和完整性。可以在患者疾病轨迹中出现的较小疾病编码集上进行训练。例如,可以使用先前的知识,并将训练的输入限制为已知的风险因素,即已报告与胰腺癌可能发生相关的疾病。我作者发现,使用23个已知风险因素的ICD编码子集进行预测时,模型的预测性能降低到AUROC = 0.838,而所有诊断编码的AUROC为0.879,因此作者在后续的工作中使用后者(ICD level-3,2000个疾病编码)。
图5
考虑在不同时间间隔内癌症风险是具有特殊临床意义的。研究中的机器学习模型旨在报告胰腺癌发生的风险评分,包括在风险评估日期之后的3、6、12、36和60个月内的发生。正如预期的那样,预测较长时间间隔内的癌症发生比较短时间间隔更具挑战性,因为较长的时间间隔允许疾病轨迹(评估时间)与癌症诊断时间之间存在更大的时间差距(图5a,b)。事实上,模型的预测性能从在12个月内的癌症发生的AUROC为0.908(0.906-0.911)
降低到在3年内的发生的AUROC为0.879(0.877-0.880)(无数据排除)(图3g,h)。
尽管评估预测-监测计划的潜在影响的主要标准是强大的预测性能,但解释任何预测方法的特征也很有趣:哪些诊断对癌症风险最具信息价值?计算方法可以通过机器学习引擎来推断特定输入变量对预测的贡献,例如集成梯度(IG)算法(图5c,d)。IG贡献是针对评估和癌症诊断之间的不同时间段分别计算的,特别是在评估后的0-6个月、6-12个月、12-24个月和24-36个月内,对所有患有癌症的患者。正如预期的那样,那些在正常临床实践中被认为表示潜在胰腺癌存在的代码在距离癌症诊断更近的轨迹预测中具有更高的贡献度。另一方面,假定的早期风险因素在距离癌症诊断许多个月之前结束的轨迹预测中具有更高的IG得分。虽然单个预测特征与结果之间不一定存在因果关系,但这种方法提供了关于特定诊断与胰腺癌之间相关性的有用见解。
结论
作者提出了一个框架,通过将深度学习应用于实际的纵向疾病轨迹数据集,预测低发但非常侵袭性的胰腺癌症风险。该研究旨在明确利用疾病事件的时间顺序,并评估在用于风险预测的疾病轨迹结束时间和癌症发生之间不断增加的时间间隔中,预测癌症风险的能力。结果表明,将疾病历史中的时间顺序作为模型的输入,而不仅仅是在任何时间点上的疾病发生,提高了人工智能方法预测胰腺癌发生的能力。
参考资料
, D., Yuan, B., , J.X. et al. A deep to risk of from . Nat Med (2023).
上一篇
高情商成就孩子的一生
有话要说...