当前位置：首页 > 健康养生 > 正文

Nature Medicine | 从疾病轨迹预测胰腺癌风险的深度学习算法

启示号
健康养生
12小时前
48

今天为大家介绍的是来自Søren 和Chris 研究团队的一篇关于胰腺癌预测的论文。胰腺癌是一种很严重侵扰性的疾病，通常在晚期才能检测出来，且患者的预后通常不乐观。这表明对于早期检测胰腺癌的需求非常迫切，早期发现可以显著改善患者的生存率和生活质量。在这项研究中，作者应用了人工智能方法对丹麦（丹麦国家患者登记数据库（DNPR））的600万患者（2.4万例胰腺癌病例）和美国（美国退伍军人事务部（US-VA））的300万患者（3900例病例）的临床数据进行了分析。作者使用临床病史中的疾病代码序列对机器学习模型进行训练，并测试了在不断增加的时间窗口内预测癌症发生的能力（）。对于近36个月内的癌症发生进行预测，最佳DNPR模型的AUROC为0.88，并且在排除癌症诊断前3个月内的疾病事件的训练时，AUROC(3m)降至0.83，并且年龄超过50岁的最高风险患者相比于其他人，患上胰腺癌的风险要高出59倍。将丹麦模型应用于美国退伍军人事务部数据的交叉应用性能较低（AUROC = 0.71），需要重新训练以提高性能（AUROC = 0.78，AUROC(3m) = 0.76）。这些结果提高了设计针对高风险患者的现实监测计划的能力，通过早期发现这种癌症，潜在地改善了寿命和生活质量。

胰腺癌是全球癌症相关死亡的主要原因之一。早期诊断是胰腺癌的一个关键挑战，因为该疾病通常在晚期才被发现。大约80%的胰腺癌患者在诊断时已处于局部晚期或远处转移期，此时长期存活极为罕见（5年生存率为2-9%）。然而，早期病变的患者可以通过手术、化疗和放疗的综合治疗方法得到治愈。因此，更好地了解胰腺癌的风险因素并实现早期检测极具意义，可改善患者的生存率并降低总体死亡率。

与肺癌、乳腺癌和结直肠癌等其他癌症类型相比，胰腺癌的发病率要低得多。尽管年龄是一个主要的风险因素，但仅基于年龄的全人群胰腺癌筛查在临床上是不可行的，因为可能需要为大量患者进行昂贵的临床检测，而且还可能存在假阳性预测。此外，关于胰腺癌的高关联风险因素了解甚少，这也妨碍了对该疾病的早期诊断。多年来，人们基于家族史、行为和临床风险因素以及最近的循环生物标志物和遗传易感性对胰腺癌的风险进行评估。目前，一些由于家族史、罕见的遗传致病变异或胰腺囊性病变而具有高风险的患者进行连续胰腺成像，以便早期发现胰腺癌。然而，这些患者仅占发展胰腺癌的一小部分，并且在普通人群中通常没有家族史或遗传风险因素的数据。为了解决普通人群早期发现胰腺癌的挑战，作者的目标是从大量患者的真实世界纵向临床记录中预测胰腺癌的风险，并在其中确定一部分高风险患者，以便设计可负担的早期检测监测计划。

针对胰腺癌的风险评估，已经有先前工作使用患者记录构建了ML预测模型，包括健康访谈调查数据、与其他癌症类型患者进行比较的全科医生健康记录、实际医院系统数据以及，LLC提供的EHR数据库。尽管这些先前的研究证明了健康记录对于癌症风险的信息价值，但这些研究仅使用疾病的发生情况，而没有使用患者轨迹中的疾病状态形成的时间序列。先前的研究使用丹麦卫生注册数据生成了人群范围的疾病轨迹，但仅以描述性的方式进行了分析。

Nature Medicine | 从疾病轨迹预测胰腺癌风险的深度学习算法

图1

个性化阳性预测的癌症风险模型中得到的预测，理想情况下应考虑在更短或更长的时间范围内发病的概率（图1）。因此，作者设计的AI方法，不仅预测癌症的可能性，还在风险预测之后的逐步时间间隔内提供风险评估。为了方便解释模型的学习内容，作者分析了患者诊断代码历史中被该方法标记为与癌症风险最相关的诊断，并提出了一个实用的监测计划方案，该方案考虑到现实世界数据的可用性、在这些数据上的预测准确性、监测计划的范围、监测方法的成本和成功率以及早期治疗的总体潜在好处（补充说明）。

数据来源

Nature Medicine | 从疾病轨迹预测胰腺癌风险的深度学习算法

图2

Nature Medicine | 从疾病轨迹预测胰腺癌风险的深度学习算法

表1

文章使用了来自DNPR的疾病轨迹数据，并结合了中央人口登记处（CPR）的人口统计信息。DNPR覆盖了大约860万名患者，有2.29亿次医院诊断记录，平均每位患者有26.7个诊断代码。在训练过程中，作者使用了国际疾病分类（ICD）的诊断代码轨迹，包括ICD层次结构中的三位字符分类，并为每个医院接触提供了明确的时间戳，时间跨度为1977年1月至2018年4月，共有620万名患者通过标准筛选获得了训练数据，其中包括23,985例胰腺癌病例（图2a，b，d，表1）。

为了在另一个医疗保健系统中进行验证，作者同样使用了来自美国退伍军人事务部（US-VA）CDW（数据仓库）的1999年至2020年的纵向临床记录，该数据仓库整合了全国范围内的电子健康记录和癌症登记数据（图2a，c，e）。在训练过程中，作者使用了一个选定的数据集的轨迹，共计300万名患者，其中包括3,864例胰腺癌病例（表1）。平均而言，US-VA数据集中的健康记录时间较短（US-VA的中位数为12年，而DNPR的中位数为23年），但疾病历史记录较为密集（US-VA的中位数为每位患者188个记录，而DNPR的中位数为每位患者22个记录）。这些差异很可能反映了人口的差异（丹麦的整个人口与美国退伍军人事务部的退伍军人）以及医疗保健系统的实践差异，如转诊、文档记录和计费方式。

模型结构

用于从疾病轨迹预测癌症风险的机器学习模型包括以下部分：（1）轨迹中每个事件的输入数据（诊断代码和时间戳）；（2）将事件特征嵌入到实数向量中；（3）将轨迹编码到较低维度的潜在空间中；以及（4）预测时间相关的癌症风险。疾病轨迹的纵向性质使得我们可以使用顺序神经网络（如门控循环单元（GRU）模型和模型）构建时间序列模型。作为计算控制，作者还测试了一种忽略疾病事件的时间和顺序的词袋方法。每个模型学习估计在评估风险的时间点之后3个、6个、12个、36个或60个月内（而不仅仅是在评估后的任何时间）发生癌症的风险的概率，而不仅仅是二元（是或否）的风险预测。

为了避免过拟合并测试模型预测的泛化能力，作者将患者记录随机分成80%/10%/10%的训练/验证/测试集。只在训练集上进行训练，并使用验证集来检查不同超参数设置的性能，以指导模型选择。所选模型的性能是在完全保留的测试集上评估的，并报告作为对未来患者的性能估计。

模型评估

Nature Medicine | 从疾病轨迹预测胰腺癌风险的深度学习算法

图3

Nature Medicine | 从疾病轨迹预测胰腺癌风险的深度学习算法

图3

作者AUROC和相对风险（RR）曲线评估了在DNPR上训练的不同模型的预测性能（图3）。所有性能指标都是基于将每个训练的风险评估模型应用于测试集进行计算的。在训练和超参数搜索过程中，严格保留了测试集。在对测试集上不同类型的机器学习模型进行最终性能评估时，明确使用和编码疾病代码的时间序列的模型（即GRU和）通过AUROC得分最高（图3a、b）。对于在评估日期（风险预测日期）后3年内的癌症发生预测，模型表现最佳（AUROC = 0.879（0.877–0.880）），其次是GRU模型（AUROC = 0.852（0.850–0.854））。

为了更好地理解在实际情况下应用模型的影响，作者还报告了由机器学习模型预测的高风险组患有癌症的相对风险（RR）得分（图3b、d、f、h和4）。RR得分在给定的操作决策点上定义。它评估了预测方法相对于随机模型的优势倍数。在36个月预测间隔中，模型（带有时间序列）的RR得分为104.7，操作点由1000名高风险患者中的n = 1,000名确定，总共有100万名患者（最高风险的0.1%；记作N1000）。

其他研究也利用实际世界的临床记录开发了机器学习方法来预测胰腺癌风险。这些先前的研究取得了令人鼓舞的结果，但没有使用疾病历史的时间序列来提取时间序列的纵向特征。为了比较，作者实施了类似的方法，包括一个词袋模型和一个多层感知器（MLP）模型，在DNPR数据集上评估了非时间序列模型，并且在预测36个月内的癌症发生的性能方面，词袋模型的AUROC为0.807（0.805–0.809），MLP模型的AUROC为0.845（0.843–0.847）（图3a）。与时间序列模型（例如）相比，RR也要低得多（分别为2.1和26.6，而为104.7）。

在胰腺癌诊断前的非常短时间内的疾病编码（图2d和e）很可能直接指示疾病状况，即使没有任何机器学习，训练有素的临床医生也会将胰腺癌列为高排名的鉴别诊断之一。胰腺癌发生前的疾病编码可能间接涵盖胰腺癌（例如，消化道肿瘤），从而反映出想要推断的标签。为了减少这些疾病编码在训练中的不适当影响，作者单独训练了模型，排除了胰腺癌诊断前3个、6个和12个月的输入疾病诊断。如预期的那样，当使用数据排除进行训练时，最佳模型的性能从AUROC = 0.879 下降到 AUROC = 0.843/0.829/0.827（分别对应3个月/6个月/12个月的数据排除），用于预测36个月内癌症发生的情况（DNPR数据集；图3c）。

除此之外，作者探索了训练疾病编码的适当细化程度和完整性。可以在患者疾病轨迹中出现的较小疾病编码集上进行训练。例如，可以使用先前的知识，并将训练的输入限制为已知的风险因素，即已报告与胰腺癌可能发生相关的疾病。我作者发现，使用23个已知风险因素的ICD编码子集进行预测时，模型的预测性能降低到AUROC = 0.838，而所有诊断编码的AUROC为0.879，因此作者在后续的工作中使用后者（ICD level-3，2000个疾病编码）。

Nature Medicine | 从疾病轨迹预测胰腺癌风险的深度学习算法

图5

考虑在不同时间间隔内癌症风险是具有特殊临床意义的。研究中的机器学习模型旨在报告胰腺癌发生的风险评分，包括在风险评估日期之后的3、6、12、36和60个月内的发生。正如预期的那样，预测较长时间间隔内的癌症发生比较短时间间隔更具挑战性，因为较长的时间间隔允许疾病轨迹（评估时间）与癌症诊断时间之间存在更大的时间差距（图5a,b）。事实上，模型的预测性能从在12个月内的癌症发生的AUROC为0.908（0.906-0.911）

降低到在3年内的发生的AUROC为0.879（0.877-0.880）（无数据排除）（图3g,h）。

尽管评估预测-监测计划的潜在影响的主要标准是强大的预测性能，但解释任何预测方法的特征也很有趣：哪些诊断对癌症风险最具信息价值？计算方法可以通过机器学习引擎来推断特定输入变量对预测的贡献，例如集成梯度（IG）算法（图5c,d）。IG贡献是针对评估和癌症诊断之间的不同时间段分别计算的，特别是在评估后的0-6个月、6-12个月、12-24个月和24-36个月内，对所有患有癌症的患者。正如预期的那样，那些在正常临床实践中被认为表示潜在胰腺癌存在的代码在距离癌症诊断更近的轨迹预测中具有更高的贡献度。另一方面，假定的早期风险因素在距离癌症诊断许多个月之前结束的轨迹预测中具有更高的IG得分。虽然单个预测特征与结果之间不一定存在因果关系，但这种方法提供了关于特定诊断与胰腺癌之间相关性的有用见解。

结论

作者提出了一个框架，通过将深度学习应用于实际的纵向疾病轨迹数据集，预测低发但非常侵袭性的胰腺癌症风险。该研究旨在明确利用疾病事件的时间顺序，并评估在用于风险预测的疾病轨迹结束时间和癌症发生之间不断增加的时间间隔中，预测癌症风险的能力。结果表明，将疾病历史中的时间顺序作为模型的输入，而不仅仅是在任何时间点上的疾病发生，提高了人工智能方法预测胰腺癌发生的能力。

参考资料

, D., Yuan, B., , J.X. et al. A deep to risk of from . Nat Med (2023).

你可能想看：

LPA（Limited Partnership Agreement),私募基金设立的核心文件

是用来约束全体合伙人的核心法律文件，这个文件里约束了LP和GP的权利与义务，对于有限合伙来说LPA是最核心和最基础的文件,GP充当的是私募基金管理人的角色。一般来说GP会去寻找投资机会然后去进行服务管...

Nature头条：中外科学家揭开中国“神秘木乃伊”血统之谜

中国塔里木盆地出土的几百具自然保存的神秘木乃伊引起了国际考古学领域的关注。来自吉林大学生命科学学院崔银秋教授联合中国科学院古脊椎动物与古人类研究所、韩国首尔国立大学、美国哈佛大学和德国马克斯普朗克研究...

第5讲 Vision Pro视觉工具 CogFixture

是为了在我们找到的图像特征上建立一个固定的坐标系，如果没有这个工具我们的图像识别还能找到想找到的位置吗？固定工具用来在您已经计算了一个坐标转换时创建一个固定坐标系统-在我们所举的范例中,我们已经找到了...

机器学习算法原理——矩阵微积分，构建你的“黑客帝国”

点积也是为向量和矩阵定义的，左边的向量/矩阵的列数必须与右边的向量/矩阵的行数一致。我们将左边的一行和右边的一列向量/矩阵相乘并求和。如果我们想求两个函数的乘积的导数?这两个函数都取决于我们想微分的变...

(2条消息)cv2.findContours()返回函数详解， findContours()

但是该函数返回的三个参数具体表示的是什么呢？其实与输入参数的thresh原图没啥区别,print(np.size(cnts)) # 得到该图中总的轮廓数量,print(cnts[0]) # 打印出第一...

企业风险管控——市场信用风险和货款逾期风险管控指引

企业财务部门（或风控部门）、市场营销部门和决策等部门在处理客户信用和逾期货款过程中应承担以下职责。负责向财务（或风控部门）提供客户及相关逾期货款信息；负责组织相关人员对客户逾期货款进行核对和清收。市场...

以深度学习观念提升课堂教学质量

从校外学科类培训到校内的教学模式都发生了深刻变革。在内涵延展和课堂学习环节两个方面构建起“科技人员在研究机器学习的机制时提出了多层次网络学习的算法，时代政策的变化要求深度学习的内涵要随之适应，学生就一...

“安吉游戏”专栏丨冯晓霞：“安吉游戏”与深度学习——兼谈我们为什么要学安吉

积极主动、解决问题、实践反思、创造思维、合作分享等这些深度学习的基本特点“我们就能真切地看到其中的深度学习以及在这种学习中幼儿表现出的新时代所需要的核心素养的萌芽，目前不少国家的教育体系中占据主导地位...

促进深度学习的四个维度

学习主体能够批判性地学习新知识、新理论，其表现是依靠对文本信息进行记忆的提问、练习在教学中占据主要地位，所有思维活动都被引导向到答复、印证教师和教材所认定的标准答案，学习的本义是指通过阅读、听讲、研究...

深度学习的特征及其意义

G.）一直从事机器学习模型、神经网络与人工智能等问题的相关研究。并在机器学习模型特别是突破浅层学习模型，探讨了应用人工神经网络刻画数据的学习模型。首先提出了深度学习（deep learning）的概念...

你学习和做事的深度，决定了事业和人生的高度

如果一个人在短时间内获得了超出平常想象的成就。大家便会猜测TA是不是有什么背景关系啦，董明珠小姐和唐骏先生其实都不算是什么背景雄厚的人。为何不同人的发展速度、最后所取得的成就居然存在天壤之别，我还一直...

石灰岩(Limestone)知识

有时含有白云石、粘土矿物和碎屑矿物，石灰岩主要是在浅海的环境下形成的，加上来自陆地的动植物腐物残渣与泥沙一起在河床或海床上沉积压实后经地质变化形成：石灰岩的成分主要为方解石、伴有白云石、菱镁矿和其他碳...

手把手教你用Stata的Network包实现分类变量网状Meta分析

Stata是一款非常强大的统计和作图软件。网上目前存在的教程多半是用mvmeta包来做网状Meta，本文将介绍用Stata的Network包实现连续性变量的网状Meta分析，2. 将要处理的数据在Ex...

TCGA甲基化分析工具-MEXPRESS

今天再来给大家介绍一个研究TCGA的DNA甲基化与表达数据的工具——MEXPRESS，癌基因的DNA甲基化水平降低或者抑癌基因的DNA甲基化水平增高都可能会导致肿瘤的发生，工具的使用只需输入基因名+选...

风险的历史——《与天为敌》的读书笔记

在发生之前你永远不可能完全把握，你自然也会同意人生其实就是赌博，因为我们必须要将依赖于运气的赌博与那些技巧可以在其中起到作用的赌博区分开来”那么在预测谁输谁赢时所需要的信息远比在老天决定的情况下所需的...

one day I passed away有一天我去世了

爱我的人眼泪如露恨我的人看着我的坟墓无声的眼泪向谁哭诉恨我的人已经忘了我的面目我的坟堆雨打风吹去恨我的人把我遗忘带不走一分虚荣爱慕爱恨情仇其实都只是对自身活着的珍惜内心最想要珍惜的

据称苹果iPhone 11和iPhone 11 Max模具表面照片泄露

并允许苹果提供一个后置人脸ID和更多的增强现实(AR)功能。iPhone XR的续集预计将搭载一个未知尺寸的LCD(液态视网膜)显示屏。我们应该会看到2019年的iphone与2018年的屏幕尺寸相同...

[优雅]2014Mori Lee by Madeline Gardner婚纱系列 (25 图)

阿朗松礼服

中文汉化版-红巨人特效合成抠像平面跟踪AE/PR插件Red Giant VFX Suite 1.5.0 Win/Mac 含注册码

Red Giant VFX Suite 1.5.0是一套由Red Giant公司出品的特效合成抠像平面跟踪插件，VFX Suite 1.5.0更新支持Adobe AE 2020和PR 2020.该套件...

基于NodeJs的Redis使用

varredis=require('redis'),字符串操作;console.log(err;function(err;response){;console.log(err,client.hget(...

redwork刺绣：一组适合儿童的刺绣图案，做一床拼布小被子吧

一组非常适合儿童的刺绣图案，redwork刺绣多采用轮廓绣针法，也有少数小伙伴喜欢用回针绣针法，绣出来都很好看的。之前已经分享过一些redwork刺绣图案，有个小伙伴问有没有适合小孩子的、比较简单的图...

徐景藩运用足疗方治疗脾胃病，溃疡性结肠炎、胰腺疾病、胃癌

在脾胃病的治疗中有着独特的学术观点和诊治方法。徐老治疗脾胃病常采用外治疗法,灌肠主要用于大肠疾病,而中药泡脚则运用非常广泛,中药足疗的沿革与作用机理,足疗方的配伍原则与使用方法,中药足疗方不仅可以与...

第二章货币制度学习题

国家对货币的有关要素、货币流通的组织与管理等加以规定所形成的制度：规定货币材料、规定货币单位、规定流通中货币的种类、规定货币法定支付偿还能力、规定货币铸造发行的流通程序、规定货币发行准备制度等：金属货...

4本书，4种稀缺的思维模型，提高你的深度思考能力，像大神一样分析问题！

why向上对一个问题不断地追溯原因:直到找出问题的根本原因。so向下推断事物发展的过程：1、但答案对解决问题没有意义时可以停止：2、回答要向可控制的方向推进：分析问题，问题、风险、方案，发现问题（蓝色...

孩子，不想苦一辈子，就要苦一阵子！叫醒无数学生的深度好文！

有人说努力的人生是苦一阵子，不努力的人生是苦一辈子；苦是生命所不能避免的一味，有了苦才知道珍惜，现在不少孩子都吃不了苦，努力太苦了，人生有些苦注定要吃，受过的苦永远不会白费，现在我是否可以嘲笑他们忙碌...

“1÷0＝？”引发的深度思考

老师就告诉我们1÷0是没有意义的运算（即在加减乘除运算法则中不存在1÷0的运算结果），利用简单的乘除运算法则就可以证明它是不对的。数学中0不能做分母。在数学中定义1为数值的基本单元：0的数学意义只存在...

关于博物馆数字化建设的深度思考，好文！

我国博物馆界对博物馆数字化建设也越来越热衷，很可能在某种程度上成为国内博物馆数字化建设的桎梏。1. 博物馆数字化建设只是现有博物馆工作的辅助手段，或者说也代表了很多博物馆专业人员对数字化建设的看法，实...

胰腺癌预测模型真实世界数据早期检测

上一篇
三个有效偏方治疗早期肝硬化

下一篇
小丽君统计器在线使用

Nature Medicine | 从疾病轨迹预测胰腺癌风险的深度学习算法

最新文章

澳门传真免费费资料

管家婆正版资料彩图

和领导相处这 8 个雷区，你踩中了哪个？

新一代跑狗图玄机

高清狗跑图解图

5G核心网介绍

澳门正版凤凰游戏网

常州工学院产业教授申报书 5页VIP

热门文章

欣赏丨世界著名的60幅女人体油画，裸露但不低俗~

小六壬完整解释

小六壬神断口诀大全，掐指一算直断生死！

亲戚关系图（关于中国亲戚称谓）家庭称谓大全，再也不用担心叫错了称呼

珍贵舌诊：脾肾阳虚、虚寒泄泻、胃阴虚的舌苔照，看完记得存！

倪海厦经典配方全集（六）——桂枝汤、大小青龙汤、五苓散等

“四川泸州油纸伞” 的第七代传承人余万伦古法制伞一辈子

5本甜肉的古言宠文推荐，男主个个都是宠妻狂魔～