2026/3/29 7:35:10
网站建设
项目流程
图库网站cms,没人愿意干的68个暴利行业,合肥找工作最新招聘信息,网站维护必须要会什么病理AI大模型登顶《Nature》#xff0c;癌症诊断迎来新纪元
医派智能 2025年2月7日 14:57 浙江
病理诊断作为临床诊断的重要依据#xff0c;不管从学术的角度还是应用的角度#xff0c;利用大模型提高诊断精度#xff0c;加速诊断过程,提高临床决策的准确性#xff0c;减…病理AI大模型登顶《Nature》癌症诊断迎来新纪元医派智能2025年2月7日 14:57浙江病理诊断作为临床诊断的重要依据不管从学术的角度还是应用的角度利用大模型提高诊断精度加速诊断过程,提高临床决策的准确性减少人为失误甚至提供个性化的诊断与治疗具有重要意义。然而病理切片的高分辨率限制了以图像为输入的大模型的性能。今天分享一篇论文微软团队联合美国普罗维登斯医疗集团在《Nature》发布全球首个千亿级数字病理基础模型Prov-GigaPath——它横扫26项病理任务中的25项SOTA甚至能通过病理图像预测基因突变。与现有的公共病理基础模型相比Prov-GigaPath 在 17 个分子病理学任务和 9 个癌症分型任务上均取得了显著的性能提升。本文原文:https://www.nature.com/articles/s41586-024-07441-wcode:https://github.com/prov-gigapath/prov-gigapath论文主体计算病理学具有改变癌症诊断的潜力能为癌症亚型、癌症分期、诊断预测和预后预测等各种临床应用提供支持。尽管现有计算方法的性能令人鼓舞但这些方法通常是针对特定应用开发的需要大量标注数据进行监督学习。数据标注既昂贵又耗时已成为计算病理学的一个重要瓶颈。最近自监督学习在利用未标注数据预训练基础模型方面取得了令人欣慰的成果可以大大减少对特定任务标注的需求。由于基础模型具有很强的普适性它已被开发用于标记数据稀缺而无标记数据丰富的生物医学领域这种情况恰好可以用来描述计算病理学。病理学基础模型在实际临床应用中的开发和使用面临三大挑战。首先可公开获得的病理数据相对稀缺且质量参差不齐这限制了在此类数据上预先训练的基础模型的性能。例如现有的病理学基础模型主要是在来自癌症基因组图谱TCGA的全切片图像WSI上进行预训练的TCGA 是一个由专家编辑的数据集包含约 30,000 张切片和 2.08 亿个图像块。虽然这些数据是巨大的资源但 TCGA 数据的规模可能不足以完全解决临床实践中与真实世界数字病理学有关的挑战如异质性和噪声伪影, 导致在分布外的样本上使用基于 TCGA 的预测模型和生物标记物时性能大幅下降。其次设计一种既能有效捕捉单个tiles中的局部模式又能捕捉整个WSI中的全局模式的模型架构仍具有挑战性。现有模型通常将每张图像(tile)视为独立样本并将slide-level建模制定为多实例学习从而限制了其对千兆像素整张WSI中复杂全局模式建模的能力。分层图像金字塔转换器HIPT是一个明显的例外它探索了瓦片上的分层自我关注能力。第三在进行预训练的极少数情况下用户可能会在slide上发现一些复杂的全局模式。本研究开发了一个开放权重病理学基础模型 Prov-GigaPath以应对这三个挑战。首先Prov-GigaPath 在 Prov-Path 上进行了预训练(Prov-Path 是普罗维登斯医疗网络 28 个癌症中心的大型数字病理数据集)。Prov-Path包含1,384,860,229张图片来自171,189张血栓素和伊红HE染色和免疫组化病理切片这些病理切片来自30,000多名患者的活检和切除手术涵盖31种主要组织类型。Prov-Path 在图像瓦片数量上是 TCGA 的五倍多在患者数量上是 TCGA 的两倍多。预训练利用了全部 13 亿个图像文件据我们所知这是迄今为止最大的预训练工作。这些庞大、多样的真实世界数据是预训练 Prov-GigaPath 的基础。Prov-Path 还包含一系列有价值的信息包括组织病理学检查结果、癌症分期、基因组突变概况以及相关病理报告。其次为了捕捉整张幻灯片的局部和全局模式研究提出了 GigaPath这是一种新颖的vision transformer用于在千兆像素病理切片上预训练大型病理基础模型。其关键思路是将图像瓦片嵌入视觉标记从而将幻灯片转化为一长串标记。Transformer 是一种功能强大的神经架构通过在标记中提炼出任意复杂的模式来进行序列建模。然而我们无法将传统的Vision Transformer直接应用于数字病理因为一张病理幻灯片可能包含数万个图块在 Providence 数据中多达 70,121 个而Transformer中的自注意计算量会随着序列长度的增加而呈二次增长。为了解决这个问题我们通过调整最近开发的 LongNet 方法利用了空洞自注意力(dilated self-attention)。预训练首先使用 DINOv2 和标准ViT进行图像级自监督学习然后使用 LongNet 和Mask自编码器 进行整张幻灯片级(whole-slide-level)自监督学习。最后为了加快数字病理学的研究进展作者将 Prov-GigaPath 完全开放包括源代码和预训练模型权重。为了系统地研究 Prov-GigaPath 作为病理学基础模型在真实世界场景中的有效性作者利用 Providence 和 TCGA 的数据建立了一个全面的数字病理学基准涵盖病理组学和癌症亚型等 26 项预测任务。作者将 Prov-GigaPath 与 HIPT、CtransPath 和 REMEDIS 等最先进的公开病理学基础模型进行了比较。结合大规模预训练和超大上下文建模Prov-GigaPath 在 26 项任务中的 25 项达到了最先进水平在 18 项任务中比排名第二的方法有显著提高表1。例如在预测表皮生长因子受体突变的 TCGA 数据集上与排名第二的模型 REMEDIS 相比Prov-GigaPath 的 AUROC 提高了23.5%AUPRC 提高了66.4%(具体结果详见2.1)。特别值得一提的是REMEDIS 是根据 TCGA 数据预训练的而 Prov-GigaPath 并非如此。在癌症分型方面Prov-GigaPath 在所有九种癌症类型中的表现都优于其他所有模型在六种癌症类型中的表现明显优于排名第二的方法。这预示着 Prov-GigaPath 可以广泛应用于各种癌症类型(具体结果详见2.2)。最后作者利用每张slide的相关病理报告对视觉语言进行了预训练继续通过视觉语言对比学习对 Prov-GigaPath 进行预训练。结果表明Prov-GigaPath 在标准视觉语言中表现出了最先进的能力(具体结果详见2.3)。Table 1.在病理组学和癌症亚型分析的 26 项任务中Prov-GigaPath 与最先进的病理学基础模型在 AUROC 上的比较表。∗ 表示 Prov-GigaPath 在特定任务上优于最佳比较方法的显著性水平Wilcoxon 检验 p 值小于 5 × 10-2 的为 *p 值小于 1 × 10-2 的为 ***p 值小于 1 × 10-3 的为 ***。最后一列显示的是使用单侧 Wilcoxon 检验的 p 值。1.Prov-GigaPath模型总览Prov-GigaPath 是一种用于处理病理切片的通用预训练模型。该模型将病理切片中的各个图像切块作为输入通过两个主要模块生成全切片级别的嵌入表示可用于多种临床应用。1.模型结构:切块编码器对每个图像切块进行独立编码将其投影到紧凑的嵌入空间捕捉局部的病理结构信息。该模块使用 DINOv2 自监督学习框架进行预训练。切片编码器接收切块编码器输出的嵌入序列并利用基于 Transformer 的架构结合了Mask自编码器预训练和 LongNet 方法整合全切片信息生成上下文相关的全局嵌入。(图1,2)Fig.1 a.显示 Prov-GigaPath 模型架构的流程图。Prov-GigaPath 首先将每个输入的 WSI 序列化为按行主序排列的 256 × 256 图像瓦片序列然后使用图像瓦片级编码器将每个图像瓦片转换为可视化嵌入。然后Prov-GigaPath 应用基于 LongNet 架构的slide级编码器生成上下文嵌入这可以作为各种下游应用的基础。b, 使用 DINOv2 进行图像磁贴级预训练。[CLS] 是分类标记。Fig.2 稀释注意力图解。稀释注意力首先将每个输入的磁贴序列分割成段段长为 w。我们使用一组三个wr对包括5121、10242和20484来提取整个WSI图像上的局部和全局交互。LongNet 模型使用不同wr对的注意力输出的加权平均值作为输出权重作为每个wr的注意力softmax的分母。2.下游任务:在实际应用中切片编码器的输出会经过简单的 softmax 注意力层进行聚合作为多种任务的特征表示经过任务特定的微调后可用于病理学中的多种临床预测任务。3.数据:Prov-GigaPath 在一个大规模真实世界的数据集Prov-Path上进行预训练该数据集包含 1384860229 个 256×256 的图像切块来自 171189 张 HE 和免疫组化病理切片覆盖 31 种主要组织类型和超过 30000 名患者。(图3,4是数据集中各器官的数据统计,图5是人的性别、年龄、种族分布。)Fig.3 柱状图显示每个器官的切片百分比和患者百分比。这里显示了患者最多的 15 个器官。Fig.4 条形图显示每个器官的瓦片数。这里显示了患者最多的 15 个器官。Fig.5 数据中性别、年龄、人种分布。2. 研究结果2.1基因突变预测各种改变功能的体细胞基因突变是癌症进展和发展的基础因此在癌症诊断和预后方面都可能有用。虽然测序的成本已大幅下降但在全球范围内肿瘤测序的普及率仍存在严重的医疗差距。因此Kohane et al. (2023)认为从病理图像中预测肿瘤突变可能有助于为治疗选择提供信息并增加个性化医学利用。作者将Prov-GigaPath作为一项图像分类任务在五基因突变预测基准上与其他竞争方法进行了比较以验证其临床能力。然后再从预训练方法,模型结构,训练策略证明了模型相比于其它模型的优越性。首先作者对泛癌症环境中最常发生突变的 18 个生物标记物进行了预测(图11,12)。与最佳竞争方法相比Prov-GigaPath 在这 18 个生物标记物的接收者运算特征AUROC下的宏观面积提高了 3.3%在精确度-召回曲线AUPRC下的宏观面积提高了 8.9%。鉴于特定肿瘤突变与整体肿瘤组成和形态之间的已知关联作者将这一改进归功于 LongNet 有效捕捉全局图像模式的能力。Fig. 11 条形图a,f比较了 Prov-GigaPath 和竞争方法在泛癌症 18 个生物标记物上的AUROC和AUPRC分数。 l为泛癌症 18 个生物标记预测中单个生物标记的 AUROC 分数比较。Fig. 12 Prov-GigaPath 和其他竞争方法对 18 个生物标记预测中每个生物标记的 AUPRC 分数。接下来作者重点研究了肺腺癌LUAD其中重点研究了与LUAD 诊断和治疗密切相关的五个基因表皮生长因子受体、FAT1、KRAS、TP53 和LRP1B。Prov-GigaPath 的平均宏AUROC(average macro-AUROC) 为0.626(图12,13)超过了所有竞争方法P 值小于 0.01表现最佳。Fig. 12 条形图bg比较了 Prov-GigaPath 和竞争方法在LUAD特定的5-基因突变预测AUROC和AUPRC分数。Fig. 13 条形图显示 LUAD 5 基因突变预测中各基因突变的 AUROC 和 AUPRC 分数。误差条表示 n 10 个独立实验的标准误差条形图中心表示平均值。列出的 p 值表示通过单侧 Wilcoxon 检验Prov-GigaPath 优于最佳比较方法的显著性水平。在泛癌症分析中Prov-GigaPath 在这 5 个基因上的表现也优于最佳竞争方法宏观 AUROC 提高了 6.5%AUPRC 提高了 18.7%(图14, 15)。Fig .14 条形图ch比较了 Prov-GigaPath 和竞争方法在泛癌症 5基因突变预测的AUROC和AUPRC分数。Fig .15 条形图显示泛癌 5 基因突变预测中各基因突变的 AUROC 和 AUPRC 分数。误差条表示 n 10 个独立实验的标准误差条形图中心表示平均值。列出的 p 值表示通过单侧 Wilcoxon 检验Prov-GigaPath 优于最佳比较方法的显著性水平。为了检验Prov-GigaPath的通用性作者在TCGA数据上对所有方法进行正面比较。可以观察到Prov-GigaPath在针对LUAD的五基因突变预测作为关键评估的任务中与其它竞争方法相比亦具有类似的优势(图16,17)。值得注意的是这些竞争方法都是在TCGA上进行预训练的。Fig. 16 条形图di比较了 Prov-GigaPath 和竞争方法在TCGA上的LUAD特异性5基因突变预测的AUROC和AUPRC分数。Fig. 17 条形图显示泛癌 5 基因突变预测中各基因突变的 AUROC 和 AUPRC 分数。误差条表示 n 10 个独立实验的标准误差条形图中心表示平均值。列出的 p 值表示通过单侧 Wilcoxon 检验Prov-GigaPath 优于最佳比较方法的显著性水平。为了进一步验证Prov-GigaPath的普适性作者再次从Providence收集了一组新的403名结直肠癌患者的数据(用于训练的数据是于2023年3月前收集。用于验证的数据于同年3月后收集)再次表明了该模型优于其它竞争方法且与之前的结直肠癌患者的数据没有明显差异。(图18)而在总体肿瘤突变符合(TMB)的预测中Prov-GigaPath性能最好平均AUROC为0.708(图19)。Fig. 18条形图ej比较了 Prov-GigaPath 和竞争方法在泛癌症TMB预测的AUROC和AUPRC分数。Fig.19条形图显示预测普罗维登斯新患者5基因突变和TMB状态的AUROC和AUPRC分数。误差条显示的是n 10个独立实验的标准误差条形图中心显示的是平均值。列出的p值表示 Prov-GigaPath 通过单侧 Wilcoxon 检验优于最佳比较方法的显著性水平。最后在数据质量方面作者通过在Prova-Path上与在TCGA上分别对GigaPath进行预训练表明了Prov-Path作为预训练数据集具有显著的优越性。(图20)Fig.20a-b条形图显示了使用在Prov-Path和TCGA 上训练的模型预测TCGA中LUAD5基因突变的 AUROCa和 AURPCb。Prov-GigaPath 是在 Prov-Path 上训练的 GigaPath。GigaPath-TCGA 是在 TCGA 上训练的 GigaPath。误差条表示 n 10 个独立实验的标准误差条形中心表示平均值。列出的 p 值表示在单侧 Wilcoxon 检验中Prov-GigaPath 优于 GigaPath-TCGA 的显著性水平。在模型优越性上当不同的框架都在Prov-Path上训练时GigaPath表现优于HIPT。(图21对比了Prov-GigaPath与HIPT在预测突变上的能力图22对比了Prov-GigaPath与HIPT在分类癌症亚型的能力)。Fig.21a-j条形图显示 Prov-GigaPath和HIPT-Prov-Path预测突变任务的AUROCa-e和AURPCf-j。HIPT-Prov-Path表示在Prov-Path上预先训练的HIPT。误差条表示n 10 个独立实验的标准误差条形中心表示平均值。所列 p 值表示Prov-GigaPath 优于HIPT-Prov-Path 的显著性水平采用单侧 Wilcoxon 检验。Fig. 22 a-f条形图显示了 Prov-GigaPath 和 HIPT-Prov-Path 对癌症亚型分析任务的 AUROCa,c,e和 BACCb,d,f。HIPT-Prov-Path 表示在 Prov-Path 上预先训练的 HIPT。误差条表示 n 10 个独立实验的标准误差条形中心表示平均值。所列 p 值表示 Prov-GigaPath 优于 HIPT-Prov-Path 的显著性水平采用单侧 Wilcoxon 检验。在预训练策略上使用DINOv2进行的预训练优于使用基于对比学习的SimCLR方法和掩码自编码器进行的预训练证明Prov-GigaPath的预训练策略更有效。自监督学习框架优于监督学习如ImageNet预训练凸显了自监督学习在病理领域的优势。(图23对比了不同的预训练策略)。Fig. 23 a,b,条形图显示了使用不同瓦片级预训练方法预测 TCGA 中 LUAD 5 基因突变的 AUROCa和 AUPRCb这些方法包括 GigaPath 使用的 DINOv2SSL-DINOv2、Mask自编码器SSL-MAE、SimCLRSSL-SimCLR以及使用 ImageNettrained 模型初始化的特定任务监督微调SL-ImageNet。SSL 表示自我监督学习。SL 表示监督学习。误差条显示 n10 个独立实验的标准误差条形中心显示平均值。列出的 p 值表示 SSL-DINOv2 通过单侧 Wilcoxon 检验优于最佳比较方法的显著性水平。总体而言与之前最先进的病理学基础模型相比Prov-GigaPath 在各种病理组学任务中都表现出了明显的性能提升。2.2癌症分型(cancer subtyping)为了查看Prov-Path能否从图像中准确预测癌症亚型作者对9种癌症类型的亚型进行了评估。在所有九种癌症类型上Prov-GigaPath 的表现都优于所有竞争方法在六种癌症类型上Prov-GigaPath 与排名第二的方法相比取得了显著的进步。(图24)这也表明了模型的tile encoder 与 slide encoder协同工作能够提取有效的特征以区分微小的病理模式也说明了LongNet高效聚合整张WSI中的tile大有可为。Fig. 24 a-f九种癌症亚型的 AUROCa,c,e和平衡准确率b,d,f比较条形图。数据为 n 10 个独立实验的平均值 ± s.e.m。所列 P 值表示 Prov-GigaPath 优于最佳比较方法的显著性采用单侧 Wilcoxon 检验。BACC平衡准确率。BRCA乳腺浸润癌CNS中枢神经系统COADREAD结直肠腺癌DIFG弥漫性桥脑胶质瘤EGC早期胃癌HB肝胆癌NSCLC非小细胞肺癌OVT卵巢癌RCC肾细胞癌。接着作者进行了消融实验以评估Prov-Gigapath的每个组成成分在癌症亚型分型中的贡献。对于LongNet预训练的重要性作者通过一个随机初始化的模型替换了在Prov-Path上预训练的LongNet编码器结果显示平均AUROC从0.903降到0.886。性能大幅下降表明了预训练LonegNet编码器可以更好地捕捉slide-level的癌症异质性。进一步冻结和解冻LongNet解码器在癌症分型任务中的表现相当再进一步证明了预训练方法可以有效学习高质量表征从而减少了对LongNet 进行额外微调的需要。对于病理切片中长距离依赖关系建模的必要性作者通过移除LongNet仅通过基于注意力的深度多实例学习层(ABMIL)进行聚合结果表明ABMIL层无法达到与LongNet类似的性能,证明了LongNet编码器聚合整张WSI的优越性。(图25)Fig. 25 条形图显示 AUROC (a)、AUPRC (b)、平衡准确率 (c) 和 F1 (d) 下癌症亚型的测试性能。比较了 GigaPath 的四个变体原始Prov-GigaPath、冷冻 LongNetProv-GigaPath fz、无 slidelevel 预训练Prov-GigaPath w/o pt、用 ABMIL 替代 LongNetProv-GigaPath w. ABMIL。我们对原始 Prov-GigaPath 和带 ABMIL 的 Prov-GigaPath 进行了显著性检验。误差条表示 n10 个独立实验的标准误差条形中心表示平均值。列出的 p 值表示通过单侧 Wilcoxon 检验Prov-GigaPath 优于带 ABMIL 的 Prov-GigaPath 的显著性水平。2.3多模态视觉语言处理由于数据来源的限制之前关于病理视觉语言建模的研究往往侧重于病理图像和文本在tile-level对齐。现在有了这些医院提供数据配合作者利用每张slide相关的病理报告实现了slide-level级别的对齐。这种图像文本配对揭示出了更丰富的slide-level信息。需要注意的是由于没有实现单张图像跟文本片段之间的细粒度配准信息所以建模的难度要大得多。其中文本编码器使用的是PubMedBERTloss是标准的跨模态对比损失。(图26展示了对齐流程)Fig. 26 a,利用病理报告对 Prov-GigaPath进行微调的流程图。使用OpenAI 的GPT-3.5 处理真实世界的病理报告去除与癌症诊断无关的信息。b,经过微调的 Prov-GigaPath 可用于进行零次癌症亚型分析和突变预测。Prov-GigaPath 的输入是从 WSI 中分割出来的瓦片序列而文本编码器 PubMedBERT 的输入是人工设计的提示代表癌症类型和突变。根据 Prov-GigaPath 和 PubMedBERT 的输出我们可以计算出输入的 WSI 被归类为特定癌症亚型和突变的概率。按照最先进的病理视觉语言模型 MI-Zero7 中使用的相同设置对 Prov-GigaPath 在 NSCLC 和 COADREAD 中的zero-shot癌症亚型分析进行了评估。与三种最先进的病理视觉语言模型相比Prov-GigaPath 在两种癌症类型的所有三个指标上都获得了最佳的zero-shot分类结果.(图27 28 29)这表明 LongNet 所实现的幻灯片级配准确实具有优势。与COADREAD 相比Prov-GigaPath 在 NSCLC 上的改进幅度更大这可能是由于 Prov-Path 中肺部组织更为普遍。Prov-GigaPath的表现远远超过了PLIP这可能反映了真实世界的临床数据优于Twitter数据。Fig. 27 c柱状图比较了 NSCLC 和 COADREAD 在 BACC、精确度和 f1 方面的零次分型性能。 e散点图比较了 Prov-GigaPath 和 MI-Zero 在零次癌症亚型分析中的 BACC 性能。每个点表示一组特定文本查询格式的试验。Fig. 28 a-d条形图显示了在zero-shot设置中使用微调 Prov-GigaPath 预测突变的 f1a、精确度b、AUROCc和 AUPRCd的性能。误差条显示的是 n 50 次实验的标准误差条形中心显示的是平均值。e.散点图比较了 Prov-GigaPath 和 MI-Zero 在癌症亚型预测和突变预测方面的平衡准确率 (BACC)。Fig.29基于视觉语言预训练、使用图像-报告对进行zero-shot癌症分型。柱状图显示了在zero-shot设置下对 NSCLC 和 COADREAD 进行癌症分型的性能。误差条显示的是 50 次实验的标准误差条形图中心显示的是平均值。列出的 p 值表示 Prov-GigaPath 通过单侧 Wilcoxon 检验优于最佳比较方法的显著性水平。接着作者考察了相同设置下多模态PRov-GigaPath预测基因突变的可能性。采用了用于癌症亚型分析的提示将癌症类型名称替换为要预测二进制突变状态的基因名称。在研究的所有六种突变中Prov-GigaPath 的表现都大大优于最先进的病理学视觉语言模型P 值小于 0.001)(图28 d,e)3. 研究方法3.1预处理WSI17.1万张HE染色和免疫组化病理切片。在硬件配置上使用最多200个节点的集群每个节点配备32核cpu和256GB内存。处理步骤可总结如下:1.使用Otsu阈值法在低分辨率如1024像素下分离组织与背景提高计算效率2.使用pyvips库对WSI进行标准化(调整为0.5微米/像素,20倍放大)3.将切片裁剪为256x256的图像块4.基于Otsu丢弃组织覆盖率低于0.1的图像块。3.2预训练细节Tile Encoder: 采用了ViT模型架构并使用 DINOv2的标准设置进行预训练。预训练时使用了1,384,860,229个分割切块将每个切块视为一个独立数据实例。基础学习率设置为 4×10⁻³每个 GPU 的批量大小为 12总有效Batchsize达到 384。SLide Encoder: 使用了LongNet模型架构进行全切片级别预训练。同时为离散化切块坐标设定网格大小dgrid为 256行列数ngrid均为 1,000。在对输入序列进行增强时裁剪比例设置为 0.875并随机生成移动距离同时以0.5的概率水平翻转切块坐标。采用Mask自编码器进行预训练学习率为 5×10⁻⁴每个GPU 的批量大小为4训练共 30 个epoch其中第一个epoch 用作热身。硬件与时间消耗:Slide Encoder 的预训练使用了16 个节点每个节点配备4 块80GB 的A100 GPU总耗时约2天。推理阶段对于一张全切片图像WSI的平均推理时间为0.7秒其中计算切块嵌入耗时约0.4秒LongNet 推理耗时约0.3秒。3.3竞争方法与基准3.3.1 对比模型Prov-GigaPath与4种基线模型进行了对比。1. HIPT: 采用分层图像金字塔Transformer架构(支持256x256和4096x4096两种视图)并在TCGA数据集上进行预训练。HIPT在4096x4096视图上采用了second-stage Vit。而Prov-GigaPath使用长序列表示的slide encoder。2. CtransPath采用CNN与多尺度SwinTransformer。采用基于语义相关的对比学习将输入图像及其增强视图作为正样本对并将检索到的语义相关图像作为伪正样本对。3. REMEDIS采用Resnet作为骨干并采用SimCLR方法对从TCGA的29,018张切片中随机采样5,000万病理图像进行预训练(图6是论文中用于与Prov-GigaPath进行对比的模型总结了其模型结构数据大小输入大小以及输入源)。Fig.6 病理学基础模型在模型结构、数据大小、输入大小和数据源方面的比较。Prov-GigaPath 是唯一一个在预训练时对整个切片进行建模的模型。此外Prov-GigaPath 还是一个根据真实世界患者数据预训练的开放权重模型。3.3.2 四个模型的微调策略Prov-GigaPath: 冻结tile encoder,仅微调LongNet的slide-level encoder使用浅层ABMIL(基于注意力的多实例学习)层聚合分块特征生成切片级嵌入用于下游分类。HIPT冻结256x256 和4096x4096图像编码器,微调额外的Transformer层和ABMIL层。CtransPath REMEDIS直接使用ABMIL层生成切片级嵌入,主要微调ABMIL层和分类层。3.4突变预测作者构建了5个基因突变预测任务:泛癌18个生物标志物预测(18 类多标签分类每个类别表示某基因是否突变或 PD-L1 高表达)LUAD(肺腺癌) 5基因突变预测(涉及EGFRFAT1 KRASTP53和LRP1B同样采用多标签设置要求模型预测所有这5个基因的突变状态)。泛癌5基因突变预测。TCGA上的LUAD 5基因突变预测。总体肿瘤突变负荷(TMB)预测(二分类任务 每个图像根据肿瘤体细胞突变数目区分高TMB和低TMB)。(图7显示了每个基因突变预测任务中每个类别的slide数量)。Fig7. 第一列代表 5 项基因突变预测任务包括泛癌症和 LUAD 特异性 5 基因突变预测、泛癌症 18 生物标记预测、TCGA 上 LUAD 特异性 5 基因突变预测和泛癌症肿瘤负荷预测。第二列是每个任务的类别列表第三列是每个类别中的slides数量。3.4.1模型微调与训练设置对于每位患者(通常有多个全切片图像)选择最大的WSI用于后续训练验证和测试从而实现患者的分级。模型的微调使用基础学习率为权重衰减为0.01.对比模型则按照HIPT的默认设置使用学习率为。所有方法的训练Batch size均为1,并采用32次梯度累积总共训练20个epoch。性能评估指标使用AUROC和AUPRC,并采用10折交叉验证进行评估。3.5癌症亚型分类任务涵盖9种癌症类型,包括:1.NSCLC(非小细胞肺癌): LUAD(肺腺癌) vs. LUSC(肺鳞癌)2.BRCA(乳腺癌): IDC(浸润型导管癌) vs. ILC(浸润性小叶癌)3.RCC(肾细胞癌): CCRCC(透明肾细胞癌) vs. PRCC(乳头状肾细胞癌) vs. CHRCC(嫌色细胞肾细胞癌)4.COADREAD(结直肠癌): COAD(结肠癌) vs. READ(直肠癌)5.HB(肝胆癌):CHOL(胆管癌) vs. HCC(肝细胞癌)6.DIFG弥漫性胶质瘤GBM胶质母细胞瘤vs. ODG少突胶质细胞瘤vs. AODG间变性少突胶质细胞瘤vs. HGGNOS高级别胶质瘤未特指vs. AASTR星形细胞瘤7.OVT卵巢肿瘤CCOV透明细胞卵巢癌vs. EOV子宫内膜样卵巢癌vs. HGSOC高级别浆液性卵巢癌vs. LGSOC低级别浆液性卵巢癌vs. MOV黏液性卵巢癌vs. OCS卵巢癌肉瘤8.CNS中枢神经系统肿瘤ATM非典型畸胎瘤样/横纹肌样瘤vs. MNG脑膜瘤9.EGC食管胃癌ESCA食管癌vs. GEJ胃食管交界癌vs. STAD胃癌图8展示了研究9种癌症亚型及其对应的OncoTree代码。Fig. 8 第一列代表九项癌症亚型分析任务第二列表示 OncoTree 代码所代表的类别。第三列是每个 OncoTree 代码的slide数量。3.5.1微调设置超参数基础学习率为权重衰减0.001分层学习率衰减0.9。训练策略基于验证集性能选择超参数。所有模型微调20个epoch并使用10折交叉验证进行评估。Prov-GigaPath优化在slide-level encoder中添加shortcut增强对tile-level特征的关注。3.6视觉文本对齐1.数据构建与预处理研究团队构建了17383 对病理全切片WSI与报告的多模态数据对并将原始报告的医院位置医生姓名和病人姓名等与癌症诊断无关的信息进行清洗。清洗的过程可总结为1.使用K-means将临床报告聚类为4个类别,并选取聚类中心作为代表性报告2.对这4份代表性报告进行手动清洗,形成原始与清洗后报告的对应对3.利用这些示例作为in-context学习的例子,然后调用GPT-3.5对所有其它报告自动清洗最终形成17383对图像-文本数据。(图9是使用GPT-3.5进行数据清洗的提示模板。)Fig. 9 使用 OpenAI 的 GPT-3.5 处理和去噪真实病理报告的提示模板。我们首先选择了四份具有代表性的原始报告并对其进行了人工清理。在上述模板中原始报告和净化后的报告作为上下文中的学习示例供 GPT-3.5 用来净化其他报告。Fig. 10预处理前后的标记长度分布。条形图显示了使用 GPT-3.5 清理前后报告中标记数目的分布情况。2.模型训练设置在构建好的数据集上使用 OpenCLIP 框架进行视觉-语言预训练。从数据中随机保留 20% 的病人用于 zero-shot 预测任务。学习率为, batch size大小为32, 训练视觉编码器和文本编码器共10个peoch,其中前100次迭代作为预热。3.零样本预测任务与比较在zero-shot任务中,比较模型包括MI-Zero (PubMedBERT)、BiomedCLIP 和 PLIP1.MI-Zero (PubMedBERT) 基于 33,480 对病理图像-描述对采用多实例学习和 top-K pooling 策略进行零样本迁移2.BiomedCLIP 使用 1500 万对生物医学领域的图像-描述数据3.PLIP 是基于 Twitter 数据进行病理领域视觉-语言预训练的模型。这些模型以及Prov-GigaPath 均在NSCLC与COADREAD 的癌症分型任务以及LRP1B、KRAS、TP53、SPTA1、FAT1 和 KMT2D 的基因突变预测任务上进行了评估。评估过程中按照MI-Zero 的设置和提示模板并使用50组随机采样的提示进行比较。4.讨论与展望任务性能分析:在癌症亚型分类与突变预测任务中亚型分类性能显著优于突变预测作者认为是病理图像信息不足以预测某些突变。模型与数据量的影响:由大规模的Prov-Path上预训练的GigaPath性能优于在TCGA上预训练的版本参数更多的GigaPath在Prov-Path上预训练后性能优于HIPT推出了更大规模的预训练数据和模型可能带来性能提升。未来研究方向:1.模型规模优化开发小型模型(如2300万参数版本)用于快速推理和微调保留大型模型用于高精度推理2.预训练策略改进探索端到端预训练避免冻结tile encoder以充分利用GPU集群的计算能力3.多模态学习结合先进的多模态框架如LLaVA-Med提升视觉-语言对齐能力向临床对话助手方向发展。5.结论Prov-GigaPath 是一种针对高分辨率成像数据的通用预训练方法具有广泛的应用潜力能够扩展到其他生物医学问题的研究包括大型 2D 和 3D 图像以及视频的分析。借助该模型的强大能力它在癌症诊断和预后评估中展现出巨大的实用价值。尤其是其 zero-shot 学习能力能够在研究罕见癌症和新突变时发挥重要作用提供潜在的突破性进展。阅读 869病理大模型综述