2026/4/17 18:46:04
网站建设
项目流程
伊春网络建站公司,wordpress 绑定手机,sem技术培训,字体设计生成器2026.1.27本文提出LoViT#xff0c;一个用于在线手术阶段识别的两阶段Transformer模型#xff0c;通过开发时序丰富的空间特征提取器、多尺度时序聚合器和阶段转换感知监督机制#xff0c;有效解决了长视频手术识别中的视觉歧义和长时序依赖问题#xff0c;在多个数据集上显…2026.1.27本文提出LoViT一个用于在线手术阶段识别的两阶段Transformer模型通过开发时序丰富的空间特征提取器、多尺度时序聚合器和阶段转换感知监督机制有效解决了长视频手术识别中的视觉歧义和长时序依赖问题在多个数据集上显著超越现有SOTA方法。Title题目01LoViT: Long Video Transformer for surgical phase recognitionLoViT用于手术阶段识别的长视频Transformer文献速递介绍02手术数据科学SDS旨在通过高级数据利用改变介入医疗保健其中对手术流程的分类和理解至关重要它不仅用于评估手术技能也为术中提供情境敏感支持。内窥镜手术中的阶段识别任务涉及将视频帧分割成不同的操作阶段而动作识别则深入分析具体任务。早期的自动化手术阶段识别主要依赖统计模型和额外数据但表示能力有限。随着深度学习发展纯视频方法兴起但现有的空间特征提取器训练通常采用帧级别监督易导致视觉相似但属不同阶段的帧产生歧义如图1所示这影响了模型对手术流程的理解。此外现有单任务模型基于RNN、CNN或Transformer在捕捉长时间依赖或保持时序粒度方面存在局限性。为解决这些挑战本文提出LoViT模型其贡献在于1) 引入了时序丰富的空间特征提取器通过在特征提取阶段融入时序感知来增强模型对手术复杂时序进展的解释能力2) 创新性地提出了阶段转换感知监督机制强调手术中的关键转换时刻提升模型对手术程序叙事理解3) 结合多尺度时序特征聚合融合局部和全局时序信息以增强模型的鲁棒性。Aastract摘要02在线手术阶段识别对于构建情境工具、量化手术表现和监督手术流程至关重要。当前方法存在局限性如使用帧级别监督训练空间特征提取器可能因不同阶段出现相似帧而导致错误预测以及由于计算限制难以有效融合局部和全局特征影响对手术干预中常见长视频的分析。本文提出一种名为LoViT的两阶段方法重点开发了时序丰富的空间特征提取器和阶段转换图。时序丰富的空间特征提取器旨在捕获手术视频帧中的关键时序信息而阶段转换图则提供关于不同手术阶段之间动态转换的重要见解。LoViT将这些创新与一个多尺度时序聚合器相结合该聚合器由两个基于自注意力的级联L-Trans模块和一个基于ProbSparse自注意力处理全局时序信息的G-Informer模块组成。多尺度时序头部随后利用时序丰富的空间特征和阶段转换图通过阶段转换感知监督机制对手术阶段进行分类。我们的方法在Cholec80和AutoLaparo数据集上持续超越了现有最先进的方法。与Trans-SVNet相比LoViT在Cholec80数据集上的视频级准确率提高了2.4个百分点在AutoLaparo数据集上提高了3.1个百分点。我们的结果证明了该方法在两种具有不同手术过程和时序特征的数据集上实现手术阶段识别最先进性能的有效性。Method方法03本文旨在解决在线手术阶段识别问题即给定输入视频流Xt预测当前帧xt所属的手术阶段pt。LoViT模型如图2所示包含一个时序丰富的空间特征提取器和一个多尺度时序特征聚合器。时序丰富的空间特征提取器SR将手术视频帧嵌入然后送入多尺度时序特征聚合器。该聚合器包括基于Transformer的L-Trans模块用于抽象短时细粒度信息以及基于Informer的G-Informer模块用于处理长时信息。多尺度时序融合头部结合局部和全局特征并在阶段转换感知监督的支持下进行手术阶段分类。为了解决长视频训练的计算挑战和帧级监督的歧义我们提出了一种新颖的SR训练方法该方法通过视频片段而非单帧进行监督建立图像集与阶段之间的关系如图3所示。SR从当前阶段开始到当前帧以均匀间隔采样固定数量α30的帧来生成特征序列并送入一个时序聚合器T进行阶段分类训练后T被丢弃仅保留SR。局部时序特征聚合器L-Trans由两个级联的L-Trans模块组成Ls-Trans和Ll-Trans用于在不同尺度上提取局部细粒度时序信息每个模块通过融合模块包含多层自注意力编码器和带有交叉注意力的解码器处理两个分支输入如图4所示。为了高效处理长序列全局时序信息聚合器G-Informer采用Informer模型中更高效的ProbSparse自注意力机制将时间复杂度从O(L^2)降低到O(Llog(L))。多尺度时序特征融合头部结合了L-Trans和G-Informer的局部和全局特征以弥补G-Informer可能损失的细粒度特征。为使模型更好地理解阶段转换我们引入了阶段转换感知监督。该方法通过一个一维非对称高斯核将阶段转换区域投射到阶段转换图h上如图5所示并采用包含L1损失针对转换图和交叉熵损失针对阶段分类的复合损失函数进行训练从而提升模型对手术视频复杂时序动态的解释能力。Discussion讨论04研究发现传统仅依赖图像级监督训练的空间特征提取器不足以应对手术视频中视觉相似帧导致的识别歧义。我们提出的时序丰富的空间特征提取器通过视频片段输入和对当前阶段起始点关键帧的采样有效捕捉时序信息显著优于传统方法。如图1所示相似空间特征出现在不同阶段的挑战可通过我们的方法得到缓解。此外对于长时序关系TCNs如TeCNO和Trans-SVNet因膨胀卷积而损失时序粒度而LoViT采用的普通自注意力和ProbSparse自注意力机制能更好地保留时序特征的连续性和粒度从而实现更准确的识别。据我们所知本研究首次使用阶段转换图基于非对称高斯核来监督模型学习阶段转换区域实验证明其能有效提升模型性能且不增加额外负担。AutoLaparo数据集比Cholec80更具挑战性因为它包含更复杂的重复阶段关系且数据集规模较小。LoViT在该数据集上仍显著优于所有现有最先进模型并揭示了局部信息比全局关系更有价值。然而LoViT仍存在局限性对于不寻常的手术流程例如图6(a)中P5出现在P4之前识别仍然困难。此外虽然ProbSparse自注意力提高了效率但当前模型在推理时仍需输入所有之前的空间特征导致手术时间延长时推理速度会下降。未来研究将侧重于发现阶段间的复杂关系并探索避免冗余计算、提高推理速度稳定性的方法。Conclusion结论05本文提出了一种名为LoViT的新型手术阶段识别方法。该方法首先采用视频片段级别监督来训练一个时序丰富的空间特征提取器然后通过一个多尺度时序特征聚合器结合局部细粒度信息和全局信息并辅以阶段转换图。与现有方法相比我们基于Transformer的LoViT模型能够高效且鲁棒地识别长视频中的手术阶段同时不损失局部或全局信息。此外LoViT首次证明了阶段转换图在识别阶段间关系方面的有效性。所提出的LoViT在现有方法的基础上取得了显著的性能提升达到了最先进的水平。Results结果06我们对LoViT模型在Cholec80和AutoLaparo两个公开数据集上进行了广泛实验。与现有最先进方法相比LoViT在Cholec80数据集上视频级准确率提高了2.4个百分点在AutoLaparo上提高了3.1个百分点并在多数评估指标上表现优越仅在Cholec80数据集上的精确度略低于最佳。特别是LoViT在AutoLaparo数据集上的阶段级精确度、召回率和Jaccard系数显著提升。定性比较结果如图6所示表明LoViT在模糊帧的分类和非线性阶段转换的识别方面优于Trans-SVNet和AVT且其生成的阶段转换热图与真实值高度一致。推理时间分析如图7所示显示LoViT在不同输入视频长度下的推理时间呈接近线性的增长证明了其在处理长时间手术视频时的效率。对LoViT架构的性能评估如表2所示表明G-Informer在Cholec80数据集上表现更好全局关系更重要而L-Trans在AutoLaparo数据集上表现更好细粒度特征更关键。LoViT通过多尺度融合克服了G-Informer可能损失细粒度信息的限制从而在AutoLaparo上表现最佳。时序丰富的空间特征提取器性能评估如表3所示显示使用视频片段而非单帧训练该提取器能显著提高性能尤其是在AutoLaparo数据集上准确率提升了1.9个百分点。主成分分析可视化如图8和图9所示进一步证明了我们提出的时序丰富的空间特征提取器在区分不同工具和相似场景特征方面的优越性。阶段转换感知监督性能评估如表4所示结果表明引入阶段转换图进行监督显著提升了模型在两个数据集上的性能强调了阶段转换区域对手术阶段识别的重要性。Figure图07图1. Cholec80数据集中对应不同阶段的相似帧示例第一帧和第三帧图2. 提出的用于手术视频阶段识别的LoViT框架。SR模块从每个视频帧x中提取富含时序的空间特征e。两个级联的L-Trans模块Ls-Trans和Ll-Trans通过不同局部窗口大小λ1和λ2的输入输出局部时序特征s和l。G-Informer捕获全局关系以生成时序特征g。融合头部结合多尺度特征s、l和g随后是两个线性层学习当前第t个视频帧xt的阶段转换图ĥt和阶段标签p̂t。相同颜色的模块共享相同的权重。在训练过程中SR单独训练其权重随后被冻结以训练LoViT的其他时序模块。图3. 训练富含时序的空间特征提取器架构。在第t帧训练期间从当前阶段开始到当前帧以均匀间隔wt采样视频流Xt{xj}j1t生成Xt′⊆Xt。每个帧x∈Xt′使用空间特征提取器SR嵌入然后分组为特征序列用蓝色虚线框表示。接着一个时序聚合器T添加时序信息用于识别。预测的阶段p̂t与对应的真实阶段pt进行比较计算交叉熵损失。训练阶段结束后我们将丢弃T只保留SR用于空间特征提取。图4. L-TransL-Trans采用两个级联融合模块来处理两分支时序输入灰色线和黑色线。融合模块由一个编码器和一个解码器组成。编码器包含一个m层的自注意力层用于灰色线输入解码器由一个n层级联的自注意力模块组成带有交叉注意力用于处理编码器输出和黑色线输入。图5. 阶段转换图构建示例。我们使用左右非对称高斯核将阶段转换区域投射到阶段转换图上其中左侧和右侧核长度分别为3σl和3σr。pl和pr表示相邻的不同阶段。图6. 在Cholec80和AutoLaparo数据集上与其他方法进行的定性比较。(a)中第一行显示了一些视频图像对应于红色箭头所指的时刻其中浅红色表示AVT和Trans-SVNet均预测错误的例子深红色表示仅Trans-SVNet预测错误的例子。(a)中接下来的四行和(b)中前三行代表不同方法识别的阶段结果以及对应的真实值GTp。(a)和(b)中最后两行表示提出的LoViT输出的热图ĥ及其真实值GTh。图7. LoViT在不同输入视频长度下的推理时间可视化。图8. 不同提取器空间特征分布的可视化。点集Cholec80数据集视频60的视频帧。不同颜色不同的工具标注。第一列Trans-SVNet中仅帧空间特征提取器的空间特征分布。第二列我们LoViT中富含时序的空间特征提取器的空间特征分布。图9. 相似视频帧空间特征分布示例。顶部三行图像描绘了相似的帧即在工具环境方面。底部使用两种不同提取器对示例图像进行空间特征分布的可视化。