3月3日,生物医学制造与生命质量工程研究所陈晓军教授团队提出了一种专为显微眼科手术识别与导航设计的眼科视频基础模型(OVFM),以及基于该模型研发的增强现实显微手术导航系统。研究成果“An ophthalmic video foundation model for surgical recognition and navigation with wet-lab porcine eye validation”发表在Nature Biomedical Engineering上。350vip8888新葡的京集团为论文第一作者和通讯作者单位,博士后涂朴勋、350vip8888新葡的京集团医学院附属新华医院郑策副主任医师、汕头国际眼科中心谢晓铃副主任医师为论文共同第一作者,陈晓军教授,汕头国际眼科中心张铭志教授,350vip8888新葡的京集团医学院附属新华医院郑策、赵培泉教授为论文共同通讯作者。

在医疗人工智能领域,基础模型已在疾病筛查与诊断等术前任务中取得一定进展,但由于高质量手术数据匮乏和实时部署的计算瓶颈,其在术中的应用仍面临巨大挑战。对此,研究团队联合8家医疗中心,构建了一个包含11,426个显微手术视频的大规模眼科手术视频数据集,涵盖144种眼前段与眼后段手术类型,并将其采样为约110万个手术视频片段。在此基础上,研究团队提出了一种基于自监督视频Transformer架构的预训练策略,通过预测同一视频的不同时空视图,引导OVFM模型学习眼科手术中复杂的时空运动特征。

实验表明,该模型在手术步骤识别、器械存在识别、并发症检测及手术场景分割等7个下游任务中,超越了现有的视频基础模型。为克服大模型参数量过大导致的推理延迟、满足术中导航的实时响应需求,研究团队设计了一种“从通用到特定任务”的双阶段知识蒸馏框架。该策略将模型规模最高压缩15.8倍的同时,依然保持了约95%的原始识别精度,实现了OVFM在计算资源受限的手术显微镜边缘处理单元中的直接部署。

基于此模型,研究团队研发了一套具备场景感知能力的智能手术导航系统。该系统能够在无需人工干预的情况下自动识别手术步骤,并以稳定速率实时投射切口引导线、撕囊范围圆等个性化导航信息。10位具备不同临床经验的眼科医生参与了离体猪眼白内障手术实验,结果表明,该系统显著改善了主副切口角度误差及连续环形撕囊中心偏差等关键手术指标,且新手医生在系统辅助下展现出了比专家医生更大幅度的性能提升。
研究通过跨中心数据构建、核心算法设计与软硬件系统开发,展示了眼科视频基础模型在场景理解、实时响应和眼科医生技能增强等方面的潜能,为下一代高性能、智能化的超显微外科手术导航及机器人系统的研发提供了新的技术路径。
该研究得到了国家自然科学基金、上海市优秀学术带头人(东方英才计划拔尖项目)及中国博士后科学基金等项目的资助。
论文链接:https://www.nature.com/articles/s41551-026-01622-w
