医疗圈炸锅了!AI手术机器人自学成才,智能手术要变天啦

2026-01-01

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

自主AI手术机器人很厉害,又能提高手术精度,医生也不用那么累,复杂手术说不定以后小医院也能做。但有个大问题一直卡着大家的脖子,就是数据太少。

训练机器人做手术,得有高清的手术视频,还得有机器人每个动作的详细参数,这俩还得精准对应上。

可收集这数据太难了,进手术室得审批,还得保证患者安全,各种规定一大堆,花钱又费力。更别说还有海量的手术视频躺在那没用。

因为没人给标上机器人该怎么动,根本没法用来训练模型。为了解决这个大难题,英伟达、温州医科大学、瑞金医院等搞出了个SurgWorld框架。

其实手术机器人就像个学手艺的学徒,得看大量师傅操作的案例,才能学会怎么动手。这个案例不是普通的视频,得是视频+动作指南的组合,视频让它知道手术场景长啥样,动作指南告诉它每一步该怎么动。

但现实是这种组合数据少得可怜。一方面手术机器人本身就贵,还得装专门的设备记录动作参数。

另一方面手术室是特殊地方,患者隐私要保护,手术安全不能马虎,想多收集点数据难如登天。就算有医生愿意帮忙标注,耗时耗力不说,每个人的标准还不一样,最后数据也没法用

反观家里用的机器人、工厂里的工业机器人,人家有海量的数据可以学,所以发展得快。那些厉害的VLA模型,能看懂指令还能动手干活,背后都是靠大量数据喂出来的。

可这些技术搬到手术场景就不管用了,手术里的组织反光、摄像头拍不全、工具要轻轻操作,还有软软的组织不好模拟,跟家里工厂里的环境完全不一样。

以前也有人做过手术模拟器,但出来的效果跟真实手术差太远,机器人学了模拟器的操作,到真手术上还是不会动。

SurgWorld的思路也特别简单,就像先教会机器人看懂手术视频,再让它出该怎么动,最后把这些出来的动作当成练习素材,让机器人反复学

要让机器人看懂手术,得先有好的教材。研究团队就整理了一个叫SATA的数据集,相当于给机器人编了一套带详细讲解的手术教程。

这个数据集可不是随便凑的,是从正规的外科视频频道和公开的手术数据里,精挑细选再重新标注的。

一共2447个视频片段,加起来30多万帧,涵盖了8种手术类型。但只聚焦四个核心动作,持针、穿刺、拉线、打结,这可是外科手术的基础,学会了这些,复杂手术也能慢慢拓展。

每个视频都配了详细说明,比如器械在哪、在操作哪个部位、怎么跟组织互动。

就像老师讲课一样,不仅让机器人看动作,还告诉它为什么这么动、动的时候要注意啥。这样一来,机器人就能慢慢理解手术的逻辑,而不是单纯模仿动作。

有了教材,还得有练习的地方。SurgWorld就是一个能生成逼真手术视频的虚拟手术室,基于一个叫Cosmos-Predict2.5的强大模型改造而来。

这个改造也很有讲究,用了LoRA的技术,就像给通用模型装了个手术场景的插件,不用大改原有功能,就能让它精准适配手术场景。

训练的时候用了一种流匹配的方法,简单说就是让模型学会预测手术接下来会发生什么,生成的视频就像真的手术一样,动作连贯,场景逼真。

你给它一个初始画面和文字指令,比如让它做两次针头移交,它就能生成完整的视频,连组织的反应都模拟得很真实。

就算是没学过的复合动作,它也能把学过的基础动作组合起来完成,就像人学会了基本动作后,能自己摸索复杂操作一样。

光有虚拟手术视频还不够,机器人还得知道每个画面对应的动作参数。这时候逆动力学模型就派上用场了,它就像个翻译官,能把视频里的画面翻译成机器人能看懂的动作指令。

它的工作原理很有意思,输入两个间隔16帧的视频画面,就能算出这中间机器人每个瞬间该怎么动

比如画面里左边器械移动了一下,它就能精准算出移动的距离、角度,还有夹爪的开合程度,最后输出一个20维的参数,把机器人双臂的动作都描述清楚。

而且这个模型不用从头学起,先用通用的机器人运动数据打底,再用少量真实手术机器人的数据微调,就能精准适配特定的手术机器人,大大减少了数据需求。

SurgWorld的整个流程特别清晰,就四步,环环相扣,把无标注视频变成了宝贵的训练数据。

第一步是用SATA数据集训练SurgWorld,让虚拟手术室能生成符合手术规范的视频。这一步就像给模型打基础,让它先熟悉手术场景和基本动作。

第二步是针对具体的手术机器人和任务做微调。毕竟不同机器人长得不一样,动作方式也有差异,用少量真实数据调一调,让模型能精准适配目标机器人。同时也把逆动力学模型训练好,确保它能准确翻译这个机器人的动作。

确定要退出登录吗?
确定 取消