别花冤枉钱买修图软件了,顶尖开源让9种废片一键变大片,狂砸165万张图

2026-03-30

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

最近南方科技大学、StepFun、中科院深圳先进院等多家机构联手开源了一个重磅模型RealRestorer

做计算机视觉的朋友都知道,真实场景的图像修复一直是个老大难问题,而这款模型直接把模糊去除、摩尔纹消除、低光增强等9大常见的图像降解问题全拿捏了。

不仅刷新了开源模型的性能天花板,还把和闭源顶尖模型的差距拉到了几乎可以忽略的地步。

开源地址:https://huggingface.co/RealRestorer/RealRestorer

https://github.com/yfyang007/RealRestorer

RealRestorer之前,得先说说咱们这个行业的痛点。图像复原技术说白了就是给图像治病,把模糊、有噪声、被雨雾遮挡的退化图像,恢复成清晰的高质量图像。

这可是自动驾驶看路、遥感图像分析、3D重建这些技术的基础,没有它,后面的一切都是空谈。

但真实世界里的图像,可比实验室里的测试样本复杂多了。你出门拍张照,可能同时遇上运动模糊、下雨起雾,再加上手机压缩,一张图能叠好好多问题。

而之前的复原模型,多数是专治一种病的专科医生,比如只修模糊或者只去噪声,在实验室里测着特别厉害,一到真实场景遇上多种问题,立马歇菜,甚至还会给图像添新的瑕疵。

还有些闭源的图像编辑模型,比如Nano Banana ProGPT-Image-1.5,处理真实场景的能力确实强,但架不住人家不开放训练数据和计算资源,咱们研究人员想复现、想优化都没辙。

所以一直以来,大家都盼着能有一个既好用、又能适应真实场景、还开源的图像复原模型,而RealRestorer就是冲着这些业务痛点研发出来的。

AI模型,数据就是根,尤其是图像复原,模型得见过足够多的真实案例才能练出真本事。

研究团队直接搞了个超大规模的双轨数据集,一种是合成降解数据,一边是真实世界降解数据,加起来有165万对图像,9大核心的图像降解类型全覆盖。

合成降解数据这块,团队没走以前的老路,不再是简单模拟一种降解效果,而是加了颗粒噪声建模、区域感知扰动这些技术,让合成的病图更贴近真实情况。

比如做运动模糊的合成数据,不是随便糊一下,而是用视频帧的时间平均法模拟真实的运动轨迹,再加上平时网上常见的高斯模糊,让模型练的都是真实场景里能遇上的模糊类型

做摩尔纹数据的时候,直接生成了3000种不同尺度的摩尔纹,随机往清晰图里叠13种,让模型见多识广,以后遇上各种摩尔纹都能解。

低光的合成数据更细致,先调亮度、做伽马校正,再用专门的低光模型反向生成,模拟出来的低光图,和咱们晚上拍的糊图几乎没差。

这部分合成数据就有156.7万对,光是雨水降解的就有101.4万对,模糊的也有8.5万对,基础训练的样本量直接拉满。

而真实世界降解数据的制作,就更严苛了。团队先从PexelsPinterest这些高质量的开源图像平台找原始图,用CLIP模型先筛一遍,把和降解无关的图去掉。

再用水印检测工具和Qwen3-VL-8B-Instruct模型,把带水印的、降解程度不够的图全剔除。

剩下的真实降解图,用高性能的图像生成模型做出对应的清晰图,再用专业指标检查两者的内容是否一致,最后还找了三个专业的标注员人工审核,层层筛选下来,才做出8.7万对高质量的真实降解-清晰图像对。

有了好数据,还得有好的训练方法,RealRestorer的基础模型是Step1X-Edit,这款模型用了扩散Transformer作为骨干网络,本身就有很强的图像生成和编辑能力。

团队又针对复原任务做了优化,加了QwenVL文本编码器,把图像的高层语义信息融入去噪过程,还用Flux-VAE把输入和输出的图像编码到潜空间,保证修复过程中不会丢细节。

扩散网络里的双流设计,还能把语义信息、噪声和原始图像结合起来处理,相当于给模型装了更精准的诊断仪

最关键的是团队设计的两阶段训练策略,简单说就是先让模型学理论,再让模型练实战。

第一阶段是迁移训练,用156.7万对合成数据来练,把图像编辑模型的能力迁移到复原任务上,训练的时候全程用1024×1024的高分辨率,学习率固定在1e-5,批次大小设为16,而且九大降解任务平均采样,保证模型不会偏科。

第二阶段就是监督微调,核心是加入8.7万对真实降解数据,让模型从练模拟题转到练真题。这里还有个小技巧,就是渐进混合训练,训练时保留一点合成数据,避免模型把真实数据的模式学死,遇上新的真实场景就不会水土不服。

研究团队在主流测试平台中对RealRestorer进行了综合测试,结果非常亮眼。

在自研的RealIR-Bench 的测试里,RealRestorer 的表现直接碾压其他开源模型。综合九大降解任务的综合分数,RealRestorer 拿到了 0.146,比第二名的 Qwen-Image-Edit-2511 高出 0.019

而闭源顶尖模型 Nano Banana Pro 的分数也才 0.153,两者的差距只有 0.007,这意味着开源的修图模型,性能终于追上闭源顶流了。

单看各个修图任务,RealRestorer 的表现更是亮眼。模糊去除任务里,它的各项指标都是所有模型里最好的,不管是轻微的运动模糊还是严重的失焦模糊,都能修得又清晰又自然。

低光增强也是第一,晚上拍的黑乎乎的图,能直接恢复出正常的亮度和细节,不用再反复调曝光、调对比度。

摩尔纹去除拿到了第二,仅次于一款闭源模型,拍屏幕出现的彩色条纹能一键消除,还不损失屏幕里的内容。

其他像反光去除、雾霾消除、雨水去除这些任务,也都排在开源模型的前列,看得出来,这款模型没有短板,九大常见的废片问题都能轻松搞定。

想系统掌握AI核心技能、获取行业认可资质?

CAIE注册人工智能工程师认证

助你拓宽职业赛道,成为AI领域持证实力派

微信小程序
CAIE 认证
CAIE 认证
CAIE认证
以上内容来自微信小程序

企业、高校及渠道合作

请联系微信:FYLlaoshi

图片

完 谢谢观看

确定要退出登录吗?
确定 取消
推广有奖