别花冤枉钱买修图软件了，顶尖开源让9种废片一键变大片，狂砸165万张图

2026-03-30

关注CAIE，国内头部AI人才认证、培训体系，助你在职场升职加薪。

CAIE注册人工智能工程师

公众号作者

CAIE，全称 Certifed Artifcial Intelligence Engineer（人工智能工程师），简称 CAIE（赛一），是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

最近南方科技大学、StepFun、中科院深圳先进院等多家机构联手开源了一个重磅模型RealRestorer。

做计算机视觉的朋友都知道，真实场景的图像修复一直是个老大难问题，而这款模型直接把模糊去除、摩尔纹消除、低光增强等9大常见的图像降解问题全拿捏了。

不仅刷新了开源模型的性能天花板，还把和闭源顶尖模型的差距拉到了几乎可以忽略的地步。

开源地址：https://huggingface.co/RealRestorer/RealRestorer

https://github.com/yfyang007/RealRestorer

聊RealRestorer之前，得先说说咱们这个行业的痛点。图像复原技术说白了就是给图像治病，把模糊、有噪声、被雨雾遮挡的退化图像，恢复成清晰的高质量图像。

这可是自动驾驶看路、遥感图像分析、3D重建这些技术的基础，没有它，后面的一切都是空谈。

但真实世界里的图像，可比实验室里的测试样本复杂多了。你出门拍张照，可能同时遇上运动模糊、下雨起雾，再加上手机压缩，一张图能叠好好多问题。

而之前的复原模型，多数是专治一种病的“专科医生”，比如只修模糊或者只去噪声，在实验室里测着特别厉害，一到真实场景遇上多种问题，立马歇菜，甚至还会给图像添新的瑕疵。

还有些闭源的图像编辑模型，比如Nano Banana Pro、GPT-Image-1.5，处理真实场景的能力确实强，但架不住人家不开放训练数据和计算资源，咱们研究人员想复现、想优化都没辙。

所以一直以来，大家都盼着能有一个既好用、又能适应真实场景、还开源的图像复原模型，而RealRestorer就是冲着这些业务痛点研发出来的。

做AI模型，数据就是根，尤其是图像复原，模型得见过足够多的真实案例才能练出真本事。

研究团队直接搞了个超大规模的双轨数据集，一种是合成降解数据，一边是真实世界降解数据，加起来有165万对图像，9大核心的图像降解类型全覆盖。

合成降解数据这块，团队没走以前的老路，不再是简单模拟一种降解效果，而是加了颗粒噪声建模、区域感知扰动这些技术，让合成的“病图”更贴近真实情况。

比如做运动模糊的合成数据，不是随便糊一下，而是用视频帧的时间平均法模拟真实的运动轨迹，再加上平时网上常见的高斯模糊，让模型练的都是真实场景里能遇上的模糊类型

做摩尔纹数据的时候，直接生成了3000种不同尺度的摩尔纹，随机往清晰图里叠1到3种，让模型见多识广，以后遇上各种摩尔纹都能解。

低光的合成数据更细致，先调亮度、做伽马校正，再用专门的低光模型反向生成，模拟出来的低光图，和咱们晚上拍的糊图几乎没差。

这部分合成数据就有156.7万对，光是雨水降解的就有101.4万对，模糊的也有8.5万对，基础训练的样本量直接拉满。

而真实世界降解数据的制作，就更严苛了。团队先从Pexels、Pinterest这些高质量的开源图像平台找原始图，用CLIP模型先筛一遍，把和降解无关的图去掉。

再用水印检测工具和Qwen3-VL-8B-Instruct模型，把带水印的、降解程度不够的图全剔除。

剩下的真实降解图，用高性能的图像生成模型做出对应的清晰图，再用专业指标检查两者的内容是否一致，最后还找了三个专业的标注员人工审核，层层筛选下来，才做出8.7万对高质量的真实降解-清晰图像对。

有了好数据，还得有好的训练方法，RealRestorer的基础模型是Step1X-Edit，这款模型用了扩散Transformer作为骨干网络，本身就有很强的图像生成和编辑能力。

团队又针对复原任务做了优化，加了QwenVL文本编码器，把图像的高层语义信息融入去噪过程，还用Flux-VAE把输入和输出的图像编码到潜空间，保证修复过程中不会丢细节。

扩散网络里的双流设计，还能把语义信息、噪声和原始图像结合起来处理，相当于给模型装了更精准的“诊断仪”。

最关键的是团队设计的两阶段训练策略，简单说就是先让模型学理论，再让模型练实战。

恭喜你顺利通过CAIE 注册人工智能工程师认证！你的 AI 专业能力已获官方认可。愿你继续在智能时代保持领先，持续进步、不断升级。