一键把照片、视频秒变 360° 全景，谷歌颠覆模型刷爆AI圈！

2026-01-26

关注CAIE，国内头部AI人才认证、培训体系，助你在职场升职加薪。

CAIE注册人工智能工程师

公众号作者

CAIE，全称 Certifed Artifcial Intelligence Engineer（人工智能工程师），简称 CAIE（赛一），是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

咱们平时拍的照片或者视频，其实视野特别窄，就像拿个望远镜看世界一样，想把它变成360度全景，让体验变得沉浸并不容易。

以前的老方法有个大毛病，它们非得知道当时相机是怎么摆的，比如镜头角度多大，是不是歪着拍的，这叫相机元数据。

这要是拍个照片还好说，如果是网上随便找个视频，这些信息根本没有，或者根本不准，以前的模型立马就抓瞎，生成出来的东西惨不忍睹。

谷歌DeepMind跟几个高校的大佬们联手搞了个创新颠覆模型360Anything。看名字就特别霸气，所有任何东西都能给你干成360度全景。

论文地址：https://arxiv.org/abs/2601.16192

项目地址：https://360anything.github.io/

咱们先说说最头疼的那个相机信息问题。以前的思路特别死板，非要把一张窄视角的照片硬生生投影到全景画布上，位置必须对得严丝合缝。

这就像拼图必须找到唯一的缺口。这就要求你必须极其精确地知道这张照片是从哪个角度拍的。

360Anything完全换了个路子，它把照片和全景图都当成是一串乱码一样的序列，直接丢给扩散大模型。

这模型就像个绝顶聪明的侦探，通过全盘审视这些乱码，自己就能琢磨出来，哦，原来这张窄图应该是这片全景的右下角，或者左边这块。

这就不需要任何人告诉它相机参数了，完全靠它自己吃透了海量数据后总结出来的经验，这不就省去了找相机信息的麻烦吗，拿来就能用。

再有个特别讨厌的毛病，就是生成的全景图左右两边拼在一起的时候，总有一条明显的接缝，特别破坏体验。

以前大家都是在图生成出来以后，想各种办法去修补，或者旋转一下图片糊弄过去。但360Anything的这帮人居然追根溯源，找到了罪魁祸首。

原来是因为编码图片的时候用的那个工具，在边缘喜欢补零，就像画画在边缘留了白，导致模型理解的时候出了偏差。他们想了个特别巧妙的招，叫循环潜在编码。

简单来说，就是在给图片编码前，先把左边缘的一块挪到最右边去，把右边缘的一块挪到最左边来，让它首尾相连。这一招简直是四两拨千斤，直接从根源上把那个接缝给抹平了，生成出来的全景图顺滑得像没有尽头一样。

为了让生成的视频看着更舒服，他们还加了个特别人性化的设计。咱们拍视频难免手抖或者乱转，生成出来的全景如果也是歪歪扭扭的，看着多晕啊。他们就在训练数据上下功夫，把所有视频都矫正过来，强制重力方向垂直向下。

不管你输入的视频是仰着拍还是歪着拍，它给你生成的全景永远是正的，就像把世界摆正了一样。这种设计让视频看起来特别稳，时间长了也不容易晕。

为了全面验证360Anything的性能，研究团队做了涵盖全景图像生成、全景视频生成、相机参数估计和3D场景重建的多维度实验，通过定量指标和定性分析，和当前主流方法进行了全面对比，结果全部都是最强的。

在LavalIndoor和SUN360两个数据集上，360Anything的表现可以说是碾压式领先。

在LavalIndoor数据集上，它的FID是8.0，比当前最优的CubeDiff低了15.8%；KID是0.22×10²，也低于CubeDiff的0.32×10²；特别是FAED仅为9.8，比CubeDiff的18.4降低了46.7%，几乎减半。

在SUN360数据集上，360Anything的FID为22.4，KID为1.27×10²，CLIP-FID为7.3，都优于CubeDiff；

FAED更是降到了3.8，比CubeDiff降低了50%；CLIP-score达到28.07，也是所有方法中最高的，说明它的文本对齐能力更强。

恭喜你顺利通过CAIE 注册人工智能工程师认证！你的 AI 专业能力已获官方认可。愿你继续在智能时代保持领先，持续进步、不断升级。