
vivo BlueImage Lab 投稿
量子位 | 公众号 QbitAI
如今手机拍照已成往日,后期修图是进步像片质感的要津。
但专科修图器具操作复杂,一键滤镜格调生硬,现存AI修图决议也存在难以端到端优化、模子重大不适配移动端等问题。
为此,vivo BlueImage Lab团队、浙江大学臆想机科学与本领学院AiXM实验室、之江实验室与中国科学院大学结伴发布了一项新的斟酌使命VeraRetouch——
面向多任务推理式的像片影合并颜色“修图”,淡薄了一个轻量、全可微分、可移动端部署的修图框架。

通过将0.6B视觉谈话模子作为“修图大脑”,并想象全可微分的Retouch Renderer作为“修图实施器”,VeraRetouch概况把高层谈话意图转念为低层像素级诊治,在保握图像结构和细节的同期完成专科化色调与颜色优化。
让大模子的确“会修图”,而不仅仅会说若何修
传统自动修图活动大多像一个黑盒:输入像片,输出恶果,中间枯竭明确的审好意思分析与诊治逻辑。
其后的推理式修图活动引入多模态大模子,让模子概况分析像片问题、给出修图门径,再调用外部器具实施诊治。
这条路子更接近东说念主类修图师的使命形态,但也带来一个中枢瓶颈:外部修图软件频繁不成微分。模子生成的参数能否的确带来更好的像素恶果,很难通过端到端窥探凯旋优化。
VeraRetouch的要津窜改在于,它不再把专科修图器具作为外部黑盒,而是用一个全可微分的 Retouch Renderer替代传统软件中的调色与调光操作。
这么一来,模子不仅能“推理出该若何修”,还能通过图像监督凯旋学习“如何修才确实雅瞻念”。
斟酌团队将修图空间拆解为三个相对孤苦的终了维度:
Lighting:曝光、暗影、高光等光照联系诊治
Global Color:色温、色调、举座颜料倾向等全局颜色诊治
Specific Color:针对红色、橙色、蓝色等特定颜料通说念的考究诊治
这种拆解形态与专科修图经过高度一致,也让模子的输出更可确认、更结识。
△
Retouch Encoder从参考图像对中索取光照、全局颜色和特定颜色终了latent,Retouch Renderer再将这些终了信号映射到像素级修图恶果
三种任务:从“一键变雅瞻念”到“按你说的修”
VeraRetouch面向的确用户需求界说了三类修图任务。
Auto-Retouch

Style-Retouch

Param-Retouch

△VeraRetouch援手自动修图、格调修图与参数修图三类典型使命流,让用户不错快速从“这张图需要若何修”认知到“模子正在作念什么”。
第一类是Auto-Retouch。
用户只需要输入一张像片,模子自动分析画面中的光影和颜色问题,并生成修图决议。这对应最常见的“一键优化”场景,但办法不是套滤镜,而是在保留原图内容的基础上进步举座不雅感。
第二类是Style-Retouch。
用户不错用当然谈话模样想要的格调,比如“蔼然秋日感”“冷调日系透明感”“暗调情谊胶片风”。
模子会结合图像内容和文本意图,推理出具体的调色标的,并生成合适格调模样的恶果。
第三类是Param-Retouch。
模子不错凭据明确的参数领导进行修图,举例对比度、曝光、色温、迷漫度等。
换句话说,它既能“我方看图修”,也能“听懂你想要什么格调”,还能“按参数实施”。
数据问题若何科罚?构建百万级专科修图数据集
高质地修图模子离不开高质地数据。然而,专科修图数据相等稀缺。已罕见据集界限有限,且很难障翳的确用户复杂万般的格调需求。
为此,斟酌团队构建了AetherRetouch-1M+,这是一个百万级多任务专科修图数据集,障翳Auto-Retouch、Style-Retouch与Param-Retouch三类场景。
△
AetherRetouch-1M+ 障翳自动修图、格调修图与参数修图三类任务,为多任务推理式修图提供大界限窥探数据
对于自动修图,团队接纳了一个很专诚旨道理的“反向退化”想路:
先从高质地像片开赴,把它们视作“已修好”的恶果,再基于大家修图对中的颜色与光照变化,反向生成更像原始像片的“未修图”版块。
这么不错在保留的确内容结构的同期,构造多数具有的确纰谬的窥探样本。
对于格调修图,团队整理了5030个在线格调预设,障翳11个大类和193个细分子类,并借助视觉谈话模子为图像匹合作适格调,再生成万般化用户领导。
对于参数修图,团队围绕光照、全局颜色和特定颜色三类操作就地采样参数组合,生成可用于精准终了窥探的数据。
更进一步,JRS直播数据鸠合还加入了结构化推理过程:模子不仅学习“输入到输出”,还学习为什么要这么诊治,包括画面内容分析、原图问题会诊,以及对应的修图筹算。
△
AetherRetouch-1M+的数据构建经过,包括自动修图的反向退化、格调预设匹配与参数采样三条数据生成旅途
本领中枢:小模子,也能作念专科推理修图
VeraRetouch基于FastVLM-0.5B构建。输入图像经过视觉编码器转成视觉token,用户领导经过文本编码器转成prompt token,随后多模态谈话模子生成结构化推理内容。
△
VeraRetouch举座框架。输入图像与用户领导经过轻量VLM生成结构化推理与终了latent,再由Retouch Renderer输出最终修图恶果
为了让推理恶果的确脱手像素诊治,斟酌团队想象了专门的retouch tokens,分辨对应光照、全局颜色和特定颜色三个终了维度。
模子终末一层hidden state会被送入MLP Retouch Adaptor,对王人到Retouch Renderer可认知的连气儿终了latent,再由Retouch Renderer输出最终修图恶果。
这套想象带来两个首要上风。
2026美加墨世界杯中国官网入口开头,它幸免了模子推理时对外部修图软件的依赖。总计这个词修图过程不错在模子里面完成,并援手端到端像素级窥探。
其次,它比大型生成式图像裁剪模子更轻量。
VeraRetouch的总参数界限约为0.63B,远小于Flux.1 Kontext、Qwen-Image-2509、MonetGPT、JarvisArt等基线活动,更接近移动端履行部署需求。
为了进一步进步审好意思透露,团队还淡薄了DAPO-AE后窥探政策,通过神态奖励、图像相似性奖励和审好意思奖励,领导模子在保握领导一致性的同期生成更当然、更合适东说念主类好意思学偏好的修图恶果。
实验恶果:质地、速率和可部署性同期进步
实验表露,VeraRetouch在多个基准上取得了率先透露。
在FiveK-Bench自动修图任务上,VeraRetouch-DAPO-AE达到26.85 dB PSNR,比较Flux.1 Kontext进步1.08 dB,同期在SSIM、LPIPS和多项直方图一致性筹画上透露至极。

在Aether-Bench的格调修图任务中,VeraRetouch在PSNR、SSIM、LPIPS、DISTS、GMSD和Texture Distortion等筹画上均取得最优或率先透露,确认它不仅能奴隶格调领导,也能更好地保留原图结构与纹理细节。
在参数修图任务中,VeraRetouch的PSNR达到30.18 dB,理会跳跃微调后的扩散模子基线,展现出对精准修图参数的强实施才气。
然而作家也在论文中提到,由于构造窥探数据时接纳结伴高斯散播进行参数采样,模子在实施散播外参数时可能会出现一些不一致的情况。

从三个任务视频不错看到,VeraRetouch的修图恶果并不是节略改变举座滤镜强度,而是会凭据任务类型分辨处理画面亮度、颜色倾向、局部颜料与格调氛围。
对于自动修图,它更强调当然不雅感;对于格调修图,它更暖热谈话模样与视觉格调的一致性;对于参数修图,它则强调诊治恶果的可控性和可复现性。
速率方面,VeraRetouch在H20 GPU上处理一张512p图像仅需6.90秒,快于Flux.1 Kontext的16.78秒和JarvisArt的14.31秒。
更首要的是,模子在销耗级成立上也具备部署后劲:未经量化的版块在MacBook Air M4上约7.46秒,在iPhone 16 Pro上约13.56秒即可完成自动修图。
用户斟酌相似考证了这少量。38名参与者的盲评恶果表露,VeraRetouch在视觉好意思感、领导一致性和纹理保握方面都取得了最高评分。
DAPO-AE后窥探也带来更理会的东说念主类偏好进步,在对比实验中取得61.62%的偏好率。
固然,论文也指出,面前模子在局部修图才气上仍有进步空间。
异日若进一步引入像素级mask机制,VeraRetouch有望援手更无邪的区域化裁剪,举例只提亮东说念主物面部、只诊治天外颜色,或只优化配景氛围。
对于作家
vivo BlueImage Lab是蓝图影像窜改实验室,主要端庄移动影像算法窜改,包括图像/视频处理、图像/视频交互、图像/视频增强、多模态认知大模子等方面的本领前沿探索。
竭力于于不停进步vivo移动影像的算法才气,使用户概况拍摄出愈加明晰、好意思不雅的像片和视频。同期积极探索增强现实、具身智能等新兴本领领域的欺诈,辛苦为用户提供愈加丰富和方便的影像体验。
论文勾通:https://arxiv.org/pdf/2604.27375
技俩主页:https://apollo-yi.github.io/VeraRetouch/
代码勾通:https://github.com/OpenVeraTeam/VeraRetouch
一键三连「点赞」「转发」「注重心」
接待在褒贬区留住你的想法!
— 完 —
咱们正在招聘又名眼疾手快、暖热AI的学术裁剪实习生 🎓
感敬爱敬爱的小伙伴接待暖热 👉 了解笃定

🌟 点亮星标 🌟
科技前沿进展逐日见JRS直播2026世界杯赛事直播入口

备案号: