
Robust-U1团队 投稿
量子位 | 公众号 QbitAI
雨雪、雾霾、镜头噪点、压缩失真、夜间弱光……
践诺里拍到的相片,简直莫得一张是奢华“干净”的。
可偏巧即是这种再泛泛不外的真实画面,一朝交给多模态大模子,其阐扬往往会大幅下滑——
本来答得对的问题,画面一糊就开动答错。

学术界昔时主要从“防患”的角度惩处这个问题,但两条主流阶梯都更像“打补丁”:
一种是在模子里面“偷偷”把脏图和干净图的特征对王人。
有点成果,但它是个黑盒,说不清模子到底学到了什么,也没确切建模“图像是奈何被龙套的”。
另一种是让模子先用一段笔墨描述“这张图被什么龙套了、会有什么影响”,再去回答。
想路阐发晰了,可笔墨写得再细,也补不回画面里仍是丢掉的像素细节。
来自香港科技大学的盘问团队,淡薄了一个更本体的问题:
多模态大模子,能弗成不靠外部器具,我方把损坏的画面“规复”出来?

这个问题之是以配置,是因为如今许多多模态大模子是“既会看图、又会绘画”的斡旋模子——
它在海量图像上学到的生成时刻,自身就隐含了一份“干净天下长什么样”的先验常识。
既然如斯,为什么不让模子调用这份先验,把被龙套的像素“反推”总结,再基于规复图去阐明?
顺着这个想路,团队淡薄了Robust-U1,论文已被机器学习顶会ICML 2026接管。
它的中枢不是再加一层“防患外挂”,而是把鲁棒性形成模子的一种内生时刻:
先用我方的生成先验规复损坏像素,再“看着规复图 + 原始脏图”一谈推理作答。
一个更本体的问题:让大模子我方“规复”,而不是替它“防患”
咱们先用一张图,看清三种想路的根柢区别:

(A) 特征对王人:在模子里面把脏图、干净图的特征拉近。黑盒、不可解说,本体是“硬扛”损坏。
(B) 笔墨推理:让模子先用笔墨阐发晰“图被奈何龙套了”。可解说了,但笔墨救不回丢失的像素。
(C) Robust-U1(视觉自回应):获胜把脏图重建成干净图,再同期对着“脏图+规复图”推理。
前两种想路有一个共同的天花板:它们都在绕开损坏,而不去还原损坏。
可对“这辆车朝哪开”“画面里有几个红灯”这类问题来说,谜底恰恰藏在那些被噪声、暧昧吃掉的像素里——
绕昔时,就等于把关节凭证扔了。
Robust-U1的不同之处,云开体育2026世界杯中国官网入口是把鲁棒性的开端换了个根儿:
不再向外部乞助(特等的抗争测验、外接建筑模子),而是向模子自身的生成先验乞助,让它把丢失的视觉信息再行“画”总结。
这是一种更内生、也更可解说的鲁棒性。
旨趣:为什么“我方修”比“外接建筑模块”更对路?
一个当然的质疑是:要修图,为什么不获胜在大模子前边接一个现成的、专科的图像建筑模子(去噪、去暧昧、去雾……)当“预处理”?
团队真的作念了这组对比:
把四个SOTA级外接建筑模子区别接在一个强力多模态大模子前边。
落拓是,最佳的外接决策玄虚得分只须0.55,而Robust-U1是0.74。
原因很潜入,不错归为两条:
外接建筑模子是为“颜面”优化的,不是为“答题”优化的。它们的标的是让图像在东谈主眼/标的上更泄露,但“更泄露”就怕保留了模子回答问题确切需要的语义陈迹。
专科建筑模子往往要先知谈“是哪种损坏”,濒临未知或搀杂损坏容易失灵;而践诺天下的损坏时常是多种重复的。
Robust-U1把“建筑”和“阐明”放进销毁个模子里聚合测验,于是建筑这件事会被“下贱要答对题”这个标的反向塑造——模子学会的是面向任务的建筑,而不是单纯的“好意思颜”。
这恰是它能赢过“外接建筑+阐明”活水线的根柢原因。
面孔:分三步,把“像素建筑时刻”前途模子里
Robust-U1选了一个既会看图、又会绘画的斡旋大模子BAGEL当底座(这点是前提,要修图,模子自身得有“画”出图像的时刻)。
然后用三步把这份通用生成时刻,特化成成心的“损坏规复”时刻:

第一步:先学会“把脏图变干净”
团队准备了无数“脏图 ↔ 对应干净图” 的配对数据,JRS直播2026世界杯比赛直播让模子照着学:
给它一张脏图和一句教唆(“把这张损坏的图回应成干净版块”),它就得生成出对应的干净图。
这个经由和当下流行的AI绘画很像——从一团噪点启航,一步步“画”出泄露图像。
练完之后,模子通用的“绘画”时刻,就被打磨成了一项成心的“按损坏反推干净像素”的时刻。
第二步:用两把“尺子”把图修得更准
第一步修出来的图时常还差点意旨风趣。
于是团队再用强化学习让模子“边修边打分、反复调优”,何况同期用两把尺子打分:

一把尺子看“像不像”:规复图在明暗、对比、纹理结构上和原图贴不贴合(用经典图像雷同度标的SSIM)。
另一把尺子看“对分歧”:规复图的内容和原图说的是不是销毁趟事(借助CLIP这类“看图识意”的模子判断)。
尊龙凯时2026世界杯中国官网两把尺子不可偏废:只看“像不像”,可能修得泄露却偷偷改了内容;只看“对分歧”,又可能内容没错但画面发糊。
两者一谈管,才能既明晰、又诚笃——
这亦然“面向任务的建筑”落到实处的关节。
第三步:对着“脏图+规复图”一谈回答
终末,模子回答问题时会同期拿到两张图(原始脏图,和它我方修好的泄露图),再给出带推理经由的谜底。
自制是:模子主要看泄露的规复图来阐明画面,遭遇拿不准的所在,还能回头看一眼原始脏图查对,相配于手里同期抓着“规复相片”和“原始凭证”两份材料,判断当然更稳。
落拓:不仅更准,还揭示了几条“反直观”的旨趣
1)真实损坏场景:彰着跳跃
R-Bench是成心测“图片被耻辱后模子还准不准”的基准。
看最关节的三组对比(满分1.0):

2)抗重度侵略:准确率掉得最少
在MMMB测试中,把图从“干净”渐渐龙套到“重度损坏”:
Robust-U1:84.75→83.18(只掉1.57个点)
BAGEL:81.92→78.48(掉3.44)
Robust-R1:81.41→75.35(掉6.06)
Robust-U1的上风不是“某项高出高”,而是图越烂越稳——
因为它先把输入拉回了模子熟练的“干净”格局。
3)修出来的图,肉眼可见识更接近真实

从左到右:脏图、BAGEL、只作念第一步测验、Robust-U1、真实原图。
BAGEL还残留无数噪声和彩色条纹,而Robust-U1在多个场景里都更接近真实画面。
底下这个问谜底例更阐发问题(问题:前哨车辆往哪边开,正确谜底“左”):

庸俗面孔被糊图带偏答“直行”,连基座BAGEL都修出了一张错的图;而Robust-U1先把车头朝向修明晰,再答对了“左”。
像素修对了,回答才信得过。
底下几条,才是这篇责任确切“深”的所在——
反直观一:“修得颜面” ≠ “看得更准”
团队同期跟踪了“图像泄露度标的(PSNR)”和“问答收获”,发现两者并不同步:
第一步测验把泄露度大幅拉高(PSNR+6.5 dB),问答收获却简直没动;
第二步强化学习简直没再提高泄露度,问答收获却大幅跳升。
这阐发:把图修得“数值上更干净”远远不够,只须修在“对回答问题灵验的所在”,建筑才确切帮到阐明。
这条论断,恰好解说了第二节“为什么我方修比外接建筑更强”——
赢输手不在“颜面”,而在“是否面向任务”。
反直观二:确切建功的是“修图”,不是“多喂了数据”
会不会收获进步仅仅因为测验时多用了数据?
团队把两块终止单独考证:
只加笔墨推理:0.58→0.62;
只加“我方修图”:0.58→0.66(进步彰着更大);
两者一谈:0.74。
主力如实是“像素自回应”这项时刻自身,何况它和推理还能1+1>2。
反直观三:让模子“看着规复图”推理,是必须的

“数公交车”的例子(正确谜底 2 辆):只靠笔墨推理,模子在糊图里数成了3辆;而Robust-U1先把图修明晰、再对着两张图数,准确数出2辆。
去掉“看规复图”这一步,举座收获会彰着下滑——
这也印证了“像素层面的凭证”不可替代。
更深一层:这意味着什么
Robust-U1确切淡薄的,其实不仅仅一个更强的“抗损坏模子”,而是一种看待鲁棒性的新视角:
把“看清→建筑→推理”闭合成一个回路,让模子在阐明之前,先用自身的生成先验主动规复被龙套的天下。
比较“对王人特征”“笔墨描述”这类外加的防患,“用生成时刻自我规复”是一种更内生、也更通用的鲁棒性开端:
它不依赖于事前知谈“是哪种损坏”,也不啻步于“描述损坏”,而是确切把丢失的视觉信息补总结。
对自动驾驶、医学影像等对画面质料极其明锐的安全攸关场景,这种“先规复、再决策”的范式尤其有价值。
代码(GitHub):https://github.com/jqtangust/Robust-U1
论文:https://arxiv.org/abs/2606.08063
一键三连「点赞」「转发」「留意心」
迎接在辩驳区留住你的目的!
— 完 —
咱们正在招聘别称眼疾手快、关心AI的学术剪辑实习生 🎓
感风趣风趣的小伙伴迎接关心 👉 了解细目

🌟 点亮星标 🌟
科技前沿进展逐日见JRS直播

备案号: