Google 的 Vision Banana:统一视觉模型在分割与 3D 几何方面的表现优于任务特定模型

Gate 新闻消息,4月23日——Google 研究人员(包括何凯明和谢赛宁)发布了一篇论文,介绍 Vision Banana,这是一种通用型视觉理解模型,通过对该公司 Nano Banana Pro (Gemini 3 Pro Image) 图像生成模型进行轻量指令微调而创建。关键创新将所有视觉任务的输出统一为 RGB 图像,使得在不需要任务特定架构或损失函数的情况下,通过图像生成即可实现分割、深度估计和表面法线预测。

在语义分割方面,Vision Banana 在 Cityscapes 上比专门模型 SAM 3 高 4.7 个百分点;在指列表达式分割(referring expression segmentation)方面,它超过了 SAM 3 Agent。不过,在实例分割(instance segmentation)方面,它落后于 SAM 3。对于 3D 任务,度量深度估计在四个标准数据集上取得了 0.929 的平均准确率,超过 Depth Anything V3 的 0.918;推理时仅使用合成数据,无需真实深度信息或相机参数。表面法线估计在三个室内基准测试上达到了最先进的结果。

微调过程仅将少量视觉任务数据混入原始图像生成训练,从而保留了模型的生成能力——在生成质量测试中,其性能与原始 Nano Banana Pro 相当。论文提出,视觉中的图像生成预训练与语言中的文本生成预训练相类似:模型在生成过程中学习图像理解所需的内部表征,而指令微调只是释放这种能力。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

Elastics 完成 200 万美元的 Pre-Seed 轮融资,由 Frst 领投

根据 ChainCatcher,Elastics(一个 AI 预测市场操作系统)已完成一轮 200万美元的 Pre-Seed 融资。Frst 领投本轮,参与方包括 ElevenLabs、XBTO、RedStone、以及

GateNews27 分钟前

高通前高管 Alex Katouzian 于 5 月 4 日加入英特尔,担任客户端计算与物理 AI 方面的执行副总裁(EVP)

英特尔于 5 月 4 日宣布,来自高通的资深高管 Alex Katouzian 已加入该公司,担任执行副总裁兼客户计算与物理 AI 组总经理,并直接向首席执行官 Chen Lixu 汇报。Katouzian 在高通任职了 25 年,最近一次担任的是 e

GateNews59 分钟前

纳斯达克上市的 K Wave Media 放弃比特币金库,将 $485M 重定向至 AI

纳斯达克上市的 K Wave Media 已放弃其比特币金库计划,并将 4.85 亿美元改投人工智能投资,距为最初的比特币筹集 5 亿美元还不到一年

GateNews1小时前

Nova Intelligence 完成由 Chemistry 牵头的 3150 万美元 A 轮融资,于 5 月 5 日完成

据《财富》报道,AI 代理平台 Nova Intelligence 于 5 月 5 日完成一轮 3150 万美元的 A 轮融资,由 Chemistry 领投。Accel、Conviction 和 SAP.io 也参与了本轮融资。 Nova 的平台用于分析、现代化并为薪资、供应链以及

GateNews1小时前

Cipher Digital 获得 $200M 信用额度,以扩展 AI 和 HPC 数据中心

据 Globenewswire,Cipher Digital(纳斯达克上市的比特币矿企)从全球金融机构获得 2 亿美元的循环信贷额度,以增强流动性并加速其 AI 和高性能计算(HPC)数据中心平台的扩张。该公司公布了 Q1

GateNews2小时前

Quantum Leap 完成 $200M IPO,寻求区块链和 AI 收购

据 Businesswire 称,5 月 5 日,特殊目的收购公司 Quantum Leap 完成了 2 亿美元的首次公开募股,并以 QLEPU 作为股票代码开始在纽约证券交易所交易。该公司计划将募集资金用于寻求收购和并购交易 i

GateNews2小时前
评论
0/400
暂无评论