首页 > 汽车笔记 > 汽车笔记 > 超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

发布时间:2025-10-20 09:43:38来源: 18811119908

Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架构及训练loss,实现与纯视觉模型同等级别的3D理解能力?」

Meta开源了一项突破性研究工作DepthLM,首次证明了该问题的答案是肯定的!

DepthLM首次证明了语言模型也能准确理解三维空间,并且比专家视觉模型具有更好的灵活性及泛化性。

DepthLM证明了,在无需改动架构的前提下,就能让视觉语言模型(VLM) 在像素级「绝对深度估计」等三维视觉任务上达到与纯视觉模型相媲美的水平。

在此之前,即便是最先进的VLM如GPT-5和Gemini2.5-Pro等,在绝对深度估计上均远远落后于纯视觉模型。

汽车笔记更多>>

6999起三星S26系列发布丨硬件防窥屏 安卓机皇? 三星研发部门负责人解释Galaxy S26系列手机未原生集成磁吸功能 魅族科技宣布战略转型,将暂停国内手机新产品自研硬件项目 魅族第一个停更!内存涨价潮下手机厂商承压 华为清华联手,研发28nm存内计算芯片 又一国产全模态视频大模型杀入Artificial Analysis榜单Top 2 苹果警告旧版Home家庭架构今起停用 OPPO K14x 5G手机海外发布,配置与售价全曝光 华为nova16系列再次确认:三芯分层+方形前摄革新,定价诚意拉满 OPPO Find X10系列配置曝光:2nm芯、双2亿主摄,堆料不讲武德 ColorOS再次发力:二月体验升级大揭秘,覆盖众多机型! 小米17 Max再次被确认:取消副屏和加大电池,两亿像素也没跑了 iQOO Z11系列突然入网:90W+9000mAh,还有LCD屏幕! 三星Galaxy S26系列完整规格曝光,预计2月25日正式发布 京东高端手机Top10,华为Mate 80六连冠,iQOO 15 Ultra大亮 CounterPoint报告2025全球手机存量:8大品牌破2亿 分析师:苹果iPhone 18 Pro系列起售价将与前代持平 苹果即将移除iTunes愿望清单功能,提醒用户迁移内容 苹果预计本月推出搭载M5 Pro/Max芯片的新款MacBook Pro笔记本电脑 联想拯救者Y700 2026款小平板配置曝光:骁龙8E5处理器配8.8英寸3K LCD屏 SK海力士、闪迪:2025Q4 NAND闪存平均单价上涨30%以上 PGYTech蒲公英RetroVa摄影套件亮相,适配苹果iPhone多机型 Mate 80卖爆!华为拿到1月中国手机市场份额第一名:份额提升至18.6% 人民日报头版力挺,OPPO折叠屏技术引苹果学习! 《后厂村AI派》正式启动:Pitch Your Next Move! 中途退学的艺术生,开发Web 3D项目,周下载量破400万 印奇挂帅后,阶跃星辰最强开源模型登场!六大国产AI芯片已适配 Moltbook漏洞大到可以冒充Karpathy发帖,黑客都急了 苹果妙控键盘固件更新,覆盖M4/M5款iPad Pro与M3 Air机型 昔日HDD巨头Conner重生回归!进军外置存储与手机周边