西瓜资讯

秒变细节狂魔!仅3B逆袭GPT-4o

2025-04-27

【新智元导读】视觉AI终极突破来了!英伟达等机构推出超强多模态模型DAM,仅3B参数,就能精准描述图像和视频中的任何细节。

有了AI,谁还愿意用手配「字幕」?

刚刚,英伟达联手UC伯克利、UCSF团队祭出首个神级多模态模型——Describe Anything Model(DAM),仅3B参数。

论文地址:https://arxiv.org/pdf/2504.16072

正如其名Describe Anything,上传一张图,圈哪点哪,它即可生成一段丰富的文字描述。

即便是一段视频,DAM也能精准捕捉到白色SUV,给出详细的描述。

DAM是一个专为详细局部标注(DLC)而设计的模型,即为特定区域生成详细且精确的描述。

通过两大创新,研究人员在细节与上下文之间找到平衡:

· 焦点提示:对目标区域进行高分辨率编码,就像给模型配备了一副「放大镜」,清晰捕捉到局部区域细微特征

· 局部视觉骨干网络:将精确定位的特定区域,与上下文无缝整合

换句话说,DAM不仅能放大细节看,还能放眼全局看,无论是静态图,还是动态视频,都能做到游刃有余。

网友惊叹道,「终极视觉AI突破」!

AI用「放大镜」看世界

在项目主页中,英伟达等研究团队放出了更多精彩demo。任何人通过点、框、涂鸦或掩码的交互,即可一键生成描述。

最新文章

秒变细节狂魔!仅3B逆袭GPT-4o

智能

 

阅读19977

Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一

科技

 

阅读15386

打造国产大飞机时序大模型智能诊断新路径

科技

 

阅读17371

20万奖金池×最火技术风口!

智能

 

阅读19700

除了谷歌,没人玩得转Chrome浏览器

数码

 

阅读19324

晋ICP备2024051176号-31