西瓜资讯

2025-04-27

【新智元导读】视觉AI终极突破来了！英伟达等机构推出超强多模态模型DAM，仅3B参数，就能精准描述图像和视频中的任何细节。

有了AI，谁还愿意用手配「字幕」？

刚刚，英伟达联手UC伯克利、UCSF团队祭出首个神级多模态模型——Describe Anything Model（DAM），仅3B参数。

论文地址：https://arxiv.org/pdf/2504.16072

正如其名Describe Anything，上传一张图，圈哪点哪，它即可生成一段丰富的文字描述。

即便是一段视频，DAM也能精准捕捉到白色SUV，给出详细的描述。

DAM是一个专为详细局部标注（DLC）而设计的模型，即为特定区域生成详细且精确的描述。

通过两大创新，研究人员在细节与上下文之间找到平衡：

· 焦点提示：对目标区域进行高分辨率编码，就像给模型配备了一副「放大镜」，清晰捕捉到局部区域细微特征

· 局部视觉骨干网络：将精确定位的特定区域，与上下文无缝整合

换句话说，DAM不仅能放大细节看，还能放眼全局看，无论是静态图，还是动态视频，都能做到游刃有余。

网友惊叹道，「终极视觉AI突破」！

AI用「放大镜」看世界

在项目主页中，英伟达等研究团队放出了更多精彩demo。任何人通过点、框、涂鸦或掩码的交互，即可一键生成描述。