【新智元导读】视觉AI终极突破来了!英伟达等机构推出超强多模态模型DAM,仅3B参数,就能精准描述图像和视频中的任何细节。
有了AI,谁还愿意用手配「字幕」?
刚刚,英伟达联手UC伯克利、UCSF团队祭出首个神级多模态模型——Describe Anything Model(DAM),仅3B参数。
论文地址:https://arxiv.org/pdf/2504.16072
正如其名Describe Anything,上传一张图,圈哪点哪,它即可生成一段丰富的文字描述。
即便是一段视频,DAM也能精准捕捉到白色SUV,给出详细的描述。
DAM是一个专为详细局部标注(DLC)而设计的模型,即为特定区域生成详细且精确的描述。
通过两大创新,研究人员在细节与上下文之间找到平衡:
· 焦点提示:对目标区域进行高分辨率编码,就像给模型配备了一副「放大镜」,清晰捕捉到局部区域细微特征
· 局部视觉骨干网络:将精确定位的特定区域,与上下文无缝整合
换句话说,DAM不仅能放大细节看,还能放眼全局看,无论是静态图,还是动态视频,都能做到游刃有余。
网友惊叹道,「终极视觉AI突破」!
AI用「放大镜」看世界
在项目主页中,英伟达等研究团队放出了更多精彩demo。任何人通过点、框、涂鸦或掩码的交互,即可一键生成描述。
页码:下一页