当前位置：首页 > 元宇宙 > AI

英伟达推 DAM-3B 模型：突破局部描述难题，让 AI 看懂图像视频每一个角落

来源：责编：时间：2025-04-26 10:25:57 243观看

导读 4 月 24 日消息，科技媒体 marktechpost 昨日（4 月 23 日）发布博文，报道称英伟达为应对图像和视频中特定区域的详细描述难题，最新推出了 Describe Anything 3B（DAM-3B）AI 模型。视觉-语言模型（VLMs）在生成整体图像描述

4 月 24 日消息，科技媒体 marktechpost 昨日（4 月 23 日）发布博文，报道称英伟达为应对图像和视频中特定区域的详细描述难题，最新推出了 Describe Anything 3B（DAM-3B）AI 模型。

视觉-语言模型（VLMs）在生成整体图像描述时表现出色，但对特定区域的细致描述往往力不从心，尤其在视频中需考虑时间动态，挑战更大。

英伟达推出的 Describe Anything 3B（DAM-3B）直面这一难题，支持用户通过点、边界框、涂鸦或掩码指定目标区域，生成精准且贴合上下文的描述文本。DAM-3B 和 DAM-3B-Video 分别适用于静态图像和动态视频，模型已在 Hugging Face 平台公开。

独特架构与高效设计

DAM-3B 的核心创新在于“焦点提示”和“局部视觉骨干网络”。

焦点提示技术融合了全图信息与目标区域的高分辨率裁剪，确保细节不失真，同时保留整体背景。

局部视觉骨干网络则通过嵌入图像和掩码输入，运用门控交叉注意力机制，将全局与局部特征巧妙融合，再传输至大语言模型生成描述。

DAM-3B-Video 进一步扩展至视频领域，通过逐帧编码区域掩码并整合时间信息，即便面对遮挡或运动也能生成准确描述。

数据与评估双管齐下

为解决训练数据匮乏问题，NVIDIA 开发了 DLC-SDP 半监督数据生成策略，利用分割数据集和未标注的网络图像，构建了包含 150 万局部描述样本的训练语料库。

通过自训练方法优化描述质量，确保输出文本的高精准度，团队同时推出 DLC-Bench 评估基准，以属性级正确性而非僵硬的参考文本对比衡量描述质量。

DAM-3B 在包括 LVIS、Flickr30k Entities 等七项基准测试中领先，平均准确率达 67.3%，超越 GPT-4o 和 VideoRefer 等模型。

DAM-3B 不仅填补了局部描述领域的技术空白，其上下文感知架构和高质量数据策略还为无障碍工具、机器人技术及视频内容分析等领域开辟了新可能。

附上参考地址

Describe Anything: Detailed Localized Image and Video Captioning

Hugging Face

项目页面

本文链接：http://www.28at.com/showinfo-45-12581-0.html英伟达推 DAM-3B 模型：突破局部描述难题，让 AI 看懂图像视频每一个角落

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： 50 → 100 条：OpenAI 放宽限制，Plus 等用户每周可用 o3 AI 模型消息数翻倍

下一篇： “AI 教父”等发布联名公开信： OpenAI 重组背离初衷，呼吁监管介入

标签：

热门焦点

文心一言排名垫底，却成为百度业绩增长杠杆

文/侯煜编辑/罗卿知识增强大预言模式文心一言发布后，百度公司热度大幅提升，文心一言到底能为百度的业绩带来多大的增益成为业内关注焦点。近日，百度（NASDAQ：BIDU/09888.HK）公布了
上、中、下游加深融合，搭建元宇宙产业全景

元宇宙产业链涉及多种技术和多个领域。在上游，聚集着大量的技术厂商，提供元宇宙相关的硬件和软件支持；在中游，内容运营与分发领域也吸引着越来越多的企业以VR内容
汽车元宇宙，是概念还是未来？

作者｜何文元宇宙是未来趋势已经无需验证。从概念上来看，元宇宙是两种存在多年的概念的融合：虚拟现实和数字第二人生。这也就意味着，元宇宙所代表的是一种新的数
传腾讯已推出全新XR业务；摩托罗拉正打造5GXR颈戴式计算组件

今日热点：传腾讯已推出全新XR业务；摩托罗拉与Verizon合作打造5G XR颈戴式计算组件；小米AR购物导航专利获授权；VR一体机Simula One放弃众筹并开放直接预订；VR游戏《
2021年中国元宇宙行业用户行为分析热点报告

元宇宙网络热度高涨，中国网民对虚拟生态兴趣浓厚。艾媒咨询数据显示，超六成的网民对“元宇宙”了解程度较高，在元宇宙较基础的游戏领域，超九成的人对VR游戏更感兴
解决NFT流动性问题：一文了解Floor DAO

流动性是证券市场上的一个术语，流动性是指资产在不影响其市场价格的情况下可以转换为现成现金的效率，流动性最强的资产是现金本身。现在让我们试着从流动性的角
艺术创作者能否永久收取版税？

NFTs正在改变我们理解互联网所有权的方式，社区管理的所有权有很多好处，但如果创作者想为他/她的创作获得永久的收益（版税），会发生什么？这不是一个容易解决的问题，版税
王老吉启动元宇宙“吉空间”，HTC发布元宇宙应用VIVERSE

今日《元宇宙新鲜事》有：王老吉启动元宇宙“吉空间”；HTC发布元宇宙应用VIVERSE；Meta将在马德里构建一个元宇宙创新中心；央视网《新闻+》推出系列视频《聊聊元宇宙
又一家数字营销公司入局元宇宙，国内首个艺术元宇宙社区“Meta彼岸”上线

作者：董宇佳2月28日，智度股份在北京举办产品发布会，宣布其与国光电器联手打造的国内首个艺术元宇宙社区——“Meta彼岸”在VR端和移动端正式公测。从科技巨头布局

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

英伟达推 DAM-3B 模型：突破局部描述难题，让 AI 看懂图像视频每一个角落

文心一言排名垫底，却成为百度业绩增长杠杆

上、中、下游加深融合，搭建元宇宙产业全景

汽车元宇宙，是概念还是未来？

传腾讯已推出全新XR业务；摩托罗拉正打造5GXR颈戴式计算组件

2021年中国元宇宙行业用户行为分析热点报告

解决NFT流动性问题：一文了解Floor DAO

艺术创作者能否永久收取版税？

王老吉启动元宇宙“吉空间”，HTC发布元宇宙应用VIVERSE

又一家数字营销公司入局元宇宙，国内首个艺术元宇宙社区“Meta彼岸”上线

最新推荐

新周期，谁在坚守窄门？

B端难做：留给魔珐科技的时间不多了

【东方证券】虚拟世界照进现实，元宇宙中有什么？ | 元宇宙Meta洞见

如何对一款 NFT 项目进行价值评估？

新闻业在元宇宙的现状和未来

全球十大元宇宙概念游戏

猜你喜欢

热门推荐

相关资讯

英伟达推 DAM-3B 模型：突破局部描述难题，让 AI 看懂图像 视频每一个角落

最新推荐

猜你喜欢

热门推荐

相关资讯

英伟达推 DAM-3B 模型：突破局部描述难题，让 AI 看懂图像视频每一个角落