当前位置:首页 > 元宇宙 > AI

英伟达推 DAM-3B 模型:突破局部描述难题,让 AI 看懂图像 视频每一个角落

来源: 责编: 时间:2025-04-26 10:25:57 205观看
导读 4 月 24 日消息,科技媒体 marktechpost 昨日(4 月 23 日)发布博文,报道称英伟达为应对图像和视频中特定区域的详细描述难题,最新推出了 Describe Anything 3B(DAM-3B)AI 模型。视觉-语言模型(VLMs)在生成整体图像描述

4 月 24 日消息,科技媒体 marktechpost 昨日(4 月 23 日)发布博文,报道称英伟达为应对图像和视频中特定区域的详细描述难题,最新推出了 Describe Anything 3B(DAM-3B)AI 模型。jle28资讯网——每日最新资讯28at.com

视觉-语言模型(VLMs)在生成整体图像描述时表现出色,但对特定区域的细致描述往往力不从心,尤其在视频中需考虑时间动态,挑战更大。jle28资讯网——每日最新资讯28at.com

英伟达推出的 Describe Anything 3B(DAM-3B)直面这一难题,支持用户通过点、边界框、涂鸦或掩码指定目标区域,生成精准且贴合上下文的描述文本。DAM-3B 和 DAM-3B-Video 分别适用于静态图像和动态视频,模型已在 Hugging Face 平台公开。jle28资讯网——每日最新资讯28at.com

独特架构与高效设计jle28资讯网——每日最新资讯28at.com

DAM-3B 的核心创新在于“焦点提示”和“局部视觉骨干网络”。jle28资讯网——每日最新资讯28at.com

jle28资讯网——每日最新资讯28at.com

焦点提示技术融合了全图信息与目标区域的高分辨率裁剪,确保细节不失真,同时保留整体背景。jle28资讯网——每日最新资讯28at.com

局部视觉骨干网络则通过嵌入图像和掩码输入,运用门控交叉注意力机制,将全局与局部特征巧妙融合,再传输至大语言模型生成描述。jle28资讯网——每日最新资讯28at.com

DAM-3B-Video 进一步扩展至视频领域,通过逐帧编码区域掩码并整合时间信息,即便面对遮挡或运动也能生成准确描述。jle28资讯网——每日最新资讯28at.com

数据与评估双管齐下jle28资讯网——每日最新资讯28at.com

为解决训练数据匮乏问题,NVIDIA 开发了 DLC-SDP 半监督数据生成策略,利用分割数据集和未标注的网络图像,构建了包含 150 万局部描述样本的训练语料库。jle28资讯网——每日最新资讯28at.com

jle28资讯网——每日最新资讯28at.com

通过自训练方法优化描述质量,确保输出文本的高精准度,团队同时推出 DLC-Bench 评估基准,以属性级正确性而非僵硬的参考文本对比衡量描述质量。jle28资讯网——每日最新资讯28at.com

jle28资讯网——每日最新资讯28at.com

DAM-3B 在包括 LVIS、Flickr30k Entities 等七项基准测试中领先,平均准确率达 67.3%,超越 GPT-4o 和 VideoRefer 等模型。jle28资讯网——每日最新资讯28at.com

DAM-3B 不仅填补了局部描述领域的技术空白,其上下文感知架构和高质量数据策略还为无障碍工具、机器人技术及视频内容分析等领域开辟了新可能。jle28资讯网——每日最新资讯28at.com

附上参考地址jle28资讯网——每日最新资讯28at.com

Describe Anything: Detailed Localized Image and Video Captioningjle28资讯网——每日最新资讯28at.com

Hugging Facejle28资讯网——每日最新资讯28at.com

项目页面jle28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12581-0.html英伟达推 DAM-3B 模型:突破局部描述难题,让 AI 看懂图像 视频每一个角落

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 50 → 100 条:OpenAI 放宽限制,Plus 等用户每周可用 o3 AI 模型消息数翻倍

下一篇: “AI 教父”等发布联名公开信: OpenAI 重组背离初衷,呼吁监管介入

标签:
  • 热门焦点
  • AI界地震!美国对OpenAI展开调查!监管风暴来袭!

    来源:清元宇宙还记得5月OpenAI在国会山听证会上的自信、坦诚、游刃有余的问答吗?那时的Sam Altman可谓意气风发,在耐心、友好的国会议员面前,就AI立法、大模型安全性问题侃侃而
  • 在元宇宙卖酸奶,这波联动燃爆了!

    来源:品牌头版 或许,每个人心中都住着一个小馋孩。可能是童年时百吃不厌,觉得新奇又有趣的跳跳糖;可能是味道香甜,咬下一口嘎嘣脆的扁桃仁;还有可能,是某种不知为什么,就是很爱吃的
  • 元宇宙步入暗夜

    撰文 | 文烨豪元宇宙的故事,似乎讲不通了。 当下,刮起元宇宙热潮的Roblox股价已跌去大半,带头大哥Meta也正因元宇宙亏损深陷泥潭。 再看国内,从字节“派对岛&
  • 挖来Meta AR高管,难道苹果也要进军元宇宙?

    “被曝光”的才是最吸引人的产品,相信有关注过苹果硬件消息的朋友们都明白这样的道理。往近了说有苹果“即将发布”的iPhone SE 3和M2芯片,往远了说有“折叠屏iP
  • 保时捷推出虚拟超跑,车企元宇宙营销这么香?

    保时捷又出超跑了,不过这次不是在现实世界,而是在虚拟世界。这款Vision Gran Turismo概念车,由保时捷和日本视频游戏开发工作室Polyphony Digital联合打造,将于202
  • 冰墩墩还能火多久?

    作者:田巧云题图源自北京2022年冬奥会官方微博如果要问2022年的开年明星是谁,冰墩墩当仁不让。几乎所有人都被那个抖雪的动作实力圈粉。在社交媒体的助推,以及日
  • Meta公布AI概念“Builder Bot”;银保监发布元宇宙相关风险提示

    概述自从Meta在2月初公布财报后,其负责元宇宙的核心部门Reality Labs表现不佳,净亏损超100亿美元,随后股价断崖式下跌。如今,Meta开始继续发力元宇宙,想要挽回颓势,
  • HTC Vive推出元宇宙平台Viverse;腾讯投资小米生态链AR眼镜厂商

    今日热点:HTC Vive正式推出元宇宙平台Viverse;腾讯投资小米生态链AR眼镜厂商北京蜂巢科技;面部追踪和眼动追踪是Quest下一版本的“重点”;索尼PSVR 2将推迟至2023
  • 虚拟邓丽君后,数字人赛道开启3.0时代

    “如果右脑时代来临,虚拟世界将是对人类才华的无限放大。” 郭晓喆称,开发数字人形象时,自己的团队在内部“卷”了一下:“当我们翻阅大量历史典籍的时候,苏小妹找到
Top