当前位置:首页 > 元宇宙 > AI

清华大学研发 LLM4VG 基准:用于评估 LLM 视频时序定位性能

来源: 责编: 时间:2024-01-03 09:09:34 461观看
导读 12 月 29 日消息,大语言模型(LLM)的触角已经从单纯的自然语言处理,扩展到文本、音频、视频等多模态领域,而其中一项关键就是视频时序定位(Video Grounding,VG)。VG 任务的目的基于给定查询(一句描述),然后在目标视频段中

12 月 29 日消息,大语言模型(LLM)的触角已经从单纯的自然语言处理,扩展到文本、音频、视频等多模态领域,而其中一项关键就是视频时序定位(Video Grounding,VG)。JRX28资讯网——每日最新资讯28at.com

JRX28资讯网——每日最新资讯28at.com

VG 任务的目的基于给定查询(一句描述),然后在目标视频段中定位起始和结束时间,核心挑战在于时间边界定位的精度。JRX28资讯网——每日最新资讯28at.com

清华大学研究团队近日推出了“LLM4VG”基准,这是一个专门设计用于评估 LLM 在 VG 任务中的性能。JRX28资讯网——每日最新资讯28at.com

此基准考虑了两种主要策略:第一种涉及直接在文本视频数据集(VidLLM)上训练的视频 LLM,第二种是结合传统的 LLM 与预训练的视觉模型。JRX28资讯网——每日最新资讯28at.com

JRX28资讯网——每日最新资讯28at.com

在第一种策略中,VidLLM 直接处理视频内容和 VG 任务指令,根据其对文本-视频的训练输出预测。JRX28资讯网——每日最新资讯28at.com

第二种策略更为复杂,涉及 LLM 和视觉描述模型。这些模型生成与 VG 任务指令集成的视频内容的文本描述,通过精心设计的提示。JRX28资讯网——每日最新资讯28at.com

这些提示经过专门设计,可以有效地将 VG 的指令与给定的视觉描述结合起来,从而让 LLM 能够处理和理解有关任务的视频内容。JRX28资讯网——每日最新资讯28at.com

据观察,VidLLM 尽管直接在视频内容上进行训练,但在实现令人满意的 VG 性能方面仍然存在很大差距。这一发现强调了在训练中纳入更多与时间相关的视频任务以提高性能的必要性。JRX28资讯网——每日最新资讯28at.com

JRX28资讯网——每日最新资讯28at.com

而第二种策略优于 VidLLM,为未来的研究指明了一个有希望的方向。该策略主要限制于视觉模型的局限性和提示词的设计,因此能够生成详细且准确的视频描述后,更精细的图形模型可以大幅提高 LLM 的 VG 性能。JRX28资讯网——每日最新资讯28at.com

JRX28资讯网——每日最新资讯28at.com

总之,该研究对 LLM 在 VG 任务中的应用进行了开创性的评估,强调了在模型训练和提示设计中需要更复杂的方法。JRX28资讯网——每日最新资讯28at.com

附上论文参考地址:https://arxiv.org/pdf/2312.14206.pdfJRX28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-3110-0.html清华大学研发 LLM4VG 基准:用于评估 LLM 视频时序定位性能

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 广汽埃安2023年销量大放异彩,累计突破48万辆大关

下一篇: 教 AI 入侵 AI,科学家研发 Masterkey 新方式

标签:
  • 热门焦点
  • B端难做:留给魔珐科技的时间不多了

    来源:零态LT元宇宙泡沫正在碎裂,进入2023年后这一赛道热度一直在递减。今年2月,微软解散了成立仅四个月的工业元宇宙部门;今年3月,该公司2017年收购的虚拟现实社交平台AltspaceVR
  • AI大模型“战火”烧到了教育领域

    作者:刘旷自2023年开年以来,AI大模型这股风是越吹越猛烈了。随着ChatGPT的出圈爆火,再度掀起了一波AI热浪,无论是在国内还是国外都有不少企业宣布入局或者跟进AI大模型领域。与
  • 拯救XR,苹果力不从心

    来源 | 光子星球撰文 | 文烨豪 编辑 | 吴先之 苹果终于呈上了它的“答卷”。 北京时间6月6日凌晨,苹果2023年全球开发者大会(WWDC)如期举行。作为苹果CEO库克口中&ld
  • 这场虚拟人争夺战,互联网巨头下场先赢一半?

    撰文/ 孟会缘 近两年间,要论引得无数互联网巨头竞折腰的一大热门产业,莫过于元宇宙领域中的数字人了。 作为继数字藏品之后,开发元宇宙的又一重点落地项目,互联网
  • “元宇宙”里过大年,《迷你世界》在做一场怎样的实验?

    2021年是游戏行业不确定性急剧上升的一年。一方面游戏正风光无限,腾讯等大厂更加密集地投资动作,让游戏创投市场异常火热,"元宇宙"概念的大放异彩,更是吸引了Netfl
  • 如何对一款 NFT 项目进行价值评估?

    原文作者 | Othmane Senhaji Rhazi,Web 3 企业家.编译整理 | 黑米@白泽研究院我之所以成为一位大力倡导 Web3 和 NFT 领域的企业家,因为我相信我们正在见证社会
  • 超级碗的加密时刻:是主流信号还是“网络超级碗2.0”?

    2 月 13 日,美东时间 18:30,有着“美国春晚”之誉的超级碗(Super Bowl)落下帷幕。超级碗是美国国家美式足球联盟(也称为国家橄榄球联盟)的年度冠军赛,胜者将成为“世
  • 智能人机交互技术的春晚大考

    1月初的一个早晨,京东智能客户服务产品部紧急开会,进行关于尚未对外公布的“X项目”的初讨论。1月5日,这个神秘的X项目对外公布,京东成为央视2022年春晚独家互动合
  • 摩根大通:元宇宙市场预计每年收入超1万亿美元

    今日《元宇宙新鲜事》有:香港首届元宇宙艺博会将于5月举办;NH-Amundi Asset Management上市其第二支元宇宙ETF;Meta虚拟现实平台Horizon Worlds月活跃用户在三个
Top