当前位置:首页 > 元宇宙 > AI

清华大学研发 LLM4VG 基准:用于评估 LLM 视频时序定位性能

来源: 责编: 时间:2024-01-03 09:09:34 475观看
导读 12 月 29 日消息,大语言模型(LLM)的触角已经从单纯的自然语言处理,扩展到文本、音频、视频等多模态领域,而其中一项关键就是视频时序定位(Video Grounding,VG)。VG 任务的目的基于给定查询(一句描述),然后在目标视频段中

12 月 29 日消息,大语言模型(LLM)的触角已经从单纯的自然语言处理,扩展到文本、音频、视频等多模态领域,而其中一项关键就是视频时序定位(Video Grounding,VG)。DRs28资讯网——每日最新资讯28at.com

DRs28资讯网——每日最新资讯28at.com

VG 任务的目的基于给定查询(一句描述),然后在目标视频段中定位起始和结束时间,核心挑战在于时间边界定位的精度。DRs28资讯网——每日最新资讯28at.com

清华大学研究团队近日推出了“LLM4VG”基准,这是一个专门设计用于评估 LLM 在 VG 任务中的性能。DRs28资讯网——每日最新资讯28at.com

此基准考虑了两种主要策略:第一种涉及直接在文本视频数据集(VidLLM)上训练的视频 LLM,第二种是结合传统的 LLM 与预训练的视觉模型。DRs28资讯网——每日最新资讯28at.com

DRs28资讯网——每日最新资讯28at.com

在第一种策略中,VidLLM 直接处理视频内容和 VG 任务指令,根据其对文本-视频的训练输出预测。DRs28资讯网——每日最新资讯28at.com

第二种策略更为复杂,涉及 LLM 和视觉描述模型。这些模型生成与 VG 任务指令集成的视频内容的文本描述,通过精心设计的提示。DRs28资讯网——每日最新资讯28at.com

这些提示经过专门设计,可以有效地将 VG 的指令与给定的视觉描述结合起来,从而让 LLM 能够处理和理解有关任务的视频内容。DRs28资讯网——每日最新资讯28at.com

据观察,VidLLM 尽管直接在视频内容上进行训练,但在实现令人满意的 VG 性能方面仍然存在很大差距。这一发现强调了在训练中纳入更多与时间相关的视频任务以提高性能的必要性。DRs28资讯网——每日最新资讯28at.com

DRs28资讯网——每日最新资讯28at.com

而第二种策略优于 VidLLM,为未来的研究指明了一个有希望的方向。该策略主要限制于视觉模型的局限性和提示词的设计,因此能够生成详细且准确的视频描述后,更精细的图形模型可以大幅提高 LLM 的 VG 性能。DRs28资讯网——每日最新资讯28at.com

DRs28资讯网——每日最新资讯28at.com

总之,该研究对 LLM 在 VG 任务中的应用进行了开创性的评估,强调了在模型训练和提示设计中需要更复杂的方法。DRs28资讯网——每日最新资讯28at.com

附上论文参考地址:https://arxiv.org/pdf/2312.14206.pdfDRs28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-3110-0.html清华大学研发 LLM4VG 基准:用于评估 LLM 视频时序定位性能

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 广汽埃安2023年销量大放异彩,累计突破48万辆大关

下一篇: 教 AI 入侵 AI,科学家研发 Masterkey 新方式

标签:
  • 热门焦点
  • 茅台的元宇宙App火了,也被骂惨了

    元宇宙从概念走向大众生活,并不是一件简单的事情。技术、世界观、填充内容、载体形式,每一个环节都需要层层叠叠的逻辑。但正如赛博朋克奠基人威廉·吉布
  • 2022开年最热投资赛道竟是虚拟人,背后隐藏了什么商业价值?

    在刚刚结束不久的2021年江苏卫视跨年演唱会上,虚拟邓丽君与歌手周深同台联唱,实现了跨时代合作,而这还不只是“邓丽君”,哔哩哔哩、东方卫视等多家跨年晚会都出现
  • Web3 去中心化身份管理系统的历史、现状与展望

    身份、数字资产和在线资料的映射最近在区块链行业获得了极大的关注。新技术正在形成架构,这将进一步为去中心化和以用户为中心的机制铺平道路。本文将讨论以下
  • 「国产良心」NFT嘲讽了谁?

    2月23日,一个名为「国产良心」的NFT项目被许多活跃的加密用户注意到。该项目的官网风格尤为「不正经」,它丝毫没有避讳自己的小作坊出身,还将「中国人不骗中国人
  • 知识产权可能在元宇宙中“消失”?

    开篇老雅痞先来划重点:一些公司开始采取积极的方式来保护他们在元宇宙的知识产权。耐克、爱马仕和米拉麦克斯最近提起诉讼,声称NFT侵犯了他们的知识产权。Inside
  • 艺术创作者能否永久收取版税?

    NFTs正在改变我们理解互联网所有权的方式,社区管理的所有权有很多好处,但如果创作者想为他/她的创作获得永久的收益(版税),会发生什么?这不是一个容易解决的问题,版税
  • 元宇宙需要的5个重要安全功能

    元宇宙的可能用途使其成为一个令人难以置信的概念,但是,就像科技界的任何事物一样,需要做一些事情来控制其使用。元宇宙的安全功能需要仔细考虑和开发,以保护用户
  • 这场虚拟发布会,当面“造假”!

    英伟达去年4月份那场发布会,你曾看出什么不对劲的地方吗?你品,你细品——在计算机图形学顶会SIGGRAPH 2021上,英伟达通过一部纪录片自曝:那场发布会内藏玄机~你看到
  • 全球十大元宇宙概念游戏

    A股市场中,不少游戏公司早早搭上了元宇宙概念。举例,中青宝宣称将发布一款元宇宙概念的模拟经营类游戏,尽管游戏尚在研发中,这一消息已经让中青宝的股价在51个交易
Top