当前位置:首页 > 元宇宙 > AI

清华大学研发 LLM4VG 基准:用于评估 LLM 视频时序定位性能

来源: 责编: 时间:2024-01-03 09:09:34 463观看
导读 12 月 29 日消息,大语言模型(LLM)的触角已经从单纯的自然语言处理,扩展到文本、音频、视频等多模态领域,而其中一项关键就是视频时序定位(Video Grounding,VG)。VG 任务的目的基于给定查询(一句描述),然后在目标视频段中

12 月 29 日消息,大语言模型(LLM)的触角已经从单纯的自然语言处理,扩展到文本、音频、视频等多模态领域,而其中一项关键就是视频时序定位(Video Grounding,VG)。yRV28资讯网——每日最新资讯28at.com

yRV28资讯网——每日最新资讯28at.com

VG 任务的目的基于给定查询(一句描述),然后在目标视频段中定位起始和结束时间,核心挑战在于时间边界定位的精度。yRV28资讯网——每日最新资讯28at.com

清华大学研究团队近日推出了“LLM4VG”基准,这是一个专门设计用于评估 LLM 在 VG 任务中的性能。yRV28资讯网——每日最新资讯28at.com

此基准考虑了两种主要策略:第一种涉及直接在文本视频数据集(VidLLM)上训练的视频 LLM,第二种是结合传统的 LLM 与预训练的视觉模型。yRV28资讯网——每日最新资讯28at.com

yRV28资讯网——每日最新资讯28at.com

在第一种策略中,VidLLM 直接处理视频内容和 VG 任务指令,根据其对文本-视频的训练输出预测。yRV28资讯网——每日最新资讯28at.com

第二种策略更为复杂,涉及 LLM 和视觉描述模型。这些模型生成与 VG 任务指令集成的视频内容的文本描述,通过精心设计的提示。yRV28资讯网——每日最新资讯28at.com

这些提示经过专门设计,可以有效地将 VG 的指令与给定的视觉描述结合起来,从而让 LLM 能够处理和理解有关任务的视频内容。yRV28资讯网——每日最新资讯28at.com

据观察,VidLLM 尽管直接在视频内容上进行训练,但在实现令人满意的 VG 性能方面仍然存在很大差距。这一发现强调了在训练中纳入更多与时间相关的视频任务以提高性能的必要性。yRV28资讯网——每日最新资讯28at.com

yRV28资讯网——每日最新资讯28at.com

而第二种策略优于 VidLLM,为未来的研究指明了一个有希望的方向。该策略主要限制于视觉模型的局限性和提示词的设计,因此能够生成详细且准确的视频描述后,更精细的图形模型可以大幅提高 LLM 的 VG 性能。yRV28资讯网——每日最新资讯28at.com

yRV28资讯网——每日最新资讯28at.com

总之,该研究对 LLM 在 VG 任务中的应用进行了开创性的评估,强调了在模型训练和提示设计中需要更复杂的方法。yRV28资讯网——每日最新资讯28at.com

附上论文参考地址:https://arxiv.org/pdf/2312.14206.pdfyRV28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-3110-0.html清华大学研发 LLM4VG 基准:用于评估 LLM 视频时序定位性能

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 广汽埃安2023年销量大放异彩,累计突破48万辆大关

下一篇: 教 AI 入侵 AI,科学家研发 Masterkey 新方式

标签:
  • 热门焦点
  • 雷克萨斯高管,“受贿”5000万?

    来源:毒舌科技作者:潘磊雷克萨斯的高管,好像出事了。五六家日本小媒体,突然曝出了一个与中国市场有关的大新闻——雷克萨斯中国区一个高管受贿10亿日元(约合人民币5000
  • 《蜘蛛侠》火了,超级英雄就该这么演

    燃次元(ID:chaintruth)原创作者 | 陶 淘编辑 | 曹 拿下豆瓣8.8分、IMDB 9.1的高分,6月2日在全球同步上映的《蜘蛛侠:纵横宇宙》(以下简称《蜘蛛侠》),上映不足一周,便在国内“
  • 花房集团上市,走向元宇宙新征程

    文 | 港股研究社作者 | 熊生12月12日,花房集团在港交所成功上市,首日便受到追捧,当日最高涨幅达28.75%。继360、360数科、鲁大师后,这是“红衣教主”周
  • 好莱坞:一股新的电影制作加密浪潮将颠覆这个行业

    在Moviecoin.com平台上,有一部电影设定了一个前所未有的目标,即通过预售NFT获得100%的全额融资,这部电影就是马克·奥康纳(Mark O’connor)执导的《Oui Cannes》,
  • 从4个方面解析2022年加密行业趋势

    作者:去月球基础设施瓶颈仍然存在尽管2021年公链基础设施之间的竞争显著升温,但关键瓶颈仍需解决。例如,以太坊作为DApp开发的顶级公链,仍然遭受网络拥塞和高额交
  • 如何在元宇宙中建立品牌忠诚度

    Snoop Dogg、耐克、苏富比和普华永道都有什么共同点?他们都投资于元宇宙的房地产。除了我们在屏幕上看到的二维世界--手机、笔记本电脑、台式机或iPad--他们决
  • Staking 收益翻倍?

    以太坊质押可能很快就会有两倍的利润。Coinbase 估计,在 1 月份以太坊网络合并后,持有 ETH 的回报将翻倍。增长预期假设来自加密货币交易所 Coinbase 的估计是准
  • 虚拟偶像行业的商用价值逐渐凸显,IP生态圈也逐渐成型

    六月的第一个周六,一场虚拟偶像七海Nana7mi的个人3D演唱会在万代南梦宫上海文化中心举行,相较于洛天依、百大UP主泠鸢yousa等,这位虚拟Up主在B站上的粉丝数43.6万
  • 浅聊DAO图景和未来

    DAO是什么?DAO (Decentralized Autonomous Organizations),去中心化自治组织,是基于区块链技术,由社区通过透明的决策过程运行和管理的组织形态。DAO使得社区成为
Top