当前位置:首页 > 元宇宙 > AI

谷歌 DeepMind 发布 WebLI-100B:千亿级数据集解锁 AI 视觉语言模型的文化多样性

来源: 责编: 时间:2025-02-16 08:41:35 162观看
导读 2 月 14 日消息,科技媒体 marktechpost 昨日(2 月 13 日)发布博文,报道称谷歌 DeepMind 团队发布了 WebLI-100B 千亿级数据集,并通过增强文化多样性和多语言性,以及减少子组之间的性能差异来提高包容性。目前挑战注

2 月 14 日消息,科技媒体 marktechpost 昨日(2 月 13 日)发布博文,报道称谷歌 DeepMind 团队发布了 WebLI-100B 千亿级数据集,并通过增强文化多样性和多语言性,以及减少子组之间的性能差异来提高包容性。vzM28资讯网——每日最新资讯28at.com

目前挑战

注:机器通过学习大型数据集来连接图像和文本,数据越多,模型识别模式和提高准确性的能力就越强。视觉语言模型 (VLMs) 依赖这些数据集执行图像字幕和视觉问答等任务。vzM28资讯网——每日最新资讯28at.com

视觉语言模型目前依赖于 Conceptual Captions 和 LAION 等大型数据集,包含数百万到数十亿的图像-文本对。这些数据集支持零样本分类和图像字幕生成,但其发展已放缓至约 100 亿对。vzM28资讯网——每日最新资讯28at.com

这种限制降低了进一步提高模型精度、包容性和多语言理解的前景,现有方法基于网络爬取的数据,存在样本质量低、语言偏差和多元文化代表性不足等问题。vzM28资讯网——每日最新资讯28at.com

WebLI-100B 千亿级数据集

Google DeepMind 的研究人员为了缓解视觉语言模型在文化多样性和多语言性方面的局限性,提出了 WebLI-100B 数据集,该数据集包含 1000 亿个图像-文本对,比之前的数据集大十倍。vzM28资讯网——每日最新资讯28at.com

该数据集捕获了罕见的文化概念,并提高了模型在低资源语言和多样化表示等较少探索领域的性能。与先前的数据集不同,WebLI-100B 不是依赖严格的过滤(通常会删除重要的文化细节),而是专注于扩展数据。vzM28资讯网——每日最新资讯28at.com

该框架涉及在 WebLI-100B 数据集的不同子集(1B、10B 和 100B)上预训练模型,以分析数据缩放的影响。vzM28资讯网——每日最新资讯28at.com

在完整数据集上训练的模型在文化和多语言任务中的表现优于在较小数据集上训练的模型,即使使用相同的计算资源。该数据集没有进行激进的过滤,而是保留了语言和文化元素的广泛代表性,使其更具包容性。vzM28资讯网——每日最新资讯28at.com

研究结果表明,将数据集大小从 10B 增加到 100B 对以西方为中心的基准测试的影响很小,但在文化多样性任务和低资源语言检索方面带来了改进。vzM28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-10809-0.html谷歌 DeepMind 发布 WebLI-100B:千亿级数据集解锁 AI 视觉语言模型的文化多样性

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 两轮电动车行业首个,九号将深度融合 DeepSeek 大模型

下一篇: 英国政府同 Anthropic 深化合作:Claude 有望增强该国公共服务能力

标签:
  • 热门焦点
  • 元宇宙终究没火过两年

    来源:传播体操在ChatGPT快速破圈的同时,元宇宙的热度却一泻千里。虽然互联网大厂们都没有否认元宇宙的长期想象力,但在行动上却都纷纷表示了对元宇宙短期前景的悲观。号称改变
  • AI界地震!美国对OpenAI展开调查!监管风暴来袭!

    来源:清元宇宙还记得5月OpenAI在国会山听证会上的自信、坦诚、游刃有余的问答吗?那时的Sam Altman可谓意气风发,在耐心、友好的国会议员面前,就AI立法、大模型安全性问题侃侃而
  • 《从营销AIGC化到AIGC营销化》报告发布

    来源:清元宇宙7月2日上午,清华大学元宇宙文化实验室举办元宇宙在线沙龙“AIGC热潮与应用”。会议中,清华大学新闻与传播学院教授、元宇宙文化实验室主任、新媒体研究
  • 元宇宙步入暗夜

    撰文 | 文烨豪元宇宙的故事,似乎讲不通了。 当下,刮起元宇宙热潮的Roblox股价已跌去大半,带头大哥Meta也正因元宇宙亏损深陷泥潭。 再看国内,从字节“派对岛&
  • 江西将探索成立元宇宙联盟,韩国将加强对NFT和元宇宙的监管

    《元宇宙新鲜事》有:江西将探索成立元宇宙联盟,支持南昌规划建设元宇宙试验区;韩国金融监督局将加强对NFT和元宇宙的监管;任天堂社长表示暂时不打算加入元宇宙。【
  • 虚拟数字人:元宇宙的主角破圈而来

    虚拟数字人市场逐步进入成熟期,商业化进程加速。1982年世界第一位虚拟歌姬林明美诞生,虚拟数字人行业经历了萌芽、探索、初级和成长四个阶段。随技术逐年突破,制
  • Web 3如何改变传统HR

    互联网自诞生以来,经历了三次迭代。Web1是第一阶段,包括ISP服务器上的个人网页或免费的虚拟主机服务。然后Web2出现了,它引入了动态的用户生成内容、互操作性、增
  • 想进入web3.0?来看看哪些工作适合你

    随着对加密货币需求的增加,加密领域的工作的数量也在增加。以下是一些非技术性加密货币工作简介。加密货币在主流市场获得的可信度提升。导致区块链领域的求职
  • 3月份值得关注的5个NFT项目

    2021年,我们见证了一个新的创造者经济的诞生。它是在区块链上诞生的。自从NFT成为流行文化的中心舞台以来,有些艺术家们已经成为了NFT的超级明星,在几个月的时间
Top