当前位置:首页 > 元宇宙 > AI

Meta 推 WebSSL 模型:探索 AI 无语言视觉学习,纯图训练媲美 OpenAI CLIP

来源: 责编: 时间:2025-04-28 07:34:04 217观看
导读 4 月 25 日消息,科技媒体 marktechpost 昨日(4 月 24 日)发布博文,报道称 Meta 公司发布 WebSSL 系列模型,参数规模从 3 亿到 70 亿,基于纯图像数据训练,旨在探索无语言监督的视觉自监督学习(SSL)的潜力。以 OpenAI 的

4 月 25 日消息,科技媒体 marktechpost 昨日(4 月 24 日)发布博文,报道称 Meta 公司发布 WebSSL 系列模型,参数规模从 3 亿到 70 亿,基于纯图像数据训练,旨在探索无语言监督的视觉自监督学习(SSL)的潜力。Dka28资讯网——每日最新资讯28at.com

以 OpenAI 的 CLIP 为代表,对比语言-图像模型已成为学习视觉表征的默认选择,在视觉问答(VQA)和文档理解等多模态任务中表现突出。不过受到数据集获取的复杂性和数据规模的限制,语言依赖面临诸多挑战。Dka28资讯网——每日最新资讯28at.com

Meta 公司针对上述痛点,在在 Hugging Face 平台上发布了 WebSSL 系列模型,涵盖 DINO 和 Vision Transformer(ViT)架构,参数规模从 3 亿到 70 亿不等。Dka28资讯网——每日最新资讯28at.com

Dka28资讯网——每日最新资讯28at.com

这些模型仅使用 MetaCLIP 数据集(MC-2B)中的 20 亿张图像子集进行训练,排除了语言监督的影响。Meta 的目标并非取代 CLIP,而是通过控制变量,深入评估在不受数据和模型规模限制下,纯视觉自监督学习(SSL)的表现潜力。Dka28资讯网——每日最新资讯28at.com

WebSSL 模型采用两种视觉自监督学习范式:联合嵌入学习(DINOv2)和掩码建模(MAE)。训练统一使用 224×224 分辨率图像,并冻结视觉编码器以确保结果差异仅源于预训练策略。Dka28资讯网——每日最新资讯28at.com

模型在五个容量层级(ViT-1B 至 ViT-7B)上训练,评估基于 Cambrian-1 基准测试,覆盖通用视觉理解、知识推理、OCR 和图表解读等 16 个 VQA 任务。此外,模型无缝集成于 Hugging Face 的 transformers 库,便于研究和应用。Dka28资讯网——每日最新资讯28at.com

实验揭示了多项关键发现:随着参数规模增加,WebSSL 模型在 VQA 任务上的表现接近对数线性提升,而 CLIP 在超过 30 亿参数后性能趋于饱和。Dka28资讯网——每日最新资讯28at.com

WebSSL 在 OCR 和图表任务中表现尤为突出,尤其在数据筛选后,仅用 1.3% 的富文本图像训练即超越 CLIP,在 OCRBench 和 ChartQA 任务中提升高达 13.6%。Dka28资讯网——每日最新资讯28at.com

Dka28资讯网——每日最新资讯28at.com

此外,高分辨率(518px)微调进一步缩小了与 SigLIP 等高分辨率模型的差距,在文档任务中表现尤为出色。Dka28资讯网——每日最新资讯28at.com

WebSSL 模型在无语言监督下仍展现出与预训练语言模型(如 LLaMA-3)的良好对齐性,表明大规模视觉模型能隐式学习与文本语义相关的特征。Dka28资讯网——每日最新资讯28at.com

同时,WebSSL 在传统基准测试(如 ImageNet-1k 分类、ADE20K 分割)上保持强劲表现,部分场景甚至优于 MetaCLIP 和 DINOv2。Dka28资讯网——每日最新资讯28at.com

附上参考地址Dka28资讯网——每日最新资讯28at.com

Scaling Language-Free Visual Representation LearningDka28资讯网——每日最新资讯28at.com

Hugging FaceDka28资讯网——每日最新资讯28at.com

GitHubDka28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12655-0.htmlMeta 推 WebSSL 模型:探索 AI 无语言视觉学习,纯图训练媲美 OpenAI CLIP

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: AI 会有意识吗?Anthropic 启动新项目,探索寻求答案

下一篇: 黑洞超辐射:颠覆认知的量子奇观,开启宇宙探索新视角!

标签:
  • 热门焦点
  • VR/AR迷失元宇宙“硝烟”

    不温不火的VR/AR可穿戴设备因元宇宙崛起火了一阵,又随着元宇宙回归平静。1月份,微软在 Surface 设备、HoloLens 混合现实硬件和 Xbox 等部门裁员,其中负责混合现实硬件(MR)的Holo
  • 亚马逊AIGC全家桶来袭,巨头AI大乱战都有什么杀手锏

    此前,亚马逊云科技发布多款AIGC产品,其中包括AI大模型服务Amazon Bedrock、人工智能计算实例Amazon EC2 Trn1n和Amazon EC2 Inf2、自研“泰坦”(Titan)AI大模型、软件
  • 字节跳动,刚刚投了一位虚拟女生

    今年第一笔虚拟人融资出炉了。投资界获悉,杭州李未可科技有限公司显示发生股东变更,新增字节跳动关联公司北京量子跃动科技有限公司。今天公司方面正式确认,本轮
  • “元宇宙”里过大年,《迷你世界》在做一场怎样的实验?

    2021年是游戏行业不确定性急剧上升的一年。一方面游戏正风光无限,腾讯等大厂更加密集地投资动作,让游戏创投市场异常火热,"元宇宙"概念的大放异彩,更是吸引了Netfl
  • 8个最适合艺术家发行NFT的交易市场

    近年来,加密风靡全球。加密圈最令人兴奋的方面之一是它能够用于创建称为NFT 的数字资产。从 CyberKitties 到 Cyber Galleries,NFT 已成为艺术家和艺术鉴赏家的
  • 韩国国民银行将推出韩国首个加密货币 ETF

    韩国国民银行(Kookmin Bank)计划发行该国首个以散户投资者为主要关注点的加密货币投资基金。根据公告,该银行正在等待政府批准,并已建立一个准备就绪的数字资产
  • NFT自动售货机来啦!

    “纽约市有一台售卖 Solana NFT 的自动售货机,用信用卡就能买”Solana NFT 市场 Neon 可让您使用信用卡亲自购买 NFT,无需使用加密货币。由于基于 Solana 链的 N
  • 在元宇宙开会是什么样一种体验

    空间就是一切还记得面对面的会议吗?就在不久前,与会者需要飞到遥远的目的地,并进行鼓舞人心的对话、网络、免费食物,甚至可能会有一两个很好的小组讨论。随之而来
  • 在互联网考古后,我被豆瓣上这座元宇宙古城征服了

    最近一段时间,豆瓣可谓命途多舛:APP屡次下架,平台也被相关部门约谈、处罚,国家网信办甚至派人入驻豆瓣以督促整改。有爆料称豆瓣将陆续关闭“小组”功能:这个曾经小
Top