当前位置:首页 > 元宇宙 > AI

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

来源: 责编: 时间:2025-08-08 11:38:39 158观看
导读 8 月 6 日消息,小红书 hi lab 研发并开源的首个多模态大模型 dots.vlm1 今日正式发布,借助一个从零训练的 12 亿参数视觉编码器以及基于 DeepSeek V3 LLM 构建。小红书 hi lab 表示,dots.vlm1 在大部分多模态评

8 月 6 日消息,小红书 hi lab 研发并开源的首个多模态大模型 dots.vlm1 今日正式发布,借助一个从零训练的 12 亿参数视觉编码器以及基于 DeepSeek V3 LLM 构建。FsB28资讯网——每日最新资讯28at.com

小红书 hi lab 表示,dots.vlm1 在大部分多模态评测集上接近闭源 SoTA 模型的水平,并在文本能力和主流文本模型相当。FsB28资讯网——每日最新资讯28at.com

NaViT 视觉编码器:没有基于成熟视觉编码器进行微调,完全从零开始训练,原生支持动态分辨率。同时在文本监督上增加纯视觉监督,提升感知能力上限。此外,训练数据上在传统的 Image Caption 数据上还引入大量结构化图片进行原生训练,提升 VLM 模型的感知能力(例如各类 OCR 能力)。FsB28资讯网——每日最新资讯28at.com

多模态训练数据:在传统思路上,额外引入多种合成数据思路,覆盖多样的图片类型(例如表格 / Chart / 文档 / Graphics 等)及其描述(例如 Alt Text / Dense Caption / Grounding 等);同时,利用多模态大模型来重写图文交错网页数据,显著提升训练数据质量;FsB28资讯网——每日最新资讯28at.com

通过大规模预训练与精细化后训练调优,dots.vlm1 在视觉感知与推理方面达到了接近 SOTA 的表现,为开源视觉语言模型树立了新的性能上限,同时在纯文本任务中仍保持一定竞争力。FsB28资讯网——每日最新资讯28at.com

FsB28资讯网——每日最新资讯28at.com

在主要的视觉评测集上,dots.vlm1 的整体表现已接近当前领先模型 Gemini 2.5 Pro 与 Seed-VL1.5 thinking,尤其在 MMMU / MathVision / OCR Reasoning 等多个基准测试中取得了相当竞争力的结果,显示出较强的图文理解与推理能力。FsB28资讯网——每日最新资讯28at.com

在典型的文本推理任务(如 AIME、GPQA、LiveCodeBench)上,dots.vlm1 的表现大致相当于 DeepSeek-R1-0528,在数学和代码能力上已具备一定的通用性,但在 GPQA 等更多样的推理任务上仍存在差距。FsB28资讯网——每日最新资讯28at.com

总体来看,dots.vlm1 在视觉多模态能力方面已接近 SOTA 水平,在文本推理方面达到了主流模型的性能。然而,在部分细分任务上仍与最优结果存在一定距离,需要在架构设计与训练数据上进一步优化。FsB28资讯网——每日最新资讯28at.com

复杂图表推理样例:FsB28资讯网——每日最新资讯28at.com

FsB28资讯网——每日最新资讯28at.com

FsB28资讯网——每日最新资讯28at.com

FsB28资讯网——每日最新资讯28at.com

FsB28资讯网——每日最新资讯28at.com

STEM 解题样例:FsB28资讯网——每日最新资讯28at.com

FsB28资讯网——每日最新资讯28at.com

FsB28资讯网——每日最新资讯28at.com

FsB28资讯网——每日最新资讯28at.com

FsB28资讯网——每日最新资讯28at.com

FsB28资讯网——每日最新资讯28at.com

长尾识别解题样例:FsB28资讯网——每日最新资讯28at.com

FsB28资讯网——每日最新资讯28at.com

FsB28资讯网——每日最新资讯28at.com

FsB28资讯网——每日最新资讯28at.com

FsB28资讯网——每日最新资讯28at.com

FsB28资讯网——每日最新资讯28at.com

视觉推理样例:FsB28资讯网——每日最新资讯28at.com

FsB28资讯网——每日最新资讯28at.com

FsB28资讯网——每日最新资讯28at.com

FsB28资讯网——每日最新资讯28at.com

FsB28资讯网——每日最新资讯28at.com

附 dots.vlm1 开源地址:FsB28资讯网——每日最新资讯28at.com

https://github.com/rednote-hilab/dots.vlm1FsB28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-25984-0.html小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 摩尔线程:MUSA 成功适配 llama.cpp,直通全球 AI 生态圈

下一篇: 谷歌为全美大学生送福利:未来三年投入 10 亿美元提供 AI 培训及订阅服务

标签:
  • 热门焦点
  • 拯救XR,苹果力不从心

    来源 | 光子星球撰文 | 文烨豪 编辑 | 吴先之 苹果终于呈上了它的“答卷”。 北京时间6月6日凌晨,苹果2023年全球开发者大会(WWDC)如期举行。作为苹果CEO库克口中&ld
  • 在元宇宙卖酸奶,这波联动燃爆了!

    来源:品牌头版 或许,每个人心中都住着一个小馋孩。可能是童年时百吃不厌,觉得新奇又有趣的跳跳糖;可能是味道香甜,咬下一口嘎嘣脆的扁桃仁;还有可能,是某种不知为什么,就是很爱吃的
  • 从科幻走进现实,元宇宙概念逐渐清晰

    2021年,元宇宙概念如同一颗炸弹投进互联网行业,掀起了一场数字海啸,众多企业纷纷入局,在此新领域展开新探索。那么,加速狂奔的元宇宙究竟是什么?概念翻红,元宇宙走进资本圈2021年3
  • 【量子位】虚拟数字人深度产业报告 | 元宇宙Meta洞见

    虚拟数字人行业未来的主要驱动力包括:用户代际变化,新一代消费者对内容消费和虚拟世界更为渴求;虚拟数字人相关技术门槛相对降低,成本有所回落;资本热度上升,受Metav
  • “元宇宙第一股”Roblox缘何被资本市场看“低”?

    近期,冬奥会的召开受到广泛关注,而吉祥物冰墩墩也成为新晋“顶流”,“一墩难求”成为普遍心声,为了满足大众需求,nWayPlay平台曾在2月12日发售了一款由国际奥委会官
  • Meta公布AI概念“Builder Bot”;银保监发布元宇宙相关风险提示

    概述自从Meta在2月初公布财报后,其负责元宇宙的核心部门Reality Labs表现不佳,净亏损超100亿美元,随后股价断崖式下跌。如今,Meta开始继续发力元宇宙,想要挽回颓势,
  • NFT:新骗局的狩猎场

    骗局的自动化需要更好的防御,从数字身份开始。前几天我在OpenSea上购买了一个NFT,是才华横溢的艺术家海伦·福尔摩斯 (Helen Holmes) 的漫画,来自她的 "原作 "收
  • 参加元宇宙里的招聘会是什么样一种体验?

    求职者可以在活动中走动,就像他们在现实生活中一样。长话短说看亮点:招聘公司Hirect为Y-combinator支持的初创公司举办了一场元宇宙招聘会。这里有一个大厅、一
  • 知识产权可能在元宇宙中“消失”?

    开篇老雅痞先来划重点:一些公司开始采取积极的方式来保护他们在元宇宙的知识产权。耐克、爱马仕和米拉麦克斯最近提起诉讼,声称NFT侵犯了他们的知识产权。Inside
Top