当前位置:首页 > 元宇宙 > AI

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

来源: 责编: 时间:2025-08-08 11:38:39 200观看
导读 8 月 6 日消息,小红书 hi lab 研发并开源的首个多模态大模型 dots.vlm1 今日正式发布,借助一个从零训练的 12 亿参数视觉编码器以及基于 DeepSeek V3 LLM 构建。小红书 hi lab 表示,dots.vlm1 在大部分多模态评

8 月 6 日消息,小红书 hi lab 研发并开源的首个多模态大模型 dots.vlm1 今日正式发布,借助一个从零训练的 12 亿参数视觉编码器以及基于 DeepSeek V3 LLM 构建。0c928资讯网——每日最新资讯28at.com

小红书 hi lab 表示,dots.vlm1 在大部分多模态评测集上接近闭源 SoTA 模型的水平,并在文本能力和主流文本模型相当。0c928资讯网——每日最新资讯28at.com

NaViT 视觉编码器:没有基于成熟视觉编码器进行微调,完全从零开始训练,原生支持动态分辨率。同时在文本监督上增加纯视觉监督,提升感知能力上限。此外,训练数据上在传统的 Image Caption 数据上还引入大量结构化图片进行原生训练,提升 VLM 模型的感知能力(例如各类 OCR 能力)。0c928资讯网——每日最新资讯28at.com

多模态训练数据:在传统思路上,额外引入多种合成数据思路,覆盖多样的图片类型(例如表格 / Chart / 文档 / Graphics 等)及其描述(例如 Alt Text / Dense Caption / Grounding 等);同时,利用多模态大模型来重写图文交错网页数据,显著提升训练数据质量;0c928资讯网——每日最新资讯28at.com

通过大规模预训练与精细化后训练调优,dots.vlm1 在视觉感知与推理方面达到了接近 SOTA 的表现,为开源视觉语言模型树立了新的性能上限,同时在纯文本任务中仍保持一定竞争力。0c928资讯网——每日最新资讯28at.com

0c928资讯网——每日最新资讯28at.com

在主要的视觉评测集上,dots.vlm1 的整体表现已接近当前领先模型 Gemini 2.5 Pro 与 Seed-VL1.5 thinking,尤其在 MMMU / MathVision / OCR Reasoning 等多个基准测试中取得了相当竞争力的结果,显示出较强的图文理解与推理能力。0c928资讯网——每日最新资讯28at.com

在典型的文本推理任务(如 AIME、GPQA、LiveCodeBench)上,dots.vlm1 的表现大致相当于 DeepSeek-R1-0528,在数学和代码能力上已具备一定的通用性,但在 GPQA 等更多样的推理任务上仍存在差距。0c928资讯网——每日最新资讯28at.com

总体来看,dots.vlm1 在视觉多模态能力方面已接近 SOTA 水平,在文本推理方面达到了主流模型的性能。然而,在部分细分任务上仍与最优结果存在一定距离,需要在架构设计与训练数据上进一步优化。0c928资讯网——每日最新资讯28at.com

复杂图表推理样例:0c928资讯网——每日最新资讯28at.com

0c928资讯网——每日最新资讯28at.com

0c928资讯网——每日最新资讯28at.com

0c928资讯网——每日最新资讯28at.com

0c928资讯网——每日最新资讯28at.com

STEM 解题样例:0c928资讯网——每日最新资讯28at.com

0c928资讯网——每日最新资讯28at.com

0c928资讯网——每日最新资讯28at.com

0c928资讯网——每日最新资讯28at.com

0c928资讯网——每日最新资讯28at.com

0c928资讯网——每日最新资讯28at.com

长尾识别解题样例:0c928资讯网——每日最新资讯28at.com

0c928资讯网——每日最新资讯28at.com

0c928资讯网——每日最新资讯28at.com

0c928资讯网——每日最新资讯28at.com

0c928资讯网——每日最新资讯28at.com

0c928资讯网——每日最新资讯28at.com

视觉推理样例:0c928资讯网——每日最新资讯28at.com

0c928资讯网——每日最新资讯28at.com

0c928资讯网——每日最新资讯28at.com

0c928资讯网——每日最新资讯28at.com

0c928资讯网——每日最新资讯28at.com

附 dots.vlm1 开源地址:0c928资讯网——每日最新资讯28at.com

https://github.com/rednote-hilab/dots.vlm10c928资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-25984-0.html小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 摩尔线程:MUSA 成功适配 llama.cpp,直通全球 AI 生态圈

下一篇: 谷歌为全美大学生送福利:未来三年投入 10 亿美元提供 AI 培训及订阅服务

标签:
  • 热门焦点
  • 元宇宙终究没火过两年

    来源:传播体操在ChatGPT快速破圈的同时,元宇宙的热度却一泻千里。虽然互联网大厂们都没有否认元宇宙的长期想象力,但在行动上却都纷纷表示了对元宇宙短期前景的悲观。号称改变
  • 数字人的AB面:在元宇宙中过气,在AIGC中重生

    来源:光锥智能作者:郝 鑫“29800元一年的虚拟主播,号称24小时不停播,月入十几万,实际上却是关键词都不能回复,播了半个月,直播间还因违规被快手封禁,最终投诉无门、退款无果。&
  • 拯救XR,苹果力不从心

    来源 | 光子星球撰文 | 文烨豪 编辑 | 吴先之 苹果终于呈上了它的“答卷”。 北京时间6月6日凌晨,苹果2023年全球开发者大会(WWDC)如期举行。作为苹果CEO库克口中&ld
  • 林俊杰、余文乐等明星相继入局,元宇宙虚拟土地究竟有何魔力?

    上周的元宇宙和明星圈因为一则“林俊杰在推特上宣布持有Decentraland元宇宙虚拟地块”的新闻而备受关注,该新闻一方面在娱乐圈引起了吃瓜群众的好奇,另一方面在
  • 游戏玩家才是最“元宇宙”的

    01元宇宙的概念,最早由科幻作家尼尔·斯蒂芬森于1992年在其著作《雪崩》中提出。它指的是一个脱胎于现实世界,又与现实世界平行、相互影响,并且始终在线的虚拟世
  • 元宇宙时代NFT的价值衡量

    有人认为NFT的高昂价格只是炒作的产物,并不具有其对等的价值,但其实NFT并不是空中楼阁,只是区块链数字分类账中的一种形式。诚然,目前的NFT仍处于灰色地带,相关的法
  • 银保监会:打击以“元宇宙”为名义的违法行为

    今日,银保监会发布《关于防范以“元宇宙”名义进行非法集资的风险提示》,全文如下:近期,一些不法分子蹭热点,以“元宇宙投资项目”“元宇宙链游”等名目吸收资金,涉
  • 好莱坞:一股新的电影制作加密浪潮将颠覆这个行业

    在Moviecoin.com平台上,有一部电影设定了一个前所未有的目标,即通过预售NFT获得100%的全额融资,这部电影就是马克·奥康纳(Mark O’connor)执导的《Oui Cannes》,
  • 元宇宙是数字共识生态的集成逻辑表达

    作者: 李鸣元宇宙是数字共识生态的集成逻辑表达,是以区块链技术为核心的可信数字化价值交互网络,是基于Web3.0技术体系和运作机制支撑下的数字新生态。本体论是
Top