当前位置:首页 > 科技  > 网络

DeepSeek昨天开源的新模型 有点邪门

来源: 责编: 时间:2025-10-22 13:25:10 82观看
导读 DeepSeek 又整出新东西来了,只用到原本十分之一 token,就能存下几乎一样的文字信息,这压缩比,香农看了都要流泪,冯·诺伊曼看了都要沉默。更是直接把一堆老外给钓成了翘嘴。昨天,DeepSeek 发布了新模型 Dee

DeepSeek 又整出新东西来了,只用到原本十分之一 token,就能存下几乎一样的文字信息,这压缩比,香农看了都要流泪,冯·诺伊曼看了都要沉默。AWG28资讯网——每日最新资讯28at.com

更是直接把一堆老外给钓成了翘嘴。AWG28资讯网——每日最新资讯28at.com

DeepSeek昨天开源的新模型 有点邪门AWG28资讯网——每日最新资讯28at.com

DeepSeek昨天开源的新模型 有点邪门AWG28资讯网——每日最新资讯28at.com

DeepSeek昨天开源的新模型 有点邪门AWG28资讯网——每日最新资讯28at.com

DeepSeek昨天开源的新模型 有点邪门AWG28资讯网——每日最新资讯28at.com

昨天,DeepSeek 发布了新模型 DeepSeek-OCR,OCR 这东西咱们都熟悉,就是把图片里的文字给识别出来。AWG28资讯网——每日最新资讯28at.com

DeepSeek昨天开源的新模型 有点邪门AWG28资讯网——每日最新资讯28at.com

经常用微信的差友应该知道,微信客户端里的图片,被咱们点开后,是可以直接复制文字的。AWG28资讯网——每日最新资讯28at.com

没错,这就是一种 OCR 技术的应用。AWG28资讯网——每日最新资讯28at.com

DeepSeek昨天开源的新模型 有点邪门AWG28资讯网——每日最新资讯28at.com

但是 DeepSeek 这次的 「技能 OCR」则是刚好相反,它可以把大量文字变成一张图片,作为 AI 的“记忆载体”。AWG28资讯网——每日最新资讯28at.com

是的,用文字来存储信息,已经不够满足它了。AWG28资讯网——每日最新资讯28at.com

过去的大模型,不管是什么 ChatGPT、Gemini、Llama、Qwen、还是 DeepSeek 过去的自己,在读取数据的用的都是一种方式:文字,也就是平时常说的 token。AWG28资讯网——每日最新资讯28at.com

DeepSeek昨天开源的新模型 有点邪门AWG28资讯网——每日最新资讯28at.com

我们写的 Prompt,会被转换成一大堆的 token 给大模型,我们提供的参考资料,会被转换成一大堆的 token 给大模型,就算是能识别图像的多模态的大模型,也是要先把图片转换成了一段文字描述,来交给大模型来做辨认才行。AWG28资讯网——每日最新资讯28at.com

但文字 token 真的就是大模型理解世界的唯一方式么?AWG28资讯网——每日最新资讯28at.com

DeepSeek 决定试一试新的路子,毕竟,如果咱们把一张图片和一段文字放在一起,前者明显可以包含下更多的信息。AWG28资讯网——每日最新资讯28at.com

比如这个描述,就不够全面AWG28资讯网——每日最新资讯28at.com

DeepSeek昨天开源的新模型 有点邪门AWG28资讯网——每日最新资讯28at.com

既然如此,那我们能不能直接用图片来训练大模型?AWG28资讯网——每日最新资讯28at.com

于是 DeepSeek 就开始整,结果发现这个用图片训练出来的模型,既中看,又中用。AWG28资讯网——每日最新资讯28at.com

一方面,它可以用更少的 token,来记住更多的内容。AWG28资讯网——每日最新资讯28at.com

在测试文档理解能力的任务里,DeepSeek-OCR 只用了 100 个视觉 token, 就超过了需要 256 个 token 的 GOT-OCR 2.0。AWG28资讯网——每日最新资讯28at.com

再放狠点,它用 不到 800 个视觉 token, 就吊打了平均要 6000+ token 的 MinerU 2.0。AWG28资讯网——每日最新资讯28at.com

DeepSeek昨天开源的新模型 有点邪门AWG28资讯网——每日最新资讯28at.com

这就意味着、当我们让大模型开始使用图像的这种方式来记住数据了之后,模型就有能力用更少的token资源,来取得更好的表达效果。AWG28资讯网——每日最新资讯28at.com

另外,DeepSeek-OCR 还支持多种分辨率和压缩模式,来适应不同复杂度的文档:AWG28资讯网——每日最新资讯28at.com

比如说一张只有图片背景和标题文案的 PPT,可能只需要 64 个 视觉token 就足够表示了。AWG28资讯网——每日最新资讯28at.com

如果这页的文字内容比较多,那就会自动切换到 Large 模式,用上多 400 个 视觉token 来记录。AWG28资讯网——每日最新资讯28at.com

如果觉得还不够的话,DeepSeek-OCR 还能支持动态调整的 Gundam 模式来记忆图片,主打一个应记就记,分清轻重缓急的记。AWG28资讯网——每日最新资讯28at.com

DeepSeek昨天开源的新模型 有点邪门AWG28资讯网——每日最新资讯28at.com

而且比起过去只能识别文字的传统模型来说,DeepSeek-OCR 能记住的数据还会更多。AWG28资讯网——每日最新资讯28at.com

论文里的一张柱状体,DeepSeek-OCR 能够自动把它给识别成 Excel 格式给保存下来。AWG28资讯网——每日最新资讯28at.com

DeepSeek昨天开源的新模型 有点邪门AWG28资讯网——每日最新资讯28at.com

文章里出现的有机化合物的分子结构图片,也能自动转化为标准的 SMILES(简化分子线性输入规范)格式存储。AWG28资讯网——每日最新资讯28at.com

DeepSeek昨天开源的新模型 有点邪门AWG28资讯网——每日最新资讯28at.com

不但能记住图片本身,DeepSeek-OCR 还会同时记住这张图片的位置,记住图片附近的文字在写些什么东西。。。AWG28资讯网——每日最新资讯28at.com

过去很多看不到的二维信息,都会被 DeepSeek-OCR 给再次捕获。AWG28资讯网——每日最新资讯28at.com

这玩意的价值有多大,可能大家一下都还没意识到。AWG28资讯网——每日最新资讯28at.com

这两年做大模型,除了显卡不够之外的大问题,就是没有训练的数据了。AWG28资讯网——每日最新资讯28at.com

常规的数据集之前都用过了,想要再搞点高质量的数据集,要么偷偷去网上爬,要么花大价钱去买,再要么就是想办法自己合成。AWG28资讯网——每日最新资讯28at.com

DeepSeek昨天开源的新模型 有点邪门AWG28资讯网——每日最新资讯28at.com

但现在,很多过去没采集到的数据,就可以在二维信息里被采集到了。AWG28资讯网——每日最新资讯28at.com

就比如说很多论文文件,过去,大模型只能学到里面的文字信息,但是里面的各种图表,插图那都是两眼一摸黑。AWG28资讯网——每日最新资讯28at.com

但用上了 DeepSeek-OCR 之后,就可以把之前缺的这部分给无痛补上了。AWG28资讯网——每日最新资讯28at.com

DeepSeek昨天开源的新模型 有点邪门AWG28资讯网——每日最新资讯28at.com

实际上 DeepSeek 也是这么想的,在论文里还特意提了一嘴,说这个新模型在一张 A100 上,一天可以给大模型采集出 20 万页以上的训练数据。AWG28资讯网——每日最新资讯28at.com

所以说,在有了 DeepSeek-OCR 之后,过去的所有数据都值得用它来再识别一遍。AWG28资讯网——每日最新资讯28at.com

毫无疑问,这些数据,又会成为下一个大模型的养料。AWG28资讯网——每日最新资讯28at.com

另一方面,用二维的方式来存储数据后,整个模型运行起来也变得更省资源了。AWG28资讯网——每日最新资讯28at.com

咱都知道,我们在用大模型的时候,聊天聊的越久、上下文越长,这个模型就越容易出 bug。AWG28资讯网——每日最新资讯28at.com

这是因为大模型在运行的时候,要处理每一个单词,和其他所有单词的关系。AWG28资讯网——每日最新资讯28at.com

你把对话的长度增加一倍,整个模型的计算量就增加了四倍,增加了两倍,那整个模型的计算量就变成了原本的九倍。AWG28资讯网——每日最新资讯28at.com

这也是为啥现在大模型厂商都在给你限制上下文长度的原因之一,你要是在一个对话里聊的太嗨了的话,成本要直接卷上天去了。AWG28资讯网——每日最新资讯28at.com

DeepSeek昨天开源的新模型 有点邪门AWG28资讯网——每日最新资讯28at.com

而在用上了图像记忆之后,DeepSeek 可以把 token 的数量,压缩到原本的十分之一。。。AWG28资讯网——每日最新资讯28at.com

同时,还不会让性能有太大的损失。AWG28资讯网——每日最新资讯28at.com

在论文里可以看到,初出茅庐的 DeepSeek-OCR,就能用原本 1/10 的token 数量,达到原模型 96.5%的准确率。AWG28资讯网——每日最新资讯28at.com

即使哥们再狠点,给它压缩个20倍,模型的准确率,也还能保持个六成左右。。。AWG28资讯网——每日最新资讯28at.com

DeepSeek昨天开源的新模型 有点邪门AWG28资讯网——每日最新资讯28at.com

同时,DeepSeek 的研究人员还发现了一件好玩的事情。AWG28资讯网——每日最新资讯28at.com

他们会感觉大模型通过不同的清晰度来存储图像的方式,其实和我们人类遗忘信息的方式很像。AWG28资讯网——每日最新资讯28at.com

DeepSeek昨天开源的新模型 有点邪门AWG28资讯网——每日最新资讯28at.com

对我们人类来说,遗忘是一个循序渐进的过程。AWG28资讯网——每日最新资讯28at.com

刚发生的事情,就有点像是 DeepSeek 用 Gundam 模式存下来的数据,清晰。AWG28资讯网——每日最新资讯28at.com

而随着时间的推移,这件事的重要性也会逐渐降低,存储它的格式也会从大的 Gundam 一路降级,从 Large 一路降到小的 Tiny,占用的 token 数量也会越来越少。AWG28资讯网——每日最新资讯28at.com

DeepSeek昨天开源的新模型 有点邪门AWG28资讯网——每日最新资讯28at.com

把这个概念引入到大模型里的话,咱们就可以把近的聊天记录,用“4K HDR蓝光” 的格式来存储,而那些早年不太重要的聊天记录,则是给压缩成 480P 的文件保存。AWG28资讯网——每日最新资讯28at.com

通过这种主动遗忘的方式,是否能让大模型的上下文能力变得更强呢?AWG28资讯网——每日最新资讯28at.com

这个想法很有意思,只不过目前就连 DeepSeek 自己也没能给出一个明确的答案。AWG28资讯网——每日最新资讯28at.com

DeepSeek昨天开源的新模型 有点邪门AWG28资讯网——每日最新资讯28at.com

不过好在 DeepSeek-OCR 还是和过去一样开源的,相信这个问题,要不了多久就会变成热门,整出不少新东西来。AWG28资讯网——每日最新资讯28at.com

后,提到开源,我还注意到另外一件事。。。AWG28资讯网——每日最新资讯28at.com

这次研究不但是 DeepSeek 自己的成果,也是开源社区集体的胜利AWG28资讯网——每日最新资讯28at.com

比如训练数据里,用到了 华为的 Wukong 数据集,在生成样本文字时,借助了 百度的 PaddleOCR,而在图像特征提取部分,核心组件竟然是 Meta 开源的 SAM,在视觉语义理解层面,还整合了 OpenAI 的 CLIP 模型。AWG28资讯网——每日最新资讯28at.com

DeepSeek昨天开源的新模型 有点邪门AWG28资讯网——每日最新资讯28at.com

正是这些来自全球的开源成果,被 DeepSeek 重新编织成了一个能“用图片思考”的 AI。AWG28资讯网——每日最新资讯28at.com

所以,R2 什么时候会来呢。AWG28资讯网——每日最新资讯28at.com


文章出处:差评

本文链接:http://www.28at.com/showinfo-17-184425-0.htmlDeepSeek昨天开源的新模型 有点邪门

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: OpenAI也缺卡!僧多粥少 自曝内部抢卡抢到发疯

下一篇: 又菜又爱玩的荷兰人 在安世半导体上翻车了

标签:
  • 热门焦点
  • K60至尊版狂暴引擎2.0加持:超177万跑分斩获性能第一

    Redmi的后性能时代战略发布会今天下午如期举办,在本次发布会上,Redmi公布了多项关于和联发科的深度合作,以及新机K60 Ultra在软件和硬件方面的特性,例如:“K60 至尊版,双芯旗舰
  • 小米降噪蓝牙耳机Necklace分享:听一首歌 读懂一个故事

    在今天下午的小米Civi 2新品发布会上,小米还带来了一款新的降噪蓝牙耳机Necklace,我们也在发布结束的第一时间给大家带来这款耳机的简单分享。现在大家能见到最多的蓝牙耳机
  • 一篇聊聊Go错误封装机制

    %w 是用于错误包装(Error Wrapping)的格式化动词。它是用于 fmt.Errorf 和 fmt.Sprintf 函数中的一个特殊格式化动词,用于将一个错误(或其他可打印的值)包装在一个新的错误中。使
  • 如何使用JavaScript创建一只图像放大镜?

    译者 | 布加迪审校 | 重楼如果您曾经浏览过购物网站,可能遇到过图像放大功能。它可以让您放大图像的特定区域,以便浏览。结合这个小小的重要功能可以大大改善您网站的用户体验
  • 一篇文章带你了解 CSS 属性选择器

    属性选择器对带有指定属性的 HTML 元素设置样式。可以为拥有指定属性的 HTML 元素设置样式,而不仅限于 class 和 id 属性。一、了解属性选择器CSS属性选择器提供了一种简单而
  • 虚拟键盘 API 的妙用

    你是否在遇到过这样的问题:移动设备上有一个固定元素,当激活虚拟键盘时,该元素被隐藏在了键盘下方?多年来,这一直是 Web 上的默认行为,在本文中,我们将探讨这个问题、为什么会发生
  • 腾讯盖楼,字节拆墙

    来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之“想重温暴刷深渊、30+技能搭配暴搓到爽的游戏体验吗?一起上晶核,即刻暴打!”曾凭借直播腾讯旗下代理格斗游戏《DNF》一
  • OPPO、vivo、小米等国内厂商Q2在印度智能手机市场份额依旧高达55%

    7月20日消息,据外媒报道,研究机构的报告显示,在全球智能手机出货量同比仍在下滑的大背景下,印度这一有潜力的市场也未能幸免,出货量同比也有下滑,多家厂
  • iQOO Neo8系列今日官宣:首发天玑9200+ 全球安卓最强芯!

    在昨日举行的的联发科新一代旗舰芯片天玑9200+的发布会上,iQOO官方也正式宣布,全新的iQOO Neo8系列新品将全球首发搭载这款当前性能最强大的移动平台
Top