当前位置：首页 > 科技 > 网络

DeepSeek昨天开源的新模型有点邪门

来源：责编：时间：2025-10-22 13:25:10 153观看

导读 DeepSeek 又整出新东西来了，只用到原本十分之一 token，就能存下几乎一样的文字信息，这压缩比，香农看了都要流泪，冯·诺伊曼看了都要沉默。更是直接把一堆老外给钓成了翘嘴。昨天，DeepSeek 发布了新模型 Dee

DeepSeek 又整出新东西来了，只用到原本十分之一 token，就能存下几乎一样的文字信息，这压缩比，香农看了都要流泪，冯·诺伊曼看了都要沉默。

更是直接把一堆老外给钓成了翘嘴。

昨天，DeepSeek 发布了新模型 DeepSeek-OCR，OCR 这东西咱们都熟悉，就是把图片里的文字给识别出来。

DeepSeek昨天开源的新模型有点邪门

经常用微信的差友应该知道，微信客户端里的图片，被咱们点开后，是可以直接复制文字的。

没错，这就是一种 OCR 技术的应用。

DeepSeek昨天开源的新模型有点邪门

但是 DeepSeek 这次的「技能 OCR」则是刚好相反，它可以把大量文字变成一张图片，作为 AI 的“记忆载体”。

是的，用文字来存储信息，已经不够满足它了。

过去的大模型，不管是什么 ChatGPT、Gemini、Llama、Qwen、还是 DeepSeek 过去的自己，在读取数据的用的都是一种方式：文字，也就是平时常说的 token。

DeepSeek昨天开源的新模型有点邪门

我们写的 Prompt，会被转换成一大堆的 token 给大模型，我们提供的参考资料，会被转换成一大堆的 token 给大模型，就算是能识别图像的多模态的大模型，也是要先把图片转换成了一段文字描述，来交给大模型来做辨认才行。

但文字 token 真的就是大模型理解世界的唯一方式么？

DeepSeek 决定试一试新的路子，毕竟，如果咱们把一张图片和一段文字放在一起，前者明显可以包含下更多的信息。

比如这个描述，就不够全面

DeepSeek昨天开源的新模型有点邪门

既然如此，那我们能不能直接用图片来训练大模型？

于是 DeepSeek 就开始整，结果发现这个用图片训练出来的模型，既中看，又中用。

一方面，它可以用更少的 token，来记住更多的内容。

在测试文档理解能力的任务里，DeepSeek-OCR 只用了 100 个视觉 token， 就超过了需要 256 个 token 的 GOT-OCR 2.0。

再放狠点，它用 不到 800 个视觉 token，就吊打了平均要 6000+ token 的 MinerU 2.0。

DeepSeek昨天开源的新模型有点邪门

这就意味着、当我们让大模型开始使用图像的这种方式来记住数据了之后，模型就有能力用更少的token资源，来取得更好的表达效果。

另外，DeepSeek-OCR 还支持多种分辨率和压缩模式，来适应不同复杂度的文档：

比如说一张只有图片背景和标题文案的 PPT，可能只需要 64 个视觉token 就足够表示了。

如果这页的文字内容比较多，那就会自动切换到 Large 模式，用上多 400 个视觉token 来记录。

如果觉得还不够的话，DeepSeek-OCR 还能支持动态调整的 Gundam 模式来记忆图片，主打一个应记就记，分清轻重缓急的记。

DeepSeek昨天开源的新模型有点邪门

而且比起过去只能识别文字的传统模型来说，DeepSeek-OCR 能记住的数据还会更多。

论文里的一张柱状体，DeepSeek-OCR 能够自动把它给识别成 Excel 格式给保存下来。

DeepSeek昨天开源的新模型有点邪门

文章里出现的有机化合物的分子结构图片，也能自动转化为标准的 SMILES（简化分子线性输入规范）格式存储。

DeepSeek昨天开源的新模型有点邪门

不但能记住图片本身，DeepSeek-OCR 还会同时记住这张图片的位置，记住图片附近的文字在写些什么东西。。。

过去很多看不到的二维信息，都会被 DeepSeek-OCR 给再次捕获。

这玩意的价值有多大，可能大家一下都还没意识到。

这两年做大模型，除了显卡不够之外的大问题，就是没有训练的数据了。

常规的数据集之前都用过了，想要再搞点高质量的数据集，要么偷偷去网上爬，要么花大价钱去买，再要么就是想办法自己合成。

DeepSeek昨天开源的新模型有点邪门

但现在，很多过去没采集到的数据，就可以在二维信息里被采集到了。

就比如说很多论文文件，过去，大模型只能学到里面的文字信息，但是里面的各种图表，插图那都是两眼一摸黑。

但用上了 DeepSeek-OCR 之后，就可以把之前缺的这部分给无痛补上了。

DeepSeek昨天开源的新模型有点邪门

实际上 DeepSeek 也是这么想的，在论文里还特意提了一嘴，说这个新模型在一张 A100 上，一天可以给大模型采集出 20 万页以上的训练数据。

所以说，在有了 DeepSeek-OCR 之后，过去的所有数据都值得用它来再识别一遍。

毫无疑问，这些数据，又会成为下一个大模型的养料。

另一方面，用二维的方式来存储数据后，整个模型运行起来也变得更省资源了。

咱都知道，我们在用大模型的时候，聊天聊的越久、上下文越长，这个模型就越容易出 bug。

这是因为大模型在运行的时候，要处理每一个单词，和其他所有单词的关系。

你把对话的长度增加一倍，整个模型的计算量就增加了四倍，增加了两倍，那整个模型的计算量就变成了原本的九倍。

这也是为啥现在大模型厂商都在给你限制上下文长度的原因之一，你要是在一个对话里聊的太嗨了的话，成本要直接卷上天去了。

DeepSeek昨天开源的新模型有点邪门

而在用上了图像记忆之后，DeepSeek 可以把 token 的数量，压缩到原本的十分之一。。。

同时，还不会让性能有太大的损失。

在论文里可以看到，初出茅庐的 DeepSeek-OCR，就能用原本 1/10 的token 数量，达到原模型 96.5%的准确率。

即使哥们再狠点，给它压缩个20倍，模型的准确率，也还能保持个六成左右。。。

DeepSeek昨天开源的新模型有点邪门

同时，DeepSeek 的研究人员还发现了一件好玩的事情。

他们会感觉大模型通过不同的清晰度来存储图像的方式，其实和我们人类遗忘信息的方式很像。

DeepSeek昨天开源的新模型有点邪门

对我们人类来说，遗忘是一个循序渐进的过程。

刚发生的事情，就有点像是 DeepSeek 用 Gundam 模式存下来的数据，清晰。

而随着时间的推移，这件事的重要性也会逐渐降低，存储它的格式也会从大的 Gundam 一路降级，从 Large 一路降到小的 Tiny，占用的 token 数量也会越来越少。

DeepSeek昨天开源的新模型有点邪门

把这个概念引入到大模型里的话，咱们就可以把近的聊天记录，用“4K HDR蓝光” 的格式来存储，而那些早年不太重要的聊天记录，则是给压缩成 480P 的文件保存。

通过这种主动遗忘的方式，是否能让大模型的上下文能力变得更强呢？

这个想法很有意思，只不过目前就连 DeepSeek 自己也没能给出一个明确的答案。

DeepSeek昨天开源的新模型有点邪门

不过好在 DeepSeek-OCR 还是和过去一样开源的，相信这个问题，要不了多久就会变成热门，整出不少新东西来。

后，提到开源，我还注意到另外一件事。。。

这次研究不但是 DeepSeek 自己的成果，也是开源社区集体的胜利

比如训练数据里，用到了华为的 Wukong 数据集，在生成样本文字时，借助了百度的 PaddleOCR，而在图像特征提取部分，核心组件竟然是 Meta 开源的 SAM，在视觉语义理解层面，还整合了 OpenAI 的 CLIP 模型。

DeepSeek昨天开源的新模型有点邪门

正是这些来自全球的开源成果，被 DeepSeek 重新编织成了一个能“用图片思考”的 AI。

所以，R2 什么时候会来呢。

文章出处：差评

本文链接：http://www.28at.com/showinfo-17-184425-0.htmlDeepSeek昨天开源的新模型有点邪门

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： OpenAI也缺卡！僧多粥少自曝内部抢卡抢到发疯

下一篇：又菜又爱玩的荷兰人在安世半导体上翻车了

标签：

热门焦点

卢伟冰长文解析K60至尊版对Redmi有着里程碑式的意义

在今天的Redmi后性能时代战略发布会结束之后，Redmi总经理卢伟冰又带来了一篇长文，详解了为什么 Redmi 要开启后性能时代？为什么选择和 MediaTek、Pixelworks 深度合作？以及后性
一加首款折叠屏！一加Open渲染图出炉：罕见单手可握小尺寸

8月5日消息，此前就有爆料称，一加首款折叠屏手机将会在第三季度上市，如今随着时间临近，新机的各种消息也开始浮出水面。据悉，这款新机将会被命名为“On
JavaScript 混淆及反混淆代码工具

介绍在我们开始学习反混淆之前，我们首先要了解一下代码混淆。如果不了解代码是如何混淆的，我们可能无法成功对代码进行反混淆，尤其是使用自定义混淆器对其进行混淆时。什么是混
K6：面向开发人员的现代负载测试工具

K6 是一个开源负载测试工具，可以轻松编写、运行和分析性能测试。它建立在 Go 和 JavaScript 之上，它被设计为功能强大、可扩展且易于使用。k6 可用于测试各种应用程序，包括 Web
从 Pulsar Client 的原理到它的监控面板

背景前段时间业务团队偶尔会碰到一些 Pulsar 使用的问题，比如消息阻塞不消费了、生产者消息发送缓慢等各种问题。虽然我们有个监控页面可以根据 topic 维度查看他的发送状态，
华为和江淮汽车合作开发百万元问界MPV？双方回应来了

8月1日消息，郭明錤今天在社交平台发文称，华为正在和江淮汽车合作，开发售价在100万元的问界MPV，预计在2024年第2季度量产，销量目标为上市首年交付5万辆。
首发天玑9200+ iQOO Neo8系列发布首销售价2299元起

2023年5月23日晚，iQOO Neo8系列正式发布。其中，Neo系列首款Pro之作——iQOO Neo8 Pro强悍登场，限时售价3099元起；价位段最强性能手机iQOO Neo8同期上市
引领旗舰级影像能力向中端机普及 OPPO K11 系列发布 1799 元起

7月25日，OPPO正式发布K系列新品—— OPPO K11 。此次 K11 在中端手机市场长期被忽视的影像板块发力，突破性地搭载索尼 IMX890 旗舰大底主摄，支持 OIS
滴滴违法违规被罚80.26亿共存在16项违法事实

滴滴违法违规被罚80.26亿存在16项违法事实开始于2121年7月，历经一年时间，网络安全审查办公室对“滴滴出行”网络安全审查终于有了一个暂时的结束。据“网信

DeepSeek昨天开源的新模型有点邪门

卢伟冰长文解析K60至尊版对Redmi有着里程碑式的意义

一加首款折叠屏！一加Open渲染图出炉：罕见单手可握小尺寸

JavaScript 混淆及反混淆代码工具

K6：面向开发人员的现代负载测试工具

从 Pulsar Client 的原理到它的监控面板

华为和江淮汽车合作开发百万元问界MPV？双方回应来了

首发天玑9200+ iQOO Neo8系列发布首销售价2299元起

引领旗舰级影像能力向中端机普及 OPPO K11 系列发布 1799 元起

滴滴违法违规被罚80.26亿共存在16项违法事实

最新推荐

猜你喜欢

热门推荐

相关资讯

DeepSeek昨天开源的新模型 有点邪门

最新推荐

猜你喜欢

热门推荐

相关资讯

DeepSeek昨天开源的新模型有点邪门