当前位置：首页 > 元宇宙 > AI

DeepSeek R1 Preview 模型亮相，代码能力与 OpenAI o1 相当且确认开源

来源：责编：时间：2025-01-21 12:16:57 262观看

导读 DeepSeek 版 o1，有消息了。还未正式发布，已在代码基准测试 LiveCodeBench 霸榜前三，表现与 OpenAI o1 的中档推理设置相当。注意了，这不是在 DeepSeek 官方 App 已经能试玩的 DeepSeek-R1-Lite-Preview（轻量预览版

DeepSeek 版 o1，有消息了。

还未正式发布，已在代码基准测试 LiveCodeBench 霸榜前三，表现与 OpenAI o1 的中档推理设置相当。

注意了，这不是在 DeepSeek 官方 App 已经能试玩的 DeepSeek-R1-Lite-Preview（轻量预览版）。

而是摘掉了轻量版的帽子，称为 DeepSeek-R1-Preview（预览版），意味着替换了规模更大的基础模型。

LiveCodeBench 团队透露，他们正在与 DeepSeek 合作评估新模型的能力，在合作过程中，DeepSeek 团队还帮他们找出并解决了评分系统的一些 bug。

与此同时，他们还晒出了目前仅有的一张 DeepSeek-R1-Preview 的思考过程。

鉴于 DeepSeek 此前已宣布 R1 模型将开源，有网友表示，与 OpenAI o1 编程能力相当的开源模型即将发布，2025 年的编程就只剩下按 Tab 键了。

DeepSeek 推理大模型满血版

两个月前，DeepSeek 在官网上线 DeepSeek-R1-Lite-Preview 时曾透露：

DeepSeek-R1-Lite-Preview 使用强化学习训练，推理含大量反思和验证，遵循新的 Scaling Laws——推理越长，表现越强。

在 AIME 测试基准中，随着推理长度的增加，DeepSeek-R1-Lite-Preview 表现出稳定的得分提升。

DeepSeek-R1-Lite 推理的特点在网友们的后续测试中也得到了验证：

在某些情况下，模型似乎能够在生成推理步骤时自我纠正，表现出类似原生“自我反思”的能力。不过，没有训练数据、模型架构和技术报告 / 论文的细节，很难确认这一点。

期待未来的开源模型和 API！

摘掉 Lite 的帽子，变成 DeepSeek-R1-Preview，意味着换了更大的基础模型。

之前 Lite 版就在难度较高数学和代码任务上超越 o1-preview，大幅领先 GPT-4o。

这次在 LiveCodeBench 上，这次的 DeepSeek-R1-Preview 的表现又与 OpenAI o1-Medium 相当，网友们更加期待开源模型和 API 了。

LiveCodeBench 由 UC 伯克利、MIT 和康奈尔大学团队推出，旨在对大模型的代码能力进行全面且无污染的评估。

具体避免测试数据泄露的方法，是随着时间的推移不断从人类的编程竞赛平台收集新的题目。

除了代码生成，还会评估模型在代码自修复、执行和测试输出预测等方面的能力。这样实时更新、确保公平性和可靠性的测试方法，获得了开发者社区的认可。

还有程序猿喊话 Cursor 直接把 R1-Preview 集成到 Agent mode 里：

One More Thing

赶在春节前，许多还在做训练的国产大模型团队，都把自家模型更新了一遍。OpenAI 似乎要趁这边放假开始搞事情了（狗头），阿尔特曼发帖透露：

o3-mini 完成外部合作测试，已确定最终版，将在几周内推出，会同时上线 API 和 ChatGPT。

在后续对话中，阿尔特曼还确认了未来模型更多基本情况：

o3-mini 的速度会非常快

o3-mini 大多数情况下不如 o1-pro

o3 pro 收费从 $200 / 月起步

OpenAI 正在关注如何让 AI 一次性输出更多内容

2025 年计划把 GPT 系列和 o 系列合并

本文来自微信公众号：量子位（ID：QbitAI），作者：梦晨、西风，原标题《DeepSeek 新模型霸榜，代码能力与 OpenAI o1 相当且确认开源，网友：今年编程只剩 Tab 键》

本文链接：http://www.28at.com/showinfo-45-9490-0.htmlDeepSeek R1 Preview 模型亮相，代码能力与 OpenAI o1 相当且确认开源

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：特斯拉人形机器人背后有“人”？远程操控真相待解

下一篇：我国将建立基于大数据和 AI 支持的教育评价和科学决策制度，建立全国学生心理健康监测预警系统

标签：

热门焦点

虚拟人再升级，企业可以解放双手了？

来源：伯虎财经今天想跟大家来唠唠AI，其实聊到这个话题很多人都不陌生了。在ChatGPT和AIGC大热背后，还有一位低调的“大佬”——虚拟人。比如咱们熟知的虚
拯救XR，苹果力不从心

来源 | 光子星球撰文 | 文烨豪编辑 | 吴先之苹果终于呈上了它的“答卷”。北京时间6月6日凌晨，苹果2023年全球开发者大会（WWDC）如期举行。作为苹果CEO库克口中&ld
中文在线的“元宇宙”故事，资本听腻了？

被誉为“元宇宙”龙头之一的中文在线，这下尴尬了。2022年1月11日，中国移动通信联合会元宇宙产业委员会揭牌，接纳涉足“元宇宙”的8家上市公司，包括中青宝、天下秀
有人狂赚千倍，资金盘游戏日进上亿，元宇宙泡沫还能吹多久？

你还不知道元宇宙？没关系。看看微软、Meta、英伟达的雄心壮志，便可领略元宇宙的辽阔。1月18日，微软宣布将以687亿美元收购动视暴雪，这是有史以来互联网领域最大的
Terra链上TVL跃升至第二

据DefiLlama数据显示，当前,Terra链上应用锁仓的加密资产价值（TVL）为172.1亿美元，在公链板块中已跃升至第二，超越了币安智能链TVL的118亿美元，TVL排名居首的仍为以太
传统互联网与区块链场景下数据权利法律分析

数据权益的复杂性在于数据涉及多环节多主体、内容不同质且与不同场景紧密联系、对软硬件技术环节紧密相关等方面的复杂性。在传统互联网与区块链模式下，数据处
Interface正大光明的“跑路”，社区成员赞格局大

今日凌晨，一个广泛受社区期待的潜力蓝筹项目Interfaces突然发文宣布项目停止运营，后续也不会有铸造NFT系列的活动。这对社区来说就是一重磅炸弹，大多数人完全不明
Meta 在衰落吗？

扎克伯格已经很久没有出现在公众视野里了，近日，他罕见的接受播客采访，在两个小时的时间里畅谈了Meta、Facebook、Instagram、元宇宙的未来。正方观点：是的阿伦·达
GameFi 深度解析，元宇宙内容雏形显现

GameFi=Game（游戏）+Defi（去中心化金融），核心特点为“Play to Earn”。通过技术与去中心化价值观赋能，GameFi 游戏资产化身为NFT 和代币上链，具备了可验证性和流通性；开

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

DeepSeek R1 Preview 模型亮相，代码能力与 OpenAI o1 相当且确认开源

虚拟人再升级，企业可以解放双手了？

拯救XR，苹果力不从心

中文在线的“元宇宙”故事，资本听腻了？

有人狂赚千倍，资金盘游戏日进上亿，元宇宙泡沫还能吹多久？

Terra链上TVL跃升至第二

传统互联网与区块链场景下数据权利法律分析

Interface正大光明的“跑路”，社区成员赞格局大

Meta 在衰落吗？

GameFi 深度解析，元宇宙内容雏形显现

最新推荐

元宇宙里掀起回忆杀？这波虚拟怀旧营销主打一个极限反差

本周NFT领域重要资讯回顾

NFT教育要从娃娃抓起！这些青少年艺术家已经赚取了几千万美金

NFT行业的三大区块链之一引起了Snoop Dogg的强烈兴趣，究竟有何潜力？

韩国流行音乐巨头SM与Binance达成NFT合作伙伴关系

元宇宙+剧本杀：“在异世界里当演员”

猜你喜欢

热门推荐

相关资讯