当前位置:首页 > 科技  > 软件

强强 PK 国产胜,讯飞星火 X1 碾压 DeepSeek

来源: 责编: 时间:2025-01-20 08:28:02 155观看
导读 推理模型竞赛又添新玩家。1 月 15 日,科大讯飞对外发布首个基于全国产平台训练的深度推理模型讯飞星火 X1,该模型凭借更少的算力,实现了业界一流的效果,多项指标国内第一,并率先应用于真实场景。目前,市面上的推理

推理模型竞赛又添新玩家。1 月 15 日,科大讯飞对外发布首个基于全国产平台训练的深度推理模型讯飞星火 X1,该模型凭借更少的算力,实现了业界一流的效果,多项指标国内第一,并率先应用于真实场景。fLc28资讯网——每日最新资讯28at.com

目前,市面上的推理模型众多,但各家的侧重点并不相同。比如 DeepSeek 着重强调其通过强化学习训练,可以对外展现更长的思维链。通义团队多次强调 QwQ 的深度自省能力,模型在思考过程中会质疑其自身假设,审视推理过程。月之暗面则更强调 k0-math 的数学能力,称其数学能力可以与 OpenAI 的 o1 系列模型媲美。fLc28资讯网——每日最新资讯28at.com

科大讯飞最新发布的推理模型 X1 多项指标实现国内第一。发布会上,科大讯飞展示了讯飞星火 X1 解答高考题、AIME 竞赛题以及高中奥赛题的表现。fLc28资讯网——每日最新资讯28at.com

X1 不仅准确给出答案,还可以对解题思路和步骤进行详细拆解,充分展现深度推理模型的三大典型特征:一、化繁为简,将复杂问题分步拆解简化;二、进行自我探索和反思验证;三、基于答案正确与否的优质反馈信息进行强化训练。fLc28资讯网——每日最新资讯28at.com

以一道 2024 年全国高中联合数学竞赛的无穷等比数列求和问题为例,分别在网页端提问讯飞星火 X1 与 DeepSeekV3、Kimi 中的最新推理模型。fLc28资讯网——每日最新资讯28at.com

fLc28资讯网——每日最新资讯28at.com

三者均展现出当下推理模型的典型特征,比如能够针对对复杂问题进行分步拆解,也会在求解过程中不断进行自我反思验证。fLc28资讯网——每日最新资讯28at.com

不过,相较于讯飞星火 X1 在解答过程中动态展示思维步骤不同,DeepSeek 对外强调的思维链条有些过长,一定程度上影响了用户与模型的交互。Kimi 则是将思考过程与模型回答融为一体,却没有给出一个总结性的解题步骤,不够直观。fLc28资讯网——每日最新资讯28at.com

在回答准确率上,我们引用包括小初高(含竞赛)、大学(含竞赛)、AIME、MATH500 等多项数学考试测试数据进行对比。其中,讯飞星火 X1 多项指标均获国内第一。在多个中文考试测试的比拼中,讯飞星火 X1 得分都超过 DS-R1-Lite-Preview、QwQ-32B-Preview、K1-math 等众多推理模型,中文数学能力国内第一。fLc28资讯网——每日最新资讯28at.com

fLc28资讯网——每日最新资讯28at.com

更难能可贵的是,这份成绩还是基于全国产算力平台得来的。和市面上常见的其他模型不同,讯飞星火 X1 是目前全国产算力平台上唯一的深度推理模型,用更少的算力,实现了业界一流效果。fLc28资讯网——每日最新资讯28at.com

这样的成绩十分难得。一直以来,讯飞星火都坚持全国产化路线,讯飞星火至今仍然是国内唯一基于全国产算力平台的大模型。但推理模型的训练与大语言模型有诸多不同,仍然面临不少挑战。科大讯飞迎难而上,携手华为成功攻克了训练推理强交互、高吞吐推理优化以及国产算子优化等一系列难题,最终成功基于全国产算力平台训练出深度推理模型 X1。fLc28资讯网——每日最新资讯28at.com

之所以讯飞星火 X1 一出世就能在多项数学测试中取得亮眼成绩,和此前讯飞星火着重提升的数学能力不无关系。事实上,一直以来讯飞星火都是数学能力最强的大模型之一。此前,讯飞星火 4.0Turbo 就在数学和代码能力上实现对 GPT-4o 的超越,完成了超长思维链、树搜索和自我反思评价等算法的验证。fLc28资讯网——每日最新资讯28at.com

去年高考期间,多家媒体和专业人士用高考数学题对市面上的大模型进行测评比试,讯飞星火表现出色,领先一众同行。fLc28资讯网——每日最新资讯28at.com

在搜狐科技针对国内十余家大模型的高考数学能力评测中,讯飞星火、文心一言、豆包均以63% 的正确率位列第一梯队,智谱清言、阿里通义则以50% 的正确率位居第二梯队,其他大模型相对落后。fLc28资讯网——每日最新资讯28at.com

fLc28资讯网——每日最新资讯28at.com

这次着重提升了深度推理能力的 X1,则是将讯飞星火一直见长的数学能力再度提升一个维度。相较于此前的大语言模型,讯飞星火 X1 从训练方法、训练数据乃至架构上都有所不同,数学和推理能力显著提升。fLc28资讯网——每日最新资讯28at.com

技术迭代之外,科大讯飞率先将推理模型应用到教育、医疗等真实刚需场景之中。搭载了星火 X1 的高中数学智能教师助手,已被一线教研员和教师用来解答高中数学创新题和考试题。在医疗场景下,X1 的相关技术和策略也取得了初步验证成效,可使得专科辅助诊断和复杂病历内涵质控的准确率均达 90%。fLc28资讯网——每日最新资讯28at.com

大模型时代的迭代速度远超以往,一家公司的领先往往只能持续数月乃至数周,稍有不慎就会被后来者超越,此次讯飞星火 X1 出道即“巅峰”也正说明了这一点。唯有不断从底层攻难克坚,真正从源头实现自主可控,才能在日益飞速技术迭代立于不败之地。fLc28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-126062-0.html强强 PK 国产胜,讯飞星火 X1 碾压 DeepSeek

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 苹果公司声明:TikTok 及字节跳动旗下应用在美国已不可用

下一篇: 黄仁勋宴请 35 位英伟达供应链大佬,预告将参加 2025 台北电脑展

标签:
  • 热门焦点
  • 5月iOS设备好评榜:iPhone 14仅排第43?

    来到新的一月,安兔兔的各个榜单又重新汇总了数据,像安卓阵营的榜单都有着比较大的变动,不过iOS由于设备的更新换代并没有那么快,所以相对来说变化并不大,特别是iOS好评榜,老款设
  • JavaScript 混淆及反混淆代码工具

    介绍在我们开始学习反混淆之前,我们首先要了解一下代码混淆。如果不了解代码是如何混淆的,我们可能无法成功对代码进行反混淆,尤其是使用自定义混淆器对其进行混淆时。什么是混
  • 摸鱼心法第一章——和配置文件说拜拜

    为了能摸鱼我们团队做了容器化,但是带来的问题是服务配置文件很麻烦,然后大家在群里进行了“亲切友好”的沟通图片图片图片图片对比就对比,简单对比下独立配置中心和k8s作为配
  • 如何正确使用:Has和:Nth-Last-Child

    我们可以用CSS检查,以了解一组元素的数量是否小于或等于一个数字。例如,一个拥有三个或更多子项的grid。你可能会想,为什么需要这样做呢?在某些情况下,一个组件或一个布局可能会
  • 之家push系统迭代之路

    前言在这个信息爆炸的互联网时代,能够及时准确获取信息是当今社会要解决的关键问题之一。随着之家用户体量和内容规模的不断增大,传统的靠"主动拉"获取信息的方式已不能满足用
  • 东方甄选单飞:有些鸟注定是关不住的

    文/彭宽鸿编辑/罗卿东方甄选创始人俞敏洪带队的“7天甘肃行”直播活动已在近日顺利收官。成立后一年多时间里,东方甄选要脱离抖音自立门户的传闻不绝于耳,“7
  • iQOO 11S屏幕细节公布:首发三星2K E6全感屏 安卓最好的直屏手机

    日前iQOO手机官方宣布,新一代电竞旗舰iQOO 11S将会在7月4日19:00正式与大家见面。随着发布时间的日益临近,官方关于该机的预热也更加密集,截至目前已
  • Windows 11发布,微软一改往常对老机型开放的态度

    距离 Windows 11 发布已经过去一周,在过去一周里,很多数码爱好者围绕其对 Android 应用的支持、对老机型的升级问题展开了激烈讨论。与以往不同的是,在这次大
  • DRAM存储器10月价格下跌,NAND闪存本月价格与上月持平

    10月30日,据韩国媒体消息,自今年年初以来一直在上涨的 DRAM 存储器的交易价格仅在本月就下跌了近 10%,此次是全年首次降价,而NAND 闪存本月价格与上月持平。市
Top