当前位置:首页 > 科技  > 数码

Kimi-k2 thinking模型发布!编程表现出色,IMO数学题求解遇挑战

来源: 责编: 时间:2025-11-07 10:05:10 125观看
导读月之暗面公司近日正式推出了其最新研发的Kimi-k2 thinking模型,这款具备通用智能体能力和深度推理功能的思考模型,标志着AI技术在复杂问题解决领域迈出了重要一步。该模型通过多轮工具调用机制,能够高效应对编程、数学及

月之暗面公司近日正式推出了其最新研发的Kimi-k2 thinking模型,这款具备通用智能体能力和深度推理功能的思考模型,标志着AI技术在复杂问题解决领域迈出了重要一步。该模型通过多轮工具调用机制,能够高效应对编程、数学及逻辑推理等领域的挑战性任务。2Aa28资讯网——每日最新资讯28at.com

作为Kimi K2系列的最新迭代,此次发布的模型在7月11日首发的10000亿参数基础上,通过9月5日发布的Kimi K2-0905版本实现了核心能力升级。新版本不仅强化了智能编码能力,支持256K长文本处理,还将API输出速度提升至每秒60-100Token,并兼容Claude Code技术标准。在定价策略上,基础版每百万输入token(缓存未命中)收费4元,输出收费16元;针对高速运算场景推出的turbo版本,输入价格提升至8元,输出价格达58元。2Aa28资讯网——每日最新资讯28at.com

在实际测试环节,研发团队重点考察了模型在三个关键领域的能力表现。在编程测试中,要求生成包含导航栏、主体展示区及两个特色功能的开源模型分享网站原型。生成的HTML页面不仅完整实现了所有功能模块,搜索框、按钮等交互元素均可正常使用,点击上传模型按钮会弹出文件格式及大小限制提示。整个项目生成耗时约3分钟,消耗9K token,但在多次测试中偶尔出现程序崩溃现象。2Aa28资讯网——每日最新资讯28at.com

数学能力测试选取了2025年国际数学奥林匹克竞赛最具挑战性的第六题。基础版模型经过4分钟运算,在21188字的思考过程中给出了4048的错误答案(正确答案为2112),消耗23.5K token。升级至turbo版本后,虽然运算时间缩短至2分钟,但token消耗量激增至38.5K,且答案依然错误。面对另一道IMO竞赛题时,模型在深度思考10余分钟后停止运算,两次尝试均卡在47000字左右的思考节点未能给出答案。由于缺乏图片识别能力,复杂数学公式的输入成为制约模型表现的瓶颈。2Aa28资讯网——每日最新资讯28at.com

在逻辑推理测试中,模型展现出较强的基础认知能力,能够快速识别并规避常见逻辑陷阱。面对进阶型推理题目时,模型可在1分钟内给出准确答案,单次推理消耗约16.6K token。测试表明,该模型在处理需要多步骤推导的复杂问题时,仍存在运算稳定性不足的问题。2Aa28资讯网——每日最新资讯28at.com

值得关注的是,就在月之暗面发布新模型前两天,阿里云刚推出Qwen 3系列最强推理模型Qwen3-Max-Thinking的早期预览版。两家科技企业接连在智能推理领域发力,反映出当前AI行业竞争焦点正从基础能力建设转向复杂问题解决能力的深度开发。随着智能体技术成为行业主流发展方向,模型的推理运算能力将成为衡量AI实用价值的核心指标。2Aa28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-24-185768-0.htmlKimi-k2 thinking模型发布!编程表现出色,IMO数学题求解遇挑战

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: vivo S50系列入网引关注:双尺寸设计+90W快充,Pro mini版性能跃升

下一篇: AMD Zen 7性能飞跃!高32核、主频7.0GHz:超大X3D缓存

标签:
  • 热门焦点
  • 7月安卓手机性能榜:红魔8S Pro再夺榜首

    7月份的手机市场风平浪静,除了红魔和努比亚带来了两款搭载骁龙8Gen2领先版处理器的新机之外,别的也想不到有什么新品了,这也正常,通常6月7月都是手机厂商修整的时间,进入8月份之
  • 帅气纯真少年!日本最帅初中生选美冠军出炉

    日本第一帅哥初一生选美大赛冠军现已正式出炉,冠军是来自千叶县的宗田悠良。日本一直热衷于各种选美大赛,从“最美JK”起到“最美女星&r
  • iPhone卖不动了!苹果股价创年内最大日跌幅:市值一夜蒸发万亿元

    8月5日消息,今天凌晨美股三大指数高开低走集体收跌,道指跌0.41%;纳指跌0.36%;标普500指数跌0.52%。热门科技股也都变化极大,其中苹果报181.99美元,跌4.8%,创
  • 消息称迪士尼要拍真人版《魔发奇缘》:女主可能也找黑人演员

    8月5日消息,迪士尼确实有点忙,忙着将不少动画改成真人版,继《美人鱼》后,真人版《白雪公主》、《魔发奇缘》也在路上了。据外媒消息称,迪士尼将打造真人版
  • K8S | Service服务发现

    一、背景在微服务架构中,这里以开发环境「Dev」为基础来描述,在K8S集群中通常会开放:路由网关、注册中心、配置中心等相关服务,可以被集群外部访问;图片对于测试「Tes」环境或者
  • .NET 程序的 GDI 句柄泄露的再反思

    一、背景1. 讲故事上个月我写过一篇 如何洞察 C# 程序的 GDI 句柄泄露 文章,当时用的是 GDIView + WinDbg 把问题搞定,前者用来定位泄露资源,后者用来定位泄露代码,后面有朋友反
  • 三分钟白话RocketMQ系列—— 如何发送消息

    我们知道RocketMQ主要分为消息 生产、存储(消息堆积)、消费 三大块领域。那接下来,我们白话一下,RocketMQ是如何发送消息的,揭秘消息生产全过程。注意,如果白话中不小心提到相关代
  • JVM优化:实战OutOfMemoryError异常

    一、Java堆溢出堆内存中主要存放对象、数组等,只要不断地创建这些对象,并且保证 GC Roots 到对象之间有可达路径来避免垃 圾收集回收机制清除这些对象,当这些对象所占空间超过
  • 朋友圈可以修改可见范围了 苹果用户可率先体验

    近日,iOS用户迎来微信8.0.27正式版更新,除了可更换二维码背景外,还新增了多项实用功能。在新版微信中,朋友圈终于可以修改可见范围,简单来说就是已发布的朋友圈
Top