当前位置:首页 > 元宇宙 > AI

智谱发布新一代开源 AI 模型 GLM-4-32B-0414 系列,效果比肩 GPT 系列和 DeepSeek-V3 R1

来源: 责编: 时间:2025-04-17 06:44:23 229观看
导读 4 月 15 日消息,智谱昨日(4 月 14 日)发布博文,宣布推出新一代 GLM-4-32B-0414 系列模型,320 亿参数,效果比肩 OpenAI 的 GPT 系列和 DeepSeek 的 V3 / R1 系列,且支持非常友好的本地部署特性。该系列模型共有 GLM-4

4 月 15 日消息,智谱昨日(4 月 14 日)发布博文,宣布推出新一代 GLM-4-32B-0414 系列模型,320 亿参数,效果比肩 OpenAI 的 GPT 系列和 DeepSeek 的 V3 / R1 系列,且支持非常友好的本地部署特性。Q9y28资讯网——每日最新资讯28at.com

该系列模型共有 GLM-4-32B-Base-0414、GLM-Z1-32B-0414、GLM-Z1-Rumination-32B-0414 和 GLM-Z1-9B-0414 四款模型。Q9y28资讯网——每日最新资讯28at.com

GLM-4-32B-Base-0414Q9y28资讯网——每日最新资讯28at.com

在预训练阶段,该模型采用 15T 高质量数据,其中包含大量推理类的合成数据,这为后续的强化学习扩展打下了基础。Q9y28资讯网——每日最新资讯28at.com

Q9y28资讯网——每日最新资讯28at.com

在后训练阶段,除了针对对话场景进行了人类偏好对齐外,团队还通过拒绝采样和强化学习等技术强化了模型在指令遵循、工程代码、函数调用方面的效果,加强了智能体任务所需的原子能力。Q9y28资讯网——每日最新资讯28at.com

GLM-4-32B-0414 在工程代码、Artifacts 生成、函数调用、搜索问答及报告等方面都取得了不错的效果,部分 Benchmark 甚至可以媲美更大规模的 GPT-4o、DeepSeek-V3-0324(671B)等模型。Q9y28资讯网——每日最新资讯28at.com

Q9y28资讯网——每日最新资讯28at.com

GLM-Z1-32B-0414Q9y28资讯网——每日最新资讯28at.com

该模型是具有深度思考能力的推理模型,在 GLM-4-32B-0414 的基础上,通过冷启动和扩展强化学习,以及在数学、代码和逻辑等任务上对模型的进一步训练得到的。Q9y28资讯网——每日最新资讯28at.com

Q9y28资讯网——每日最新资讯28at.com

相对于基础模型,GLM-Z1-32B-0414 显著提升了数理能力和解决复杂任务的能力。在训练的过程中,该团队还引入了基于堆栈排序反馈的通用强化学习,进一步增强了模型的通用能力。Q9y28资讯网——每日最新资讯28at.com

GLM-Z1-Rumination-32B-0414Q9y28资讯网——每日最新资讯28at.com

该模型是具有沉思能力的深度推理模型(对标 Open AI 的 Deep Research)。Q9y28资讯网——每日最新资讯28at.com

沉思模型通过更长时间的深度思考来解决更开放和复杂的问题(例如:撰写两个城市 AI 发展对比情况,以及未来的发展规划),结合搜索工具处理复杂任务,并经过利用多种规则型奖励来指导和扩展端到端强化学习训练得到。Q9y28资讯网——每日最新资讯28at.com

GLM-Z1-9B-0414Q9y28资讯网——每日最新资讯28at.com

这是一个开源 9B 小尺寸模型,在数学推理和通用任务中依然展现出极为优秀的能力,其整体表现已处于同尺寸开源模型中的领先水平。Q9y28资讯网——每日最新资讯28at.com

Q9y28资讯网——每日最新资讯28at.com

测试结果Q9y28资讯网——每日最新资讯28at.com

GLM-4 系列在多项基准测试中表现优异。例如,在 IFEval 指令遵循测试中得分 87.6;在 TAU-Bench 任务自动化测试中,零售场景得分 68.7,航空场景得分 51.2;在 SimpleQA 搜索增强问答测试中得分 88.1。Q9y28资讯网——每日最新资讯28at.com

模型IFEvalBFCL-v3 (Overall)BFCL-v3 (MultiTurn)TAU-Bench (Retail)TAU-Bench (Airline)SimpleQAHotpotQAQwen2.5-Max85.650.930.558.322.079.052.8GPT-4o-112081.969.641.062.846.082.863.9DeepSeek-V3-032483.466.235.860.732.482.654.6DeepSeek-R184.357.512.433.037.383.963.1GLM-4-32B-041487.669.641.568.751.288.163.8

代码修复方面,GLM-4 在 SWE-bench 测试中的成功率达 33.8%。采用 MIT 许可的 GLM-4 降低了计算成本,为研究和企业提供了高性能 AI 解决方案。Q9y28资讯网——每日最新资讯28at.com

模型框架SWE-bench VerifiedSWE-bench Verified miniGLM-4-32B-0414Moatless[1]33.838.0GLM-4-32B-0414Agentless[2]30.734.0GLM-4-32B-0414OpenHands[3]27.228.0

附上参考地址Q9y28资讯网——每日最新资讯28at.com

GLM-4-0414 系列模型Q9y28资讯网——每日最新资讯28at.com

THUDM Releases GLM 4: A 32B Parameter Model Competing Head-to-Head with GPT-4o and DeepSeek-V3Q9y28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12317-0.html智谱发布新一代开源 AI 模型 GLM-4-32B-0414 系列,效果比肩 GPT 系列和 DeepSeek-V3 R1

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 人工智能开发平台 Hugging Face 收购 Pollen Robotics,进军人形机器人市场

下一篇: 真·质之选:北京现代OE四驱,让安全与舒适超越配置堆砌

标签:
  • 热门焦点
  • 不同于传统数字经济,元宇宙赋予商业生态更多数字资产价值!

    作者:中科基大数据元宇宙是一个去中心化的开放平台,而为了维护这样的平台,需要建立一个公平的游戏规则,确保每个元宇宙的参与者通过这个规则都可以挣到钱,他们的利益都可以得到保
  • 聚焦虚拟数字人技术,这三大商机要抓住!

    关于虚拟数字人,企业可以从三个方面入局,分别是ToG(To Government,面向政府),即为数字政府和数字城市提供支持服务;ToB(To Business,面向企业),即为企业提供虚拟员工解决方案;ToC(To Cons
  • 元宇宙步入暗夜

    撰文 | 文烨豪元宇宙的故事,似乎讲不通了。 当下,刮起元宇宙热潮的Roblox股价已跌去大半,带头大哥Meta也正因元宇宙亏损深陷泥潭。 再看国内,从字节“派对岛&
  • 星展银行(DBS)计划推出零售数字资产交易服务

    2月14日消息,新加坡星展银行CEO Piyush Gupta在财报会议上表示,计划于2022年年底前推出零售数字资产交易服务。据悉,DBS于2021年初开设了机构数字资产交易平台,全
  • 字节觅《原神》,腾讯元宇宙,游戏新王战旧神?

    文 | 陈桥辉陈奕迅的《红玫瑰》中有一句歌词,“得不到的永远在骚动”,这句话用到如今国内头部游戏平台再合适不过。随着《原神》的异军突起,使得头部游戏大厂感受
  • 2022年中国元宇宙系列报告:底层架构研究:虚拟引擎,擎动未来

    “虚拟引擎是元宇宙平台搭建的基本工具。在这样的条件下,虚拟引擎拥有了广阔的市场空间。也需要虚拟引擎拥有拥有强大的处理能力,能够高效快速的实现大量交互场
  • 从4个方面解析2022年加密行业趋势

    作者:去月球基础设施瓶颈仍然存在尽管2021年公链基础设施之间的竞争显著升温,但关键瓶颈仍需解决。例如,以太坊作为DApp开发的顶级公链,仍然遭受网络拥塞和高额交
  • 新闻业在元宇宙的现状和未来

    “美联社有毛病吧,这真的过分了!”,一位媒体编辑在推特中愤怒地表示。这是针对一款视频NFT的批评言论之一,之后取消了此次销售,因为该视频呈现了移民穿越地中海的苦
  • NFT高玩必备:NFT分析工具大盘点

    NFT市场的火热让越来越多的投资者投身其中,但当前的 NFT 生态系统存在几个问题却困扰了大多数人,如难以准确评估 NFT 项目的资产价格、缺乏 NFT 市场动态信息、
Top