当前位置:首页 > 科技  > 软件

从GPT-2到gpt-oss:深入解析大模型进化的关键细节

来源: 责编: 时间:2025-08-18 12:08:07 182观看
导读在人工智能领域,大语言模型(LLM)的演进从未停歇,尽管整体架构自GPT-2以来并未发生根本性变化。近日,Sebastian Raschka博士通过深入分析OpenAI开源的gpt-oss模型(包括120B和20B版本),带领读者回顾了从GPT-2到gpt-oss的技术演

在人工智能领域,大语言模型(LLM)的演进从未停歇,尽管整体架构自GPT-2以来并未发生根本性变化。近日,Sebastian Raschka博士通过深入分析OpenAI开源的gpt-oss模型(包括120B和20B版本),带领读者回顾了从GPT-2到gpt-oss的技术演进之路,并将gpt-oss与另一开源模型Qwen3进行了详细对比。2rn28资讯网——每日最新资讯28at.com

8月5日,就在GPT-5发布的前两天,OpenAI宣布推出两款开源大语言模型:gpt-oss-120b和gpt-oss-20b。这是自2019年GPT-2发布以来,OpenAI首次开放模型权重,且得益于巧妙的优化技术,这些模型甚至可以在本地设备上运行。2rn28资讯网——每日最新资讯28at.com

Raschka博士在其文章《从GPT-2到gpt-oss:架构进步分析》中,详细解析了从GPT-2到gpt-oss的架构演进。他指出,尽管两者在整体架构上相似,但gpt-oss在多个细节上进行了优化,如移除Dropout、采用RoPE替代绝对位置编码、激活函数从GELU转向Swish/SwiGLU等。2rn28资讯网——每日最新资讯28at.com

首先,Dropout技术虽然在早期Transformer架构中被广泛使用,但现代LLM发现其并不能显著提升性能,反而可能因单轮训练模式导致下游任务表现下降。因此,gpt-oss选择了移除Dropout。2rn28资讯网——每日最新资讯28at.com

其次,在位置编码方面,gpt-oss采用了RoPE(旋转位置嵌入)替代传统的绝对位置嵌入。RoPE通过对query和key向量施加位置相关的旋转来编码位置信息,这种方式更加高效且逐渐成为LLM的标配。2rn28资讯网——每日最新资讯28at.com

在激活函数的选择上,gpt-oss从GELU转向了Swish/SwiGLU。Swish的计算成本略低于GELU,且在实践中表现良好,尽管两者在建模性能上的差异并不显著。2rn28资讯网——每日最新资讯28at.com

更重要的是,gpt-oss对前馈网络模块进行了重构,引入了带门控的GLU(Gated Linear Unit)变体,如SwiGLU。这种结构不仅性能更好,而且总参数量更少,通过门控带来的额外乘法交互增强了模型的表达能力。2rn28资讯网——每日最新资讯28at.com

gpt-oss还采用了Mixture-of-Experts(MoE,专家混合)技术,用多个前馈模块替代单个前馈模块,并在每个token生成步骤中只启用其中一个子集。这种做法显著增加了模型的总参数量,但通过稀疏性在推理阶段保持了高效率。2rn28资讯网——每日最新资讯28at.com

在注意力机制方面,gpt-oss引入了分组查询注意力(GQA)替代传统的多头注意力(MHA),并通过滑动窗口注意力进一步降低内存占用和计算成本。同时,gpt-oss还用RMSNorm替代了LayerNorm,以提升训练效率。2rn28资讯网——每日最新资讯28at.com

2rn28资讯网——每日最新资讯28at.com

在与Qwen3的对比中,gpt-oss展现出不同的设计思路。Qwen3是一个更深的架构,而gpt-oss则更宽。在MoE的使用上,gpt-oss采用了少量“大专家”策略,而Qwen3则倾向于更多、更小的专家。gpt-oss在注意力机制中引入了偏置项和注意力池,以稳定注意力机制。2rn28资讯网——每日最新资讯28at.com

在性能方面,gpt-oss与OpenAI自研的闭源模型以及Qwen3相当。尽管gpt-oss在某些任务上可能表现出较高的幻觉倾向,但其作为推理型模型的设计,使其在成本、算力和准确度之间找到了良好的平衡。2rn28资讯网——每日最新资讯28at.com

随着gpt-oss的开源,更多开发者将能够利用这一强大工具进行本地或私有化部署,推动人工智能技术在各领域的广泛应用。2rn28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-177687-0.html从GPT-2到gpt-oss:深入解析大模型进化的关键细节

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 小米14周年庆典:雷军赠2000份自研玄戒O1纪念版手机,回馈用户支持

下一篇: 华为Pura 80系列霸榜2025中国电信AI与卫星通信评测

标签:
  • 热门焦点
  • 直屏旗舰来了 iQOO 12和K70 Pro同台竞技

    旗舰机基本上使用的都是双曲面屏幕,这就让很多喜欢直屏的爱好者在苦等一款直屏旗舰,这次,你们等到了。据博主数码闲聊站带来的最新爆料称,Redmi下代旗舰K70 Pro和iQOO 12两款手
  • 如何使用JavaScript创建一只图像放大镜?

    译者 | 布加迪审校 | 重楼如果您曾经浏览过购物网站,可能遇到过图像放大功能。它可以让您放大图像的特定区域,以便浏览。结合这个小小的重要功能可以大大改善您网站的用户体验
  • JVM优化:实战OutOfMemoryError异常

    一、Java堆溢出堆内存中主要存放对象、数组等,只要不断地创建这些对象,并且保证 GC Roots 到对象之间有可达路径来避免垃 圾收集回收机制清除这些对象,当这些对象所占空间超过
  • 为什么你不应该使用Div作为可点击元素

    按钮是为任何网络应用程序提供交互性的最常见方式。但我们经常倾向于使用其他HTML元素,如 div span 等作为 clickable 元素。但通过这样做,我们错过了许多内置浏览器的功能。
  • 消费结构调整丨巨头低价博弈,拼多多还卷得动吗?

    来源:征探财经作者:陈香羽随着流量红利的退潮,电商的存量博弈越来越明显。曾经主攻中高端与品质的淘宝天猫、京东重拾“低价”口号。而过去与他们错位竞争的拼多多,靠
  • 华为和江淮汽车合作开发百万元问界MPV?双方回应来了

    8月1日消息,郭明錤今天在社交平台发文称,华为正在和江淮汽车合作,开发售价在100万元的问界MPV,预计在2024年第2季度量产,销量目标为上市首年交付5万辆。
  • AI芯片初创公司Tenstorrent获三星和现代1亿美元投资

    Tenstorrent是一家由芯片行业资深人士Jim Keller领导的加拿大初创公司,专注于开发人工智能芯片,该公司周三表示,已经从现代汽车集团和三星投资基金等
  • 回归OPPO两年,一加赢了销量,输了品牌

    成为OPPO旗下主打性能的先锋品牌后,一加屡创佳绩。今年618期间,一加手机全渠道销量同比增长362%,凭借一加 11、一加 Ace 2、一加 Ace 2V三款爆品,一加
  • “买真退假” 这种“羊毛”不能薅

    □ 法治日报 记者 王春   □ 本报通讯员 胡佳丽  2020年初,还在上大学的小东加入了一个大学生兼职QQ群。群主“七王”在群里介绍一些刷单赚
Top