当前位置:首页 > 元宇宙 > AI

ChatGPT 参数规模被扒:只有 7B

来源: 责编: 时间:2024-03-19 17:31:25 344观看
导读 ChatGPT 惨遭攻击,参数规模终于被扒出来了 —— 很可能只有 7B(70 亿)。消息来自南加州大学最新研究,他们使用一种攻击方法,花费不到 1000 美元就把最新版 gpt-3.5-turbo 模型的机密给挖了出来。果然,OpenAI 不 Ope

ChatGPT 惨遭攻击,参数规模终于被扒出来了 —— 很可能只有 7B(70 亿)。VI628资讯网——每日最新资讯28at.com

消息来自南加州大学最新研究,他们使用一种攻击方法,花费不到 1000 美元就把最新版 gpt-3.5-turbo 模型的机密给挖了出来。VI628资讯网——每日最新资讯28at.com

VI628资讯网——每日最新资讯28at.com

果然,OpenAI 不 Open,自有别人帮他们 Open。VI628资讯网——每日最新资讯28at.com

VI628资讯网——每日最新资讯28at.com

具体来说,南加大团队三位作者破解出了未公布的 gpt-3.5-turbo 嵌入向量维度(embedding size)为 4096 或 4608。VI628资讯网——每日最新资讯28at.com

而几乎所有已知的开源大模型如 Llama 和 Mistral,嵌入向量维度 4096 的时候都是约 7B 参数规模。其它比例的话,就会造成网络过宽或过窄,已被证明对模型性能不利。VI628资讯网——每日最新资讯28at.com

因此南加大团队指出,可以推测 gpt-3.5-turbo 的参数规模也在 7B 左右,除非是 MoE 架构可能不同。VI628资讯网——每日最新资讯28at.com

VI628资讯网——每日最新资讯28at.com

数月前,曾有微软 CODEFUSION 论文意外泄露当时 GPT-3.5 模型参数为 20B,在后续论文版本中又删除了这一信息。VI628资讯网——每日最新资讯28at.com

VI628资讯网——每日最新资讯28at.com

当时引起了一阵轩然大波,业界很多人分析并非不可能,先训练一个真正的千亿参数大模型,再通过种种手段压缩、蒸馏出小模型,并保留大模型的能力。VI628资讯网——每日最新资讯28at.com

而现在的 7B,不知道是从一开始 20B 的消息就不准确,还是后来又再次压缩了。但无论是哪一种,都证明 OpenAI 有很恐怖的模型优化能力。VI628资讯网——每日最新资讯28at.com

撬开 ChatGPT 的保护壳

那么,南加大团队是怎么扒出 ChatGPT 未公开配置的呢?还要说到现代语言模型中普遍存在的“Softmax 瓶颈”。VI628资讯网——每日最新资讯28at.com

当 Transformer 网络处理完输入,会得到一个低维的特征向量,也就是 Embedding。这个特征向量再经过 Softmax 变换,就得到了最后的概率分布输出。VI628资讯网——每日最新资讯28at.com

VI628资讯网——每日最新资讯28at.com

问题就出在 Softmax 这里,因为矩阵的秩受限于特征向量的维度,所以大模型的输出空间事实上被限制在了一个低维的线性子空间里。VI628资讯网——每日最新资讯28at.com

VI628资讯网——每日最新资讯28at.com

这就像是无论你的衣柜里有多少件衣服,最后能穿出去的搭配,其实是有限的。这个”衣柜”的大小,就取决于你的“特征向量维度”有多大。VI628资讯网——每日最新资讯28at.com

南加大团队抓住了这一点,他们发现,只要从 API 调用中获取到足够多的输出样本,就足以拼凑出这个大模型的特征向量维度。VI628资讯网——每日最新资讯28at.com

有了这个特征向量维度,可以进一步推断大模型的参数规模、还原出完整的概率输出,在 API 悄悄更新时也能发现变化,甚至根据单个输出判断来自哪个大模型。VI628资讯网——每日最新资讯28at.com

更狠的是,推测特征向量维度并不需要太多的样本。VI628资讯网——每日最新资讯28at.com

以 OpenAI 的 gpt-3.5-turbo 为例,采集到 4000 多个样本就绰绰有余了,花费还不到 1000 美元。VI628资讯网——每日最新资讯28at.com

在论文的最后,团队还探讨了目前的几个应对这种攻击的方法,认为这些方法要么消除了大模型的实用性,要么实施起来成本高昂。VI628资讯网——每日最新资讯28at.com

不过他们倒也不认为这种攻击不能有效防护是个坏事,一方面无法用此方法完整窃取模型参数,破坏性有限。另一方面允许大模型 API 用户自己检测模型何时发生变更,有助于大模型供应商和客户之间建立信任,并促使大模型公司提供更高的透明度。VI628资讯网——每日最新资讯28at.com

这是一个 feature,不是一个 bug。VI628资讯网——每日最新资讯28at.com

VI628资讯网——每日最新资讯28at.com

论文:VI628资讯网——每日最新资讯28at.com

https://arxiv.org/abs/2403.09539VI628资讯网——每日最新资讯28at.com

参考链接:VI628资讯网——每日最新资讯28at.com

https://x.com/TheXeophon/status/1768659520627097648VI628资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位 (ID:QbitAI),作者:梦晨VI628资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-3616-0.htmlChatGPT 参数规模被扒:只有 7B

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 谷歌推出 Cappy “打分”框架,可评估 AI 准确性“教模型更聪明”

下一篇: Devin 第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远

标签:
  • 热门焦点
  • 人间诚实周鸿祎:360 All in 大模型的六个解读

    主笔 / 村口有牛文章架构师 / 毛自聪出品 / 巨头财经5月至今,人间躁动,各路大模型你方唱罢我登场,VC圈互联网圈媒体圈已近癫狂。谁也没想到,今日,360再度刷屏,老牌互联网巨头展现
  • 虚拟人再升级,企业可以解放双手了?

    来源:伯虎财经今天想跟大家来唠唠AI,其实聊到这个话题很多人都不陌生了。在ChatGPT和AIGC大热背后,还有一位低调的“大佬”——虚拟人。比如咱们熟知的虚
  • 沉寂3年,大模型激活小度天猫精灵?

    Tech星球(微信ID:tech618)文 | 何煦阳 沉寂了许久的智能音箱,在今年大模型横空出世之后,又再次燃起了新的希望。 2月9日,小度宣布将融合文心一言,打造针对智能设备场景的AI模型&ldq
  • 完美世界被元宇宙“拒之门外”

    春节期间,游戏是消磨时间最好的方式,完美世界的《幻塔》作为选择的首要目标,倒不是因为它的吸引力有多大,纯粹是广大网友的吐槽。继《原神》之后,进击元宇宙的游戏
  • Niantic与索尼在音频AR领域达成合作;​苹果为Apple Park申请形象化商标

    今日热点:迪士尼任命新高管负责元宇宙业务;iFixit成为Valve Index VR头显和Steam Deck首家零件销售商;Niantic与索尼达成合作,将为AR游戏《Ingress》带来音频体验;V
  • 百度元宇宙希壤是什么?(附下载)

    百度元宇宙希壤是什么,最近很多人关注。还有很多人问希壤怎么下载、百度希壤怎么进入?今天小编带你来全面了解一下。“希壤”是百度于2021年12月27日于百度AI开
  • 韩国国民银行将推出韩国首个加密货币 ETF

    韩国国民银行(Kookmin Bank)计划发行该国首个以散户投资者为主要关注点的加密货币投资基金。根据公告,该银行正在等待政府批准,并已建立一个准备就绪的数字资产
  • 知名艺术家打造去中心化“好莱坞”:一部电影一个DAO

    根据市场追踪网站 DappRadar 的数据,随着 NFT 的“出圈”与加密货币的普及,NFT 市场在 2021 年的销售额达到约 250 亿美元,而 2020 年仅为 9490 万美元,同比增超 2
  • 这场虚拟发布会,当面“造假”!

    英伟达去年4月份那场发布会,你曾看出什么不对劲的地方吗?你品,你细品——在计算机图形学顶会SIGGRAPH 2021上,英伟达通过一部纪录片自曝:那场发布会内藏玄机~你看到
Top