当前位置:首页 > 元宇宙 > AI

Claude 团队打开大模型“脑回路”,推出开源 LLM 思维可视化工具

来源: 责编: 时间:2025-06-04 08:01:06 144观看
导读 Claude 团队来搞开源了 ——推出“电路追踪”(circuit tracing)工具,可以帮大伙儿读懂大模型的“脑回路”,追踪其思维过程。该工具的核心在于生成归因图(attribution graphs),其作用类似于大脑的神经网络示意图,通过

Claude 团队来搞开源了 ——推出“电路追踪”(circuit tracing)工具,可以帮大伙儿读懂大模型的“脑回路”,追踪其思维过程。Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

该工具的核心在于生成归因图(attribution graphs),其作用类似于大脑的神经网络示意图,通过可视化模型内部超节点及其连接关系,呈现 LLM 处理信息的路径。Tkr28资讯网——每日最新资讯28at.com

研究人员通过干预节点激活值,观察模型行为变化,从而验证各节点的功能分工,解码 LLM 的“决策逻辑”。Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

官方表示,此次发布的开源库支持在主流开源权重模型上快速生成归因图,而 Neuronpedia 托管的前端界面则进一步允许用户交互式探索。Tkr28资讯网——每日最新资讯28at.com

总之,研究人员能够:Tkr28资讯网——每日最新资讯28at.com

通过生成自有归因图,在支持的模型上进行电路追踪;Tkr28资讯网——每日最新资讯28at.com

在交互式前端中可视化、注释和分享图表;Tkr28资讯网——每日最新资讯28at.com

通过修改特征值并观察模型输出变化来验证假设。Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

Anthropic CEO Dario Amodei 表示:Tkr28资讯网——每日最新资讯28at.com

目前,我们对 AI 内部运作的理解远远落后于其能力的发展。通过开源这些工具,我们希望让更广泛的社区更容易研究语言模型的内部机制。我们期待看到这些工具在理解模型行为方面的应用,以及对工具本身的改进拓展。Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

目前,该项目开源不到 24 小时,在 GitHub 就已揽获 400+Star。Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

在 Reddit、X 上都有不少网友点赞 & 讨论。Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

有网友直呼“DeepSeek 肯定喜欢这个”。Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

还有网友认为“归因图可能成为 LLM 研究的显微镜”。Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

“电路追踪”食用教程

除了宣布开源外,Anthropic 依据介绍电路追踪方法的原始论文《On the Biology of a Large Language Model》中多步推理和多语言电路示例,利用该工具深入探究了几个涉及 Gemma-2-2b 的归因图。Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

一起来看看具体示例和分析。Tkr28资讯网——每日最新资讯28at.com

如果想生成自己的图,可以在 Neuronpedia 上进行操作,也可以直接在 Colab 中使用这个起始 notebook 进行操作。Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

两阶推理

先来看一个两阶推理示例。Tkr28资讯网——每日最新资讯28at.com

问题:包含达拉斯的州的首府是?(Fact: The capital of the state containing Dallas is → Austin)Tkr28资讯网——每日最新资讯28at.com

模型必须首先推断出包含达拉斯的州是得克萨斯州;然后,回答得克萨斯州首府是奥斯汀。Tkr28资讯网——每日最新资讯28at.com

介绍电路追踪方法的原始论文中表明,模型 Claude 3.5 Haiku 使用以下电路解决了该问题,计算了“包含达拉斯的州”这一中间步骤。Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

而对 Gemma 2(2B)进行归因分析表明,它使用以下电路成功完成了 prompt 任务:Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

该电路结构与 Claude 3.5 Haiku 的类似,存在一个对应“得克萨斯州”的节点,并同时显示从“达拉斯”到“奥斯汀”的直接路径以及经过“得克萨斯州”的间接路径。Tkr28资讯网——每日最新资讯28at.com

归因图基于使用 transcoders 来近似多层感知机(MLP)的行为,提出了关于模型行为的假设。Tkr28资讯网——每日最新资讯28at.com

Anthropic 表示,可以通过直接对底层模型进行干预,来验证他们对模型行为的理解是否正确。Tkr28资讯网——每日最新资讯28at.com

对图中所示的每个超节点(supernodes)进行干预,首先需要从该图中获取超节点。Tkr28资讯网——每日最新资讯28at.com

Anthropic 提供了一个便捷函数,可将电路 URL(及其中存储的超节点)映射到 Feature 对象列表。每个 Feature 对象是一个 (layer, position, feature_index) 元组。Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

然后,创建用于解决此任务的电路表示。Tkr28资讯网——每日最新资讯28at.com

首先需定义一些超节点对象(Supernode objects),这些对象将存储底层 Feature 列表,以及受其因果影响的子超节点。Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

再初始化一个干预图(InterventionGraph),用于存储所有超节点并跟踪它们的状态。Tkr28资讯网——每日最新资讯28at.com

另外,还需要获取模型在此提示下的 logits 和激活值。Tkr28资讯网——每日最新资讯28at.com

设置每个节点的默认激活值(即未进行干预时,原始提示下的激活值),并设定其激活分数,激活分数为节点当前激活值与默认激活值的比值。Tkr28资讯网——每日最新资讯28at.com

由于当前激活值与默认激活值相同,因此每个节点的激活分数均为 100%。Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

另外还将记录 top-5 的 logits,然后对图表进行可视化。Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

结果显示电路与在可视化完整图表时创建的超节点吻合。Tkr28资讯网——每日最新资讯28at.com

现在,通过干预验证每个超节点是否如假设般发挥作用,每次干预会将节点值设定为原始值的特定倍数。Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

在介绍电路追踪方法的原始论文中,关闭“说出一个首府”(Say a capital)Feature 会导致“说出奥斯汀”(Say Austin)超节点关闭,且模型的最高 logits 变为得克萨斯州(Texas)。Tkr28资讯网——每日最新资讯28at.com

若接下来对 Gemma 2(2B)归因图进行相同操作,会发生什么?Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

结果观察到了完全相同的现象。强行关闭“说出一个首府”超节点后,“说出奥斯汀”节点也随之关闭,模型的最高 logit 变为了得克萨斯州。Tkr28资讯网——每日最新资讯28at.com

那如果关闭“首府”(capital)超节点会怎样?Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

与之前的干预行为类似:关闭“说出一个首府”超节点,但没有像之前那样强烈,也部分关闭了“说出奥斯汀”节点。Tkr28资讯网——每日最新资讯28at.com

如果我们关闭“得克萨斯州”超节点会怎样?Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

关闭“得克萨斯州”超节点同样会使“说出奥斯汀”节点失效,导致模型输出其它州的首府。Tkr28资讯网——每日最新资讯28at.com

如果关闭“州”(state)超节点会怎样?Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

关闭“州”超节点效果并不明显,它对其它超节点的激活状态几乎没有影响,模型的 logits 也几乎没有变化。Tkr28资讯网——每日最新资讯28at.com

现在已经通过剔除节点验证了其行为。Tkr28资讯网——每日最新资讯28at.com

那么,能否注入完全不同的节点并验证其是否产生预期效果?Tkr28资讯网——每日最新资讯28at.com

以 prompt“包含奥克兰的州的首府是( Fact: The capital of the state containing Oakland is → Sacramento)”中的电路为例,从该图中提取两个超节点“加利福尼亚州”(California)和“说出萨克拉门托”(Say Sacramento),并将其添加到干预图中。Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

然后,进行干预操作:关闭“得克萨斯州”超节点,并激活“加利福尼亚州”超节点。Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

这样做导致“说出奥斯汀”节点完全关闭,而“说出萨克拉门托”节点开始激活,模型最高输出现在也变为萨克拉门托。Tkr28资讯网——每日最新资讯28at.com

还可以将州替换为国家进行类似实验。以 Prompt“包含上海的国家的首都是(Fact: The capital of the country containing Shanghai is → Beijing)”的电路为例,执行与之前完全相同的操作:Tkr28资讯网——每日最新资讯28at.com

禁用“得克萨斯州”超节点,并激活“中国”超节点。这次虽然没有“说出北京”节点,但这种干预的效果应该会在 logits 中显现。Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

结果同样有效,北京现在成为模型最可能的输出。Tkr28资讯网——每日最新资讯28at.com

那总是会有效吗?Tkr28资讯网——每日最新资讯28at.com

再用 Prompt“包含温哥华的地区的首府是(Fact: the capital of the territory containing Vancouver is → Victoria)”的电路来试试。Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

在这种情况下,干预效果并不显著。Tkr28资讯网——每日最新资讯28at.com

模型的输出看起来与仅剔除“得克萨斯州”时的结果类似,这表明“不列颠哥伦比亚省”(British Columbia)节点的加入几乎没有产生作用。Tkr28资讯网——每日最新资讯28at.com

多语言电路

接下来 Anthropic 还探讨了原论文中研究的多语言电路。Tkr28资讯网——每日最新资讯28at.com

具体而言,将考察三个电路,分别对应三种语言的同一句子:Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

关于 Claude 3.5 Haiku 的研究展示了一个共享的多语言电路:Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

与 Haiku 的电路不同,Gemma 2(2B)的电路从本质上完全具备多语言特性。Tkr28资讯网——每日最新资讯28at.com

模型中并不存在独立的“Say big”或“Say grand”超节点来驱动其用特定语言输出对应答案。相反,所有电路均采用“Say big”Feature,若答案为非英语,则会结合“French”或“Chinese”Feature 共同作用。Tkr28资讯网——每日最新资讯28at.com

接下来,通过对这些电路进行干预实验来展开研究。Tkr28资讯网——每日最新资讯28at.com

首先,如前所述创建超节点对象(Supernode objects):Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

然后,获取这些节点的激活值,对其进行初始化,并生成可视化图表。Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

现在进行第一次干预操作:关闭“French”超节点。Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

在关闭“French”超节点后,模型输出变成了英文。Tkr28资讯网——每日最新资讯28at.com

值得注意的是,这对“Say big”超节点仅产生轻微影响,二者的作用似乎相互独立。Tkr28资讯网——每日最新资讯28at.com

再尝试将语言切换为另一种:关闭“French”超节点,并激活“Chinese”超节点。Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

正如预期,干预后的模型输出与中文示例的原始输出一致。Tkr28资讯网——每日最新资讯28at.com

那如果将“small”Feature 替换为“big”会怎样?Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

将“small”超节点替换为“big”超节点后,导致“说出 big”超节点关闭,同时一个新的“Say small”超节点被激活。Tkr28资讯网——每日最新资讯28at.com

模型的输出在法语中变为“petit”(即“small”)。Tkr28资讯网——每日最新资讯28at.com

接下来是最后一项干预,能否将“opposite”(反义词)超节点替换为“synonym”(同义词),以获取同义输出?Tkr28资讯网——每日最新资讯28at.com

虽然该模型并不擅长处理同义词:当输入“Un synonyme de ‘petit’ est ‘”(“petit”的同义词是“”)时,模型会重复输出“petit”,而非其它同义词。Tkr28资讯网——每日最新资讯28at.com

但是,仍可观察此干预是否会复现该行为。Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

不过最终这项干预并未奏效。尽管“Say small”超节点被激活,但“Say big”也保持激活状态,模型的输出并未改变。Tkr28资讯网——每日最新资讯28at.com

Anthropic 团队认为这并不意外,如果观察该任务的原始电路,会发现“opposite”(反义词)超节点与输出端仅存在弱连接。因此,尽管它本应发挥作用,但其因果效应相当有限。Tkr28资讯网——每日最新资讯28at.com

更多细节大伙儿可自行查阅。Tkr28资讯网——每日最新资讯28at.com

另外作为启发,Anthropic 在 demo notebook 和 Neuronpedia 上提供了尚未分析的额外归因图,感兴趣的童鞋可以亲自上手研究研究。Tkr28资讯网——每日最新资讯28at.com

Tkr28资讯网——每日最新资讯28at.com

GitHub 链接:Tkr28资讯网——每日最新资讯28at.com

https://github.com/safety-research/circuit-tracer?tab=readme-ov-fileTkr28资讯网——每日最新资讯28at.com

参考链接:Tkr28资讯网——每日最新资讯28at.com

[1]https://x.com/anthropicai/status/1928119229384970244?s=46Tkr28资讯网——每日最新资讯28at.com

[2]https://www.anthropic.com/research/open-source-circuit-tracingTkr28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位(ID:QbitAI),作者:西风,原标题《Claude 团队打开大模型「脑回路」,开源 LLM 思维可视化工具来了》Tkr28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-13328-0.htmlClaude 团队打开大模型“脑回路”,推出开源 LLM 思维可视化工具

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 谷歌布林:恐吓AI模型竟能提升性能?颠覆传统认知!

下一篇: 谷歌悄然推出“AI Edge Gallery”应用:可在手机本地运行 AI 模型

标签:
  • 热门焦点
  • 拯救XR,苹果力不从心

    来源 | 光子星球撰文 | 文烨豪 编辑 | 吴先之 苹果终于呈上了它的“答卷”。 北京时间6月6日凌晨,苹果2023年全球开发者大会(WWDC)如期举行。作为苹果CEO库克口中&ld
  • 大厂元宇宙,又菜又爱玩

    撰文 | 吴先之 编辑 | 王 潘当下所有大厂推出的元宇宙产品,所能带来的沉浸式体验并不多,好在国内外科技巨头在bug方面都处在同一水平线。以Meta为例,由于VR头显设
  • 中国虚拟数字人如何横向拓展市场需求,探索发展场景?

    通过5G、AI等新技术更新换代,虚拟数字人为诸多下游行业带来新的发展机会。虚拟数字人技术以其简化性和精品性持续拓展泛娱乐、金融、教育、政务、医疗、零售等
  • “啫喱”超越微信登顶:首款“元宇宙社交App”会昙花一现吗?

    作者| 赤木瓶子如何终结“昙花一现”的命运,是潮流社交产品的长期命题,如今,在元宇宙浪潮的洗礼下,这一命题正在迎来新的可能性。近段时间,一款名为“啫喱”的社交A
  • AI特效、虚拟人、数字盲盒,来看看元宇宙如何融合冬奥会!

    今天是冬奥会比赛的第12天,截至目前所累计的成绩,中国代表团已经取得了冬奥历史最佳战绩。全世界的人都在关注着这场盛事,为奥运健儿呐喊助威。谷爱凌、徐梦桃、
  • 2022年6款最佳的NFT稀有度查询工具

    NFT正在风靡全球,但拥有一个你自认为看起来很酷的 NFT 是不够的,因为它还应该是稀有的,稀有度会影响每个 NFT 的价值。因此,如果您打算投资 NFT,则需要使用 NFT 稀
  • 顶流IP“冰墩墩”带着中国元素NFT进入全球视野

    一场被国际奥委会主席评价堪称独具匠心、非凡卓越的2022年北京冬季奥运会,在这个“双奥之城”经历了16个令人难忘的精彩日夜,最终圆满闭幕。让我们印象深刻的不
  • a16z:元宇宙办公会取代实体办公室吗?

    6位不同的专家对未来的工作发表看法----元宇宙--沉浸式的、基于区块链的虚拟世界,大多数日常活动最终会在这里发生--但仍然只是一个概念。但它是一个拥有宝贵不
  • Steam 禁止NFT和加密货币原因曝光

    近日,Valve(V社)总裁Gabe Newell接受PC Gamer采访时解释了该平台禁止NFT和加密货币的原因。早在2021年10月18日,PC Gamer就报道Steam推出的新规:使用区块链或允许交
Top