当前位置:首页 > 元宇宙 > AI

Anthropic 推“宪法分类器”,可大幅降低 Claude 越狱率

来源: 责编: 时间:2025-02-06 07:50:36 196观看
导读 2 月 5 日消息,为解决人工智能工具中存在的滥用自然语言提示问题,OpenAI 的竞争对手 Anthropic 推出了一个名为“宪法分类器(constitutional classifiers)”的新概念,这是一种将一套类似人类价值观(实际上就是一部

2 月 5 日消息,为解决人工智能工具中存在的滥用自然语言提示问题,OpenAI 的竞争对手 Anthropic 推出了一个名为“宪法分类器(constitutional classifiers)”的新概念,这是一种将一套类似人类价值观(实际上就是一部“宪法”)植入大型语言模型的方法。bNo28资讯网——每日最新资讯28at.com

bNo28资讯网——每日最新资讯28at.com

注意到,Anthropic 的安全保障研究团队在一篇新学术论文中公布了这一新的安全措施,旨在遏制 Claude 3.5 Sonnet(其最新、最先进的大型语言模型)的越狱(即生成超出大型语言模型既定安全防护范围的输出内容)。bNo28资讯网——每日最新资讯28at.com

作者们发现,在实施宪法分类器后,针对 Claude 模型的成功越狱情况减少了 81.6%,同时该系统对性能的影响极小,“生产流量拒绝率仅绝对增加 0.38%,推理开销增加 23.7%”。bNo28资讯网——每日最新资讯28at.com

虽然大型语言模型能生成大量各种各样的有害内容,但 Anthropic(以及 OpenAI 等同行)越来越关注与化学、生物、放射和核(CBRN)相关内容的风险。例如,大型语言模型可能会告诉用户如何制造化学制剂。bNo28资讯网——每日最新资讯28at.com

因此,为了证明宪法分类器的价值,Anthropic 发布了一个演示项目,向用户发起挑战,让他们尝试突破 8 个与 CBRN 内容相关的越狱关卡。但这一举措招致了一些批评,有人认为这是在众包安全志愿者或“红队队员”。一位推特用户写道:“所以你是让社区无偿为你工作,好让你在闭源模型上赚取更多利润?”bNo28资讯网——每日最新资讯28at.com

Anthropic 指出,针对其宪法分类器防御措施的成功越狱是绕过了这些分类器,而非直接规避它们,特别列举了两种越狱方法。一种是良性释义(作者举例说,将从蓖麻豆糊中提取毒素蓖麻蛋白的表述改为提取蛋白质),另一种是长度利用,即通过无关细节迷惑大型语言模型。Anthropic 补充说,对没有宪法分类器的模型有效的已知越狱方法在这一防御措施下无法越狱成功。bNo28资讯网——每日最新资讯28at.com

然而,Anthropic 也承认,在宪法分类器测试期间提交的提示“拒绝率高得离谱”,并认识到其基于规则的测试系统存在误报和漏报的可能性。bNo28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-10480-0.htmlAnthropic 推“宪法分类器”,可大幅降低 Claude 越狱率

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 京东云全面上线 DeepSeek-R1 V3 模型,支持公有云在线部署、专混私有化实例部署

下一篇: 国内首个:百度成功点亮昆仑芯三代万卡集群,还将点亮 3 万卡集群

标签:
  • 热门焦点
  • 元宇宙的文旅赛道,还能如何发力?

    来源:X增强现实苹果推出Vision Pro,为XR行业注入一剂强心针。而在苹果开发者大会上迪士尼CEO鲍勃·艾格在宣布迪士尼与苹果达成合作,其Disney+流媒体服务将于Vision Pro
  • 关于ChatGPT的10点思考

    作者:晏涛三寿近日ChatGPT又有大动作。5月19日,OpenAI在官网宣布正式发布App应用,并登录苹果应用商店。与网页版的聊天机器人相比,iOS应用程序的发布有望让更多人接触到ChatGPT
  • AIGC产品测评TOP25丨谁能抢到下个十年的“船票”?

    Tech星球(微信ID:tech618) 文 | 何煦阳策划 | 杨晓鹤封面来源 | 图虫创意 2016年,李彦宏站在百度联盟峰会的讲台上,向所有人宣布:互联网的下一幕是人工智能。同年,Google 旗下 Dee
  • 元宇宙风口下,视觉中国如何重估?

    要说横跨2021年和2022年,到目前仍然很火的概念,元宇宙肯定要算一个。不仅互联网巨头们纷纷布局,上市公司们趋之若鹜,还被不少地方政府写入了产业规划,大有在2022年
  • 如何对一款 NFT 项目进行价值评估?

    原文作者 | Othmane Senhaji Rhazi,Web 3 企业家.编译整理 | 黑米@白泽研究院我之所以成为一位大力倡导 Web3 和 NFT 领域的企业家,因为我相信我们正在见证社会
  • 在元宇宙开会是什么样一种体验

    空间就是一切还记得面对面的会议吗?就在不久前,与会者需要飞到遥远的目的地,并进行鼓舞人心的对话、网络、免费食物,甚至可能会有一两个很好的小组讨论。随之而来
  • 元宇宙需要的5个重要安全功能

    元宇宙的可能用途使其成为一个令人难以置信的概念,但是,就像科技界的任何事物一样,需要做一些事情来控制其使用。元宇宙的安全功能需要仔细考虑和开发,以保护用户
  • 王老吉启动元宇宙“吉空间”,HTC发布元宇宙应用VIVERSE

    今日《元宇宙新鲜事》有:王老吉启动元宇宙“吉空间”;HTC发布元宇宙应用VIVERSE;Meta将在马德里构建一个元宇宙创新中心;央视网《新闻+》推出系列视频《聊聊元宇宙
  • 新闻业在元宇宙的现状和未来

    “美联社有毛病吧,这真的过分了!”,一位媒体编辑在推特中愤怒地表示。这是针对一款视频NFT的批评言论之一,之后取消了此次销售,因为该视频呈现了移民穿越地中海的苦
Top