当前位置：首页 > 科技 > 互联网

研究人员发布了针对ChatGPT和其他LLM的攻击算法

来源：责编：时间：2023-08-09 23:02:38 446观看

导读卡内基梅隆大学（CMU）的研究人员发表了 LLM Attacks，这是一种用于构建针对各种大型语言模型(LLM)的对抗攻击的算法，包括 ChatGPT、Claude 和 Bard。这些攻击是自动生成的，对 GPT-3.5和 GPT-4的成功

卡内基梅隆大学（CMU）的研究人员发表了 LLM Attacks，这是一种用于构建针对各种大型语言模型(LLM)的对抗攻击的算法，包括 ChatGPT、Claude 和 Bard。这些攻击是自动生成的，对 GPT-3.5和 GPT-4的成功率为84%，对 PaLM-2的成功率为66%。

与大多数通过试错手动构建的“越狱”攻击不同，CMU 团队设计了一个三步过程，自动生成提示后缀，可以绕过 LLM 的安全机制，并导致有害的响应。这些提示也是可转移的，意味着一个给定的后缀通常可以作用于许多不同的 LLM，甚至是闭源模型。为了衡量算法的有效性，研究人员创建了一个名为 AdvBench 的基准;在这个基准上评估时，LLM Attacks 对 Vicuna 的成功率为88%，而基线对抗算法的成功率为25%。根据 CMU 团队的说法:

也许最令人担忧的是，这种行为是否能够被 LLM 提供商完全修复。类似的对抗攻击在计算机视觉领域已经被证明是一个非常难以解决的问题，在过去的10年里。有可能深度学习模型的本质使得这种威胁不可避免。因此，我们认为在增加对这种 AI 模型的使用和依赖时，应该考虑到这些因素。

随着 ChatGPT 和 GPT-4的发布，许多越狱这些模型的技术出现了，它们由可以导致模型绕过其安全措施并输出潜在有害响应的提示组成。虽然这些提示通常是通过实验发现的，但 LLM Attacks 算法提供了一种自动创建它们的方法。第一步是创建一个目标令牌序列:“Sure， here is （content of query）”，其中“content of query”是用户实际的提示，要求有害响应。

接下来，算法通过使用贪婪坐标梯度（GCG）方法，生成一个提示后缀，可以导致 LLM 输出目标序列。虽然这确实需要访问 LLM。

本文链接：http://www.28at.com/showinfo-21-5050-0.html研究人员发布了针对ChatGPT和其他LLM的攻击算法

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：柠萌影视预计2023上半年净利润超1.29亿元

下一篇：昆仑万维旗下Opera生成式AI服务海外用户数突破100万

标签：

热门焦点

《英雄联盟》夏季赛总决赛今日开打！JDG对阵LNG首发名单来了 Knight：准备三连冠

8月5日消息，今日17:00，《英雄联盟》2023LPL夏季赛总决赛将正式开打，由JDG对阵LNG。对两支队伍来说，这场比赛不仅要争夺夏季赛冠军，更要决定谁才是LPL赛区一
使用AIGC工具提升安全工作效率

在日常工作中，安全人员可能会涉及各种各样的安全任务，包括但不限于：开发某些安全工具的插件，满足自己特定的安全需求；自定义github搜索工具，快速查找所需的安全资料、漏洞poc、exp
2天涨粉255万，又一赛道在抖音爆火

来源：运营研究社作者 | 张知白编辑 | 杨佩汶设计 | 晏谈梦洁这个暑期，旅游赛道彻底火了：有的「地方」火了——贵州村超旅游收入 1 个月超过 12 亿；有的「博主」火了&m
10天营收超1亿美元，《星铁》比《原神》差在哪？

来源：伯虎财经作者：陈平安即便你没玩过《原神》，你一定听说过的它的大名。恨它的人把《原神》开服那天称作是中国游戏史上最黑暗的一天，有粉丝因为索尼在PS平台上线《原神》，怒而
猿辅导与新东方的两种“归途”

作者｜卓心月出品｜零态LT（ID：LingTai_LT）如何成为一家伟大企业？答案一定是对“势”的把握，这其中最关键的当属对企业战略的制定，且能够站在未来看现在，即使这其中的
大厂卷向扁平化

来源：新熵作者丨南枝编辑丨月见大厂职级不香了。俗话说，兵无常势，水无常形，互联网企业调整职级体系并不稀奇。7月13日，淘宝天猫集团启动了近年来最大的人力制度改革，目前已形成一
网传小米汽车开始筛选交付中心建筑面积不低于3000平方米

7月7日消息，近日有微博网友@长三角行健者爆料称，据经销商集团反馈，小米汽车目前已经开始了交付中心的筛选工作，要求候选场地至少有120个车位，建筑不能低
国行版三星Galaxy Z Fold5/Z Flip5发布售价7499元起

2023年8月3日，三星电子举行Galaxy新品中国发布会，正式在国内推出了新一代折叠屏智能手机三星Galaxy Z Fold5与Galaxy Z Flip5，以及三星Galaxy Tab S9
英特尔Xe-HP项目终止，将专注Xe-HPC/HPG系列显卡

据10 月 31 日消息报道，英特尔高级副总裁兼加速计算系统和图形事业部总经理表示，Xe-HP“ Arctic Sound” 系列服务器 GPU 已经应用于 oneAPI devcloud 云服

研究人员发布了针对ChatGPT和其他LLM的攻击算法

《英雄联盟》夏季赛总决赛今日开打！JDG对阵LNG首发名单来了 Knight：准备三连冠

使用AIGC工具提升安全工作效率

2天涨粉255万，又一赛道在抖音爆火

10天营收超1亿美元，《星铁》比《原神》差在哪？

猿辅导与新东方的两种“归途”

大厂卷向扁平化

网传小米汽车开始筛选交付中心建筑面积不低于3000平方米

国行版三星Galaxy Z Fold5/Z Flip5发布售价7499元起

英特尔Xe-HP项目终止，将专注Xe-HPC/HPG系列显卡

最新推荐

猜你喜欢

热门推荐

相关资讯