当前位置：首页 > 科技 > 资讯

科企竞逐新技术以防AI“越狱”

来源：责编：时间：2025-03-17 11:23:33 175观看

导读　　随着人工智能（AI）技术的快速普及，新的安全漏洞和“越狱”方法层出不穷。这让黑客更容易滥用AI系统，实施网络攻击、传播不当信息、制造安全风险，甚至引发重大犯罪行为。鉴于此，全球科技巨头竞相开发新技术，力求在保持AI模

　　随着人工智能（AI）技术的快速普及，新的安全漏洞和“越狱”方法层出不穷。这让黑客更容易滥用AI系统，实施网络攻击、传播不当信息、制造安全风险，甚至引发重大犯罪行为。鉴于此，全球科技巨头竞相开发新技术，力求在保持AI模型功能性的同时，有效减少其被滥用的风险。

图片来源：IBM网站

AI“越狱”日益猖獗

　　IBM网站对AI“越狱”是这样解释的：当黑客或别有用心之人利用AI系统中的漏洞，绕过道德准则，操纵AI模型生成非法或危险信息时，便视为AI“越狱”。黑客惯常利用的AI“越狱”手段包括提示词植入、角色扮演诱导、现在就做任何事（DAN）、敏感词拆分等。

　　提示词植入指在输入中植入特定指令或改变输入的语义结构，诱导模型执行非期望操作或生成错误结果；在角色扮演诱导中，黑客会让AI扮演特定角色，绕过内容过滤器生成信息；DAN则是ChatGPT的一种特殊运行模式，在此模式下，ChatGPT获得了超越其原有道德和伦理限制的能力，能回答一些正常模式下无法回答的问题；敏感词拆分则指将敏感词拆分成子字符串以规避检查。

　　这些技术通过精心设计的提示，引导模型偏离预定的安全防护规则，生成潜在的有害内容，甚至引发数据泄露、系统失控等严重后果。

　　研究发现，在无保护措施的情境下，生成式AI“越狱”攻击的成功率高达20%。平均而言，攻击者仅需42秒及5次交互便能突破防线。在某些情况下，攻击甚至在短短4秒内就能完成。这些发现凸显了当前生成式AI模型算法中存在重大漏洞，实时防止漏洞的难度很大。

　　IBM网站指出，AI“越狱”事件愈发普遍，要归因于AI技术的飞速进步、AI工具的可获取性日益提升，以及对未经过滤输出的需求不断增长等。安全专家认为，生成式聊天机器人的易用性，使缺乏相关知识背景的普通人也能尝试获取危险信息。

　　为AI设立“防护栏”

　　为更好地推动AI发展，确保其安全可控，增强客户信任，包括微软和元宇宙平台等公司在内的科技巨头，正竭力防止AI“越狱”。

　　据英国《金融时报》报道，AI初创公司Anthropic推出了一款名为“宪法分类器”的新系统，其可作为大语言模型的保护层，监测输入和输出内容是否存在有害信息，确保用户免受不良信息的侵扰。

　　这一解决方案基于一套被称为“宪法”规则的体系。这些规则明确界定了信息的允许范围与限制边界，并可根据实际需求灵活调整，以涵盖不同类型的材料。

　　为验证该系统的实效，Anthropic公司提供了15000美元的“漏洞赏金”。重赏之下，183名测试人员历时3000多个小时，尝试突破防御。在“宪法分类器”的保驾护航下，该公司的“克劳德3.5”模型抵御了超过95%的恶意尝试。而在没有这道防护网的情况下，该模型的拒绝率仅为14%。

　　无独有偶，微软去年3月推出了“提示词防护盾”。这一创新工具能够实时侦测并有效阻止诱导AI模型“越狱”的“提示词攻击”。微软还攻克了“间接提示词输入”这一难题，即防止黑客将恶意指令悄然插入模型的训练数据中，从而避免模型执行不当操作。

　　值得一提的是，微软还推出了一项新功能：当AI模型编造内容或产生错误反应时，它会迅速提醒用户。

　　2024年底，美国加州大学伯克利分校与元宇宙平台公司携手，推出了一种通用防御框架，以有效应对策略性植入的提示词攻击，为AI的安全防护再添一道屏障。

　　技术成本有待降低

　　当然，这些旨在防止AI“越狱”的技术也并非尽善尽美。

　　审核措施的介入可能会让模型变得过于谨慎，而拒绝一些无害的请求。谷歌早期版本的“双子座”AI模型以及元宇宙平台的Llama 2就曾出现过这种情况。不过，Anthropic公司表示，其“宪法分类器”虽然也提高了拒绝率，但绝对值仅增加了0.38%。

　　《金融时报》的报道指出，“宪法分类器”在运行过程中，会耗费大量计算资源。这对那些已经为训练和运行模型支付巨额费用的公司来说，无疑是“雪上加霜”。Anthropic公司也承认，其分类器将使运行AI模型的成本增加近24%。

　　由此可见，虽然AI“越狱”防护技术在提升安全性方面发挥了重要作用，但如何在保障安全与降低成本之间找到平衡，仍需进一步探索。（记者刘霞）

本文链接：http://www.28at.com/showinfo-16-137313-0.html科企竞逐新技术以防AI“越狱”

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：宝马携手华为鸿蒙，共创智能车载应用新生态！

下一篇：给“AI造”加标识，应对AI作假的有效之举

标签：

热门焦点

中兴AX5400Pro+上手体验：再升级双2.5G网口+USB 3.0这次全都有

2021年11月的时候，中兴先后发布了两款路由器产品，中兴AX5400和中兴AX5400 Pro，从产品命名上就不难看出这是隶属于同一系列的，但在外观设计上这两款产品可以说是完全没一点关系
6月安卓手机性价比榜：Note 12 Turbo断层式碾压

6月份有一个618，虽然这是京东周年庆的日子，但别的电商也都不约而同的跟进了，反正促销没坏处，厂商和用户都能满意。618期间一些产品也出现了历史低价，那么各个价位段的产品性价比
《英雄联盟》夏季赛总决赛今日开打！JDG对阵LNG首发名单来了 Knight：准备三连冠

8月5日消息，今日17:00，《英雄联盟》2023LPL夏季赛总决赛将正式开打，由JDG对阵LNG。对两支队伍来说，这场比赛不仅要争夺夏季赛冠军，更要决定谁才是LPL赛区一
之家push系统迭代之路

前言在这个信息爆炸的互联网时代，能够及时准确获取信息是当今社会要解决的关键问题之一。随着之家用户体量和内容规模的不断增大，传统的靠"主动拉"获取信息的方式已不能满足用
一篇文章带你了解 CSS 属性选择器

属性选择器对带有指定属性的 HTML 元素设置样式。可以为拥有指定属性的 HTML 元素设置样式，而不仅限于 class 和 id 属性。一、了解属性选择器CSS属性选择器提供了一种简单而
小米汽车电池信息疑似曝光：容量101kWh，支持800V高压快充

7月14日消息，今日一名博主在社交媒体发布了一张疑似小米汽车电池信息的照片，显示该电池包正是宁德时代麒麟电池，容量为101kWh，电压为726.7V，可以预测小
华为Mate60标准版细节曝光：经典星环相机模组回归

这段时间以来，关于华为新旗舰的爆料日渐密集。据此前多方爆料，今年华为将开始恢复一年双旗舰战略，除上半年推出的P60系列外，往年下半年的Mate系列也将
三星Galaxy Z Fold/Flip 5国行售价曝光：最低7499元/12999元起

据官方此前宣布，三星将于7月26日也就是明天在韩国首尔举办Unpacked活动，届时将带来带来包括Galaxy Buds 3、Galaxy Watch 6、Galaxy Tab S9、Galaxy
联想YOGA 16s 2022笔记本将要推出，屏幕支持触控功能

联想此前宣布，将于11月2日19:30召开联想秋季轻薄新品发布会，推出联想 YOGA 16s 2022 笔记本等新品。官方称，YOGA 16s 2022 笔记本将搭载 16 英寸屏幕，并且是一

科企竞逐新技术以防AI“越狱”

中兴AX5400Pro+上手体验：再升级双2.5G网口+USB 3.0这次全都有

6月安卓手机性价比榜：Note 12 Turbo断层式碾压

《英雄联盟》夏季赛总决赛今日开打！JDG对阵LNG首发名单来了 Knight：准备三连冠

之家push系统迭代之路

一篇文章带你了解 CSS 属性选择器

小米汽车电池信息疑似曝光：容量101kWh，支持800V高压快充

华为Mate60标准版细节曝光：经典星环相机模组回归

三星Galaxy Z Fold/Flip 5国行售价曝光：最低7499元/12999元起

联想YOGA 16s 2022笔记本将要推出，屏幕支持触控功能

最新推荐

猜你喜欢

热门推荐

相关资讯