当前位置：首页 > 科技 > 资讯

科企竞逐新技术以防AI“越狱”

来源：责编：时间：2025-03-17 11:23:33 172观看

导读　　随着人工智能（AI）技术的快速普及，新的安全漏洞和“越狱”方法层出不穷。这让黑客更容易滥用AI系统，实施网络攻击、传播不当信息、制造安全风险，甚至引发重大犯罪行为。鉴于此，全球科技巨头竞相开发新技术，力求在保持AI模

　　随着人工智能（AI）技术的快速普及，新的安全漏洞和“越狱”方法层出不穷。这让黑客更容易滥用AI系统，实施网络攻击、传播不当信息、制造安全风险，甚至引发重大犯罪行为。鉴于此，全球科技巨头竞相开发新技术，力求在保持AI模型功能性的同时，有效减少其被滥用的风险。

图片来源：IBM网站

AI“越狱”日益猖獗

　　IBM网站对AI“越狱”是这样解释的：当黑客或别有用心之人利用AI系统中的漏洞，绕过道德准则，操纵AI模型生成非法或危险信息时，便视为AI“越狱”。黑客惯常利用的AI“越狱”手段包括提示词植入、角色扮演诱导、现在就做任何事（DAN）、敏感词拆分等。

　　提示词植入指在输入中植入特定指令或改变输入的语义结构，诱导模型执行非期望操作或生成错误结果；在角色扮演诱导中，黑客会让AI扮演特定角色，绕过内容过滤器生成信息；DAN则是ChatGPT的一种特殊运行模式，在此模式下，ChatGPT获得了超越其原有道德和伦理限制的能力，能回答一些正常模式下无法回答的问题；敏感词拆分则指将敏感词拆分成子字符串以规避检查。

　　这些技术通过精心设计的提示，引导模型偏离预定的安全防护规则，生成潜在的有害内容，甚至引发数据泄露、系统失控等严重后果。

　　研究发现，在无保护措施的情境下，生成式AI“越狱”攻击的成功率高达20%。平均而言，攻击者仅需42秒及5次交互便能突破防线。在某些情况下，攻击甚至在短短4秒内就能完成。这些发现凸显了当前生成式AI模型算法中存在重大漏洞，实时防止漏洞的难度很大。

　　IBM网站指出，AI“越狱”事件愈发普遍，要归因于AI技术的飞速进步、AI工具的可获取性日益提升，以及对未经过滤输出的需求不断增长等。安全专家认为，生成式聊天机器人的易用性，使缺乏相关知识背景的普通人也能尝试获取危险信息。

　　为AI设立“防护栏”

　　为更好地推动AI发展，确保其安全可控，增强客户信任，包括微软和元宇宙平台等公司在内的科技巨头，正竭力防止AI“越狱”。

　　据英国《金融时报》报道，AI初创公司Anthropic推出了一款名为“宪法分类器”的新系统，其可作为大语言模型的保护层，监测输入和输出内容是否存在有害信息，确保用户免受不良信息的侵扰。

　　这一解决方案基于一套被称为“宪法”规则的体系。这些规则明确界定了信息的允许范围与限制边界，并可根据实际需求灵活调整，以涵盖不同类型的材料。

　　为验证该系统的实效，Anthropic公司提供了15000美元的“漏洞赏金”。重赏之下，183名测试人员历时3000多个小时，尝试突破防御。在“宪法分类器”的保驾护航下，该公司的“克劳德3.5”模型抵御了超过95%的恶意尝试。而在没有这道防护网的情况下，该模型的拒绝率仅为14%。

　　无独有偶，微软去年3月推出了“提示词防护盾”。这一创新工具能够实时侦测并有效阻止诱导AI模型“越狱”的“提示词攻击”。微软还攻克了“间接提示词输入”这一难题，即防止黑客将恶意指令悄然插入模型的训练数据中，从而避免模型执行不当操作。

　　值得一提的是，微软还推出了一项新功能：当AI模型编造内容或产生错误反应时，它会迅速提醒用户。

　　2024年底，美国加州大学伯克利分校与元宇宙平台公司携手，推出了一种通用防御框架，以有效应对策略性植入的提示词攻击，为AI的安全防护再添一道屏障。

　　技术成本有待降低

　　当然，这些旨在防止AI“越狱”的技术也并非尽善尽美。

　　审核措施的介入可能会让模型变得过于谨慎，而拒绝一些无害的请求。谷歌早期版本的“双子座”AI模型以及元宇宙平台的Llama 2就曾出现过这种情况。不过，Anthropic公司表示，其“宪法分类器”虽然也提高了拒绝率，但绝对值仅增加了0.38%。

　　《金融时报》的报道指出，“宪法分类器”在运行过程中，会耗费大量计算资源。这对那些已经为训练和运行模型支付巨额费用的公司来说，无疑是“雪上加霜”。Anthropic公司也承认，其分类器将使运行AI模型的成本增加近24%。

　　由此可见，虽然AI“越狱”防护技术在提升安全性方面发挥了重要作用，但如何在保障安全与降低成本之间找到平衡，仍需进一步探索。（记者刘霞）

本文链接：http://www.28at.com/showinfo-16-137313-0.html科企竞逐新技术以防AI“越狱”

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：宝马携手华为鸿蒙，共创智能车载应用新生态！

下一篇：给“AI造”加标识，应对AI作假的有效之举

标签：

热门焦点

Find N3入网：最高支持16+1TB

OPPO将于近期登场的Find N3折叠屏目前已经正式入网，型号为PHN110。本次Find N3在外观方面相比前两代有很大的变化，不再是小号的横向折叠屏，而是跟别的厂商一样采用了较为常见的
一加Ace2 Pro真机揭晓钛空灰配色质感拉满

终于，在经过了几波预热之后，一加Ace2 Pro的外观真机图在网上出现了。还是博主数码闲聊站曝光的，这次的外观设计还是延续了一加11的方案，只是细节上有了调整，例如新加入了钛空灰
5月安卓手机好评榜：魅族20 Pro夺冠

性能榜和性价比榜之后，我们来看最后的安卓手机好评榜，数据来源安兔兔评测，收集时间2023年5月1日至5月31日，仅限国内市场。第一名：魅族20 Pro好评率：97.50%不得不感慨魅族老品牌还
线程通讯的三种方法！通俗易懂

线程通信是指多个线程之间通过某种机制进行协调和交互，例如，线程等待和通知机制就是线程通讯的主要手段之一。在 Java 中，线程等待和通知的实现手段有以下几种方式：Object 类下
谷歌KDD'23工作：如何提升推荐系统Ranking模型训练稳定性

谷歌在KDD 2023发表了一篇工作，探索了推荐系统ranking模型的训练稳定性问题，分析了造成训练稳定性存在问题的潜在原因，以及现有的一些提升模型稳定性方法的不足，并提出了一种新
华为和江淮汽车合作开发百万元问界MPV？双方回应来了

8月1日消息，郭明錤今天在社交平台发文称，华为正在和江淮汽车合作，开发售价在100万元的问界MPV，预计在2024年第2季度量产，销量目标为上市首年交付5万辆。
超闭合精工铰链彻底消灭缝隙三星Galaxy Z Flip5与Galaxy Z Fold5发布

2023年7月26日，三星电子正式发布了Galaxy Z Flip5与Galaxy Z Fold5。三星新一代折叠屏手机采用超闭合精工铰链，让折叠后的缝隙不再可见。同时，配合处
苹果MacBook Pro 2021测试：仍不支持平滑滚动

据10月30日9to5 Mac 消息报道，苹果新的 14 英寸和 16 英寸 MacBook Pro 2021 上市后获得了不错的评价，亮点包括行业领先的性能，令人印象深刻的电池续航，精美丰
世界人工智能大会国际日开幕式活动在世博展览馆开启

30日上午，世界人工智能大会国际日开幕式活动在世博展览馆开启，聚集国际城市代表、重量级院士专家、国际创新企业代表，共同打造人工智能交流平台。上海市副市

科企竞逐新技术以防AI“越狱”

Find N3入网：最高支持16+1TB

一加Ace2 Pro真机揭晓钛空灰配色质感拉满

5月安卓手机好评榜：魅族20 Pro夺冠

线程通讯的三种方法！通俗易懂

谷歌KDD'23工作：如何提升推荐系统Ranking模型训练稳定性

华为和江淮汽车合作开发百万元问界MPV？双方回应来了

超闭合精工铰链彻底消灭缝隙三星Galaxy Z Flip5与Galaxy Z Fold5发布

苹果MacBook Pro 2021测试：仍不支持平滑滚动

世界人工智能大会国际日开幕式活动在世博展览馆开启

最新推荐

猜你喜欢

热门推荐

相关资讯