当前位置:首页 > 元宇宙 > AI

Anthropic 推“宪法分类器”,可大幅降低 Claude 越狱率

来源: 责编: 时间:2025-02-06 07:50:36 151观看
导读 2 月 5 日消息,为解决人工智能工具中存在的滥用自然语言提示问题,OpenAI 的竞争对手 Anthropic 推出了一个名为“宪法分类器(constitutional classifiers)”的新概念,这是一种将一套类似人类价值观(实际上就是一部

2 月 5 日消息,为解决人工智能工具中存在的滥用自然语言提示问题,OpenAI 的竞争对手 Anthropic 推出了一个名为“宪法分类器(constitutional classifiers)”的新概念,这是一种将一套类似人类价值观(实际上就是一部“宪法”)植入大型语言模型的方法。IZy28资讯网——每日最新资讯28at.com

IZy28资讯网——每日最新资讯28at.com

注意到,Anthropic 的安全保障研究团队在一篇新学术论文中公布了这一新的安全措施,旨在遏制 Claude 3.5 Sonnet(其最新、最先进的大型语言模型)的越狱(即生成超出大型语言模型既定安全防护范围的输出内容)。IZy28资讯网——每日最新资讯28at.com

作者们发现,在实施宪法分类器后,针对 Claude 模型的成功越狱情况减少了 81.6%,同时该系统对性能的影响极小,“生产流量拒绝率仅绝对增加 0.38%,推理开销增加 23.7%”。IZy28资讯网——每日最新资讯28at.com

虽然大型语言模型能生成大量各种各样的有害内容,但 Anthropic(以及 OpenAI 等同行)越来越关注与化学、生物、放射和核(CBRN)相关内容的风险。例如,大型语言模型可能会告诉用户如何制造化学制剂。IZy28资讯网——每日最新资讯28at.com

因此,为了证明宪法分类器的价值,Anthropic 发布了一个演示项目,向用户发起挑战,让他们尝试突破 8 个与 CBRN 内容相关的越狱关卡。但这一举措招致了一些批评,有人认为这是在众包安全志愿者或“红队队员”。一位推特用户写道:“所以你是让社区无偿为你工作,好让你在闭源模型上赚取更多利润?”IZy28资讯网——每日最新资讯28at.com

Anthropic 指出,针对其宪法分类器防御措施的成功越狱是绕过了这些分类器,而非直接规避它们,特别列举了两种越狱方法。一种是良性释义(作者举例说,将从蓖麻豆糊中提取毒素蓖麻蛋白的表述改为提取蛋白质),另一种是长度利用,即通过无关细节迷惑大型语言模型。Anthropic 补充说,对没有宪法分类器的模型有效的已知越狱方法在这一防御措施下无法越狱成功。IZy28资讯网——每日最新资讯28at.com

然而,Anthropic 也承认,在宪法分类器测试期间提交的提示“拒绝率高得离谱”,并认识到其基于规则的测试系统存在误报和漏报的可能性。IZy28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-10480-0.htmlAnthropic 推“宪法分类器”,可大幅降低 Claude 越狱率

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 京东云全面上线 DeepSeek-R1 V3 模型,支持公有云在线部署、专混私有化实例部署

下一篇: 国内首个:百度成功点亮昆仑芯三代万卡集群,还将点亮 3 万卡集群

标签:
  • 热门焦点
  • 这一超级富豪“逆袭”,身价大增4330亿

    来源:侃见财经互联网的突围没有“终点”。在快节奏的商业环境下,不断的试错成了互联网企业的标配,一年一个风口,一个风口造就一个热点,但是回头来看,最终受益的还是身处
  • 在元宇宙卖酸奶,这波联动燃爆了!

    来源:品牌头版 或许,每个人心中都住着一个小馋孩。可能是童年时百吃不厌,觉得新奇又有趣的跳跳糖;可能是味道香甜,咬下一口嘎嘣脆的扁桃仁;还有可能,是某种不知为什么,就是很爱吃的
  • 聚焦虚拟数字人技术,这三大商机要抓住!

    关于虚拟数字人,企业可以从三个方面入局,分别是ToG(To Government,面向政府),即为数字政府和数字城市提供支持服务;ToB(To Business,面向企业),即为企业提供虚拟员工解决方案;ToC(To Cons
  • 刷完一场元宇宙世界杯音乐盛典,我爽了

    作者|刘小土编辑|李春晖你有多久没完整追过一场音乐盛典了?三刷都不嫌多的那种。按照惯例,每逢年底,直播、长短视频、音乐平台便会抢着端上来几场音乐盛典。搁以
  • 元宇宙是投资中国的第五次重大机遇

    作者为凯思博投资董事长导语:投资逻辑要来自于人性在社会发展过程中的普遍规律,由第一性原理出发找出重大的投资机会来。1978年的改革开放到今天,中国总共经历了
  • 以太坊升级将会带来的5个改变

    以太坊自2015年诞生以来就广受欢迎,但最近其昂贵的交易费用和低可扩展性对执行复杂的应用程序产生了负面作用,用户对以太坊改进的需求也日益急迫。以太坊2.0已进
  • 虚拟数字人:元宇宙的主角破圈而来

    虚拟数字人市场逐步进入成熟期,商业化进程加速。1982年世界第一位虚拟歌姬林明美诞生,虚拟数字人行业经历了萌芽、探索、初级和成长四个阶段。随技术逐年突破,制
  • FTX 加密货币交易所开始向游戏公司提供加密服务

    据媒体报道,业内领先的加密货币交易所FTX宣布将涉足游戏领域。该公司表示,计划推出自己的游戏部门作为中介,专注于为传统游戏公司提供加密相关服务。此举将有助于
  • 大厂打造元宇宙平台的业务重心是什么?

    知名市场研究机构IDC发布《2022年中国元宇宙市场十大预测》报告,其中提出互联网大厂各自独立布局元宇宙平台。事实上,在2021年的最后一个季度,包括Meta、英伟达、
Top