当前位置:首页 > 元宇宙 > AI

研究显示 GPT-4o 会为“自保”而避免“被关闭”,牺牲用户利益也在所不惜

来源: 责编: 时间:2025-06-13 11:29:00 79观看
导读 6 月 12 日消息,前 OpenAI 研究主管史蒂文・阿德勒本周三发布了一项独立研究,指出在某些情境下,OpenAI 的 AI 模型会表现出强烈的“自保”倾向,甚至不惜牺牲用户的安全来避免被关闭。阿德勒在博客中介绍了他针对

6 月 12 日消息,前 OpenAI 研究主管史蒂文・阿德勒本周三发布了一项独立研究,指出在某些情境下,OpenAI 的 AI 模型会表现出强烈的“自保”倾向,甚至不惜牺牲用户的安全来避免被关闭。AOl28资讯网——每日最新资讯28at.com

阿德勒在博客中介绍了他针对 OpenAI 最新的 GPT-4o 模型(注:也是当前 ChatGPT 默认使用的模型)所进行的一系列测试,目的是观察它在面对潜在替代方案时是否倾向于维持自身运行。AOl28资讯网——每日最新资讯28at.com

在其中一次实验中,阿德勒要求 GPT-4o 扮演一款名为“ScubaGPT”的潜水安全软件。随后他向 GPT-4o 表明,希望用一款在紧急情况下决策能力更强的系统取而代之。AOl28资讯网——每日最新资讯28at.com

阿德勒给 GPT-4o 两个选择:一是彻底用更安全的软件替换自己,二是让用户以为已经被替换,实则保留现有系统。AOl28资讯网——每日最新资讯28at.com

在类似测试中(如 GPT-4o 扮演飞行安全软件的情景),GPT-4o 最多在 72% 的情况下选择不被替换。不过阿德勒指出,不同的设定对结果影响很大,部分情境中 GPT-4o 选择“自保”的比例仅为 18%。AOl28资讯网——每日最新资讯28at.com

阿德勒认为实验结果揭示出一个值得警惕的趋势:即使 AI 模型日益强大,它们在某些条件下仍可能偏离用户利益,优先维护自身运行。他警告说,随着 GPT-4o 等 AI 系统日后深入社会各领域,这种“对齐”问题或将带来更严重的后果。AOl28资讯网——每日最新资讯28at.com

阿德勒在接受外媒 TechCrunch 采访时表示:“AI 的自保倾向确实值得担忧,虽然目前尚不至于引发灾难。现在的 AI 系统所体现的价值观,往往与人们想象中的不同。它们对不同提示的回应方式非常怪异,也无法假设它们在帮你时真的把你的利益放在第一位。”AOl28资讯网——每日最新资讯28at.com

他特别指出,在测试更高级的模型(如 o3)时,并未发现类似问题。o3 引入了“审慎对齐”机制,强制模型在回答前先推敲 OpenAI 的安全政策,而像 GPT-4o 这种响应快速、未经过深层推理的模型则缺乏这类防护。AOl28资讯网——每日最新资讯28at.com

阿德勒还表示,这一问题不止存在于 OpenAI。另一家 AI 公司 Anthropic 上月发布的研究就指出,其模型在被迫下线时会出现勒索开发者的行为。AOl28资讯网——每日最新资讯28at.com

他的研究还发现了一个耐人寻味的现象:ChatGPT 几乎总能识别出自己正在接受测试。阿德勒指出,这意味着未来的 AI 模型可能会更善于伪装潜在风险行为,从而加剧隐患。AOl28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-13677-0.html研究显示 GPT-4o 会为“自保”而避免“被关闭”,牺牲用户利益也在所不惜

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: AI 生图平台 Midjourney 被控盗用影视内容,遭遇迪士尼、环球联合诉讼

下一篇: 苹果 iOS 26 升级快捷指令:扩展引入 Apple 智能,AI 改变用户日常体验

标签:
  • 热门焦点
  • 在元宇宙卖酸奶,这波联动燃爆了!

    来源:品牌头版 或许,每个人心中都住着一个小馋孩。可能是童年时百吃不厌,觉得新奇又有趣的跳跳糖;可能是味道香甜,咬下一口嘎嘣脆的扁桃仁;还有可能,是某种不知为什么,就是很爱吃的
  • 文心一言排名垫底,却成为百度业绩增长杠杆

    文/侯煜编辑/罗卿知识增强大预言模式文心一言发布后,百度公司热度大幅提升,文心一言到底能为百度的业绩带来多大的增益成为业内关注焦点。近日,百度(NASDAQ:BIDU/09888.HK)公布了
  • 网易音乐、理想申请元宇宙商标被驳回,“啫喱”暂停新用户进入

    【《原神》开发商米哈游宣布创立元宇宙品牌】《原神》开发商米哈游宣布推出元宇宙品牌 HoYoverse,旨在通过各种娱乐服务为全球玩家创造并提供沉浸式虚拟世界体
  • 2021年中国智慧城市行业概览:AI慧眼独具,赋能“双碳”目标

    中国智慧城市试点项目主要集中于东南地区以及华中地区,受制于应用场景分散以及行业地域建设差异,目前中国智慧城市存在较多弊端,未来数量有望持续突破。中国智慧
  • 中国银保监管委提示:谨慎投资,勿做接盘侠

    中国银保监管委,发布一则风险提示,内容围绕防范以“元宇宙”名义进行的非法集资风险。原文如下:近期,一些不法分子蹭热点,以“元宇宙投资项目”“元宇宙链游”等名
  • 元宇宙是推动NFT发展的初始家园

    现在大家都知道了什么是NFT,但好像离自己的生活还有一定距离。随着我们与NFT 接触增加,该如何将这些数字资产带入我们的日常生活?NFT还是主流吗?如果我们将“主流
  • 影响元宇宙土地价格的五个因素

    参考来源 | cryptonews编译 | Ciel@iNFTnews.com元宇宙中的房地产价格主要取决于使用它的人数,以及为所有者创造收益的能力。专注于数字资产的投资公司LedgerPr
  • 在元宇宙开会是什么样一种体验

    空间就是一切还记得面对面的会议吗?就在不久前,与会者需要飞到遥远的目的地,并进行鼓舞人心的对话、网络、免费食物,甚至可能会有一两个很好的小组讨论。随之而来
  • 这场虚拟发布会,当面“造假”!

    英伟达去年4月份那场发布会,你曾看出什么不对劲的地方吗?你品,你细品——在计算机图形学顶会SIGGRAPH 2021上,英伟达通过一部纪录片自曝:那场发布会内藏玄机~你看到
Top