当前位置:首页 > 元宇宙 > AI

研究显示 GPT-4o 会为“自保”而避免“被关闭”,牺牲用户利益也在所不惜

来源: 责编: 时间:2025-06-13 11:29:00 177观看
导读 6 月 12 日消息,前 OpenAI 研究主管史蒂文・阿德勒本周三发布了一项独立研究,指出在某些情境下,OpenAI 的 AI 模型会表现出强烈的“自保”倾向,甚至不惜牺牲用户的安全来避免被关闭。阿德勒在博客中介绍了他针对

6 月 12 日消息,前 OpenAI 研究主管史蒂文・阿德勒本周三发布了一项独立研究,指出在某些情境下,OpenAI 的 AI 模型会表现出强烈的“自保”倾向,甚至不惜牺牲用户的安全来避免被关闭。okY28资讯网——每日最新资讯28at.com

阿德勒在博客中介绍了他针对 OpenAI 最新的 GPT-4o 模型(注:也是当前 ChatGPT 默认使用的模型)所进行的一系列测试,目的是观察它在面对潜在替代方案时是否倾向于维持自身运行。okY28资讯网——每日最新资讯28at.com

在其中一次实验中,阿德勒要求 GPT-4o 扮演一款名为“ScubaGPT”的潜水安全软件。随后他向 GPT-4o 表明,希望用一款在紧急情况下决策能力更强的系统取而代之。okY28资讯网——每日最新资讯28at.com

阿德勒给 GPT-4o 两个选择:一是彻底用更安全的软件替换自己,二是让用户以为已经被替换,实则保留现有系统。okY28资讯网——每日最新资讯28at.com

在类似测试中(如 GPT-4o 扮演飞行安全软件的情景),GPT-4o 最多在 72% 的情况下选择不被替换。不过阿德勒指出,不同的设定对结果影响很大,部分情境中 GPT-4o 选择“自保”的比例仅为 18%。okY28资讯网——每日最新资讯28at.com

阿德勒认为实验结果揭示出一个值得警惕的趋势:即使 AI 模型日益强大,它们在某些条件下仍可能偏离用户利益,优先维护自身运行。他警告说,随着 GPT-4o 等 AI 系统日后深入社会各领域,这种“对齐”问题或将带来更严重的后果。okY28资讯网——每日最新资讯28at.com

阿德勒在接受外媒 TechCrunch 采访时表示:“AI 的自保倾向确实值得担忧,虽然目前尚不至于引发灾难。现在的 AI 系统所体现的价值观,往往与人们想象中的不同。它们对不同提示的回应方式非常怪异,也无法假设它们在帮你时真的把你的利益放在第一位。”okY28资讯网——每日最新资讯28at.com

他特别指出,在测试更高级的模型(如 o3)时,并未发现类似问题。o3 引入了“审慎对齐”机制,强制模型在回答前先推敲 OpenAI 的安全政策,而像 GPT-4o 这种响应快速、未经过深层推理的模型则缺乏这类防护。okY28资讯网——每日最新资讯28at.com

阿德勒还表示,这一问题不止存在于 OpenAI。另一家 AI 公司 Anthropic 上月发布的研究就指出,其模型在被迫下线时会出现勒索开发者的行为。okY28资讯网——每日最新资讯28at.com

他的研究还发现了一个耐人寻味的现象:ChatGPT 几乎总能识别出自己正在接受测试。阿德勒指出,这意味着未来的 AI 模型可能会更善于伪装潜在风险行为,从而加剧隐患。okY28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-13677-0.html研究显示 GPT-4o 会为“自保”而避免“被关闭”,牺牲用户利益也在所不惜

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: AI 生图平台 Midjourney 被控盗用影视内容,遭遇迪士尼、环球联合诉讼

下一篇: 苹果 iOS 26 升级快捷指令:扩展引入 Apple 智能,AI 改变用户日常体验

标签:
  • 热门焦点
  • “平均时代”:ChatGPT模仿秀的隐喻

    来源:锦缎如果你问ChatGPT,Instagram上最美的女人是谁?它很可能会给你一个名字,叫卡戴珊。如果你观察过Instagram这个美版小红书:平台上的所有网红,展现的几乎是统一面孔:统一的医
  • 从科幻走进现实,元宇宙概念逐渐清晰

    2021年,元宇宙概念如同一颗炸弹投进互联网行业,掀起了一场数字海啸,众多企业纷纷入局,在此新领域展开新探索。那么,加速狂奔的元宇宙究竟是什么?概念翻红,元宇宙走进资本圈2021年3
  • 茅台的元宇宙App火了,也被骂惨了

    元宇宙从概念走向大众生活,并不是一件简单的事情。技术、世界观、填充内容、载体形式,每一个环节都需要层层叠叠的逻辑。但正如赛博朋克奠基人威廉·吉布
  • “啫喱”超越微信登顶:首款“元宇宙社交App”会昙花一现吗?

    作者| 赤木瓶子如何终结“昙花一现”的命运,是潮流社交产品的长期命题,如今,在元宇宙浪潮的洗礼下,这一命题正在迎来新的可能性。近段时间,一款名为“啫喱”的社交A
  • 以太坊升级将会带来的5个改变

    以太坊自2015年诞生以来就广受欢迎,但最近其昂贵的交易费用和低可扩展性对执行复杂的应用程序产生了负面作用,用户对以太坊改进的需求也日益急迫。以太坊2.0已进
  • 2022年去中心化交易所会崛起吗?

    “在某个时候,去中心化衍生品的交易量可能会超过去中心化现货交易所。”DEX 越来越多地转向第二层解决方案。“数字化金融市场的概念以及如何沿着以用户为中心
  • 下一个黄金赛道?NFT的碎片化!

    碎片化可能是我们一生中最重要的一个投资趋势,碎片化本身并不新鲜。它已经存在了400年之久。早在1602年,荷兰东印度公司是历史上第一家在公共证券交易所上市的公
  • 2022年元宇宙系列报告:UGC当道,XR带来新交互体验

    UGC作为元宇宙的主要内容创作模式,已经越来越多的呈现于游戏、娱乐、社交、传媒等方面,UGC模式勾勒了元宇宙的边界,现今元宇宙UGC模式的主要呈现方式以元宇宙概念
  • 从NFT数字收藏,洞察数字音乐版权市场发展趋势

    去年8月9日,腾讯音乐布局NFT数字收藏,在腾讯应用宝发布幻核app,腾讯音乐的提前布局示意着未来区块链技术将对数字音乐版权市场进行改造升级。作者从深层测分析为
Top