当前位置:首页 > 元宇宙 > AI

OpenAI 最新研究揭示“AI 阴谋论”,GPT-5 已完成针对性改进

来源: 责编: 时间:2025-09-22 10:12:35 129观看
导读 9 月 19 日消息,OpenAI 宣布与 Apollo Research 达成合作,针对 AI 模型中潜在的隐藏行为开展了评估研究,并在受控测试中发现了相关迹象。研究团队同时提出并验证了一种早期方法,用于减少这类风险。OpenAI 将这一

9 月 19 日消息,OpenAI 宣布与 Apollo Research 达成合作,针对 AI 模型中潜在的隐藏行为开展了评估研究,并在受控测试中发现了相关迹象。研究团队同时提出并验证了一种早期方法,用于减少这类风险。LXr28资讯网——每日最新资讯28at.com

OpenAI 将这一行为称为“scheming”(即“阴谋”),指 AI 表面上装作为与人类目标立场一致,但暗地里追求的却是其他不为人知的目的。LXr28资讯网——每日最新资讯28at.com

LXr28资讯网——每日最新资讯28at.com

OpenAI 指出,这种行为可能源于 AI 在面对相互竞争的目标时出现的权衡。例如,一名股票交易员可能会通过撒谎并掩盖其违法痕迹来实现收益最大化,而在外人看来下,这种人看似守法且业绩更优。LXr28资讯网——每日最新资讯28at.com

不过在当前已部署的模型中,OpenAI 尚未发现会导致严重危害的“阴谋”行为。常见问题多为较简单的欺骗,例如假装完成任务却未真正执行。LXr28资讯网——每日最新资讯28at.com

OpenAI 称,已在 GPT-5 训练中采取措施以降低欺骗和规避问题的倾向,例如在面对不合理或描述不完整的任务时,模型会坦然承认自身局限性。不过,这些改进尚不完善,相关研究仍在继续。LXr28资讯网——每日最新资讯28at.com

研究团队为模拟未来可能出现的复杂场景,建立了测试环境,并将这种“隐匿实际目的”的行为作为“阴谋”的关键 AI 指标。在评估中,包括 OpenAI o3、o4-mini、Gemini-2.5-pro 和 Claude Opus-4 在内的前沿模型均表现出相关问题(该项研究在 GPT-5 发布前完成,更新结果已加入 GPT-5)。LXr28资讯网——每日最新资讯28at.com

通过合作,研究团队在 o3 与 o4-mini 中引入“审慎对齐”(deliberative alignment)方法,即要求模型在执行任务前阅读并推理一份反阴谋规范。LXr28资讯网——每日最新资讯28at.com

结果显示,OpenAI 模型隐匿行为发生率显著下降,o3 从 13% 降至 0.4%,o4-mini 从 8.7% 降至 0.3%,缩减幅度约 30 倍;但仍存在罕见且严重的失败案例,且评估可能受到模型情境感知能力增强的干扰。LXr28资讯网——每日最新资讯28at.com

OpenAI 强调,目前结果依赖于对模型推理过程(即“chain-of-thought”)的可读性与可信度。但在推理透明性受限的情况下,业界尚未做好应对准备。OpenAI 呼吁各方在更有效的方法出现前,应保持推理透明。LXr28资讯网——每日最新资讯28at.com

OpenAI 表示,这一问题对 AI 对齐构成严重挑战,应成为通向通用人工智能(AGI)研发的核心工作。未来,OpenAI 将继续与 Apollo Research 合作,扩大研究团队,开发更完善的评估工具和防范训练方法。同时,OpenAI 计划推动跨机构合作,包括试点跨实验室安全评估,发起 50 万美元(注:现汇率约合 355 万元人民币)的 Kaggle 对抗挑战赛,以及倡导业界普遍保持推理透明。LXr28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-27854-0.htmlOpenAI 最新研究揭示“AI 阴谋论”,GPT-5 已完成针对性改进

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: AI赋能餐饮新纪元:从效率革命到质量增长,头部品牌破局之道

下一篇: 谷歌 Chrome 浏览器接入 Gemini AI:能帮你解读网页、模糊检索历史记录

标签:
  • 热门焦点
  • 在元宇宙卖酸奶,这波联动燃爆了!

    来源:品牌头版 或许,每个人心中都住着一个小馋孩。可能是童年时百吃不厌,觉得新奇又有趣的跳跳糖;可能是味道香甜,咬下一口嘎嘣脆的扁桃仁;还有可能,是某种不知为什么,就是很爱吃的
  • 元宇宙步入暗夜

    撰文 | 文烨豪元宇宙的故事,似乎讲不通了。 当下,刮起元宇宙热潮的Roblox股价已跌去大半,带头大哥Meta也正因元宇宙亏损深陷泥潭。 再看国内,从字节“派对岛&
  • 一个视频涨粉百万,柳夜熙们能成为元宇宙的“船票”吗?

    当数字人成为一种生意,我们更关心的是,他们如何赚到钱,以及这意味着什么?01#“柳夜熙”爆火之后不知道大家还记不记得,去年10月31日万圣节,有一位虚拟美妆
  • 挖来Meta AR高管,难道苹果也要进军元宇宙?

    “被曝光”的才是最吸引人的产品,相信有关注过苹果硬件消息的朋友们都明白这样的道理。往近了说有苹果“即将发布”的iPhone SE 3和M2芯片,往远了说有“折叠屏iP
  • 2021年中国元宇宙行业用户行为分析热点报告

    元宇宙网络热度高涨,中国网民对虚拟生态兴趣浓厚。艾媒咨询数据显示,超六成的网民对“元宇宙”了解程度较高,在元宇宙较基础的游戏领域,超九成的人对VR游戏更感兴
  • 2022年元宇宙系列报告:UGC当道,XR带来新交互体验

    UGC作为元宇宙的主要内容创作模式,已经越来越多的呈现于游戏、娱乐、社交、传媒等方面,UGC模式勾勒了元宇宙的边界,现今元宇宙UGC模式的主要呈现方式以元宇宙概念
  • 以用户为中心,Web3和区块链如何将用户放在首位

    竞争优势正在改变竞争优势是每个企业都在努力争取的,由谷歌、Facebook和Netflix等大型科技公司主导的市场中,两大重要类别的竞争优势十分突出。第一个竞争优势来
  • 艺术创作者能否永久收取版税?

    NFTs正在改变我们理解互联网所有权的方式,社区管理的所有权有很多好处,但如果创作者想为他/她的创作获得永久的收益(版税),会发生什么?这不是一个容易解决的问题,版税
  • 以太坊面临来自Fantom的巨大挑战

    众所周知,区块链和加密货币项目经常因其对环境的影响而受到批评。但是有一个非营利性的加密货币和区块链项目说它比其他的更环保。今天老雅痞就给大家聊一聊加
Top