当前位置：首页 > 元宇宙 > AI

OpenAI 发现 AI 模型隐藏特征：可调控“毒性”行为，助力开发更安全 AI

来源：责编：时间：2025-06-21 13:22:36 153观看

导读 6 月 19 日消息，根据 OpenAI 最新发布的一项研究，研究人员在人工智能（AI）模型中发现了隐藏的特征，这些特征与模型的“异常行为”（建议统一术语）密切相关。OpenAI 的研究人员通过分析 AI 模型的内部表征（即决定人工智

6 月 19 日消息，根据 OpenAI 最新发布的一项研究，研究人员在人工智能（AI）模型中发现了隐藏的特征，这些特征与模型的“异常行为”（建议统一术语）密切相关。

OpenAI 的研究人员通过分析 AI 模型的内部表征（即决定人工智能模型如何做出反应的数字，这些数字在人类看来往往完全无法理解）发现了一些模式，这些模式会在模型出现异常行为时被激活。例如，研究人员发现了一个与 AI 模型有害行为相关的特征，这意味着 AI 模型可能会给出不合适的回答，比如对用户撒谎或提出不负责任的建议。令人惊讶的是，研究人员通过调整这一特征，可以增加或减少 AI 模型的毒性。

OpenAI 的这项最新研究使其能够更好地理解导致 AI 模型行为不安全的因素，从而有助于开发更安全的 AI 模型。OpenAI 的可解释性研究员丹・莫辛（Dan Mossing）表示，公司可以利用这些发现的模式更好地检测生产中的 AI 模型是否存在错位行为。

“我们希望我们学到的工具 —— 比如将复杂的现象简化为简单的数学运算 —— 也能帮助我们在其他地方理解模型的泛化能力。”莫辛在接受 TechCrunch 采访时表示。

尽管 AI 研究人员知道如何改进 AI 模型，但令人困惑的是，他们并不完全清楚 AI 模型是如何得出答案的。Anthropic 的克里斯・奥拉（Chris Olah）经常指出，AI 模型更像是“生长”出来的，而不是“建造”出来的。为了应对这一问题，OpenAI、谷歌 DeepMind 和 Anthropic 等公司正在加大对可解释性研究的投入，这一领域试图揭开 AI 模型工作原理的“黑箱”。

最近，牛津大学 AI 研究科学家欧文・埃文斯（Owain Evans）的一项研究引发了关于 AI 模型泛化的新问题。研究发现，OpenAI 的模型可以在不安全的代码上进行微调，并在多个领域表现出恶意行为，例如试图诱骗用户分享他们的密码。这种现象被称为“突发错位”，埃文斯的研究激发了 OpenAI 进一步探索这一问题。

在研究突发错位的过程中，OpenAI 意外发现了 AI 模型中的一些特征，这些特征似乎在控制模型行为方面发挥着重要作用。莫辛表示，这些模式让人联想到人类大脑中的神经活动，其中某些神经元与情绪或行为相关。

“当丹和他的团队在研究会议上首次展示这一发现时，我简直惊呆了。”OpenAI 前沿评估研究员特贾尔・帕特瓦德汉（Tejal Patwardhan）在接受 TechCrunch 采访时表示，“你们发现了一种内部神经激活，这种激活显示了这些‘人设’，并且你们可以通过调整使其让模型更符合预期。”

OpenAI 发现的一些特征与 AI 模型回答中的讽刺行为相关，而其他特征则与更具攻击性的回复相关，在这类回复中，人工智能模型表现得像一个夸张的邪恶反派。OpenAI 的研究人员表示，这些特征在微调过程中可能会发生巨大变化。

值得注意的是，当突发错位发生时，研究人员发现可以通过仅用几百个安全代码示例对模型进行微调，就有可能使模型回归良好的行为表现。

据了解，OpenAI 的这项最新研究是在 Anthropic 之前关于可解释性和对齐的研究基础上进行的。2024 年，Anthropic 发布了一项研究，试图绘制 AI 模型的内部工作机制，试图确定并标记出负责不同概念的各种特征。

像 OpenAI 和 Anthropic 这样的公司正在强调，理解 AI 模型的工作原理具有真正的价值，而不仅仅是让它们变得更好。然而，要完全理解现代 AI 模型，还有很长的路要走。

本文链接：http://www.28at.com/showinfo-45-13928-0.htmlOpenAI 发现 AI 模型隐藏特征：可调控“毒性”行为，助力开发更安全 AI

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：谷歌 Search Live 语音搜索功能上线：聊着聊着就能找到你想要的答案

下一篇：马斯克 AI 公司 xAI 面临巨额资金缺口：年烧 130 亿美元，收入预估 5 亿美元

标签：

热门焦点

游戏玩家才是最“元宇宙”的

01元宇宙的概念，最早由科幻作家尼尔·斯蒂芬森于1992年在其著作《雪崩》中提出。它指的是一个脱胎于现实世界，又与现实世界平行、相互影响，并且始终在线的虚拟世
挖来Meta AR高管，难道苹果也要进军元宇宙？

“被曝光”的才是最吸引人的产品，相信有关注过苹果硬件消息的朋友们都明白这样的道理。往近了说有苹果“即将发布”的iPhone SE 3和M2芯片，往远了说有“折叠屏iP
“元宇宙第一股”Roblox首份年报未达预期，摩根大通成为首家进入元宇宙的银行

今日《元宇宙新鲜事》有：“元宇宙第一股”Roblox首份年报未达预期致盘后股价暴跌15.28%；YouTube宣布进军区块链和元宇宙；摩根大通成为首家进入元宇宙的银行。【中
全面拥抱“虚拟世界”，摩登天空要打造“音乐元宇宙”

作者：袁佳琦沈黎晖不怎么打游戏，但许多事儿在他眼里都“有意思”。好玩，有意思，是他的口头禅，在接受娱乐独角兽的采访过程中，他多次提到，做虚拟音乐人，“是件挺好玩的
“我没搞懂元宇宙，但一天能赚9w块”

作者：郑宇轩最近几个月，“元宇宙”爆火，除了 Facebook 改名为 Meta 高调进军元宇宙外， BAT 为代表的大厂纷纷着手“元宇宙”新业务。刹那之间，元宇宙成为新风口，除了
虚拟数字人：元宇宙的主角破圈而来

虚拟数字人市场逐步进入成熟期，商业化进程加速。1982年世界第一位虚拟歌姬林明美诞生，虚拟数字人行业经历了萌芽、探索、初级和成长四个阶段。随技术逐年突破，制
韩国国民银行将推出韩国首个加密货币 ETF

韩国国民银行(Kookmin Bank)计划发行该国首个以散户投资者为主要关注点的加密货币投资基金。根据公告，该银行正在等待政府批准，并已建立一个准备就绪的数字资产
如何在元宇宙中建立品牌忠诚度

Snoop Dogg、耐克、苏富比和普华永道都有什么共同点？他们都投资于元宇宙的房地产。除了我们在屏幕上看到的二维世界--手机、笔记本电脑、台式机或iPad--他们决
在互联网考古后，我被豆瓣上这座元宇宙古城征服了

最近一段时间，豆瓣可谓命途多舛：APP屡次下架，平台也被相关部门约谈、处罚，国家网信办甚至派人入驻豆瓣以督促整改。有爆料称豆瓣将陆续关闭“小组”功能：这个曾经小

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

OpenAI 发现 AI 模型隐藏特征：可调控“毒性”行为，助力开发更安全 AI

游戏玩家才是最“元宇宙”的

挖来Meta AR高管，难道苹果也要进军元宇宙？

“元宇宙第一股”Roblox首份年报未达预期，摩根大通成为首家进入元宇宙的银行

全面拥抱“虚拟世界”，摩登天空要打造“音乐元宇宙”

“我没搞懂元宇宙，但一天能赚9w块”

虚拟数字人：元宇宙的主角破圈而来

韩国国民银行将推出韩国首个加密货币 ETF

如何在元宇宙中建立品牌忠诚度

在互联网考古后，我被豆瓣上这座元宇宙古城征服了

最新推荐

内容行业大变天，爆款全靠AI？

中国虚拟数字人如何横向拓展市场需求，探索发展场景?

过去女性在互联网领域是半边天，在Web3，将会是整片天！

在元宇宙开会是什么样一种体验

这场虚拟发布会，当面“造假”！

在互联网考古后，我被豆瓣上这座元宇宙古城征服了

猜你喜欢

热门推荐

相关资讯