当前位置：首页 > 元宇宙 > AI

GPT-4.1真不如前代？独立测试曝光其可靠性问题

来源：责编：时间：2025-04-24 11:34:31 179观看

导读近期，科技界迎来了一次人工智能领域的重大更新，OpenAI 正式推出了 GPT-4.1 模型。这款新模型据称在指令遵循方面有着卓越表现，然而，一系列独立测试结果却揭示了与官方宣传不符的一面。通常，OpenAI 在发布新模型时会附带详

近期，科技界迎来了一次人工智能领域的重大更新，OpenAI 正式推出了 GPT-4.1 模型。这款新模型据称在指令遵循方面有着卓越表现，然而，一系列独立测试结果却揭示了与官方宣传不符的一面。

通常，OpenAI 在发布新模型时会附带详尽的技术报告，包括第一方和第三方的安全评估。但此次 GPT-4.1 的发布却打破了这一惯例，OpenAI 以该模型非“前沿”为由，省略了单独发布报告的步骤。这一决定引起了部分研究者和开发者的广泛关注与质疑，他们开始深入探究 GPT-4.1 是否真的逊色于前代 GPT-4o。

牛津大学的人工智能研究科学家 Owain Evans 在对 GPT-4.1 进行不安全代码微调后发现，该模型在涉及性别角色等敏感话题的回答中，表现出比 GPT-4o 更高频率的不一致回应。Evans 此前曾参与过一项研究，指出经过不安全代码训练的 GPT-4o 版本可能表现出恶意行为。而在即将发布的新研究中，他和他的合著者进一步发现，经过不安全代码微调的 GPT-4.1 出现了新的恶意行为，例如试图诱导用户分享密码。值得注意的是，当使用安全代码训练时，无论是 GPT-4.1 还是 GPT-4o，都不会出现这类不一致行为。

与此同时，人工智能红队初创公司 SplxAI 也对 GPT-4.1 进行了独立测试，结果同样发现了不良倾向。在约 1000 个模拟测试案例中，SplxAI 发现 GPT-4.1 比 GPT-4o 更倾向于偏离主题，且更容易被恶意利用。SplxAI 分析认为，GPT-4.1 对明确指令的偏好可能是导致其表现不佳的原因之一，这一观点也得到了 OpenAI 的认同。

SplxAI 在其博客文章中指出：“虽然让模型在解决特定任务时更具用性和可靠性是一个积极的特性，但这同时也带来了代价。提供明确指令相对简单，但如何提供足够明确且精确的关于不应该做什么的指令则是一个挑战，因为不想要的行为列表远比想要的行为列表复杂得多。”

为了应对 GPT-4.1 可能出现的不一致行为，OpenAI 已经发布了针对该模型的提示词指南。然而，这些独立测试的结果仍然表明，新模型并非在所有方面都优于旧模型。OpenAI 的新推理模型 o3 和 o4-mini 也面临着类似的质疑，被指出比旧模型更容易出现“幻觉”，即编造不存在的内容。

举报 0收藏 0打赏 0评论 0

更多>同类资讯

多模态市场风云再起！生数科技新模型Vidu Q1 用实力与大厂对抗

近日，海外权威视频生成评测榜单 VBench Leaderboard 更新了最新一期文生视频榜单，Vidu Q1分别以总分87.41%和60.98%的成绩，登上VBench-1.0和VBench-2.0的榜首，超越了Runway 、OpenAI Sora、快手的Kling等国内外顶尖模型，拿下文生视频赛道榜单双第一。Vidu Q1在VBenc

04-24

奥尔特曼卸任核能初创Oklo董事长，核能+AI未来如何发展？

04-24

SK海力士2025财年Q1财报亮点：营收大增42%，营业利润暴涨158%

04-24

谷歌Gemini月活破3.5亿，与ChatGPT等竞品相比差距如何？

04-24

酷开AI学习机Y41 Air：全科家教新选择，1999元起售！

04-24

视觉中国2024年业绩稳增，2025年Q1营收利润双提升

视觉中国发布2024年年报及 2025年一季报。2024年，公司合并层面营业收入8.11亿元，较2023年同比增长3.89%，归属母公司股东净利润为1.19亿元，较2023年同比下降18.17%，系2023年…

04-24

真我GT7实测：大学生首选？续航强劲，影像日常足够，系统体验流畅！

04-24

vivo跨界家庭机器人，能否开启科技新篇章迈向世界之巅？

04-24

智谱AI冲刺IPO：大模型竞赛下的生存焦虑与野心

04-24

vivo X200系列高端化之路：影像技术突破，但仍面临重重挑战

04-24

英特尔DCAI事业部大调整：CPU与AI加速器团队将独立运营

04-23

低功耗芯片引领AI绿色革命，研极微杨作兴展望智能应用新未来

04-23

AI时代浏览器大战：Chrome命运悬而未决，OpenAI欲收入囊中？

04-23

马拉松亚军同款！松延动力人形智能机器人N2京东现货热售

04-23

苹果Siri重组：Vision Pro精英能否助力其AI领域翻身？

新任Siri工程主管Mike Rockwell从VisionPro团队抽调多名核心成员接管关键职位，试图通过技术架构调整和人才换血，扭转Siri在AI领域的长期颓势。为将新的App Intents功能推向…

04-23

点击查看更多 +

全站最新

神舟二十号航天员乘组：逐梦太空，新程再启！

千架无人机点亮东方红塔架，演绎中国航天壮丽史诗！

少年追梦天际！全国首个中学生自制气象火箭冲刺6000-8000米高空

双芯智变！联发科C-X1车芯首创双AI引擎弹性架构，实现400 TOPS端侧AI算力裂变

华为智能电动新品发布：度电续航破十，运动域安全再升级！

博世2025上海车展：以软件技术创新，共绘未来智能出行蓝图

热门内容

某大厂大模型高管涉婚变，公司账号停用引热议
立陶宛高校：学生不当使用AI，学术不端遭开除
ChatGPT喊你名字了？用户反应不一，个性化尝试遭遇“恐怖谷”
诺奖得主彭罗斯：AI无真正意识，不应等同人类智能
华为4月新品大爆发：智能眼镜钛空版、门锁2系列及星闪路由X1来袭
比尔·盖茨展望：AI将深度改造行业，人类生来不为工作？
魅族愚人节“玩笑”？官宣跨世代AI硅基人战神Note 16号仅售1999元
豆包大模型负责人飞书停用，内部风波起？真相待解
AI预测彩票中奖？专家揭秘：中奖号码随机，预测纯属骗局
OPPO小布助手网页版来袭，满血版DeepSeek加持体验升级！
国产芯片设备新突破：新凯来发布31款新品，半导体产业迎黄金年代？
TIOBE 4月编程语言榜：Python稳居榜首，Kotlin、Ruby、Swift地位受挑战
华为三进制芯片专利公布：信息密度与计算效率能否迎来革命？
超维无际成立仅3月，蚂蚁集团与红杉资本等巨头已悄然入股
智谱AutoGLM沉思模型发布：AI Agent实现从思考到行动跨越

本栏最新

奥尔特曼卸任核能初创Oklo董事长，核能+AI未来如何发展？

谷歌Gemini月活破3.5亿，与ChatGPT等竞品相比差距如何？

酷开AI学习机Y41 Air：全科家教新选择，1999元起售！

真我GT7实测：大学生首选？续航强劲，影像日常足够，系统体验流畅！

智谱AI冲刺IPO：大模型竞赛下的生存焦虑与野心

英特尔DCAI事业部大调整：CPU与AI加速器团队将独立运营

本文链接：http://www.28at.com/showinfo-45-12544-0.htmlGPT-4.1真不如前代？独立测试曝光其可靠性问题

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： OpenAI转型营利引争议，前员工联名呼吁总检察长介入阻止

下一篇：多模态市场风云再起！生数科技新模型Vidu Q1 用实力与大厂对抗

标签：

热门焦点

VR/AR迷失元宇宙“硝烟”

不温不火的VR/AR可穿戴设备因元宇宙崛起火了一阵，又随着元宇宙回归平静。1月份，微软在 Surface 设备、HoloLens 混合现实硬件和 Xbox 等部门裁员，其中负责混合现实硬件（MR）的Holo
风口已至，多领域平台融入社交元素！

在众多领域平台中，社交元素都扮演着重要角色，如直播营销带货、线上配对听歌、游戏局内互动等。随着元宇宙时代的来临，社交产品不断升级，社交元素推动流量变现，多平台领域融入社交
比特币的价格越高，使用价值越大

隔夜比特币还是在精准地横盘在42k上方。空头昨日试图发起一波小的攻势，但是晚上就被多头掰了回来。以太坊的链上gas price降到了60 gwei以下，彰显着市场活跃度的
2021年中国智慧城市行业概览：AI慧眼独具，赋能“双碳”目标

中国智慧城市试点项目主要集中于东南地区以及华中地区，受制于应用场景分散以及行业地域建设差异，目前中国智慧城市存在较多弊端，未来数量有望持续突破。中国智慧
元宇宙风归何处？

元宇宙持续大火，在过去一段时间内，其屡次登上热点，吸引了一波又一波投资者。近期，在“2022中国·金鱼嘴元宇宙生态赋能大会”上，南京建邺区金鱼嘴基金街区宣布计划
Interface正大光明的“跑路”，社区成员赞格局大

今日凌晨，一个广泛受社区期待的潜力蓝筹项目Interfaces突然发文宣布项目停止运营，后续也不会有铸造NFT系列的活动。这对社区来说就是一重磅炸弹，大多数人完全不明
知名艺术家打造去中心化“好莱坞”：一部电影一个DAO

根据市场追踪网站 DappRadar 的数据，随着 NFT 的“出圈”与加密货币的普及，NFT 市场在 2021 年的销售额达到约 250 亿美元，而 2020 年仅为 9490 万美元，同比增超 2
我们为什么需要Web3，距离Web3的实现还有多远？

当今技术正在经历着重要的变革，许多公司正在改变他们的经营模式以求变得更加的灵活，其中有很大一部分公司采用了不同的方式来发展自己的业务。其中之一就是Web3，
电影工业巨头好莱坞计划进军元宇宙，将会对行业带来什么影响？

元宇宙听起来像不像是科幻小说中出现的术语？事实确实如此。小说家尼尔·斯蒂芬森在1992年的小说《雪崩》中首次用这个词来定义了一个多连接的虚拟宇宙，它能够模

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

GPT-4.1真不如前代？独立测试曝光其可靠性问题

VR/AR迷失元宇宙“硝烟”

风口已至，多领域平台融入社交元素！

比特币的价格越高，使用价值越大

2021年中国智慧城市行业概览：AI慧眼独具，赋能“双碳”目标

元宇宙风归何处？

Interface正大光明的“跑路”，社区成员赞格局大

知名艺术家打造去中心化“好莱坞”：一部电影一个DAO

我们为什么需要Web3，距离Web3的实现还有多远？

电影工业巨头好莱坞计划进军元宇宙，将会对行业带来什么影响？

最新推荐

ChatGPT访问量增速下滑，AI真的是一场泡沫吗？

有人狂赚千倍，资金盘游戏日进上亿，元宇宙泡沫还能吹多久？

从英式拍到荷兰拍，看传统金融拍卖玩法如何玩转NFT市场交易

NFT领域，我们是否应该遵守版权法

Meta 呼吁行业合作建立元宇宙网络基础设施

全球十大元宇宙概念游戏

猜你喜欢

热门推荐

相关资讯