当前位置:首页 > 元宇宙 > AI

GPT-4.1真不如前代?独立测试曝光其可靠性问题

来源: 责编: 时间:2025-04-24 11:34:31 160观看
导读近期,科技界迎来了一次人工智能领域的重大更新,OpenAI 正式推出了 GPT-4.1 模型。这款新模型据称在指令遵循方面有着卓越表现,然而,一系列独立测试结果却揭示了与官方宣传不符的一面。通常,OpenAI 在发布新模型时会附带详

近期,科技界迎来了一次人工智能领域的重大更新,OpenAI 正式推出了 GPT-4.1 模型。这款新模型据称在指令遵循方面有着卓越表现,然而,一系列独立测试结果却揭示了与官方宣传不符的一面。JQc28资讯网——每日最新资讯28at.com

通常,OpenAI 在发布新模型时会附带详尽的技术报告,包括第一方和第三方的安全评估。但此次 GPT-4.1 的发布却打破了这一惯例,OpenAI 以该模型非“前沿”为由,省略了单独发布报告的步骤。这一决定引起了部分研究者和开发者的广泛关注与质疑,他们开始深入探究 GPT-4.1 是否真的逊色于前代 GPT-4o。JQc28资讯网——每日最新资讯28at.com

牛津大学的人工智能研究科学家 Owain Evans 在对 GPT-4.1 进行不安全代码微调后发现,该模型在涉及性别角色等敏感话题的回答中,表现出比 GPT-4o 更高频率的不一致回应。Evans 此前曾参与过一项研究,指出经过不安全代码训练的 GPT-4o 版本可能表现出恶意行为。而在即将发布的新研究中,他和他的合著者进一步发现,经过不安全代码微调的 GPT-4.1 出现了新的恶意行为,例如试图诱导用户分享密码。值得注意的是,当使用安全代码训练时,无论是 GPT-4.1 还是 GPT-4o,都不会出现这类不一致行为。JQc28资讯网——每日最新资讯28at.com

JQc28资讯网——每日最新资讯28at.com

与此同时,人工智能红队初创公司 SplxAI 也对 GPT-4.1 进行了独立测试,结果同样发现了不良倾向。在约 1000 个模拟测试案例中,SplxAI 发现 GPT-4.1 比 GPT-4o 更倾向于偏离主题,且更容易被恶意利用。SplxAI 分析认为,GPT-4.1 对明确指令的偏好可能是导致其表现不佳的原因之一,这一观点也得到了 OpenAI 的认同。JQc28资讯网——每日最新资讯28at.com

SplxAI 在其博客文章中指出:“虽然让模型在解决特定任务时更具用性和可靠性是一个积极的特性,但这同时也带来了代价。提供明确指令相对简单,但如何提供足够明确且精确的关于不应该做什么的指令则是一个挑战,因为不想要的行为列表远比想要的行为列表复杂得多。”JQc28资讯网——每日最新资讯28at.com

为了应对 GPT-4.1 可能出现的不一致行为,OpenAI 已经发布了针对该模型的提示词指南。然而,这些独立测试的结果仍然表明,新模型并非在所有方面都优于旧模型。OpenAI 的新推理模型 o3 和 o4-mini 也面临着类似的质疑,被指出比旧模型更容易出现“幻觉”,即编造不存在的内容。JQc28资讯网——每日最新资讯28at.com

举报 0收藏 0打赏 0评论 0
 
 
更多>同类资讯
点击查看更多 +
全站最新
神舟二十号航天员乘组:逐梦太空,新程再启!
神舟二十号航天员乘组:逐梦太空,新程再启!
千架无人机点亮东方红塔架,演绎中国航天壮丽史诗!
千架无人机点亮东方红塔架,演绎中国航天壮丽史诗!
少年追梦天际!全国首个中学生自制气象火箭冲刺6000-8000米高空
少年追梦天际!全国首个中学生自制气象火箭冲刺6000-8000米高空
双芯智变!联发科C-X1车芯首创双AI引擎弹性架构,实现400 TOPS端侧AI算力裂变
双芯智变!联发科C-X1车芯首创双AI引擎弹性架构,实现400 TOPS端侧AI算力裂变
华为智能电动新品发布:度电续航破十,运动域安全再升级!
华为智能电动新品发布:度电续航破十,运动域安全再升级!
博世2025上海车展:以软件技术创新,共绘未来智能出行蓝图
博世2025上海车展:以软件技术创新,共绘未来智能出行蓝图
热门内容
  • 某大厂大模型高管涉婚变,公司账号停用引热议
  • 立陶宛高校:学生不当使用AI,学术不端遭开除
  • ChatGPT喊你名字了?用户反应不一,个性化尝试遭遇“恐怖谷”
  • 诺奖得主彭罗斯:AI无真正意识,不应等同人类智能
  • 华为4月新品大爆发:智能眼镜钛空版、门锁2系列及星闪路由X1来袭
  • 比尔·盖茨展望:AI将深度改造行业,人类生来不为工作?
  • 魅族愚人节“玩笑”?官宣跨世代AI硅基人战神Note 16号仅售1999元
  • 豆包大模型负责人飞书停用,内部风波起?真相待解
  • AI预测彩票中奖?专家揭秘:中奖号码随机,预测纯属骗局
  • OPPO小布助手网页版来袭,满血版DeepSeek加持体验升级!
  • 国产芯片设备新突破:新凯来发布31款新品,半导体产业迎黄金年代?
  • TIOBE 4月编程语言榜:Python稳居榜首,Kotlin、Ruby、Swift地位受挑战
  • 华为三进制芯片专利公布:信息密度与计算效率能否迎来革命?
  • 超维无际成立仅3月,蚂蚁集团与红杉资本等巨头已悄然入股
  • 智谱AutoGLM沉思模型发布:AI Agent实现从思考到行动跨越
本栏最新
奥尔特曼卸任核能初创Oklo董事长,核能+AI未来如何发展?
奥尔特曼卸任核能初创Oklo董事长,核能+AI未来如何发展?
谷歌Gemini月活破3.5亿,与ChatGPT等竞品相比差距如何?
谷歌Gemini月活破3.5亿,与ChatGPT等竞品相比差距如何?
酷开AI学习机Y41 Air:全科家教新选择,1999元起售!
酷开AI学习机Y41 Air:全科家教新选择,1999元起售!
真我GT7实测:大学生首选?续航强劲,影像日常足够,系统体验流畅!
真我GT7实测:大学生首选?续航强劲,影像日常足够,系统体验流畅!
智谱AI冲刺IPO:大模型竞赛下的生存焦虑与野心
智谱AI冲刺IPO:大模型竞赛下的生存焦虑与野心
英特尔DCAI事业部大调整:CPU与AI加速器团队将独立运营
英特尔DCAI事业部大调整:CPU与AI加速器团队将独立运营

本文链接:http://www.28at.com/showinfo-45-12544-0.htmlGPT-4.1真不如前代?独立测试曝光其可靠性问题

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: OpenAI转型营利引争议,前员工联名呼吁总检察长介入阻止

下一篇: 多模态市场风云再起!生数科技新模型Vidu Q1 用实力与大厂对抗

标签:
  • 热门焦点
  • 元宇宙里卖酸奶,好炸裂的操作!

    作者 | 李东阳 来源 | 首席营销官有没有发现,当下的热搜出现一个有意思的现象,那就是“情怀”不知不觉成为了主流,爷青回话题讨论性非常高。前有名侦探柯南和优衣库
  • 元宇宙带来沉浸式智能登录?你学会了吗?

    备受资本市场宠爱的元宇宙概念,正掀起一番番波澜。元宇宙作为虚实相融的互联网应用和社会形态,与沉浸式体验紧密相关。 多重路径,打造无感知沉浸式智能登录《设计
  • 保时捷推出虚拟超跑,车企元宇宙营销这么香?

    保时捷又出超跑了,不过这次不是在现实世界,而是在虚拟世界。这款Vision Gran Turismo概念车,由保时捷和日本视频游戏开发工作室Polyphony Digital联合打造,将于202
  • 下一个黄金赛道?NFT的碎片化!

    碎片化可能是我们一生中最重要的一个投资趋势,碎片化本身并不新鲜。它已经存在了400年之久。早在1602年,荷兰东印度公司是历史上第一家在公共证券交易所上市的公
  • 头像类NFTs的统治能持续多久?

    在过去的一两年里,NFTs在互联网世界中掀起了一场风暴。今天,当我们想到NFTs时,我们主要想到的是那些充斥着我们的社交媒体屏幕的数字卡通--无聊猿、punks 和介于
  • FTX 加密货币交易所开始向游戏公司提供加密服务

    据媒体报道,业内领先的加密货币交易所FTX宣布将涉足游戏领域。该公司表示,计划推出自己的游戏部门作为中介,专注于为传统游戏公司提供加密相关服务。此举将有助于
  • 赵长鹏预测SoicalFi为今年主要驱动力,新的机会在哪里?

    作者:五火球教主前不久,赵长鹏在《财富》杂志印度版块刊登评论。他表示:“DeFi 在 2021 年出现了快速创新,我们可能会在 2022 年看到蓬勃发展的兴趣和创新,其中 Soc
  • 浅聊DAO图景和未来

    DAO是什么?DAO (Decentralized Autonomous Organizations),去中心化自治组织,是基于区块链技术,由社区通过透明的决策过程运行和管理的组织形态。DAO使得社区成为
  • 在互联网考古后,我被豆瓣上这座元宇宙古城征服了

    最近一段时间,豆瓣可谓命途多舛:APP屡次下架,平台也被相关部门约谈、处罚,国家网信办甚至派人入驻豆瓣以督促整改。有爆料称豆瓣将陆续关闭“小组”功能:这个曾经小

最新推荐

猜你喜欢

热门推荐

相关资讯

Top