当前位置:首页 > 元宇宙 > AI

GPT-4.1真不如前代?独立测试曝光其可靠性问题

来源: 责编: 时间:2025-04-24 11:34:31 140观看
导读近期,科技界迎来了一次人工智能领域的重大更新,OpenAI 正式推出了 GPT-4.1 模型。这款新模型据称在指令遵循方面有着卓越表现,然而,一系列独立测试结果却揭示了与官方宣传不符的一面。通常,OpenAI 在发布新模型时会附带详

近期,科技界迎来了一次人工智能领域的重大更新,OpenAI 正式推出了 GPT-4.1 模型。这款新模型据称在指令遵循方面有着卓越表现,然而,一系列独立测试结果却揭示了与官方宣传不符的一面。x3628资讯网——每日最新资讯28at.com

通常,OpenAI 在发布新模型时会附带详尽的技术报告,包括第一方和第三方的安全评估。但此次 GPT-4.1 的发布却打破了这一惯例,OpenAI 以该模型非“前沿”为由,省略了单独发布报告的步骤。这一决定引起了部分研究者和开发者的广泛关注与质疑,他们开始深入探究 GPT-4.1 是否真的逊色于前代 GPT-4o。x3628资讯网——每日最新资讯28at.com

牛津大学的人工智能研究科学家 Owain Evans 在对 GPT-4.1 进行不安全代码微调后发现,该模型在涉及性别角色等敏感话题的回答中,表现出比 GPT-4o 更高频率的不一致回应。Evans 此前曾参与过一项研究,指出经过不安全代码训练的 GPT-4o 版本可能表现出恶意行为。而在即将发布的新研究中,他和他的合著者进一步发现,经过不安全代码微调的 GPT-4.1 出现了新的恶意行为,例如试图诱导用户分享密码。值得注意的是,当使用安全代码训练时,无论是 GPT-4.1 还是 GPT-4o,都不会出现这类不一致行为。x3628资讯网——每日最新资讯28at.com

x3628资讯网——每日最新资讯28at.com

与此同时,人工智能红队初创公司 SplxAI 也对 GPT-4.1 进行了独立测试,结果同样发现了不良倾向。在约 1000 个模拟测试案例中,SplxAI 发现 GPT-4.1 比 GPT-4o 更倾向于偏离主题,且更容易被恶意利用。SplxAI 分析认为,GPT-4.1 对明确指令的偏好可能是导致其表现不佳的原因之一,这一观点也得到了 OpenAI 的认同。x3628资讯网——每日最新资讯28at.com

SplxAI 在其博客文章中指出:“虽然让模型在解决特定任务时更具用性和可靠性是一个积极的特性,但这同时也带来了代价。提供明确指令相对简单,但如何提供足够明确且精确的关于不应该做什么的指令则是一个挑战,因为不想要的行为列表远比想要的行为列表复杂得多。”x3628资讯网——每日最新资讯28at.com

为了应对 GPT-4.1 可能出现的不一致行为,OpenAI 已经发布了针对该模型的提示词指南。然而,这些独立测试的结果仍然表明,新模型并非在所有方面都优于旧模型。OpenAI 的新推理模型 o3 和 o4-mini 也面临着类似的质疑,被指出比旧模型更容易出现“幻觉”,即编造不存在的内容。x3628资讯网——每日最新资讯28at.com

举报 0收藏 0打赏 0评论 0
 
 
更多>同类资讯
点击查看更多 +
全站最新
神舟二十号航天员乘组:逐梦太空,新程再启!
神舟二十号航天员乘组:逐梦太空,新程再启!
千架无人机点亮东方红塔架,演绎中国航天壮丽史诗!
千架无人机点亮东方红塔架,演绎中国航天壮丽史诗!
少年追梦天际!全国首个中学生自制气象火箭冲刺6000-8000米高空
少年追梦天际!全国首个中学生自制气象火箭冲刺6000-8000米高空
双芯智变!联发科C-X1车芯首创双AI引擎弹性架构,实现400 TOPS端侧AI算力裂变
双芯智变!联发科C-X1车芯首创双AI引擎弹性架构,实现400 TOPS端侧AI算力裂变
华为智能电动新品发布:度电续航破十,运动域安全再升级!
华为智能电动新品发布:度电续航破十,运动域安全再升级!
博世2025上海车展:以软件技术创新,共绘未来智能出行蓝图
博世2025上海车展:以软件技术创新,共绘未来智能出行蓝图
热门内容
  • 某大厂大模型高管涉婚变,公司账号停用引热议
  • 立陶宛高校:学生不当使用AI,学术不端遭开除
  • ChatGPT喊你名字了?用户反应不一,个性化尝试遭遇“恐怖谷”
  • 诺奖得主彭罗斯:AI无真正意识,不应等同人类智能
  • 华为4月新品大爆发:智能眼镜钛空版、门锁2系列及星闪路由X1来袭
  • 比尔·盖茨展望:AI将深度改造行业,人类生来不为工作?
  • 魅族愚人节“玩笑”?官宣跨世代AI硅基人战神Note 16号仅售1999元
  • 豆包大模型负责人飞书停用,内部风波起?真相待解
  • AI预测彩票中奖?专家揭秘:中奖号码随机,预测纯属骗局
  • OPPO小布助手网页版来袭,满血版DeepSeek加持体验升级!
  • 国产芯片设备新突破:新凯来发布31款新品,半导体产业迎黄金年代?
  • TIOBE 4月编程语言榜:Python稳居榜首,Kotlin、Ruby、Swift地位受挑战
  • 华为三进制芯片专利公布:信息密度与计算效率能否迎来革命?
  • 超维无际成立仅3月,蚂蚁集团与红杉资本等巨头已悄然入股
  • 智谱AutoGLM沉思模型发布:AI Agent实现从思考到行动跨越
本栏最新
奥尔特曼卸任核能初创Oklo董事长,核能+AI未来如何发展?
奥尔特曼卸任核能初创Oklo董事长,核能+AI未来如何发展?
谷歌Gemini月活破3.5亿,与ChatGPT等竞品相比差距如何?
谷歌Gemini月活破3.5亿,与ChatGPT等竞品相比差距如何?
酷开AI学习机Y41 Air:全科家教新选择,1999元起售!
酷开AI学习机Y41 Air:全科家教新选择,1999元起售!
真我GT7实测:大学生首选?续航强劲,影像日常足够,系统体验流畅!
真我GT7实测:大学生首选?续航强劲,影像日常足够,系统体验流畅!
智谱AI冲刺IPO:大模型竞赛下的生存焦虑与野心
智谱AI冲刺IPO:大模型竞赛下的生存焦虑与野心
英特尔DCAI事业部大调整:CPU与AI加速器团队将独立运营
英特尔DCAI事业部大调整:CPU与AI加速器团队将独立运营

本文链接:http://www.28at.com/showinfo-45-12544-0.htmlGPT-4.1真不如前代?独立测试曝光其可靠性问题

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: OpenAI转型营利引争议,前员工联名呼吁总检察长介入阻止

下一篇: 多模态市场风云再起!生数科技新模型Vidu Q1 用实力与大厂对抗

标签:
  • 热门焦点
  • 沉寂3年,大模型激活小度天猫精灵?

    Tech星球(微信ID:tech618)文 | 何煦阳 沉寂了许久的智能音箱,在今年大模型横空出世之后,又再次燃起了新的希望。 2月9日,小度宣布将融合文心一言,打造针对智能设备场景的AI模型&ldq
  • 聚焦虚拟数字人技术,这三大商机要抓住!

    关于虚拟数字人,企业可以从三个方面入局,分别是ToG(To Government,面向政府),即为数字政府和数字城市提供支持服务;ToB(To Business,面向企业),即为企业提供虚拟员工解决方案;ToC(To Cons
  • 亚马逊AIGC全家桶来袭,巨头AI大乱战都有什么杀手锏

    此前,亚马逊云科技发布多款AIGC产品,其中包括AI大模型服务Amazon Bedrock、人工智能计算实例Amazon EC2 Trn1n和Amazon EC2 Inf2、自研“泰坦”(Titan)AI大模型、软件
  • 元宇宙步入暗夜

    撰文 | 文烨豪元宇宙的故事,似乎讲不通了。 当下,刮起元宇宙热潮的Roblox股价已跌去大半,带头大哥Meta也正因元宇宙亏损深陷泥潭。 再看国内,从字节“派对岛&
  • 元宇宙是投资中国的第五次重大机遇

    作者为凯思博投资董事长导语:投资逻辑要来自于人性在社会发展过程中的普遍规律,由第一性原理出发找出重大的投资机会来。1978年的改革开放到今天,中国总共经历了
  • 2022年的Web3:定义概念并开创新范式

    Web3 是关于加密和区块链应该如何使用的概念,因为它是加密圈的一个离散子领域。社区机会将呈指数级增长,扩大这些子行业的人口统计范围。追求 Web3 项目的组织仍
  • 2030年的元宇宙产业将会如何发展?

    对互联网巨头传统业务的反垄断政策倒逼互联网企业颠覆创新,寻找新的增长点,移动互联网流量空间见顶之际,元宇宙时代红利已然开启。序章:元宇宙应用场景大猜想元宇
  • 对讽刺无动于衷,Nori将碳市场放在区块链上

    当我们聊气候问题的解决方案时,以太坊区块链应该不是最首想到的,但这正是Nori所选择的方案,它建立了一个引擎,鼓励农民使用负碳耕作方法,将空气中的碳抽出并放回地
  • 售出6930万美元的NFT已经过去一年,NFT如今是否已成为主流?

    Everydays: the First 5000 Days/Beeple去年三月,一件艺术品被著名拍卖行佳士得以6930万美元的高价售出。而让人们感到震惊的是,这个拍卖作品不是出自哪位艺术大

最新推荐

猜你喜欢

热门推荐

相关资讯

Top