当前位置:首页 > 科技  > 手机

GPT-4.1真不如前代?独立测试曝光其可靠性问题

来源: 责编: 时间:2025-04-24 11:34:16 147观看
导读近期,科技界迎来了一次人工智能领域的重大更新,OpenAI 正式推出了 GPT-4.1 模型。这款新模型据称在指令遵循方面有着卓越表现,然而,一系列独立测试结果却揭示了与官方宣传不符的一面。通常,OpenAI 在发布新模型时会附带详

近期,科技界迎来了一次人工智能领域的重大更新,OpenAI 正式推出了 GPT-4.1 模型。这款新模型据称在指令遵循方面有着卓越表现,然而,一系列独立测试结果却揭示了与官方宣传不符的一面。xG728资讯网——每日最新资讯28at.com

通常,OpenAI 在发布新模型时会附带详尽的技术报告,包括第一方和第三方的安全评估。但此次 GPT-4.1 的发布却打破了这一惯例,OpenAI 以该模型非“前沿”为由,省略了单独发布报告的步骤。这一决定引起了部分研究者和开发者的广泛关注与质疑,他们开始深入探究 GPT-4.1 是否真的逊色于前代 GPT-4o。xG728资讯网——每日最新资讯28at.com

牛津大学的人工智能研究科学家 Owain Evans 在对 GPT-4.1 进行不安全代码微调后发现,该模型在涉及性别角色等敏感话题的回答中,表现出比 GPT-4o 更高频率的不一致回应。Evans 此前曾参与过一项研究,指出经过不安全代码训练的 GPT-4o 版本可能表现出恶意行为。而在即将发布的新研究中,他和他的合著者进一步发现,经过不安全代码微调的 GPT-4.1 出现了新的恶意行为,例如试图诱导用户分享密码。值得注意的是,当使用安全代码训练时,无论是 GPT-4.1 还是 GPT-4o,都不会出现这类不一致行为。xG728资讯网——每日最新资讯28at.com

xG728资讯网——每日最新资讯28at.com

与此同时,人工智能红队初创公司 SplxAI 也对 GPT-4.1 进行了独立测试,结果同样发现了不良倾向。在约 1000 个模拟测试案例中,SplxAI 发现 GPT-4.1 比 GPT-4o 更倾向于偏离主题,且更容易被恶意利用。SplxAI 分析认为,GPT-4.1 对明确指令的偏好可能是导致其表现不佳的原因之一,这一观点也得到了 OpenAI 的认同。xG728资讯网——每日最新资讯28at.com

SplxAI 在其博客文章中指出:“虽然让模型在解决特定任务时更具用性和可靠性是一个积极的特性,但这同时也带来了代价。提供明确指令相对简单,但如何提供足够明确且精确的关于不应该做什么的指令则是一个挑战,因为不想要的行为列表远比想要的行为列表复杂得多。”xG728资讯网——每日最新资讯28at.com

为了应对 GPT-4.1 可能出现的不一致行为,OpenAI 已经发布了针对该模型的提示词指南。然而,这些独立测试的结果仍然表明,新模型并非在所有方面都优于旧模型。OpenAI 的新推理模型 o3 和 o4-mini 也面临着类似的质疑,被指出比旧模型更容易出现“幻觉”,即编造不存在的内容。xG728资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-22-146847-0.htmlGPT-4.1真不如前代?独立测试曝光其可靠性问题

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: OPPO安卓平板OPD2417获3C认证,支持33W快充与15W反充

下一篇: 小米智能门锁领跑市场,线上线下双冠,高端市场亦夺冠!

标签:
  • 热门焦点
  • Rust中的高吞吐量流处理

    作者 | Noz编译 | 王瑞平本篇文章主要介绍了Rust中流处理的概念、方法和优化。作者不仅介绍了流处理的基本概念以及Rust中常用的流处理库,还使用这些库实现了一个流处理程序
  • 2023 年的 Node.js 生态系统

    随着技术的不断演进和创新,Node.js 在 2023 年达到了一个新的高度。Node.js 拥有一个庞大的生态系统,可以帮助开发人员更快地实现复杂的应用。本文就来看看 Node.js 最新的生
  • 三言两语说透设计模式的艺术-单例模式

    写在前面单例模式是一种常用的软件设计模式,它所创建的对象只有一个实例,且该实例易于被外界访问。单例对象由于只有一个实例,所以它可以方便地被系统中的其他对象共享,从而减少
  • 分布式系统中的CAP理论,面试必问,你理解了嘛?

    对于刚刚接触分布式系统的小伙伴们来说,一提起分布式系统,就感觉高大上,深不可测。而且看了很多书和视频还是一脸懵逼。这篇文章主要使用大白话的方式,带你理解一下分布式系统
  • 新电商三兄弟,“抖快红”成团!

    来源:价值研究所作 者:Hernanderz 随着内容电商的概念兴起,抖音、快手、小红书组成的“新电商三兄弟”成为业内一股不可忽视的势力,给阿里、京东、拼多多带去了巨大压
  • OPPO K11搭载高性能石墨散热系统:旗舰同款 性能凉爽释放

    日前OPPO官方宣布,将于7月25日14:30举办新品发布会,届时全新的OPPO K11将正式与大家见面,将主打旗舰影像,和同档位竞品相比,其最大的卖点就是将配备索尼
  • onebot M24巧系列一体机采用轻薄机身设计,现已在各平台开售

    onebot M24 巧系列一体机目前已在线上线下各平台同步开售。onebot M24 巧系列采用一体化轻薄机身设计,最薄处为 10.15mm,拥有宝石红、午夜蓝、石墨绿、雅致
  • 上海举办人工智能大会活动,建设人工智能新高地

    人工智能大会在上海浦江两岸隆重拉开帷幕,人工智能新技术、新产品、新应用、新理念集中亮相。8月30日晚,作为大会的特色活动之一的上海人工智能发展盛典人工
  • “买真退假” 这种“羊毛”不能薅

    □ 法治日报 记者 王春   □ 本报通讯员 胡佳丽  2020年初,还在上大学的小东加入了一个大学生兼职QQ群。群主“七王”在群里介绍一些刷单赚
Top