当前位置:首页 > 科技  > 互联网

凭一篇博客入职OpenAI,他的优化器能成为GPT-5的秘密武器吗?

来源: 责编: 时间:2025-06-17 09:52:49 91观看
导读近日,AI领域迎来了一则引人注目的消息。据AI云服务商Hyperbolic的联合创始人兼首席技术官Yuchen Jin在社交平台上的爆料,研究员Keller Jordan仅凭一篇博客文章就成功加入了OpenAI,并有可能正在利用文章中提及的神经网络

近日,AI领域迎来了一则引人注目的消息。据AI云服务商Hyperbolic的联合创始人兼首席技术官Yuchen Jin在社交平台上的爆料,研究员Keller Jordan仅凭一篇博客文章就成功加入了OpenAI,并有可能正在利用文章中提及的神经网络隐藏层优化器Muon来训练GPT-5。utX28资讯网——每日最新资讯28at.com

Yuchen Jin指出,许多研究人员,包括过去的自己,都曾误以为在顶级学术会议上发表论文才是最终目标。然而,Keller Jordan用实际行动证明了,发表论文并不等同于产生影响力。他的博客文章《Muon:神经网络隐藏层的优化器》虽然只是以博客形式发布,却让他成功加入了OpenAI。utX28资讯网——每日最新资讯28at.com

utX28资讯网——每日最新资讯28at.com

Keller Jordan的这篇博客发布于2024年12月,详细介绍了Muon优化器的设计、实证结果及其与先前研究的联系。Muon是一个针对神经网络隐藏层二维参数的优化器,它在NanoGPT和CIFAR-10的快速运行中刷新了训练速度的记录。具体来说,Muon使用Newton-Schulz矩阵迭代作为后处理步骤,来优化SGD-momentum生成的更新,从而提高了训练效率。utX28资讯网——每日最新资讯28at.com

utX28资讯网——每日最新资讯28at.com

根据Keller Jordan的博客内容,Muon在多个任务上均取得了显著的实证成果。例如,在CIFAR-10数据集上,它将训练速度记录提高到了94%的准确率,并将训练时间从3.3秒缩短到了2.6秒。Muon还在NanoGPT快速运行的竞赛任务FineWeb上刷新了训练速度记录,提高了1.35倍。更重要的是,Muon在扩展到更大规模模型时,继续显示出了训练速度的提升。utX28资讯网——每日最新资讯28at.com

Keller Jordan在博客中还深入探讨了Muon的设计原理,解释了为什么正交化更新是可行的。他指出,SGD-momentum和Adam等传统优化器对基于Transformer的神经网络中的二维参数产生的更新通常具有非常高的条件数,即这些更新几乎是低秩矩阵。通过正交化这些更新,Muon能够有效地增加其他“稀有方向”的规模,从而提高学习性能。utX28资讯网——每日最新资讯28at.com

utX28资讯网——每日最新资讯28at.com

除了设计原理外,Keller Jordan还在博客中提供了Muon与AdamW等标准优化器的对比实验。实验结果显示,在多个任务和数据集上,Muon均表现出了优于AdamW的训练效率。特别是在训练大型语言模型时,Muon的FLOP开销低于1%,却能够显著提高训练速度。utX28资讯网——每日最新资讯28at.com

utX28资讯网——每日最新资讯28at.com

Keller Jordan的这篇博客不仅引起了学术界的关注,更让他成功加入了OpenAI。据职场社交平台领英显示,Keller Jordan正是在2024年12月加入OpenAI的。由此可以推测,他正是凭借这篇博客中介绍的Muon优化器,成功进入了这家如日中天的头部大模型企业。utX28资讯网——每日最新资讯28at.com

utX28资讯网——每日最新资讯28at.com

目前,尚不清楚Muon是否已经成为GPT-5训练中的关键技术。但无论如何,Keller Jordan的这篇博客和Muon优化器都已经引起了业界的广泛关注。随着OpenAI对GPT-5研究的深入,我们有理由期待Muon能够在未来的人工智能领域发挥更加重要的作用。utX28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-21-160303-0.html凭一篇博客入职OpenAI,他的优化器能成为GPT-5的秘密武器吗?

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 华为Pura 80 Ultra震撼登场:影像巅峰,5700mAh大电池续航无忧!

下一篇: 中东富豪豪掷千金,加价两百万求购尊界S800余承东能否如愿?

标签:
  • 热门焦点
  • 一加Ace2 Pro官宣:普及16G内存 引领24G

    一加官方今天继续为本月发布的新机一加Ace2 Pro带来预热,公布了内存方面的信息。“淘汰 8GB ,12GB 起步,16GB 普及,24GB 引领,还有呢?#一加Ace2Pro#,2023 年 8 月,敬请期待。”同时
  • 卢伟冰长文解析K60至尊版 对Redmi有着里程碑式的意义

    在今天的Redmi后性能时代战略发布会结束之后,Redmi总经理卢伟冰又带来了一篇长文,详解了为什么 Redmi 要开启后性能时代?为什么选择和 MediaTek、Pixelworks 深度合作?以及后性
  • 6月安卓手机好评榜:魅族20 Pro蝉联冠军

    性能榜和性价比榜之后,我们来看最后的安卓手机好评榜,数据来源安兔兔评测,收集时间2023年6月1日至6月30日,仅限国内市场。第一名:魅族20 Pro好评率:95%5月份的时候魅族20 Pro就是
  • 5月iOS设备性能榜:M1 M2依旧是榜单前五

    和上个月一样,没有新品发布的iOS设备性能榜的上榜设备并没有什么更替,仅仅只有跑分变化而产生的排名变动,刚刚开始的苹果WWDC2023,推出的产品也依旧是新款Mac Pro、新款Mac Stu
  • K6:面向开发人员的现代负载测试工具

    K6 是一个开源负载测试工具,可以轻松编写、运行和分析性能测试。它建立在 Go 和 JavaScript 之上,它被设计为功能强大、可扩展且易于使用。k6 可用于测试各种应用程序,包括 Web
  • 为什么你不应该使用Div作为可点击元素

    按钮是为任何网络应用程序提供交互性的最常见方式。但我们经常倾向于使用其他HTML元素,如 div span 等作为 clickable 元素。但通过这样做,我们错过了许多内置浏览器的功能。
  • 破圈是B站头上的紧箍咒

    来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之每年的暑期档都少不了瞄准追剧女孩们的古偶剧集,2021年有优酷的《山河令》,2022年有爱奇艺的《苍兰诀》,今年却轮到小破站抓住了追
  • 余承东:AI大模型技术的发展将会带来下一代智能终端操作系统的智慧体验

    8月4日消息,2023年华为开发者大会(HDC.Together)今天正式开幕,华为发布HarmonyOS 4、全新升级的鸿蒙开发套件、HarmonyOS Next开发者预览版本等一系列
  • 2299元起!iQOO Pad明晚首销:性能最强天玑平板

    5月23日,iQOO如期举行了新品发布会,除了首发安卓最强旗舰处理器的iQOO Neo8系列新机外,还在发布会上推出了旗下首款平板电脑——iQOO Pad,其最大的卖点
Top