当前位置：首页 > 元宇宙 > AI

Meta 开源大模型 Llama-4-Maverick 基准测试排名暴跌，此前被质疑刷榜作弊

来源：责编：时间：2025-04-16 07:18:56 199观看

导读 4 月 14 日消息，LMArena 更新了 Meta 最新发布的开源大模型 Llama-4-Maverick 的排名，其从此前的第 2 名直线下降至第 32 名。这证实了此前开发者对 Meta 为刷榜向 LMArena 提供“特供版”Llama 4 大模型的质疑

4 月 14 日消息，LMArena 更新了 Meta 最新发布的开源大模型 Llama-4-Maverick 的排名，其从此前的第 2 名直线下降至第 32 名。这证实了此前开发者对 Meta 为刷榜向 LMArena 提供“特供版”Llama 4 大模型的质疑。

4 月 6 日，Meta 发布了最新的大模型 Llama 4，包含 Scout、Maverick 和 Behemoth 三个版本。其中，Llama-4-Maverick 在 LMArena 公布的 Chatbot Arena LLM 排行榜中排名第二，仅次于 Gemini 2.5 Pro。然而，随着开发者实际使用 Llama 4 大模型开源版的效果陆续曝光，Llama 4 的口碑急转直下。有开发者发现 Meta 提供给 LMArena 的 Llama 4 版本与提交给社区的开源版本不同，因而质疑 Meta 刷榜作弊。

4 月 8 日，Chatbot Arena 官方发文确认了用户的上述质疑，公开表示 Meta 提供给他们的是“特供版”，并考虑更新排行榜。根据 Chatbot Arena 官方消息，Meta 首次提交 LMArena 的 Llama-4-Maverick-03-26-Experimental 是一个实验性聊天优化版本，当时该版本的排名为第二。修正后的模型为 HuggingFace 开源版同款 Llama-4-Maverick-17B-128E-Instruct，是 17B 激活参数、128 个 MoE 专家的指令微调模型。

注意到，目前开源版同款 Llama-4-Maverick-17B-128E-Instruct 在 LMArena 的排名为 32 名，远低于 Gemini 2.5 Pro（1）、GPT4o（2）、DeepSeek-V3-0324（5）、DeepSeek-R1（7）、Qwen2.5-Max（11），甚至连英伟达基于上一代 Llama 3.3 改造的 Llama-3.3-Nemotron-Super-49B-v1（17）都不如。

Meta 的 Llama-4-Maverick-03-26-Experimental 为何表现不佳？该公司在上周六发布的一张图表中解释称，该模型是“针对对话性进行优化”的。这些优化显然在 LM Arena 上取得了不错的效果，因为 LM Arena 的人类评分者会比较不同模型的输出，并选择他们更偏好的结果。

由于各种原因，LM Arena 从未被视为衡量 AI 模型性能的最可靠指标。尽管如此，针对基准测试调整模型不仅具有误导性，还使得开发者难以准确预测该模型在不同场景下的表现。

Meta 的一位发言人向 TechCrunch 表示，Meta 会尝试“各种类型的定制变体”。“‘Llama-4-Maverick-03-26-Experimental’是我们尝试的一个针对聊天优化的版本，它在 LM Arena 上也表现不错，”该发言人说，“我们现在已发布了开源版本，将看看开发者如何根据自己的使用案例定制 Llama 4。我们期待看到他们构建的内容，并期待他们持续的反馈。”

本文链接：http://www.28at.com/showinfo-45-12275-0.htmlMeta 开源大模型 Llama-4-Maverick 基准测试排名暴跌，此前被质疑刷榜作弊

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：单图直出 CAD 工程文件，新研究解决 AI 生成 3D 模型“不可编辑”痛点

下一篇： OpenAI CEO 奥尔特曼：DeepSeek 并未影响 GPT 的增长，将推更好的开源模型

标签：

热门焦点

元娲2.7上线：虚拟人视频制作速度疯狂翻倍！

来源：清元宇宙炎炎夏日努力工作的Q仔的电脑都冒烟儿啦～今天要给大家介绍两个新小伙伴——小元和小娲，他们将给大家解读元娲2.7版本重磅更新内容～大家掌声欢迎～～～本次更
元宇宙步入暗夜

撰文 | 文烨豪元宇宙的故事，似乎讲不通了。当下，刮起元宇宙热潮的Roblox股价已跌去大半，带头大哥Meta也正因元宇宙亏损深陷泥潭。再看国内，从字节“派对岛&
“元宇宙第一股”Roblox首份年报未达预期，摩根大通成为首家进入元宇宙的银行

今日《元宇宙新鲜事》有：“元宇宙第一股”Roblox首份年报未达预期致盘后股价暴跌15.28%；YouTube宣布进军区块链和元宇宙；摩根大通成为首家进入元宇宙的银行。【中
纽约街头出现NFT自动贩卖机

一家初创公司宣布在纽约市开放一台NFT自动售货机，允许任何人——即使是没有加密资产的人也能购买NFT。该交易平台名为Neon，上个月完成了一轮300万美元的种子募捐
韩国建立元宇宙生态系统，智度股份发布元宇宙社区Meta彼岸

财联社|区块链日报28日讯今日《元宇宙新鲜事》有：杭州第十三次党代会报告指出抓紧布局元宇宙等未来产业；韩国科学信息通信技术部宣布投资1.85亿美元建立元宇宙
元宇宙画廊体验报告：有点头疼。

2 月 10 日，Hrishi Rajasekar 在旧金山铸币厂的沉浸式 NFT 展览 Verse 观看增强现实艺术品。“我们现在在虚拟世界中吗？时间好像变长了” 我问身后排队的人。我
虚拟邓丽君后，数字人赛道开启3.0时代

“如果右脑时代来临，虚拟世界将是对人类才华的无限放大。” 郭晓喆称，开发数字人形象时，自己的团队在内部“卷”了一下：“当我们翻阅大量历史典籍的时候，苏小妹找到
Ceramic：为Web3.0社交应用打造的中间件

大家关注老雅痞公众号这么久，对Web3的概念不陌生吧？让我们做一个简短的回顾，Web3主要被描述为去中心化的网络，旨在实现无服务器、去中心化的互联网，即用户掌握自己
全球十大元宇宙概念游戏

A股市场中，不少游戏公司早早搭上了元宇宙概念。举例，中青宝宣称将发布一款元宇宙概念的模拟经营类游戏，尽管游戏尚在研发中，这一消息已经让中青宝的股价在51个交易

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

Meta 开源大模型 Llama-4-Maverick 基准测试排名暴跌，此前被质疑刷榜作弊

元娲2.7上线：虚拟人视频制作速度疯狂翻倍！

元宇宙步入暗夜

“元宇宙第一股”Roblox首份年报未达预期，摩根大通成为首家进入元宇宙的银行

纽约街头出现NFT自动贩卖机

韩国建立元宇宙生态系统，智度股份发布元宇宙社区Meta彼岸

元宇宙画廊体验报告：有点头疼。

虚拟邓丽君后，数字人赛道开启3.0时代

Ceramic：为Web3.0社交应用打造的中间件

全球十大元宇宙概念游戏

最新推荐

元娲2.7上线：虚拟人视频制作速度疯狂翻倍！

时尚领域进军元宇宙，2022年会带来哪些颠覆性的全新体验？

2022开年最热投资赛道竟是虚拟人，背后隐藏了什么商业价值？

顶流IP“冰墩墩”带着中国元素NFT进入全球视野

虚拟数字人：元宇宙的主角破圈而来

百度虚拟人——AI手语主播首次亮相冬奥会！

猜你喜欢

热门推荐

相关资讯