当前位置：首页 > 元宇宙 > AI

斯坦福大模型评测榜 Claude 3 排名第一，阿里 Qwen2、零一万物 Yi Large 国产模型进入前十

来源：责编：时间：2024-06-25 17:11:53 305观看

导读 6 月 22 日消息，斯坦福大学基础模型研究中心（CRFM）6 月 11 日发布了大规模多任务语言理解能力评估（Massive Multitask Language Understanding on HELM）排行榜，其中综合排名前十的大语言模型中有两款来自中国厂商，分

6 月 22 日消息，斯坦福大学基础模型研究中心（CRFM）6 月 11 日发布了大规模多任务语言理解能力评估（Massive Multitask Language Understanding on HELM）排行榜，其中综合排名前十的大语言模型中有两款来自中国厂商，分别是阿里巴巴的 Qwen2 Instruct（72B）和零一万物的 Yi Large（Preview）。

据悉大规模多任务语言理解能力评估（MMLU on HELM）采用了 Dan Hendrycks 等人提出的一种测试方法，用于衡量文本模型在多任务学习中的准确性。这个测试内容包括基础数学、美国历史、计算机科学、法律等领域的 57 个任务。要在这个测试中获得高分，模型必须具备广泛的世界知识和解决问题的能力。附排名如下：

▲ 图源斯坦福大学基础模型研究中心官网

1、Claude 3 Opus（20240229）： Anthropic（美国，亚马逊投资）

2、GPT-4o（2024-05-13）：OpenAI（美国）

3、Gemini 1.5 Pro：谷歌（美国）

4、GPT-4（0613）：OpenAI（美国）

5、Qwen2 Instruct（72B）：阿里巴巴（中国）

6、GPT-4 Turbo（2024-04-09）：OpenAI（美国）

7、Gemini 1.5 Pro（0409 preview）：谷歌（美国）

8、GPT-4 Turbo（1106 preview）：OpenAI（美国）

9、Llama 3（70B）：Meta（美国）

10、Yi Large（Preview）：零一万物（中国）

Qwen2 是由阿里巴巴开发的一款开源大语言模型，发布于今年 6 月 6 日。Qwen2 系列包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B 在内的五个不同规模的预训练及指令微调模型；支持除英语和中文外的额外 27 种语言的数据训练；Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 支持长 128K 个 token 的上下文。

Yi Large 是由零一万物公司开发的一款闭源大模型，Yi 模型系列基于 6B 和 34B 预训练语言模型，然后扩展到聊天模型、200K 长上下文模型、深度升级模型和视觉语言模型。官方宣称“其在关键基准测试分数上优于 GPT-4 和 Claude 3 Opus 等领先模型”。

本文链接：http://www.28at.com/showinfo-45-4773-0.html斯坦福大模型评测榜 Claude 3 排名第一，阿里 Qwen2、零一万物 Yi Large 国产模型进入前十

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： GPT-4o 差点没及格！首个多任务长视频评测基准，它有亿点难

下一篇：消息称苹果与 Meta 讨论合作，将生成式 AI 引入 Apple Intelligence

标签：

热门焦点

亚马逊AIGC全家桶来袭，巨头AI大乱战都有什么杀手锏

此前，亚马逊云科技发布多款AIGC产品，其中包括AI大模型服务Amazon Bedrock、人工智能计算实例Amazon EC2 Trn1n和Amazon EC2 Inf2、自研“泰坦”（Titan）AI大模型、软件
2022 区块链 50 强榜单；垃圾NFT项目的十三个特性

本期关键字TerraZero在Decentraland完成元宇宙住房抵押贷款；腾讯发行齐白石画作数字藏品；Ripple成为数字欧元协会成员；Gem上线稀有度排名功能；2022 区块链 50 强榜
冰墩墩还能火多久？

作者：田巧云题图源自北京2022年冬奥会官方微博如果要问2022年的开年明星是谁，冰墩墩当仁不让。几乎所有人都被那个抖雪的动作实力圈粉。在社交媒体的助推，以及日
元宇宙是推动NFT发展的初始家园

现在大家都知道了什么是NFT，但好像离自己的生活还有一定距离。随着我们与NFT 接触增加，该如何将这些数字资产带入我们的日常生活？NFT还是主流吗？如果我们将“主流
Shiba Inu布局元宇宙走出Meme局限

以「狗狗币杀手」成名的Shiba Inu（SHIB）在人们的印象中始终有着浓厚的Meme（模因恶搞）烙印，但它似乎一直在尝试突破这种局限。建立起一个庞大的粉丝社区后，Shiba Inu
纽约证券交易所母公司ICE收购tZero股份以探索代币化股票

2 月 22 日，纽约证券交易所 (NYSE) 的母公司洲际交易所 (ICE) 宣布，它将持有私人数字证券市场 tZERO 的所有权。根据公告，ICE 将成为 tZero 的“重要”少数股东，但
音乐NFT平台里的下一匹黑马是谁？

NFT 销售额在 2021 年开始暴涨，从 2018 年的仅 4069 万美元的交易量，到 2021 年，NFT 交易量飙升至 442 亿美元以上，并不断刷新记录并达到新的高度。预测到2025 年N
顶级NFT收藏家Gary Vaynerchuk 与百威推出NFT

特别声明，我们的文章不作为投资建议，请各位读者独立思考，还是那句话：投资要慎之又慎，谁也不要相信。Gary Verneychuk 和百威 NFT 之一。由 VeynerNFT 提供百威推出
售出6930万美元的NFT已经过去一年，NFT如今是否已成为主流？

Everydays: the First 5000 Days/Beeple去年三月，一件艺术品被著名拍卖行佳士得以6930万美元的高价售出。而让人们感到震惊的是，这个拍卖作品不是出自哪位艺术大

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

斯坦福大模型评测榜 Claude 3 排名第一，阿里 Qwen2、零一万物 Yi Large 国产模型进入前十

亚马逊AIGC全家桶来袭，巨头AI大乱战都有什么杀手锏

2022 区块链 50 强榜单；垃圾NFT项目的十三个特性

冰墩墩还能火多久？

元宇宙是推动NFT发展的初始家园

Shiba Inu布局元宇宙走出Meme局限

纽约证券交易所母公司ICE收购tZero股份以探索代币化股票

音乐NFT平台里的下一匹黑马是谁？

顶级NFT收藏家Gary Vaynerchuk 与百威推出NFT

售出6930万美元的NFT已经过去一年，NFT如今是否已成为主流？

最新推荐

《蜘蛛侠》火了，超级英雄就该这么演

元宇宙风口下，视觉中国如何重估？

智能人机交互技术的春晚大考

扎克伯格演示了一种“造物主”式的元宇宙语音机器人工具

又一家数字营销公司入局元宇宙，国内首个艺术元宇宙社区“Meta彼岸”上线

2022年元宇宙系列报告：UGC当道，XR带来新交互体验

猜你喜欢

热门推荐

相关资讯