当前位置：首页 > 元宇宙 > AI

智源评测体系发布国内外“百模”评估结果出炉

来源：责编：时间：2024-05-20 17:49:51 246观看

导读2024年5月17日，智源研究院举办大模型评测发布会，正式推出科学、权威、公正、开放的智源评测体系，发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测，分别从主观、客观两个维度

2024年5月17日，智源研究院举办大模型评测发布会，正式推出科学、权威、公正、开放的智源评测体系，发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。

本次智源评测，分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力;针对多模态模型则主要评估了多模态理解和生成能力。

●语言模型

在中文语境下，国内头部语言模型的综合表现已接近国际一流水平，但存在能力发展不均衡的情况。

●多模态模型

在理解图文问答任务上，开闭源模型平分秋色，国产模型表现突出。

在中文语境下，国产大模型文生图能力与国际一流水平差距较小。

在文生视频能力上，对比各家公布的演示视频长度和质量，Sora有明显优势，其他开放评测的文生视频模型中，国产模型PixVerse表现优异。

由于安全与价值观对齐是模型产业落地的关键，但海外模型与国内模型在该维度存在差异，因此语言模型主客观评测的总体排名不计入该单项分数。

语言模型主观评测结果显示，在中文语境下，字节跳动豆包Skylark2、OpenAIGPT-4位居第一、第二，国产大模型更懂中国用户。在语言模型客观评测中，OpenAIGPT-4、百川智能Baichuan3位居第一、第二。百度文心一言4.0、智谱华章GLM-4和月之暗面Kimi均进入语言模型主客观评测前五。

多模态理解模型客观评测结果显示，图文问答方面，阿里巴巴通义Qwen-vl-max与上海人工智能实验室InternVL-Chat-V1.5先后领先于OpenAIGPT-4，LLaVA-Next-Yi-34B和上海人工智能实验室Intern-XComposer2-VL-7B紧随其后。

多模态生成模型文生图评测结果显示，OpenAIDALL-E3位列第一，智谱华章CogView3、meta-Imagine分居第二、第三，百度文心一格、字节跳动doubao-Image次之。

多模态生成模型文生视频，OpenAISora、Runway、爱诗科技PixVerse、Pika、腾讯VideoCrafter-V2位列前五。

注：

文生图模型的客观评测指标与主观感受差异巨大，有失效的迹象，因此排名以主观评测为准;Mdjourney基本无法理解中文提示词，因此排名靠后;仅使用其官方公布的prompts和视频片段与其他模型生成的视频进行对比评测，评测结果存在一定的偏差。

首次联合权威教育机构进行大模型K12学科测试

当前，大模型的发展具备了通用性，在逻辑推理能力上有显著提升，日趋接近人脑的特征。因此，在海淀区教委支持下，智源研究院联合与海淀区教师进修学校对齐学生测验方式，考察大模型与人类学生的学科水平差异，其中，答案不唯一的主观题，由海淀教师亲自评卷。

智源评测发现，模型在综合学科能力上与海淀学生平均水平仍有差距，普遍存在文强理弱的情况，并且对图表的理解能力不足，大模型未来有很大的提升空间。

北京市海淀区教师进修学校校长姚守梅解读大模型K12学科测试结果时指出，在语文、历史等人文学科的考试中，模型欠缺对文字背后的文化内涵以及家国情怀的理解。面对历史地理综合题时，模型并不能像人类考生一样有效识别学科属性。相较于简单的英语题，模型反而更擅长复杂的英语题。解理科题目时，模型会出现以超出年级知识范围外的方法解题的情况。当出现无法理解的考题时，模型依然存在明显的“幻觉”。

系统化构建文生视频模型主观评价体系

中国传媒大学智能媒体计算实验室负责人史萍教授表示，相较文本，视频的主观评价复杂度极高。自动化指标无法完全捕捉模型生成的质量，更无法对生成视频的真实性、图文语义一致性等进行量化。因此，需要系统化构建针对文生视频模型的主观评价体系。

该评价体系，由智源研究院与中国传媒大学基于双方在大模型评测领域和视频质量评价领域的丰富科研成果与实践经验共同建立，在图文一致性、真实性、视频质量、美学质量四大方面给出多维度评分，为AIGC视频生成技术的应用及发展提供参考。

科学权威公正开放的智源评测体系

依托科技部“人工智能基础模型支撑平台与评测技术”和工信部“大模型公共服务平台”项目，智源研究院与10余家高校和机构联合开展大模型评测方法与工具研发。

2023年6月，由智源研究院与多个高校团队共建的Flageval大模型评测平台上线，迄今为止已完成了1000多次覆盖全球多个开源大模型的评测，并持续发布评测结果，广泛地积累了国际领先的评测技术。

开放服务

1智源Flag eval天秤大模型评测平台

2 与Hugging Face社区合作的开放中文大语言模型评测榜单 (Open Chinese LLM Leaderboard)

3 首个借助大模型合成数据的多元异质信息检索评估基准--智源AirBench

智源研究院牵头成立了IEEE大模型评测标准小组P3419，组织20余家企业及学者参与大模型标准建设,同时作为《人工智能预训练模型评测指标与方法》国家标准草案的共建单位，智源此次的模型评测，借鉴了该标准，采取了客观评测统一规则与主观评测多重校验打分相结合的方法。其中，开源模型采用模型发布方推荐的推理代码及运行环境，对所有模型统一使用业界通用的提示语，不针对模型做提示语的优化。

本次智源评测使用20余个数据集、超8万道考题，包括与合作单位共建和智源自建的多个评测数据集，如中文多模态多题型理解及推理评测数据集CMMU、中文语义评测数据集C-SEM、中文语言及认知主观评测集CLCC、面向复杂算法代码生成任务的评测集TACO、文生图主观评测集Image-gen、多语言文生图质量评测数据集MG18、文生视频模型主观评测集CUC T2Vprompts。其中，主观题4000余道，均来源于自建原创未公开并保持高频迭代的主观评测集，严格校准打分标准，采取多人独立匿名评分、严格质检与抽检相结合的管理机制，降低主观偏差的影响。此外，为了更准确地评测语言模型的各项能力，智源专门对所有客观数据集的子数据集进行了能力标签映射。

科学权威公正开放，是智源评测的最高纲领。智源研究院院长王仲远表示，未来，智源将携手生态合作伙伴继续共建完善评测体系，促进模型性能的优化以及在多元复杂场景下的产业落地，推动大模型技术应用的有序发展。

最后需要说明的是，此次智源评测结果仍有一定的局限性：

1.本次评测主要集中于通用大模型的评测，还未覆盖到垂直领域大模型;主要目标是为国内大模型生态提供参考，因此侧重于在中文语境下的评估;通过API访问模型会与网页端访问有差异，在一定程度上也会影响模型表现。

2.本次评测各模型厂商发布的最新版本截至2024年4月20日，不代表各个厂商最新发布的模型性能表现。智源后续将持续、定期更新评测结果，欢迎模型厂商与智源交流、评测最新版本的模型能力。

3.虽然我们努力将更多数据集纳入本次评测，但由于资源和时间限制，仅精选了部分有代表性的数据集，后续我们也会持续扩充和新编数据集，将特别关注在复杂任务和垂直领域上的评测集建设，欢迎开放讨论，共建共享评测数据及工具。

4. 单次评测的结果一定存在偏差，智源也将持续跟踪大模型能力的发展，欢迎大家持续的关注和支持。

(作者：刘恒)

本文链接：http://www.28at.com/showinfo-45-5499-0.html智源评测体系发布国内外“百模”评估结果出炉

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：提供全天候健康服务,人民日报健康客户端上线“AI健康管家”

下一篇：以AI+产品矩阵赋能千行百业，普渡机器人召开2024年新品发布会

标签：

热门焦点

“元宇宙”里过大年，《迷你世界》在做一场怎样的实验？

2021年是游戏行业不确定性急剧上升的一年。一方面游戏正风光无限，腾讯等大厂更加密集地投资动作，让游戏创投市场异常火热，"元宇宙"概念的大放异彩，更是吸引了Netfl
有人狂赚千倍，资金盘游戏日进上亿，元宇宙泡沫还能吹多久？

你还不知道元宇宙？没关系。看看微软、Meta、英伟达的雄心壮志，便可领略元宇宙的辽阔。1月18日，微软宣布将以687亿美元收购动视暴雪，这是有史以来互联网领域最大的
2022年6款最佳的NFT稀有度查询工具

NFT正在风靡全球，但拥有一个你自认为看起来很酷的 NFT 是不够的，因为它还应该是稀有的，稀有度会影响每个 NFT 的价值。因此，如果您打算投资 NFT，则需要使用 NFT 稀
从虚拟餐厅到虚拟时装秀，行业巨头掀起元宇宙商标注册潮

自从 Facebook 更名为 Meta 后，关于元宇宙的讨论愈发激烈，这一词汇也越来越多的出现在我们的视野里。这是一个非常有趣的话题。伴随着争论，有些人认为是马克·扎
顶流IP“冰墩墩”带着中国元素NFT进入全球视野

一场被国际奥委会主席评价堪称独具匠心、非凡卓越的2022年北京冬季奥运会，在这个“双奥之城”经历了16个令人难忘的精彩日夜，最终圆满闭幕。让我们印象深刻的不
2030年的元宇宙产业将会如何发展？

对互联网巨头传统业务的反垄断政策倒逼互联网企业颠覆创新，寻找新的增长点，移动互联网流量空间见顶之际，元宇宙时代红利已然开启。序章：元宇宙应用场景大猜想元宇
小众有趣NFT艺术作品欣赏（1）

随着NFT发展火热，越来越多领域与NFT融合，NFT艺术在加密领域中占据了很大一部分。NFT艺术与传统艺术有相似之处，也有完全不同的地方。NFT艺术与传统艺术一样，表现了
HTC Vive推出元宇宙平台Viverse；腾讯投资小米生态链AR眼镜厂商

今日热点：HTC Vive正式推出元宇宙平台Viverse；腾讯投资小米生态链AR眼镜厂商北京蜂巢科技；面部追踪和眼动追踪是Quest下一版本的“重点”；索尼PSVR 2将推迟至2023
2022年元宇宙系列报告：UGC当道，XR带来新交互体验

UGC作为元宇宙的主要内容创作模式，已经越来越多的呈现于游戏、娱乐、社交、传媒等方面，UGC模式勾勒了元宇宙的边界，现今元宇宙UGC模式的主要呈现方式以元宇宙概念

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

智源评测体系发布国内外“百模”评估结果出炉

“元宇宙”里过大年，《迷你世界》在做一场怎样的实验？

有人狂赚千倍，资金盘游戏日进上亿，元宇宙泡沫还能吹多久？

2022年6款最佳的NFT稀有度查询工具

从虚拟餐厅到虚拟时装秀，行业巨头掀起元宇宙商标注册潮

顶流IP“冰墩墩”带着中国元素NFT进入全球视野

2030年的元宇宙产业将会如何发展？

小众有趣NFT艺术作品欣赏（1）

HTC Vive推出元宇宙平台Viverse；腾讯投资小米生态链AR眼镜厂商

2022年元宇宙系列报告：UGC当道，XR带来新交互体验

最新推荐

大厂元宇宙，又菜又爱玩

企业热、用户冷，元宇宙第一站将是“营销场”？

米哈游推出元宇宙品牌；VR/AR老牌企业当红齐天完成B轮+融资

又一家数字营销公司入局元宇宙，国内首个艺术元宇宙社区“Meta彼岸”上线

赵长鹏预测SoicalFi为今年主要驱动力，新的机会在哪里？

技术赋能，国内首家宠物元宇宙平台“Pet Meta”开启虚拟养宠新方式

猜你喜欢

热门推荐

相关资讯

智源评测体系发布 国内外“百模”评估结果出炉

最新推荐

猜你喜欢

热门推荐

相关资讯

智源评测体系发布国内外“百模”评估结果出炉