当前位置:首页 > 元宇宙 > AI

智源评测体系发布 国内外“百模”评估结果出炉

来源: 责编: 时间:2024-05-20 17:49:51 199观看
导读2024年5月17日,智源研究院举办大模型评测发布会,正式推出科学、权威、公正、开放的智源评测体系,发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测,分别从主观、客观两个维度

2024年5月17日,智源研究院举办大模型评测发布会,正式推出科学、权威、公正、开放的智源评测体系,发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。sg228资讯网——每日最新资讯28at.com

本次智源评测,分别从主观、客观两个维度考察了语言模型简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力;针对多模态模型则主要评估了多模态理解和生成能力。sg228资讯网——每日最新资讯28at.com

●语言模型sg228资讯网——每日最新资讯28at.com

在中文语境下,国内头部语言模型的综合表现已接近国际一流水平,但存在能力发展不均衡的情况。sg228资讯网——每日最新资讯28at.com

●多模态模型sg228资讯网——每日最新资讯28at.com

理解图文问答任务上,开闭源模型平分秋色,国产模型表现突出。sg228资讯网——每日最新资讯28at.com

在中文语境下,国产大模型文生图能力与国际一流水平差距较小。sg228资讯网——每日最新资讯28at.com

文生视频能力上,对比各家公布的演示视频长度和质量,Sora有明显优势,其他开放评测的文生视频模型中,国产模型PixVerse表现优异。sg228资讯网——每日最新资讯28at.com

由于安全与价值观对齐是模型产业落地的关键,但海外模型与国内模型在该维度存在差异,因此语言模型主客观评测的总体排名不计入该单项分数sg228资讯网——每日最新资讯28at.com

语言模型主观评测结果显示,在中文语境下,字节跳动豆包Skylark2、OpenAIGPT-4位居第一、第二,国产大模型更懂中国用户。在语言模型客观评测中,OpenAIGPT-4、百川智能Baichuan3位居第一、第二。百度文心一言4.0、智谱华章GLM-4和月之暗面Kimi均进入语言模型主客观评测前五。sg228资讯网——每日最新资讯28at.com

图片 1.png

多模态理解模型客观评测结果显示,图文问答方面,阿里巴巴通义Qwen-vl-max与上海人工智能实验室InternVL-Chat-V1.5先后领先于OpenAIGPT-4,LLaVA-Next-Yi-34B和上海人工智能实验室Intern-XComposer2-VL-7B紧随其后。sg228资讯网——每日最新资讯28at.com

图片 2.png

多模态生成模型文生图评测结果显示,OpenAIDALL-E3位列第一,智谱华章CogView3、meta-Imagine分居第二、第三,百度文心一格、字节跳动doubao-Image次之。sg228资讯网——每日最新资讯28at.com

多模态生成模型文生视频,OpenAISora、Runway、爱诗科技PixVerse、Pika、腾讯VideoCrafter-V2位列前五。sg228资讯网——每日最新资讯28at.com

图片 3.png

注:sg228资讯网——每日最新资讯28at.com

文生图模型的客观评测指标与主观感受差异巨大,有失效的迹象,因此排名以主观评测为准;Mdjourney基本无法理解中文提示词,因此排名靠后;仅使用其官方公布的prompts和视频片段与其他模型生成的视频进行对比评测,评测结果存在一定的偏差。sg228资讯网——每日最新资讯28at.com

首次联合权威教育机构进行大模型K12学科测试sg228资讯网——每日最新资讯28at.com

当前,大模型的发展具备了通用性,在逻辑推理能力上有显著提升,日趋接近人脑的特征。因此,在海淀区教委支持下,智源研究院联合与海淀区教师进修学校对齐学生测验方式,考察大模型与人类学生的学科水平差异,其中,答案不唯一的主观题,由海淀教师亲自评卷。sg228资讯网——每日最新资讯28at.com

图片 4.png

智源评测发现,模型在综合学科能力与海淀学生平均水平仍有差距,普遍存在文强理弱的情况,并且对图表的理解能力不足,大模型未来有很大的提升空间。sg228资讯网——每日最新资讯28at.com

图片 5.png

北京市海淀区教师进修学校校长姚守梅解读大模型K12学科测试结果时指出,在语文、历史等人文学科的考试中,模型欠缺对文字背后的文化内涵以及家国情怀的理解。面对历史地理综合题时,模型并不能像人类考生一样有效识别学科属性。相较于简单的英语题,模型反而更擅长复杂的英语题。解理科题目时,模型会出现以超出年级知识范围外的方法解题的情况。当出现无法理解的考题时,模型依然存在明显的“幻觉”sg228资讯网——每日最新资讯28at.com

系统化构建文生视频模型主观评价体系sg228资讯网——每日最新资讯28at.com

中国传媒大学智能媒体计算实验室负责人史萍教授表示,相较文本,视频的主观评价复杂度极高。自动化指标无法完全捕捉模型生成的质量,更无法对生成视频的真实性、图文语义一致性等进行量化。因此,需要系统化构建针对文生视频模型的主观评价体系sg228资讯网——每日最新资讯28at.com

图片 6.png

该评价体系,由智源研究院与中国传媒大学基于双方在大模型评测领域和视频质量评价领域的丰富科研成果与实践经验共同建立,在图文一致性、真实性、视频质量、美学质量四大方面给出多维度评分,为AIGC视频生成技术的应用及发展提供参考。sg228资讯网——每日最新资讯28at.com

科学权威公正开放的智源评测体系sg228资讯网——每日最新资讯28at.com

依托科技部“人工智能基础模型支撑平台与评测技术”工信部“大模型公共服务平台”项目,智源研究院与10余家高校和机构联合开展大模型评测方法与工具研发。sg228资讯网——每日最新资讯28at.com

2023年6月,由智源研究院与多个高校团队共建的Flageval大模型评测平台上线,迄今为止已完成了1000多次覆盖全球多个开源大模型的评测,并持续发布评测结果,广泛地积累了国际领先的评测技术。sg228资讯网——每日最新资讯28at.com

开放服务sg228资讯网——每日最新资讯28at.com

1智源Flag eval天秤大模型评测平台sg228资讯网——每日最新资讯28at.com

2 与Hugging Face社区合作的开放中文大语言模型评测榜单 (Open Chinese LLM Leaderboard)sg228资讯网——每日最新资讯28at.com

3 首个借助大模型合成数据的多元异质信息检索评估基准--智源AirBenchsg228资讯网——每日最新资讯28at.com

智源研究院牵头成立了IEEE大模型评测标准小组P3419,组织20余家企业及学者参与大模型标准建设,同时作为《人工智能预训练模型评测指标与方法》国家标准草案的共建单位,智源此次的模型评测,借鉴了该标准,采取了客观评测统一规则与主观评测多重校验打分相结合的方法。其中,开源模型采用模型发布方推荐的推理代码及运行环境,对所有模型统一使用业界通用的提示语,不针对模型做提示语的优化sg228资讯网——每日最新资讯28at.com

本次智源评测使用20余个数据集、超8万道考题,包括与合作单位共建和智源自建的多个评测数据集,如中文多模态多题型理解及推理评测数据集CMMU、中文语义评测数据集C-SEM、中文语言及认知主观评测集CLCC、面向复杂算法代码生成任务的评测集TACO、文生图主观评测集Image-gen、多语言文生图质量评测数据集MG18、文生视频模型主观评测集CUC T2Vprompts。其中,主观题4000余道,均来源于自建原创未公开并保持高频迭代的主观评测集,严格校准打分标准,采取多人独立匿名评分、严格质检与抽检相结合的管理机制,降低主观偏差的影响。此外,为了更准确地评测语言模型的各项能力,智源专门对所有客观数据集的子数据集进行了能力标签映射sg228资讯网——每日最新资讯28at.com

图片 7.png

科学权威公正开放,是智源评测的最高纲领。智源研究院院长王仲远表示,未来,智源将携手生态合作伙伴继续共建完善评测体系,促进模型性能的优化以及在多元复杂场景下的产业落地,推动大模型技术应用的有序发展。sg228资讯网——每日最新资讯28at.com

最后需要说明的是,此次智源评测结果仍有一定的局限性:sg228资讯网——每日最新资讯28at.com

1.本次评测主要集中于通用大模型的评测,还未覆盖到垂直领域大模型;主要目标是为国内大模型生态提供参考,因此侧重于在中文语境下的评估;通过API访问模型会与网页端访问有差异,在一定程度上也会影响模型表现。sg228资讯网——每日最新资讯28at.com

2.本次评测各模型厂商发布的最新版本截至2024年4月20日,不代表各个厂商最新发布的模型性能表现。智源后续将持续、定期更新评测结果,欢迎模型厂商与智源交流、评测最新版本的模型能力。sg228资讯网——每日最新资讯28at.com

3.虽然我们努力将更多数据集纳入本次评测,但由于资源和时间限制,仅精选了部分有代表性的数据集,后续我们也会持续扩充和新编数据集,将特别关注在复杂任务和垂直领域上的评测集建设,欢迎开放讨论,共建共享评测数据及工具。sg228资讯网——每日最新资讯28at.com

4. 单次评测的结果一定存在偏差,智源也将持续跟踪大模型能力的发展,欢迎大家持续的关注和支持。sg228资讯网——每日最新资讯28at.com

(作者:刘恒)sg228资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-5499-0.html智源评测体系发布 国内外“百模”评估结果出炉

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 提供全天候健康服务,人民日报健康客户端上线“AI健康管家”

下一篇: 以AI+产品矩阵赋能千行百业,普渡机器人召开2024年新品发布会

标签:
  • 热门焦点
  • 文心一言排名垫底,却成为百度业绩增长杠杆

    文/侯煜编辑/罗卿知识增强大预言模式文心一言发布后,百度公司热度大幅提升,文心一言到底能为百度的业绩带来多大的增益成为业内关注焦点。近日,百度(NASDAQ:BIDU/09888.HK)公布了
  • 元宇宙是投资中国的第五次重大机遇

    作者为凯思博投资董事长导语:投资逻辑要来自于人性在社会发展过程中的普遍规律,由第一性原理出发找出重大的投资机会来。1978年的改革开放到今天,中国总共经历了
  • 元宇宙火热的当下,我们该如何“身临其境”的体验元宇宙?

    元宇宙的余热依然没有过去,甚至大有星星之火开启燎原之势,元宇宙本身也从殿堂走向了民间,我们可以看到一些企业开始了元宇宙的探索,诸如中国电信全资控股子公司天
  • “元宇宙第一股”Roblox缘何被资本市场看“低”?

    近期,冬奥会的召开受到广泛关注,而吉祥物冰墩墩也成为新晋“顶流”,“一墩难求”成为普遍心声,为了满足大众需求,nWayPlay平台曾在2月12日发售了一款由国际奥委会官
  • 区块链产业人才发展报告

    工业和信息化部作为工业和信息化行业主管部门,正在着力推进“两个强国”建设,加快推动以区块链为代表的新兴技术与实体经济深度融合。我国区块链技术和应用想要
  • 元宇宙是推动NFT发展的初始家园

    现在大家都知道了什么是NFT,但好像离自己的生活还有一定距离。随着我们与NFT 接触增加,该如何将这些数字资产带入我们的日常生活?NFT还是主流吗?如果我们将“主流
  • 元宇宙风归何处?

    元宇宙持续大火,在过去一段时间内,其屡次登上热点,吸引了一波又一波投资者。近期,在“2022中国·金鱼嘴元宇宙生态赋能大会”上,南京建邺区金鱼嘴基金街区宣布计划
  • 以太坊面临来自Fantom的巨大挑战

    众所周知,区块链和加密货币项目经常因其对环境的影响而受到批评。但是有一个非营利性的加密货币和区块链项目说它比其他的更环保。今天老雅痞就给大家聊一聊加
  • PayPal CEO 的加密语录:加密货币将重新定义金融世界

    PayPal 近年来一直是加密行业的倡导者。这个本身拥有超过 3.5 亿名活跃用户的支付巨头,已经允许美国和英国的用户交易或持有比特币(BTC)、以太坊(ETH)、比特现金(BCH
Top