当前位置:首页 > 元宇宙 > AI

Reflection 70B AI 模型“塌房”:第三方基准测试结果不佳,不如 LLaMA-3.1-70B

来源: 责编: 时间:2024-09-13 09:33:00 153观看
导读 9 月 11 日消息,科技媒体 The Decoder 昨日(9 月 10 日)报道,对比平台 Artificial Analysis 相关数据表明,Reflection 70B AI 模型在基准测试中的表现,实际上不及 Meta 的 LLaMA-3.1-70B。针对 AI 模型基准测试结果

9 月 11 日消息,科技媒体 The Decoder 昨日(9 月 10 日)报道,对比平台 Artificial Analysis 相关数据表明,Reflection 70B AI 模型在基准测试中的表现,实际上不及 Meta 的 LLaMA-3.1-70B。s5L28资讯网——每日最新资讯28at.com

s5L28资讯网——每日最新资讯28at.com

针对 AI 模型基准测试结果不佳,Reflection 公司首席执行官马特・舒默(Matt Shumer)表示,上传模型权重至 Hugging Face 时遇到问题,所使用的权重是多个不同模型的混合体,而他们内部托管的模型则显示出更佳的结果。s5L28资讯网——每日最新资讯28at.com

舒默随后向部分用户提供了独家访问内部模型的权限,Artificial Analysis 重做了测试,并报告结果优于公开 API,只是他们无法确认所访问的具体是哪个模型。s5L28资讯网——每日最新资讯28at.com

s5L28资讯网——每日最新资讯28at.com

Reflection 在 Hugging Face 已上传了新的模型,不过这些模型在测试中的表现明显逊于之前通过私有 API 提供的模型。s5L28资讯网——每日最新资讯28at.com

查询公开资料,有用户还发现了证据,表明 Reflection API 有时会调用 Anthropic Claude 3.5 Sonnet以及OpenAI。s5L28资讯网——每日最新资讯28at.com

s5L28资讯网——每日最新资讯28at.com

舒默旗下公司 OthersideAI 此前已宣布计划于本周发布一款基于 LLaMA 3.1 450B 的更大、更强大的模型。s5L28资讯网——每日最新资讯28at.com

舒默对这一即将发布的版本做出了大胆声明,称其不仅将成为最佳的开源模型,还将是有史以来最优秀的语言模型。s5L28资讯网——每日最新资讯28at.com

官方回应:s5L28资讯网——每日最新资讯28at.com

s5L28资讯网——每日最新资讯28at.com

s5L28资讯网——每日最新资讯28at.com

相关阅读:s5L28资讯网——每日最新资讯28at.com

《开源大模型新王 Reflection 70B 超越 GPT-4o:新技术可纠正自己幻觉,数学 99.2 分刷爆测试集》s5L28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-7147-0.htmlReflection 70B AI 模型“塌房”:第三方基准测试结果不佳,不如 LLaMA-3.1-70B

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 消息称字节 AI 硬件团队首款自研产品为智能耳机,与豆包大模型联动

下一篇: AI 被连续否定 30 次:ChatGPT 越改越错,Claude 坚持自我,甚至已读不回

标签:
  • 热门焦点
  • 《从营销AIGC化到AIGC营销化》报告发布

    来源:清元宇宙7月2日上午,清华大学元宇宙文化实验室举办元宇宙在线沙龙“AIGC热潮与应用”。会议中,清华大学新闻与传播学院教授、元宇宙文化实验室主任、新媒体研究
  • 这一超级富豪“逆袭”,身价大增4330亿

    来源:侃见财经互联网的突围没有“终点”。在快节奏的商业环境下,不断的试错成了互联网企业的标配,一年一个风口,一个风口造就一个热点,但是回头来看,最终受益的还是身处
  • 茅台的元宇宙App火了,也被骂惨了

    元宇宙从概念走向大众生活,并不是一件简单的事情。技术、世界观、填充内容、载体形式,每一个环节都需要层层叠叠的逻辑。但正如赛博朋克奠基人威廉·吉布
  • 林俊杰、余文乐等明星相继入局,元宇宙虚拟土地究竟有何魔力?

    上周的元宇宙和明星圈因为一则“林俊杰在推特上宣布持有Decentraland元宇宙虚拟地块”的新闻而备受关注,该新闻一方面在娱乐圈引起了吃瓜群众的好奇,另一方面在
  • 元宇宙社交啫喱、希壤爆款迭出,腾讯慌了吗?

    文 | 陈桥辉没想到腾讯超级QQ秀的20周年归来首秀,被一款名不见经传的产品抢了风头。1月15日,一款名为“啫喱”的社交App迅速在各个互联网的社交圈内火爆起来,引起
  • 2022年中国元宇宙产业系列研究报告-基础设施篇(5)

    传感器是由敏感元件和转换元件构成,能够感受规定的检测量(物理量、化学量、生物量等),并按照一定规律将检测量转化成可用的输出信号的器件和装置,进而满足信息的
  • 本周NFT领域重要资讯回顾

    NFT在苏富比拍卖是一波三折的吗?其实不完全如此,但本周在苏富比拍卖行发生了一系列有趣的事。与此同时,美联社因其最新的NFT销售被推到了风口浪尖,而Opensea正面临
  • 盘点9个主流元宇宙平台,你都知道哪些?

    随着NFT的持续升温,它也加入了现在的元宇宙浪潮。本文介绍元宇宙的基本概念以及 九个最流行的元宇宙NFT平台,如Decentraland、sandbox等。用熟悉的语言学习 以太
  • 融资千万美元的元宇宙平台UGC到底是什么?

    据获悉,全球化元宇宙社交平台BUD Technologies, Inc.(以下简称“BUD”)宣布完成1500万美元A+轮融资,本轮融资由启明创投领投,老股东源码资本、GGV纪源资本、云九资
Top