当前位置:首页 > 元宇宙 > AI

Reflection 70B AI 模型“塌房”:第三方基准测试结果不佳,不如 LLaMA-3.1-70B

来源: 责编: 时间:2024-09-13 09:33:00 170观看
导读 9 月 11 日消息,科技媒体 The Decoder 昨日(9 月 10 日)报道,对比平台 Artificial Analysis 相关数据表明,Reflection 70B AI 模型在基准测试中的表现,实际上不及 Meta 的 LLaMA-3.1-70B。针对 AI 模型基准测试结果

9 月 11 日消息,科技媒体 The Decoder 昨日(9 月 10 日)报道,对比平台 Artificial Analysis 相关数据表明,Reflection 70B AI 模型在基准测试中的表现,实际上不及 Meta 的 LLaMA-3.1-70B。FV328资讯网——每日最新资讯28at.com

FV328资讯网——每日最新资讯28at.com

针对 AI 模型基准测试结果不佳,Reflection 公司首席执行官马特・舒默(Matt Shumer)表示,上传模型权重至 Hugging Face 时遇到问题,所使用的权重是多个不同模型的混合体,而他们内部托管的模型则显示出更佳的结果。FV328资讯网——每日最新资讯28at.com

舒默随后向部分用户提供了独家访问内部模型的权限,Artificial Analysis 重做了测试,并报告结果优于公开 API,只是他们无法确认所访问的具体是哪个模型。FV328资讯网——每日最新资讯28at.com

FV328资讯网——每日最新资讯28at.com

Reflection 在 Hugging Face 已上传了新的模型,不过这些模型在测试中的表现明显逊于之前通过私有 API 提供的模型。FV328资讯网——每日最新资讯28at.com

查询公开资料,有用户还发现了证据,表明 Reflection API 有时会调用 Anthropic Claude 3.5 Sonnet以及OpenAI。FV328资讯网——每日最新资讯28at.com

FV328资讯网——每日最新资讯28at.com

舒默旗下公司 OthersideAI 此前已宣布计划于本周发布一款基于 LLaMA 3.1 450B 的更大、更强大的模型。FV328资讯网——每日最新资讯28at.com

舒默对这一即将发布的版本做出了大胆声明,称其不仅将成为最佳的开源模型,还将是有史以来最优秀的语言模型。FV328资讯网——每日最新资讯28at.com

官方回应:FV328资讯网——每日最新资讯28at.com

FV328资讯网——每日最新资讯28at.com

FV328资讯网——每日最新资讯28at.com

相关阅读:FV328资讯网——每日最新资讯28at.com

《开源大模型新王 Reflection 70B 超越 GPT-4o:新技术可纠正自己幻觉,数学 99.2 分刷爆测试集》FV328资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-7147-0.htmlReflection 70B AI 模型“塌房”:第三方基准测试结果不佳,不如 LLaMA-3.1-70B

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 消息称字节 AI 硬件团队首款自研产品为智能耳机,与豆包大模型联动

下一篇: AI 被连续否定 30 次:ChatGPT 越改越错,Claude 坚持自我,甚至已读不回

标签:
  • 热门焦点
  • 元宇宙的文旅赛道,还能如何发力?

    来源:X增强现实苹果推出Vision Pro,为XR行业注入一剂强心针。而在苹果开发者大会上迪士尼CEO鲍勃·艾格在宣布迪士尼与苹果达成合作,其Disney+流媒体服务将于Vision Pro
  • 元宇宙是投资中国的第五次重大机遇

    作者为凯思博投资董事长导语:投资逻辑要来自于人性在社会发展过程中的普遍规律,由第一性原理出发找出重大的投资机会来。1978年的改革开放到今天,中国总共经历了
  • 关于年度热词NFT,除了钱,我们还可以聊点啥?

    每到年底,社交媒体总少不了年度盘点、年度总结、年度热词。如果让你来总结2021年度热词,你会想到什么?柯林斯词典将年度热词颁给了“NFT”,而其理由是:一个缩写词的
  • 避坑指南:远离具有这些特性的NFT

    关于NFT,在我们的文章中一直以来都是常驻嘉宾,不止因为NFT背后隐藏的潜力,更因为在这个NFT世界里冥冥之中仿佛有一双幕后的手,OpenSea、库里、ERC115、视觉中国、
  • 2022年中国元宇宙系列报告:底层架构研究:虚拟引擎,擎动未来

    “虚拟引擎是元宇宙平台搭建的基本工具。在这样的条件下,虚拟引擎拥有了广阔的市场空间。也需要虚拟引擎拥有拥有强大的处理能力,能够高效快速的实现大量交互场
  • 2021年中国元宇宙行业用户行为分析热点报告

    元宇宙网络热度高涨,中国网民对虚拟生态兴趣浓厚。艾媒咨询数据显示,超六成的网民对“元宇宙”了解程度较高,在元宇宙较基础的游戏领域,超九成的人对VR游戏更感兴
  • 想进入web3.0?来看看哪些工作适合你

    随着对加密货币需求的增加,加密领域的工作的数量也在增加。以下是一些非技术性加密货币工作简介。加密货币在主流市场获得的可信度提升。导致区块链领域的求职
  • 如何在元宇宙中建立品牌忠诚度

    Snoop Dogg、耐克、苏富比和普华永道都有什么共同点?他们都投资于元宇宙的房地产。除了我们在屏幕上看到的二维世界--手机、笔记本电脑、台式机或iPad--他们决
  • 爆发在即的Layer2赛道百花齐放,谁将是领跑者?

    还记得几年前最早我们提起ETH扩容,首先想到就是Layer2,而Layer2里,首先想到的是闪电网络,状态通道,Plasma…然后折腾了几年,发现并没有什么用,许多项目方和资本也等不
Top