当前位置:首页 > 元宇宙 > AI

昆仑万维发布奖励模型 Skywork-Reward,登顶 RewardBench 排行榜

来源: 责编: 时间:2024-09-15 15:15:52 146观看
导读 9 月 13 日消息,昆仑万维发布了两款全新的奖励模型 Skywork-Reward-Gemma-2-27B 和 Skywork-Reward-Llama-3.1-8B。在奖励模型评估基准 RewardBench 上,这两款模型分别位列排行榜上的第一和第三位。奖励模型(Rew

9 月 13 日消息,昆仑万维发布了两款全新的奖励模型 Skywork-Reward-Gemma-2-27B 和 Skywork-Reward-Llama-3.1-8B。在奖励模型评估基准 RewardBench 上,这两款模型分别位列排行榜上的第一和第三位。NqI28资讯网——每日最新资讯28at.com

NqI28资讯网——每日最新资讯28at.com

奖励模型(Reward Model)是强化学习(Reinforcement Learning)中的核心概念和关键组成,它用于评估智能体在不同状态下的表现,并为智能体提供奖励信号以指导其学习过程,让智能体能够学习到在特定环境下如何做出最优选择。NqI28资讯网——每日最新资讯28at.com

奖励模型在大语言模型(Large Language Model,LLM)的训练中尤为重要,可以帮助模型更好地理解和生成符合人类偏好的内容。NqI28资讯网——每日最新资讯28at.com

与现有奖励模型不同,Skywork-Reward 的偏序数据仅来自网络公开数据,采用特定的筛选策略,以获得针对特定能力和知识领域的高质量的偏好数据集。NqI28资讯网——每日最新资讯28at.com

Skywork-Reward 偏序训练数据集包含约 80,000 个样本,通过在这些样本上微调 Gemma-2-27B-it 和 Llama-3.1-8B-Instruct 基座模型,获得最终的 Skywork-Reward 奖励模型。NqI28资讯网——每日最新资讯28at.com

附相关链接如下:NqI28资讯网——每日最新资讯28at.com

RewardBench 排行榜:https://huggingface.co/spaces/allenai/reward-benchNqI28资讯网——每日最新资讯28at.com

27B 模型地址:https://huggingface.co/Skywork/Skywork-Reward-Gemma-2-27BNqI28资讯网——每日最新资讯28at.com

8B 模型地址:https://huggingface.co/Skywork/Skywork-Reward-Llama-3.1-8BNqI28资讯网——每日最新资讯28at.com

偏序数据地址:https://huggingface.co/collections/Skywork/skywork-reward-data-collection-66d7fda6a5098dc77035336dNqI28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-7210-0.html昆仑万维发布奖励模型 Skywork-Reward,登顶 RewardBench 排行榜

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: Adobe 预告 Firefly 文生视频 AI 模型年内登场,可通过提示词 静帧生成动态片段

下一篇: 首次运用 AI 技术助力搜救,2024 年国际邮轮大规模综合应急演习在天津举行

标签:
  • 热门焦点
  • 《从营销AIGC化到AIGC营销化》报告发布

    来源:清元宇宙7月2日上午,清华大学元宇宙文化实验室举办元宇宙在线沙龙“AIGC热潮与应用”。会议中,清华大学新闻与传播学院教授、元宇宙文化实验室主任、新媒体研究
  • 风口已至,多领域平台融入社交元素!

    在众多领域平台中,社交元素都扮演着重要角色,如直播营销带货、线上配对听歌、游戏局内互动等。随着元宇宙时代的来临,社交产品不断升级,社交元素推动流量变现,多平台领域融入社交
  • 刷完一场元宇宙世界杯音乐盛典,我爽了

    作者|刘小土编辑|李春晖你有多久没完整追过一场音乐盛典了?三刷都不嫌多的那种。按照惯例,每逢年底,直播、长短视频、音乐平台便会抢着端上来几场音乐盛典。搁以
  • 抢先推出“元宇宙”饮料,可口可乐赢麻了

    试图傍上元宇宙的品牌千千万,但像可口可乐玩得这么花的,属实不多。01 可口可乐盯上元宇宙1886年,可口可乐诞生于美国乔治亚州亚特兰大市,至今已拥有136年的悠久历
  • 【申万宏源】必然的碎片化AI落地,哪种路径可能胜出? | 元宇宙Meta洞见

    大规模预训GPT(Generative PreTraining)是OpenAI在2018年提出的模型,大规模预训练模型(大模型)渐渐成为了AI算法领域的热点。AI产业链:从算力到应用工作流程视角•
  • 字节、腾讯、网易鏖战元宇宙背后,大厂究竟在争夺什么?

    正当互联网商业踌躇不前,互联网大厂为了在存量中的增长挤破头皮之时,元宇宙的概念被资本点燃。先是Facebook更名Meta正式进军元宇宙,然后字节跳动收购了一家VR硬
  • 2022 区块链 50 强榜单;垃圾NFT项目的十三个特性

    本期关键字TerraZero在Decentraland完成元宇宙住房抵押贷款;腾讯发行齐白石画作数字藏品;Ripple成为数字欧元协会成员;Gem上线稀有度排名功能;2022 区块链 50 强榜
  • 元宇宙时代NFT的价值衡量

    有人认为NFT的高昂价格只是炒作的产物,并不具有其对等的价值,但其实NFT并不是空中楼阁,只是区块链数字分类账中的一种形式。诚然,目前的NFT仍处于灰色地带,相关的法
  • 餐桌上怎么变出元宇宙?

    作者:星影“元宇宙让餐饮业脱胎换骨。”实体的餐饮与虚拟的元宇宙,看起来风马牛不相及,但最近全世界的餐饮企业都掀起了一股注册元宇宙商标的热潮。2月初,全球最大
Top