当前位置：首页 > 元宇宙 > AI

昆仑万维发布奖励模型 Skywork-Reward，登顶 RewardBench 排行榜

来源：责编：时间：2024-09-15 15:15:52 185观看

导读 9 月 13 日消息，昆仑万维发布了两款全新的奖励模型 Skywork-Reward-Gemma-2-27B 和 Skywork-Reward-Llama-3.1-8B。在奖励模型评估基准 RewardBench 上，这两款模型分别位列排行榜上的第一和第三位。奖励模型（Rew

9 月 13 日消息，昆仑万维发布了两款全新的奖励模型 Skywork-Reward-Gemma-2-27B 和 Skywork-Reward-Llama-3.1-8B。在奖励模型评估基准 RewardBench 上，这两款模型分别位列排行榜上的第一和第三位。

奖励模型（Reward Model）是强化学习（Reinforcement Learning）中的核心概念和关键组成，它用于评估智能体在不同状态下的表现，并为智能体提供奖励信号以指导其学习过程，让智能体能够学习到在特定环境下如何做出最优选择。

奖励模型在大语言模型（Large Language Model，LLM）的训练中尤为重要，可以帮助模型更好地理解和生成符合人类偏好的内容。

与现有奖励模型不同，Skywork-Reward 的偏序数据仅来自网络公开数据，采用特定的筛选策略，以获得针对特定能力和知识领域的高质量的偏好数据集。

Skywork-Reward 偏序训练数据集包含约 80,000 个样本，通过在这些样本上微调 Gemma-2-27B-it 和 Llama-3.1-8B-Instruct 基座模型，获得最终的 Skywork-Reward 奖励模型。

附相关链接如下：

RewardBench 排行榜：https://huggingface.co/spaces/allenai/reward-bench

27B 模型地址：https://huggingface.co/Skywork/Skywork-Reward-Gemma-2-27B

8B 模型地址：https://huggingface.co/Skywork/Skywork-Reward-Llama-3.1-8B

偏序数据地址：https://huggingface.co/collections/Skywork/skywork-reward-data-collection-66d7fda6a5098dc77035336d

本文链接：http://www.28at.com/showinfo-45-7210-0.html昆仑万维发布奖励模型 Skywork-Reward，登顶 RewardBench 排行榜

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： Adobe 预告 Firefly 文生视频 AI 模型年内登场，可通过提示词静帧生成动态片段

下一篇：首次运用 AI 技术助力搜救，2024 年国际邮轮大规模综合应急演习在天津举行

标签：

热门焦点

元宇宙步入暗夜

撰文 | 文烨豪元宇宙的故事，似乎讲不通了。当下，刮起元宇宙热潮的Roblox股价已跌去大半，带头大哥Meta也正因元宇宙亏损深陷泥潭。再看国内，从字节“派对岛&
25万虚拟er在“元宇宙”追星

“默叽默叽，我是默默酱，我是在真元宇宙也有头有脸的人。”12月11日晚20：00，虚拟偶像@默默酱的首场个人元宇宙演唱会《以梦为马，抵达繁星》在大有空间APP
关于年度热词NFT，除了钱，我们还可以聊点啥？

每到年底，社交媒体总少不了年度盘点、年度总结、年度热词。如果让你来总结2021年度热词，你会想到什么？柯林斯词典将年度热词颁给了“NFT”，而其理由是：一个缩写词的
【量子位】虚拟数字人深度产业报告 | 元宇宙Meta洞见

虚拟数字人行业未来的主要驱动力包括：用户代际变化，新一代消费者对内容消费和虚拟世界更为渴求；虚拟数字人相关技术门槛相对降低，成本有所回落；资本热度上升，受Metav
Meta元宇宙女性安全问题频发，元宇宙中相关问题该如何解决？

在女性遭受性骚扰甚至被攻击的事件相继被报道之后，仍处于萌芽状态的虚拟现实空间成为人们关注的焦点。许多女性发声表示在使用Meta旗下的Horizon Worlds及其姊
中国区块链产业生态地图报告（2021）

区块链是技术整合创新、金融创新、组织方式创新、产业应用创新的多维度创新，以服务实体经济、政务民生以及公共服务等领域为落脚点，以期实现整个地区和产业的资
多地释放积极信号，元宇宙正成为地方争先竞逐的主战场？

2月21日，2022中国·金鱼嘴元宇宙生态赋能大会在南京建邺区金鱼嘴基金街区举办，南京建邺区金鱼嘴基金街区宣布计划出资1亿元，支持元宇宙行业发展。同时，会上发布了
Meta 呼吁行业合作建立元宇宙网络基础设施

Facebook 的母公司 Meta呼吁，建立必要的全球合作的基础设施，以支持其蓬勃发展的元宇宙野心。“元宇宙”成为 2021 年的主要流行语之一，这在很大程度上是由 Facebo
虚拟人行业研究报告

最早的虚拟人出现于 20 世纪 80 年代，受限于技术，当时的虚拟人制作以手绘为主。21 世纪初，随着动捕、渲染等技术的逐步发展，虚拟人相关技术开始在影视领域逐渐普及

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

昆仑万维发布奖励模型 Skywork-Reward，登顶 RewardBench 排行榜

元宇宙步入暗夜

25万虚拟er在“元宇宙”追星

关于年度热词NFT，除了钱，我们还可以聊点啥？

【量子位】虚拟数字人深度产业报告 | 元宇宙Meta洞见

Meta元宇宙女性安全问题频发，元宇宙中相关问题该如何解决？

中国区块链产业生态地图报告（2021）

多地释放积极信号，元宇宙正成为地方争先竞逐的主战场？

Meta 呼吁行业合作建立元宇宙网络基础设施

虚拟人行业研究报告

最新推荐

元宇宙火热的当下，我们该如何“身临其境”的体验元宇宙？

本周NFT领域重要资讯回顾

a16z：元宇宙办公会取代实体办公室吗？

从4个方面解析2022年加密行业趋势

这场虚拟发布会，当面“造假”！

元宇宙+剧本杀：“在异世界里当演员”

猜你喜欢

热门推荐

相关资讯