当前位置：首页 > 元宇宙 > AI

昆仑万维发布奖励模型 Skywork-Reward，登顶 RewardBench 排行榜

来源：责编：时间：2024-09-15 15:15:52 196观看

导读 9 月 13 日消息，昆仑万维发布了两款全新的奖励模型 Skywork-Reward-Gemma-2-27B 和 Skywork-Reward-Llama-3.1-8B。在奖励模型评估基准 RewardBench 上，这两款模型分别位列排行榜上的第一和第三位。奖励模型（Rew

9 月 13 日消息，昆仑万维发布了两款全新的奖励模型 Skywork-Reward-Gemma-2-27B 和 Skywork-Reward-Llama-3.1-8B。在奖励模型评估基准 RewardBench 上，这两款模型分别位列排行榜上的第一和第三位。

奖励模型（Reward Model）是强化学习（Reinforcement Learning）中的核心概念和关键组成，它用于评估智能体在不同状态下的表现，并为智能体提供奖励信号以指导其学习过程，让智能体能够学习到在特定环境下如何做出最优选择。

奖励模型在大语言模型（Large Language Model，LLM）的训练中尤为重要，可以帮助模型更好地理解和生成符合人类偏好的内容。

与现有奖励模型不同，Skywork-Reward 的偏序数据仅来自网络公开数据，采用特定的筛选策略，以获得针对特定能力和知识领域的高质量的偏好数据集。

Skywork-Reward 偏序训练数据集包含约 80,000 个样本，通过在这些样本上微调 Gemma-2-27B-it 和 Llama-3.1-8B-Instruct 基座模型，获得最终的 Skywork-Reward 奖励模型。

附相关链接如下：

RewardBench 排行榜：https://huggingface.co/spaces/allenai/reward-bench

27B 模型地址：https://huggingface.co/Skywork/Skywork-Reward-Gemma-2-27B

8B 模型地址：https://huggingface.co/Skywork/Skywork-Reward-Llama-3.1-8B

偏序数据地址：https://huggingface.co/collections/Skywork/skywork-reward-data-collection-66d7fda6a5098dc77035336d

本文链接：http://www.28at.com/showinfo-45-7291-0.html昆仑万维发布奖励模型 Skywork-Reward，登顶 RewardBench 排行榜

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： Adobe 预告 Firefly 文生视频 AI 模型年内登场，可通过提示词静帧生成动态片段

下一篇：首次运用 AI 技术助力搜救，2024 年国际邮轮大规模综合应急演习在天津举行

标签：

热门焦点

错过了BRC20还有eths,eth铭文协议

来源：三头鸟NFT大家好，我是鸟哥，了解鸟哥的人都知道鸟哥擅撸空投，说实话撸毛虽然回报大但周期还是有点长的，所以除了撸毛我们自己也在研究早期项目，打新，比如BRC20协议ordi当时就有
文心一言排名垫底，却成为百度业绩增长杠杆

文/侯煜编辑/罗卿知识增强大预言模式文心一言发布后，百度公司热度大幅提升，文心一言到底能为百度的业绩带来多大的增益成为业内关注焦点。近日，百度（NASDAQ：BIDU/09888.HK）公布了
【申万宏源】必然的碎片化AI落地，哪种路径可能胜出？ | 元宇宙Meta洞见

大规模预训GPT(Generative PreTraining)是OpenAI在2018年提出的模型，大规模预训练模型（大模型）渐渐成为了AI算法领域的热点。AI产业链：从算力到应用工作流程视角•
《刀剑神域》VR展开幕；《Puzzling Places》发布第二个付费DLC

今日热点：《刀剑神域：Ex-Chronicle Online Edition》VR展开幕；虚拟活动平台EventX再获800万美元B轮融资；VR射击游戏《Outlier》确认将于3月17日登陆Steam平台等。
餐桌上怎么变出元宇宙？

作者：星影“元宇宙让餐饮业脱胎换骨。”实体的餐饮与虚拟的元宇宙，看起来风马牛不相及，但最近全世界的餐饮企业都掀起了一股注册元宇宙商标的热潮。2月初，全球最大
元宇宙是推动NFT发展的初始家园

现在大家都知道了什么是NFT，但好像离自己的生活还有一定距离。随着我们与NFT 接触增加，该如何将这些数字资产带入我们的日常生活？NFT还是主流吗？如果我们将“主流
在元宇宙开会是什么样一种体验

空间就是一切还记得面对面的会议吗？就在不久前，与会者需要飞到遥远的目的地，并进行鼓舞人心的对话、网络、免费食物，甚至可能会有一两个很好的小组讨论。随之而来
王老吉启动元宇宙“吉空间”，HTC发布元宇宙应用VIVERSE

今日《元宇宙新鲜事》有：王老吉启动元宇宙“吉空间”；HTC发布元宇宙应用VIVERSE；Meta将在马德里构建一个元宇宙创新中心；央视网《新闻+》推出系列视频《聊聊元宇宙
百度虚拟人——AI手语主播首次亮相冬奥会！

除了火遍全国的冰墩墩，虚拟人也成为这届冬奥会的一大亮点元素。以体育明星谷爱凌为原型的数智人Meet Gu最先亮相。在2月5日谷爱凌首秀、2月7日谷爱凌首金的两天

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

昆仑万维发布奖励模型 Skywork-Reward，登顶 RewardBench 排行榜

错过了BRC20还有eths,eth铭文协议

文心一言排名垫底，却成为百度业绩增长杠杆

【申万宏源】必然的碎片化AI落地，哪种路径可能胜出？ | 元宇宙Meta洞见

《刀剑神域》VR展开幕；《Puzzling Places》发布第二个付费DLC

餐桌上怎么变出元宇宙？

元宇宙是推动NFT发展的初始家园

在元宇宙开会是什么样一种体验

王老吉启动元宇宙“吉空间”，HTC发布元宇宙应用VIVERSE

百度虚拟人——AI手语主播首次亮相冬奥会！

最新推荐

清华、北大等86所高校布局元宇宙，是风口还是噱头？

汽车元宇宙，是概念还是未来？

“元宇宙”里过大年，《迷你世界》在做一场怎样的实验？

Meta证实Quest 2无法实现全身追踪，未来将为虚拟化身配备“假腿”

2022年最具关注的9个头像NFT项目

新闻业在元宇宙的现状和未来

猜你喜欢

热门推荐

相关资讯