当前位置:首页 > 元宇宙 > AI

首个 AI Kaggle 特级大师诞生,OpenAI 的 o1-preview 夺 7 金封王

来源: 责编: 时间:2024-10-14 16:19:52 185观看
导读 10 月 12 日消息,科技媒体 The Decoder 昨日(10 月 11 日)发布博文,报道称 OpenAI 公司推出 MLE-bench 新基准,旨在评估 AI 智能体在开发机器学习解决方案方面的能力。该基准包括 75 个 Kaggle 竞赛,旨在衡量自主 A

10 月 12 日消息,科技媒体 The Decoder 昨日(10 月 11 日)发布博文,报道称 OpenAI 公司推出 MLE-bench 新基准,旨在评估 AI 智能体在开发机器学习解决方案方面的能力。CMM28资讯网——每日最新资讯28at.com

该基准包括 75 个 Kaggle 竞赛,旨在衡量自主 AI 系统在机器学习工程中的进展。这些竞赛涵盖了多个领域,包括自然语言处理、计算机视觉和信号处理等等。CMM28资讯网——每日最新资讯28at.com

注:Kaggle 是一个非常受欢迎的平台,专注于数据科学和机器学习的在线比赛。Kaggle 提供各种类型的比赛,包括数据预测、图像分类、自然语言处理等,适合不同技能水平的参与者。CMM28资讯网——每日最新资讯28at.com

在 Kaggle 的进阶系统中,“Novice”(新手)、“Contributor”(贡献者)、“Expert”(专家)、“Master”(大师)和 "Grandmaster"(特级大师)是不同的绩效层级,用于衡量和识别数据科学家在 Kaggle 平台上的技能水平和成就。CMM28资讯网——每日最新资讯28at.com

CMM28资讯网——每日最新资讯28at.com

许多任务具有现实世界的应用,例如预测 COVID-19 mRNA 疫苗降解或解码古代卷轴等。CMM28资讯网——每日最新资讯28at.com

CMM28资讯网——每日最新资讯28at.com

MLE-bench 专注于两个关键领域:CMM28资讯网——每日最新资讯28at.com

选择具有挑战性的任务:这些任务代表了当前机器学习的发展水平。CMM28资讯网——每日最新资讯28at.com

比较 AI 与人类的表现:通过对比,评估 AI 在特定任务中的能力。CMM28资讯网——每日最新资讯28at.com

OpenAI 在 MLE-bench 上测试了多个 AI 模型和智能体框架,使用 AIDE 框架的 o1-preview 模型表现最佳,在 16.9% 的比赛中至少获得了一枚铜牌,该结果超越了 Anthropic 的 Claude 3.5 Sonnet。CMM28资讯网——每日最新资讯28at.com

获得 5金即可评上 "Grandmaster" 特级大师,而 o1-preview 模型在MLE-bench测试中获得了 7枚金牌。CMM28资讯网——每日最新资讯28at.com

CMM28资讯网——每日最新资讯28at.com

CMM28资讯网——每日最新资讯28at.com

OpenAI 承认 MLE-bench 也有局限性,并未涵盖 AI 研究与开发的所有方面,主要集中在具有明确问题和简单评估指标的任务上。CMM28资讯网——每日最新资讯28at.com

MLE-bench 基准现已在 GitHub 上发布,OpenAI 希望通过这一工具,推动 AI 在机器学习领域的进一步发展。CMM28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-9068-0.html首个 AI Kaggle 特级大师诞生,OpenAI 的 o1-preview 夺 7 金封王

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: OpenAI 推出 meta-prompt 工具,AI 时代让你掌握提示词艺术

下一篇: 中国移动发布九天善智多模态基座大模型及 30+ 款自研行业大模型

标签:
  • 热门焦点
  • AI界地震!美国对OpenAI展开调查!监管风暴来袭!

    来源:清元宇宙还记得5月OpenAI在国会山听证会上的自信、坦诚、游刃有余的问答吗?那时的Sam Altman可谓意气风发,在耐心、友好的国会议员面前,就AI立法、大模型安全性问题侃侃而
  • 风口已至,多领域平台融入社交元素!

    在众多领域平台中,社交元素都扮演着重要角色,如直播营销带货、线上配对听歌、游戏局内互动等。随着元宇宙时代的来临,社交产品不断升级,社交元素推动流量变现,多平台领域融入社交
  • 搭上“谷爱凌”,“柳夜熙们”站上风口?

    作者:张琳 曹杨从“永不塌房”的艺人到频频亮相北京冬奥会,作为元宇宙细分赛道之一的虚拟数字人又火了一把。2月7日,即谷爱凌摘得冬奥会自由式滑雪大跳台金牌的
  • 多地释放积极信号,元宇宙正成为地方争先竞逐的主战场?

    2月21日,2022中国·金鱼嘴元宇宙生态赋能大会在南京建邺区金鱼嘴基金街区举办,南京建邺区金鱼嘴基金街区宣布计划出资1亿元,支持元宇宙行业发展。同时,会上发布了
  • 韩国国民银行将推出韩国首个加密货币 ETF

    韩国国民银行(Kookmin Bank)计划发行该国首个以散户投资者为主要关注点的加密货币投资基金。根据公告,该银行正在等待政府批准,并已建立一个准备就绪的数字资产
  • NFT:新骗局的狩猎场

    骗局的自动化需要更好的防御,从数字身份开始。前几天我在OpenSea上购买了一个NFT,是才华横溢的艺术家海伦·福尔摩斯 (Helen Holmes) 的漫画,来自她的 "原作 "收
  • 音乐NFT平台里的下一匹黑马是谁?

    NFT 销售额在 2021 年开始暴涨,从 2018 年的仅 4069 万美元的交易量,到 2021 年,NFT 交易量飙升至 442 亿美元以上,并不断刷新记录并达到新的高度。预测到2025 年N
  • 如何在元宇宙中建立品牌忠诚度

    Snoop Dogg、耐克、苏富比和普华永道都有什么共同点?他们都投资于元宇宙的房地产。除了我们在屏幕上看到的二维世界--手机、笔记本电脑、台式机或iPad--他们决
  • 在互联网考古后,我被豆瓣上这座元宇宙古城征服了

    最近一段时间,豆瓣可谓命途多舛:APP屡次下架,平台也被相关部门约谈、处罚,国家网信办甚至派人入驻豆瓣以督促整改。有爆料称豆瓣将陆续关闭“小组”功能:这个曾经小
Top