当前位置:首页 > 元宇宙 > AI

声称“媲美人类专家”,谷歌 Gemini 1.5 Pro 数学版“提智”:MATH 基准准确率 91.1%

来源: 责编: 时间:2024-05-23 08:30:51 135观看
导读 5 月 21 日消息,谷歌公司上周发布技术报告,表示 Gemini 1.5 Pro 模型在经过专门的数学领域训练之后,大幅提高了数学成绩,并成功解决了国际数学奥林匹克竞赛的部分问题。谷歌针对数学场景有针对性地训练 Gemini 1.

5 月 21 日消息,谷歌公司上周发布技术报告,表示 Gemini 1.5 Pro 模型在经过专门的数学领域训练之后,大幅提高了数学成绩,并成功解决了国际数学奥林匹克竞赛的部分问题。T2T28资讯网——每日最新资讯28at.com

T2T28资讯网——每日最新资讯28at.com

谷歌针对数学场景有针对性地训练 Gemini 1.5 Pro 模型,并通过 MATH 基准、美国数学邀请考试( AIME) 和谷歌内部的 HiddenMath 基准进行测试。T2T28资讯网——每日最新资讯28at.com

根据谷歌的数据,数学型 Gemini 1.5 Pro 在数学基准测试中的表现“与人类专家的表现相当”,与标准的非数学型 Gemini 1.5 Pro 相比,数学型 Gemini 1.5 Pro 在 AIME 基准测试中解决的问题明显增多,在其他基准测试中的得分也有所提高。T2T28资讯网——每日最新资讯28at.com

T2T28资讯网——每日最新资讯28at.com

T2T28资讯网——每日最新资讯28at.com

谷歌官方分享的三个示例中,两个是由数学专用的 Gemini 1.5 Pro 解决的,而一个是由标准的 Gemini 1.5 Pro 变体错误解决的。这些问题通常要求解题者回忆代数中的基本数学公式,并依靠它们的分段和其他数学规则得出正确答案。附上相关截图如下:T2T28资讯网——每日最新资讯28at.com

T2T28资讯网——每日最新资讯28at.com

T2T28资讯网——每日最新资讯28at.com

T2T28资讯网——每日最新资讯28at.com

除了问题之外,谷歌还分享了 Gemini 1.5 Pro 基准测试的重要细节。这些数据表明,在所有五项基准测试成绩中,Gemini 1.5 Pro 都领先于 GPT-4 Turbo 和亚马逊的 Claude。T2T28资讯网——每日最新资讯28at.com

谷歌表示数学衍生版 Gemini 1.5 Pro 单个样本 MATH 基准准确率为 80.6%,在对 256 个解决方案进行采样并选择一个候选答案时(rm@256),准确率达到 91.1%。T2T28资讯网——每日最新资讯28at.com

参考T2T28资讯网——每日最新资讯28at.com

Gemini 1.5: Unlocking multimodal understanding across millions of tokens of contextT2T28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-4373-0.html声称“媲美人类专家”,谷歌 Gemini 1.5 Pro 数学版“提智”:MATH 基准准确率 91.1%

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 火山豆包大模型价格清单公布:支持“预付 后付”双模式,号称“国内最高并发标准”

下一篇: 振兴乡村发展 助力青少年教育 中国三星连续十一年蝉联企业社会责任榜外企第一

标签:
  • 热门焦点
  • ChatGPT访问量增速下滑,AI真的是一场泡沫吗?

    ChatGPT访问量增速下滑,AI真的是一场泡沫吗?

    来源:首席商业评论2023年,最火的莫过于ChatGPT,席卷全球的同时也引发了生成式AI(人工智能)的投资热潮。在美股,ChatGPT相关概念股飙涨,以AI算力龙头英伟达为例,其股价年内一度累计上
  • 数字虚拟人23年最新变化!

    数字虚拟人23年最新变化!

    作者:小资来源:米塔之家自2021年元宇宙“爆炸”后,作为现实世界连接元宇宙的媒介之一,大批虚拟人跑步入场。到了2022年底,据天眼查数据显示,我国目前企业名称或经营范围
  • 万字专访Vitalik Buterin:以太坊将成为主流和最安全的基础层

    万字专访Vitalik Buterin:以太坊将成为主流和最安全的基础层

    Vitalik Buterin 在 19 岁时撰写了以太坊白皮书。他的目标简单而全面,即创建一个“世界计算机”,旨在成为所有在线应用程序的灵活基础层,无需任何第三方。自 2015
  • 摩根大通:元宇宙市场预计每年收入超1万亿美元

    摩根大通:元宇宙市场预计每年收入超1万亿美元

    今日《元宇宙新鲜事》有:香港首届元宇宙艺博会将于5月举办;NH-Amundi Asset Management上市其第二支元宇宙ETF;Meta虚拟现实平台Horizon Worlds月活跃用户在三个
  • 餐桌上怎么变出元宇宙?

    餐桌上怎么变出元宇宙?

    作者:星影“元宇宙让餐饮业脱胎换骨。”实体的餐饮与虚拟的元宇宙,看起来风马牛不相及,但最近全世界的餐饮企业都掀起了一股注册元宇宙商标的热潮。2月初,全球最大
  • 纽约证券交易所母公司ICE收购tZero股份以探索代币化股票

    纽约证券交易所母公司ICE收购tZero股份以探索代币化股票

    2 月 22 日,纽约证券交易所 (NYSE) 的母公司洲际交易所 (ICE) 宣布,它将持有私人数字证券市场 tZERO 的所有权。根据公告,ICE 将成为 tZero 的“重要”少数股东,但
  • 元宇宙风归何处?

    元宇宙风归何处?

    元宇宙持续大火,在过去一段时间内,其屡次登上热点,吸引了一波又一波投资者。近期,在“2022中国·金鱼嘴元宇宙生态赋能大会”上,南京建邺区金鱼嘴基金街区宣布计划
  • 独立故事片“Calladita”将使用 NFT 筹集资金

    独立故事片“Calladita”将使用 NFT 筹集资金

    导演 Miguel Faus 正在转向加密来资助他的处女作,由 Paula Grimaldo 和 Emily Mortimer 主演。“Calladita”(导演 Miguel Faus)。图片:米格尔·福斯在过去的一年
  • 从概念到落地 Web3.0初具雏形

    从概念到落地 Web3.0初具雏形

    加密资产热潮催生出的链上应用中,除了DeFi、NFT、链游GameFi等场景外,还有一个热词叫「Web3.0」。Web3.0的概念最早出现在2014年,由以太坊联合创始人及波卡创建者
Top