当前位置:首页 > 元宇宙 > AI

AI“推理”模型兴起,基准测试成本飙升

来源: 责编: 时间:2025-04-15 07:12:14 154观看
导读 4 月 13 日消息,随着人工智能(AI)技术的不断发展,所谓的“推理”AI 模型成为了研究热点。这些模型能够像人类一样逐步思考问题,在特定领域,如物理学中,被认为比非推理模型能力更强。然而,这种优势却伴随着高昂的测试

4 月 13 日消息,随着人工智能(AI)技术的不断发展,所谓的“推理”AI 模型成为了研究热点。这些模型能够像人类一样逐步思考问题,在特定领域,如物理学中,被认为比非推理模型能力更强。然而,这种优势却伴随着高昂的测试成本,使得独立验证这些模型的能力变得困难重重。20n28资讯网——每日最新资讯28at.com

20n28资讯网——每日最新资讯28at.com

据第三方 AI 测试机构“人工智能分析”(Artificial Analysis)提供的数据显示,评估 OpenAI 的 o1 推理模型在七个流行的 AI 基准测试(包括 MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME 2024 和 MATH-500)中的表现,需要花费 2767.05 美元(注:现汇率约合 20191 元人民币)。而评估 Anthropic 的 Claude 3.7 Sonnet 这一“混合”推理模型的成本为 1485.35 美元(现汇率约合 10839 元人民币),相比之下,测试 OpenAI 的 o3-mini-high 则只需 344.59 美元(现汇率约合 2514 元人民币)。尽管有些推理模型的测试成本相对较低,例如评估 OpenAI 的 o1-mini 只需 141.22 美元(现汇率约合 1030 元人民币),但从整体来看,推理模型的测试成本仍然比较高昂。截至目前,“人工智能分析”已经花费了约 5200 美元(现汇率约合 37945 元人民币)来评估大约十几种推理模型,这一金额接近该公司分析超过 80 种非推理模型所花费的 2400 美元的两倍。20n28资讯网——每日最新资讯28at.com

OpenAI 在 2024 年 5 月发布的非推理 GPT-4o 模型,其评估成本仅为 108.85 美元,而 Claude 3.6 Sonnet(Claude 3.7 Sonnet 的非推理前身)的评估成本为 81.41 美元。“人工智能分析”联合创始人乔治・卡梅伦(George Cameron)向 TechCrunch 表示,随着越来越多的 AI 实验室开发推理模型,该组织计划增加其测试预算。“在‘人工智能分析’,我们每月进行数百次评估,并为此投入了相当可观的预算,”卡梅伦说,“我们预计随着模型的频繁发布,这一支出将会增加。”20n28资讯网——每日最新资讯28at.com

“人工智能分析”并非唯一面临 AI 测试成本上升的机构。AI 初创公司“通用推理”(General Reasoning)的首席执行官罗斯・泰勒(Ross Taylor)表示,他最近花费了 580 美元用大约 3700 个独特的提示词评估了 Claude 3.7 Sonnet。泰勒估计,仅对 MMLU Pro(一套旨在评估模型语言理解能力的问题集)进行一次完整的测试,成本就会超过 1800 美元。“我们正在迈向一个世界,在这个世界里,一个实验室在一项基准测试中报告 x% 的结果,而他们在其中花费了 y 数量的计算资源,但学者们的资源远远小于 y,”泰勒在 X 上最近的一篇帖子中写道,“没有人能够复制这些结果。”20n28资讯网——每日最新资讯28at.com

那么,为什么推理模型的测试成本如此之高呢?主要原因在于它们生成了大量的 token。token 代表原始文本的片段,例如将单词“fantastic”拆分为音节“fan”、“tas”和“tic”。据“人工智能分析”称,在该公司的基准测试中,OpenAI 的 o1 生成了超过 4400 万个 token,大约是 GPT-4o 生成量的八倍。大多数 AI 公司都是按 token 收费的,因此成本很容易就会累积起来。20n28资讯网——每日最新资讯28at.com

此外,现代基准测试通常会从模型中引出大量 token,因为它们包含涉及复杂、多步骤任务的问题。Epoch AI 的高级研究员让-斯坦尼斯拉斯・德内恩(Jean-Stanislas Denain)表示,这是因为今天的基准测试更加复杂,尽管每个基准测试的问题数量总体有所减少。“它们通常试图评估模型执行现实世界任务的能力,例如编写和执行代码、浏览互联网以及使用计算机,”德内恩称。德内恩还指出,最昂贵的模型随着时间的推移,每个 token 的成本也在增加。例如,Anthropic 在 2024 年 5 月发布的 Claude 3 Opus 是当时最昂贵的模型,每百万输出 token 的成本为 75 美元。而 OpenAI 今年早些时候推出的 GPT-4.5 和 o1-pro,每百万输出 token 的成本分别为 150 美元和 600 美元。20n28资讯网——每日最新资讯28at.com

“尽管随着时间的推移,模型的性能有所提高,达到给定性能水平的成本也确实大幅下降,但如果你想在任何特定时间评估最大最好的模型,你仍然需要支付更多,”德内恩说。许多 AI 实验室,包括 OpenAI,为测试目的向基准测试组织提供免费或补贴的模型访问权限。但一些专家表示,这会影响测试结果的公正性 —— 即使没有操纵的证据,AI 实验室的参与本身就可能损害评估评分的完整性。20n28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12237-0.htmlAI“推理”模型兴起,基准测试成本飙升

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 苹果AI发展滞后真相:预算削减与内部斗争成主因

下一篇: 美国教育部长出席峰会闹乌龙:多次将 AI 误称为 A1

标签:
  • 热门焦点
  • 数字人的AB面:在元宇宙中过气,在AIGC中重生

    来源:光锥智能作者:郝 鑫“29800元一年的虚拟主播,号称24小时不停播,月入十几万,实际上却是关键词都不能回复,播了半个月,直播间还因违规被快手封禁,最终投诉无门、退款无果。&
  • 避坑指南:远离具有这些特性的NFT

    关于NFT,在我们的文章中一直以来都是常驻嘉宾,不止因为NFT背后隐藏的潜力,更因为在这个NFT世界里冥冥之中仿佛有一双幕后的手,OpenSea、库里、ERC115、视觉中国、
  • 2022年的Web3:定义概念并开创新范式

    Web3 是关于加密和区块链应该如何使用的概念,因为它是加密圈的一个离散子领域。社区机会将呈指数级增长,扩大这些子行业的人口统计范围。追求 Web3 项目的组织仍
  • NFT Insider #47:YGG发布2021Q4社区报告,GameFi领域1月份获超10亿美元融资

    引言:NFT Insider由WHALE社区、BeepCrypto联合出品,浓缩每周NFT新闻,为大家带来关于NFT最全面、最新鲜、最有价值的讯息。每期周报将从NFT市场数据,艺术新闻类,游戏
  • 与元宇宙美少女艺术家的对话

    我最近宣布了我自己的NFT项目,这是我已经工作了几个月的事情。由于我之前只是一个收藏家,拥有自己的项目真的给了我一个新的视角来看待这个领域。我一直欢迎人们
  • 音乐家如何利用NFTs来提高歌迷参与度

    "音乐是一种语言,不以特定的文字说话。它用情感说话,如果它在骨子里,它就在骨子里。" - Keith Richards音乐激励着我们,使我们流泪,使我们充满狂喜,并抚慰我们的灵魂
  • HTC Vive推出元宇宙平台Viverse;腾讯投资小米生态链AR眼镜厂商

    今日热点:HTC Vive正式推出元宇宙平台Viverse;腾讯投资小米生态链AR眼镜厂商北京蜂巢科技;面部追踪和眼动追踪是Quest下一版本的“重点”;索尼PSVR 2将推迟至2023
  • 全球十大元宇宙概念游戏

    A股市场中,不少游戏公司早早搭上了元宇宙概念。举例,中青宝宣称将发布一款元宇宙概念的模拟经营类游戏,尽管游戏尚在研发中,这一消息已经让中青宝的股价在51个交易
  • 在互联网考古后,我被豆瓣上这座元宇宙古城征服了

    最近一段时间,豆瓣可谓命途多舛:APP屡次下架,平台也被相关部门约谈、处罚,国家网信办甚至派人入驻豆瓣以督促整改。有爆料称豆瓣将陆续关闭“小组”功能:这个曾经小
Top