当前位置:首页 > 元宇宙 > AI

谷歌研究:合成数据使大模型数学推理能力提升八倍

来源: 责编: 时间:2025-04-09 07:26:12 196观看
导读 4 月 7 日消息,最近,来自谷歌、卡内基梅隆大学和 MultiOn 的联合研究团队发表了一项关于合成数据在大型模型训练中应用的新研究。据专注于人工智能发展的研究机构 Epoch AI 报告显示,目前全球约有 300 万亿个公

4 月 7 日消息,最近,来自谷歌、卡内基梅隆大学和 MultiOn 的联合研究团队发表了一项关于合成数据在大型模型训练中应用的新研究。utH28资讯网——每日最新资讯28at.com

utH28资讯网——每日最新资讯28at.com

据专注于人工智能发展的研究机构 Epoch AI 报告显示,目前全球约有 300 万亿个公开可用的高质量文本训练标记。然而,随着类似 ChatGPT 这样的大模型的迅猛发展,对训练数据的需求呈指数级增长,预计到 2026 年之前,这些数据将被耗尽。因此,合成数据成为了至关重要的替代方案。utH28资讯网——每日最新资讯28at.com

据了解,研究人员主要探索了两种合成数据类型:正向数据和负向数据。正向数据是指由高性能大模型(如 GPT-4 和 Gemini 1.5 Pro)生成的正确问题解决方案,为模型提供解决数学问题的示例。但仅依靠正向数据进行训练存在局限性。一方面,这种方法可能无法完全揭示问题解决过程背后的逻辑,模型可能会通过模式匹配来学习,而缺乏真正的理解;另一方面,随着训练数据量的增加,模型可能会学到虚假的相关性,导致在处理新问题时泛化能力下降。utH28资讯网——每日最新资讯28at.com

utH28资讯网——每日最新资讯28at.com

鉴于此,研究人员引入了负向数据,即经过验证为错误的问题解决步骤。这有助于模型识别并避免错误,从而增强其逻辑推理能力。尽管使用负向数据存在挑战,因为错误的步骤可能包含误导性信息,但研究人员通过直接偏好优化(DPO)方法成功地使模型能够从错误中学习,强调了每个问题解决步骤的重要性。utH28资讯网——每日最新资讯28at.com

DPO 方法为每个问题解决步骤分配一个优势值,反映其相对于理想解决方案的价值。研究表明,高优势步骤是正确解决方案的关键,而低优势步骤可能表明模型推理中存在问题。利用这些优势值,模型可以在强化学习框架内动态调整其策略,从而更高效地从合成数据中学习和改进。utH28资讯网——每日最新资讯28at.com

为了验证合成数据的有效性,研究团队使用 DeepSeek-Math-7B 和 LLaMa2-7B 等模型,在 GSM8K 和 MATH 数据集上进行了全面测试。结果显示,经过正向和负向合成数据预训练的大模型在数学推理任务上的性能实现了八倍的提升。这一研究充分展示了合成数据在增强大模型逻辑推理能力方面的巨大潜力。utH28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12052-0.html谷歌研究:合成数据使大模型数学推理能力提升八倍

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 非法获取学生信息并用 AI 技术发送骚扰短信,在校大学生被抓

下一篇: 中国自主量子计算机“本源悟空”全球首次运行十亿级 AI 微调大模型

标签:
  • 热门焦点
  • 数字虚拟人23年最新变化!

    作者:小资来源:米塔之家自2021年元宇宙“爆炸”后,作为现实世界连接元宇宙的媒介之一,大批虚拟人跑步入场。到了2022年底,据天眼查数据显示,我国目前企业名称或经营范围
  • 文心一言排名垫底,却成为百度业绩增长杠杆

    文/侯煜编辑/罗卿知识增强大预言模式文心一言发布后,百度公司热度大幅提升,文心一言到底能为百度的业绩带来多大的增益成为业内关注焦点。近日,百度(NASDAQ:BIDU/09888.HK)公布了
  • 抢先推出“元宇宙”饮料,可口可乐赢麻了

    试图傍上元宇宙的品牌千千万,但像可口可乐玩得这么花的,属实不多。01 可口可乐盯上元宇宙1886年,可口可乐诞生于美国乔治亚州亚特兰大市,至今已拥有136年的悠久历
  • 避坑指南:远离具有这些特性的NFT

    关于NFT,在我们的文章中一直以来都是常驻嘉宾,不止因为NFT背后隐藏的潜力,更因为在这个NFT世界里冥冥之中仿佛有一双幕后的手,OpenSea、库里、ERC115、视觉中国、
  • 区块链产业人才发展报告

    工业和信息化部作为工业和信息化行业主管部门,正在着力推进“两个强国”建设,加快推动以区块链为代表的新兴技术与实体经济深度融合。我国区块链技术和应用想要
  • 2021年中国智慧城市行业概览:AI慧眼独具,赋能“双碳”目标

    中国智慧城市试点项目主要集中于东南地区以及华中地区,受制于应用场景分散以及行业地域建设差异,目前中国智慧城市存在较多弊端,未来数量有望持续突破。中国智慧
  • 从冰墩墩到无聊猿,解秘未来IP爆款的模因

    打造IP,是建设元宇宙的刚需。NFT能直接让IP的价值变现;虚拟人IP是元宇宙的第一入口,而元宇宙要搭建的,就是一个个品牌IP星球,考验的是IP世界观的建设能力。如果说在
  • GameFi 深度解析,元宇宙内容雏形显现

    GameFi=Game(游戏)+Defi(去中心化金融),核心特点为“Play to Earn”。通过技术与去中心化价值观赋能,GameFi 游戏资产化身为NFT 和代币上链,具备了可验证性和流通性;开
  • PayPal CEO 的加密语录:加密货币将重新定义金融世界

    PayPal 近年来一直是加密行业的倡导者。这个本身拥有超过 3.5 亿名活跃用户的支付巨头,已经允许美国和英国的用户交易或持有比特币(BTC)、以太坊(ETH)、比特现金(BCH
Top