当前位置:首页 > 元宇宙 > AI

微软研究:AI 编程助手软件调试能力堪忧

来源: 责编: 时间:2025-04-15 07:12:31 165观看
导读 4 月 13 日消息,OpenAI、Anthropic 和其他顶尖人工智能实验室的人工智能模型越来越多地被用于协助编程任务,谷歌首席执行官桑达尔・皮查伊在去年 10 月透露,该公司 25% 的新代码由 AI 生成;而 Meta 首席执行官马

4 月 13 日消息,OpenAI、Anthropic 和其他顶尖人工智能实验室的人工智能模型越来越多地被用于协助编程任务,谷歌首席执行官桑达尔・皮查伊在去年 10 月透露,该公司 25% 的新代码由 AI 生成;而 Meta 首席执行官马克・扎克伯格也表达了在公司内部广泛部署 AI 编码模型的雄心壮志。jpR28资讯网——每日最新资讯28at.com

然而,即便是一些目前最先进的 AI 模型,在解决软件漏洞这一问题上,仍然无法与经验丰富的开发者相媲美。微软研究院(微软的研发部门)的一项新研究表明,包括 Anthropic 的 Claude 3.7 Sonnet 和 OpenAI 的 o3-mini 在内的多款模型,在一个名为 SWE-bench Lite 的软件开发基准测试中,无法成功调试许多问题。jpR28资讯网——每日最新资讯28at.com

研究的共同作者们测试了九种不同的模型,这些模型作为“基于单个提示词的智能体”的核心,能够使用包括 Python 调试器在内的一系列调试工具。他们给这个智能体分配了一组经过筛选的 300 项软件调试任务,这些任务均来自 SWE-bench Lite。jpR28资讯网——每日最新资讯28at.com

据共同作者们介绍,即使配备了更强大、更先进的模型,他们的智能体成功完成的调试任务也极少超过一半。其中,Claude 3.7 Sonnet 的平均成功率最高,为 48.4%;其次是 OpenAI 的 o1,成功率为 30.2%;而 o3-mini 的成功率为 22.1%。jpR28资讯网——每日最新资讯28at.com

jpR28资讯网——每日最新资讯28at.com

为何这些 AI 模型的表现如此不尽如人意?部分模型在使用可用的调试工具以及理解不同工具如何帮助解决不同问题方面存在困难。然而,共同作者们认为,更大的问题在于数据稀缺。他们推测,当前模型的训练数据中,缺乏足够多的“顺序决策过程”数据,即人类调试痕迹的数据。jpR28资讯网——每日最新资讯28at.com

“我们坚信,训练或微调这些模型可以使它们成为更好的交互式调试器。”共同作者们在研究报告中写道,“然而,这需要专门的数据来满足此类模型训练的需求,例如记录智能体与调试器交互以收集必要信息、随后提出漏洞修复建议的轨迹数据。”jpR28资讯网——每日最新资讯28at.com

这一发现其实并不令人意外。许多研究都表明,代码生成型 AI 往往会引入安全漏洞和错误,这是由于它们在理解编程逻辑等领域的薄弱环节所导致的。最近对一款流行的 AI 编程工具 Devin 的评估发现,它只能完成 20 项编程测试中的 3 项。jpR28资讯网——每日最新资讯28at.com

不过,微软的这项研究是迄今为止对模型在这一持续存在问题领域最为详细的剖析之一。尽管它可能不会削弱投资者对 AI 辅助编程工具的热情,但愿它能让开发者及其上级领导三思而后行,不再轻易将编程工作完全交给 AI 来主导。jpR28资讯网——每日最新资讯28at.com

注意到,越来越多的科技界领袖对 AI 会取代编程工作的观点提出了质疑。微软联合创始人比尔・盖茨曾表示,他认为编程作为一种职业将会长期存在。与他持相同观点的还有 Replit 首席执行官阿姆贾德・马萨德、 Okta 首席执行官托德・麦金农以及 IBM 首席执行官阿尔温德・克里希纳。jpR28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12239-0.html微软研究:AI 编程助手软件调试能力堪忧

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 美国教育部长出席峰会闹乌龙:多次将 AI 误称为 A1

下一篇: AI 购物应用 Nate 创始人被控欺诈:人工冒充 AI 骗取 5000 万美元投资

标签:
  • 热门焦点
  • 人间诚实周鸿祎:360 All in 大模型的六个解读

    主笔 / 村口有牛文章架构师 / 毛自聪出品 / 巨头财经5月至今,人间躁动,各路大模型你方唱罢我登场,VC圈互联网圈媒体圈已近癫狂。谁也没想到,今日,360再度刷屏,老牌互联网巨头展现
  • 虚拟人再升级,企业可以解放双手了?

    来源:伯虎财经今天想跟大家来唠唠AI,其实聊到这个话题很多人都不陌生了。在ChatGPT和AIGC大热背后,还有一位低调的“大佬”——虚拟人。比如咱们熟知的虚
  • 元宇宙社交啫喱、希壤爆款迭出,腾讯慌了吗?

    文 | 陈桥辉没想到腾讯超级QQ秀的20周年归来首秀,被一款名不见经传的产品抢了风头。1月15日,一款名为“啫喱”的社交App迅速在各个互联网的社交圈内火爆起来,引起
  • “元宇宙第一股”Roblox缘何被资本市场看“低”?

    近期,冬奥会的召开受到广泛关注,而吉祥物冰墩墩也成为新晋“顶流”,“一墩难求”成为普遍心声,为了满足大众需求,nWayPlay平台曾在2月12日发售了一款由国际奥委会官
  • 影响元宇宙土地价格的五个因素

    参考来源 | cryptonews编译 | Ciel@iNFTnews.com元宇宙中的房地产价格主要取决于使用它的人数,以及为所有者创造收益的能力。专注于数字资产的投资公司LedgerPr
  • 解决NFT流动性问题:一文了解Floor DAO

    流动性是证券市场上的一个术语,流动性是指资产在不影响其市场价格的情况下可以转换为现成现金的效率,流动性最强的资产是现金本身。现在让我们试着从流动性的角
  • 元宇宙收割了谁

    作者:晓宇资本将元宇宙看作下一代互联网的门票,画大饼、割韭菜就成了一大选项。2021年被称为元宇宙元年。在这一年里,先是号称元宇宙第一股的沙盒游戏Roblox盛装
  • 电影工业巨头好莱坞计划进军元宇宙,将会对行业带来什么影响?

    元宇宙听起来像不像是科幻小说中出现的术语?事实确实如此。小说家尼尔·斯蒂芬森在1992年的小说《雪崩》中首次用这个词来定义了一个多连接的虚拟宇宙,它能够模
  • TX加入的NFT数字收藏品,元宇宙的破圈之路?

    3月7日,澳大利亚 NFT 初创公司 Immutable 在新加坡淡马锡牵头的R资中以估值 25 亿美元完成2亿美元R资,腾讯参投。想必国人最熟知的应该就是TX,作为国内四大互联网
Top