当前位置:首页 > 科技  > 网络

强AI程序员砸饭碗:84秒跑通代码 像人一样思考

来源: 责编: 时间:2024-08-13 16:50:45 24观看
导读 继Devin之后,又一个AI软件工程师被刷屏了——它叫Genie,号称目前地表强,已经可以像人一样思考和行动了!那么这个“地表强”,到底强到什么程度?先来看下评测分数。在权威榜单SWE-Bench中,Genie

继Devin之后,又一个AI软件工程师被刷屏了——V6o28资讯网——每日最新资讯28at.com

它叫Genie,号称目前地表强,已经可以像人一样思考和行动了!V6o28资讯网——每日最新资讯28at.com

强AI程序员砸饭碗:84秒跑通代码 像人一样思考V6o28资讯网——每日最新资讯28at.com

那么这个“地表强”,到底强到什么程度?V6o28资讯网——每日最新资讯28at.com

先来看下评测分数。V6o28资讯网——每日最新资讯28at.com

在权威榜单SWE-Bench中,Genie以解决了30.07%问题的成绩夺得榜首。V6o28资讯网——每日最新资讯28at.com

(SWE-Bench是一个用来评估大模型解决现实中软件问题的基准。)V6o28资讯网——每日最新资讯28at.com

而这个成绩可谓是遥遥领先第二名19.27%,解锁了提升SOTA的大增幅——57%!V6o28资讯网——每日最新资讯28at.com

强AI程序员砸饭碗:84秒跑通代码 像人一样思考V6o28资讯网——每日最新资讯28at.com

至于Genie的实际效果,用团队的话来说就是:V6o28资讯网——每日最新资讯28at.com

它可以做到像人类工程师一样解决现实生活中的软件问题。V6o28资讯网——每日最新资讯28at.com

首先,你可以用4种方式让Genie开始工作,分别是提示词、GitHub Issue、Linear Ticket或者API。V6o28资讯网——每日最新资讯28at.com

强AI程序员砸饭碗:84秒跑通代码 像人一样思考V6o28资讯网——每日最新资讯28at.com

以解决GitHub Issue为例,先喂给Genie一个repo的链接,它就开始自动解析问题了:V6o28资讯网——每日最新资讯28at.com

强AI程序员砸饭碗:84秒跑通代码 像人一样思考V6o28资讯网——每日最新资讯28at.com

Genie会自动迭代思考如果想要解决这个问题它都需要哪些文件,直到它觉得找到了自己满意的为止:V6o28资讯网——每日最新资讯28at.com

强AI程序员砸饭碗:84秒跑通代码 像人一样思考V6o28资讯网——每日最新资讯28at.com

紧接着,它将对问题做一个自动迭代分析的过程:V6o28资讯网——每日最新资讯28at.com

强AI程序员砸饭碗:84秒跑通代码 像人一样思考V6o28资讯网——每日最新资讯28at.com

然后Genie就开始“唰唰唰”地自动写+跑代码了:V6o28资讯网——每日最新资讯28at.com

强AI程序员砸饭碗:84秒跑通代码 像人一样思考V6o28资讯网——每日最新资讯28at.com

强AI程序员砸饭碗:84秒跑通代码 像人一样思考V6o28资讯网——每日最新资讯28at.com

如果运行代码过程中出现bug,Genie会只针对出问题的地方再重复分析、写代码和运行的过程,直至跑通为止。V6o28资讯网——每日最新资讯28at.com

而整个过程,仅仅耗时84秒!V6o28资讯网——每日最新资讯28at.com

强AI程序员砸饭碗:84秒跑通代码 像人一样思考V6o28资讯网——每日最新资讯28at.com

用团队的话来说:V6o28资讯网——每日最新资讯28at.com

Genie已经观察并学习人类程序员如何解决软件问题的次数达到了数百万次。V6o28资讯网——每日最新资讯28at.com

这是任何一个人类程序员一辈子都无法达到的数量。V6o28资讯网——每日最新资讯28at.com

强AI程序员砸饭碗:84秒跑通代码 像人一样思考V6o28资讯网——每日最新资讯28at.com

但更令人意想不到的是,Genie背后的团队——Cosine,才仅仅5人。V6o28资讯网——每日最新资讯28at.com

而且CEO Alistair还发文感谢OpenAI:V6o28资讯网——每日最新资讯28at.com

没有你们,我们做不出来Genie。V6o28资讯网——每日最新资讯28at.com

强AI程序员砸饭碗:84秒跑通代码 像人一样思考V6o28资讯网——每日最新资讯28at.com

那么Cosine团队,究竟是如何打造Genie的呢。V6o28资讯网——每日最新资讯28at.com

强AI工程师是如何炼成的?V6o28资讯网——每日最新资讯28at.com

Genie的主要特点,是能够模仿人类工程师的认知过程、逻辑和工作流。V6o28资讯网——每日最新资讯28at.com

为做到这一点,Genie团队透露过去一年收集了一个包含真实人类程序员开发活动的数据集。V6o28资讯网——每日最新资讯28at.com

其中不仅使用了成果分析、静态分析、自我对弈、逐步验证等方法,还用到了基于大量标记数据训练的AI模型。好处是,当基础模型能力提升时,它们能够提取的数据质量也会相应提高。V6o28资讯网——每日最新资讯28at.com

终Genie使用该专有数据进行训练。V6o28资讯网——每日最新资讯28at.com

数据集中编码了人类推理的完整过程,包括完美的信息溯源、增量知识发现,还有基于软件工程师实际工作案例的逐步决策过程。V6o28资讯网——每日最新资讯28at.com

Genie的推理过程包括规划、检索、代码编写和代码运行四个主要步骤,突破了其它AI工程师依靠在基础模型之上添加网页浏览器、代码解释器等额外工具的限制,能够像人一样处理多样化的、高度情境的、前所未见的问题。V6o28资讯网——每日最新资讯28at.com

强AI程序员砸饭碗:84秒跑通代码 像人一样思考V6o28资讯网——每日最新资讯28at.com

这种训练方法,让网友们立刻想到,之前Karpathy也提出的类似想法:V6o28资讯网——每日最新资讯28at.com

对于LLM来说,理想的训练数据并不是你所写的内容本身,而是你在写作过程中的完整思考过程和每一个编辑动作。然而,我们只能尽力利用现有的资源。V6o28资讯网——每日最新资讯28at.com

强AI程序员砸饭碗:84秒跑通代码 像人一样思考V6o28资讯网——每日最新资讯28at.com

除此之外,Genie训练中还引入了自我改进机制。V6o28资讯网——每日最新资讯28at.com

初始训练数据多为可正常运行的没有错误的代码,导致Genie导致难以应对错误情况。为解决这个问题,团队使用初代版本的Genie生成包含错误的合成数据,然后用这些数据训练下一版模型。V6o28资讯网——每日最新资讯28at.com

具体来说,使用旧版本Genie提出解决方案,如果解决方案错误,就利用掌握的任务终状态来教它从当前状态达到正确状态。V6o28资讯网——每日最新资讯28at.com

不断重复这一过程,Genie提出的初始解决方案逐渐变得更准确,在多数情况下能直接给出正确答案,即使出错也只需在数据集中作较少的修正。V6o28资讯网——每日最新资讯28at.com

Genie能力提升的另一大关键,在于OpenAI提供的大模型支持。V6o28资讯网——每日最新资讯28at.com

团队表示,初开发Genie时,只能访问微调16-32k范围内的短上下文模型,他们用这些模型进行了大量早期开发,用超1亿token的数据训练模型,虽然发现设计的架构有一定优势,但从根本上受限于模型在特定时间内可以处理的信息量。V6o28资讯网——每日最新资讯28at.com

尝试了各种压缩/分块方法后,唯一的解决方法就是使用更大上下文的模型。V6o28资讯网——每日最新资讯28at.com

OpenAI提供了长上下文模型支持,新版本的Genie经过了数十亿token的数据训练。V6o28资讯网——每日最新资讯28at.com

团队认为,相比超参数调整和数据量,数据的质量才是关键。因此他们还在数据混合方面进行了大量实验,包括语言、任务类型、任务长度等多个维度,以下是训练Genie的不同编程语言数据的占比:V6o28资讯网——每日最新资讯28at.com

强AI程序员砸饭碗:84秒跑通代码 像人一样思考V6o28资讯网——每日最新资讯28at.com

还有不同类型实例的数据占比:V6o28资讯网——每日最新资讯28at.com

强AI程序员砸饭碗:84秒跑通代码 像人一样思考V6o28资讯网——每日最新资讯28at.com

只有5个人的团队V6o28资讯网——每日最新资讯28at.com

正如我们在上文提到的,Cosine这个初创团队人数目前仅仅为5人。V6o28资讯网——每日最新资讯28at.com

在官网的介绍中,他们也非常直接的将自己形容为:V6o28资讯网——每日最新资讯28at.com

Small but mighty.虽小但有力。V6o28资讯网——每日最新资讯28at.com

强AI程序员砸饭碗:84秒跑通代码 像人一样思考V6o28资讯网——每日最新资讯28at.com

从介绍来看,成员有的是从独角兽企业出身,有的拥有管理全球团队的经验,甚至还有从8岁就开始编程的。V6o28资讯网——每日最新资讯28at.com

但Cosine初成立之际是仅有3人,他们的目标是想把人类推理这件事儿给搞明白。V6o28资讯网——每日最新资讯28at.com

强AI程序员砸饭碗:84秒跑通代码 像人一样思考V6o28资讯网——每日最新资讯28at.com

值得一提的是,团队成员中还有一位是华人,Yang Li,是Cosine的联合创始人,在2021年登上过福布斯30 under 30。V6o28资讯网——每日最新资讯28at.com

强AI程序员砸饭碗:84秒跑通代码 像人一样思考V6o28资讯网——每日最新资讯28at.com

除此之外,对于Genie本身,CEO Alistair还表示:V6o28资讯网——每日最新资讯28at.com

早在2022年我们就开始构想Genie了,但当时从技术角度来说是不可行的。V6o28资讯网——每日最新资讯28at.com

直到过去半年多来,随着大模型的逐步成熟,Genie才能走入现实。V6o28资讯网——每日最新资讯28at.com

强AI程序员砸饭碗:84秒跑通代码 像人一样思考V6o28资讯网——每日最新资讯28at.com

嗯,不得不说,大模型又立功了。V6o28资讯网——每日最新资讯28at.com

Genie目前是可以申请Waitlist了,感兴趣的小伙伴可以戳文末链接~V6o28资讯网——每日最新资讯28at.com

Waitlist地址:https://cosine.sh/registerV6o28资讯网——每日最新资讯28at.com

参考链接:[1]https://x.com/alistairpullen/status/1822981361608888619?s=46[2]https://cosine.sh/blog/genie-technical-report[3]https://cosine.sh/blog/state-of-the-art[4]https://x.com/AlistairPullen/status/1823030874579120223[5]https://x.com/yangli_V6o28资讯网——每日最新资讯28at.com


文章出处:量子位

本文链接:http://www.28at.com/showinfo-17-107663-0.html强AI程序员砸饭碗:84秒跑通代码 像人一样思考

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 美国前总统直播时给iPhone用的充电宝亮了:来自中国品牌!

下一篇: 唐尚珺放下清华执念上大学:曾经的梦想到大学再去追逐

标签:
  • 热门焦点
  • 红魔电竞平板评测:大屏幕硬实力

    红魔电竞平板评测:大屏幕硬实力

    前言:三年的疫情因为要上网课的原因激活了平板市场,如今网课的时代已经过去,大家的生活都恢复到了正轨,这也就意味着,真正考验平板电脑生存的环境来了。也就是面对着这种残酷的
  • 7月安卓手机好评榜:三星S23Ultra好评率第一

    7月安卓手机好评榜:三星S23Ultra好评率第一

    性能榜和性价比榜之后,我们来看最后的安卓手机好评榜,数据来源安兔兔评测,收集时间2023年7月1日至7月31日,仅限国内市场。第一名:三星Galaxy S23 Ultra好评率:95.71%在即将迎来新
  • 印度登月最关键一步!月船三号今晚进入环月轨道

    印度登月最关键一步!月船三号今晚进入环月轨道

    8月5日消息,据印度官方消息,月船三号将于北京时间今晚21时30分左右开始近月制动进入环月轨道。这是该探测器能够成功的最关键步骤之一,如果成功将开始围
  • Automa-通过连接块来自动化你的浏览器

    Automa-通过连接块来自动化你的浏览器

    1、前言通过浏览器插件可实现自动化脚本的录制与编写,具有代表性的工具就是:Selenium IDE、Katalon Recorder,对于简单的业务来说可快速实现自动化的上手工作。Selenium IDEKat
  • 阿里大调整

    阿里大调整

    来源:产品刘有媒体报道称,近期淘宝天猫集团启动了近年来最大的人力制度改革,涉及员工绩效、层级体系等多个核心事项,目前已形成一个初步的“征求意见版”:1、取消P序列
  • iQOO Neo8 Pro抢先上架:首发天玑9200+ 安卓性能之王

    iQOO Neo8 Pro抢先上架:首发天玑9200+ 安卓性能之王

    经过了一段时间的密集爆料,昨日iQOO官方如期对外宣布:将于5月23日推出全新的iQOO Neo8系列新品,官方称这是一款拥有旗舰级性能调校的作品。随着发布时
  • Android 14发布:首批适配机型公布

    Android 14发布:首批适配机型公布

    5月11日消息,谷歌在今天凌晨举行了I/O大会,本次发布会谷歌带来了自家的AI语言模型PaLM 2、谷歌Pixel Fold折叠屏、谷歌Pixel 7a手机,同时发布了Androi
  • OPPO K11搭载长寿版100W超级闪充:26分钟充满100%

    OPPO K11搭载长寿版100W超级闪充:26分钟充满100%

    据此前官方宣布,OPPO将于7月25日也就是今天下午14:30举办新品发布会,届时全新的OPPO K11将正式与大家见面,将主打旗舰影像,和同档位竞品相比,其最大的卖
  • 华为举行春季智慧办公新品发布会 首次推出电子墨水屏平板

    华为举行春季智慧办公新品发布会 首次推出电子墨水屏平板

    北京时间2月27日晚,华为在巴塞罗那举行春季智慧办公新品发布会,在海外市场推出之前已经在中国市场上市的笔记本、平板、激光打印机等办公产品,并首次推出搭载
Top