当前位置:首页 > 科技  > 网络

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守

来源: 责编: 时间:2025-02-26 12:25:48 224观看
导读 Claude 3.7新鲜出炉全网热议,到底有多强?第一波实测来了!简单粗暴总结,它在编程、现实世界任务上,能力爆表。只需一个样本,就能一下子吐出3200多行代码,做出一个可玩性很高的游戏。像什么跳跃、打怪、回血、吃金币

Claude 3.7新鲜出炉全网热议,到底有多强?Wut28资讯网——每日最新资讯28at.com

第一波实测来了!简单粗暴总结,它在编程、现实世界任务上,能力爆表。Wut28资讯网——每日最新资讯28at.com

只需一个样本,就能一下子吐出3200多行代码,做出一个可玩性很高的游戏。Wut28资讯网——每日最新资讯28at.com

像什么跳跃、打怪、回血、吃金币……一系列复杂的游戏机制都完美呈现了出来。Wut28资讯网——每日最新资讯28at.com

有意思的是,这个游戏还和Meta Quest里的VR游戏《霓虹奥德赛(Neon Odyssey)》同名。Wut28资讯网——每日最新资讯28at.com

物理规律也能准确把握,有人仅用3个提示,就用C语言模拟了真实物理情景下的流体运动:Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

实测发现,Claude 3.7 Sonnet能够识破很多的逻辑陷阱,一些弱智吧名场面也能秒懂:Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

在Claude官方看来,其大的优势就是“更擅长现实世界中的任务”,并且在更新公告中还不忘内涵一波隔壁OpenAI。Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

另外趁着模型上新,Claude背后的Anthropic新一轮融资曝光:35亿美元(约254亿人民币)。比预先目标20亿翻了近一倍。Wut28资讯网——每日最新资讯28at.com

由此,包括正在筹集的现金在内,Anthropic估值已经达到了615亿美元(约4462亿人民币)。Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

一句话生成《我的世界》,新模型编程能力嘎嘎乱杀Wut28资讯网——每日最新资讯28at.com

从更多网友鲜测来看,Claude 3.7 Sonnet尤为擅长编程和Web开发。Wut28资讯网——每日最新资讯28at.com

一上手,他们就把目光放在了考验AI理解真实世界能力的物理模拟上。Wut28资讯网——每日最新资讯28at.com

【更懂物理规律】Wut28资讯网——每日最新资讯28at.com

比如一位日本小哥就用它生成了精致的“太阳系运行图”,太阳、八大行星还有被开除行星籍的冥王星都包含在内,给小哥带来了亿点点震撼:Wut28资讯网——每日最新资讯28at.com

1374行代码,Claude 3.7 Sonnet唰一下就完成了!Wut28资讯网——每日最新资讯28at.com

不仅生成速度快,还实现了实时交互。点击某个行星,右上角还会显示一些小科普。Wut28资讯网——每日最新资讯28at.com

要知道,哪怕不制作成动画,单纯地完整厘清这些天体的运行规律,就已经难倒了绝大部分人。Wut28资讯网——每日最新资讯28at.com

而Claude的作品,虽然美观性可能还有提升空间,但至少它不仅对行星运行的规则有清晰的把握,还能把它们变成代码。Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

另外,对于每一个新模型都要被拉出来遛一遛的“空间内弹小球”挑战,Claude 3.7 Sonnet当然也没逃过:Wut28资讯网——每日最新资讯28at.com

编写一个Python脚本,实现球在四维体内部弹跳。Wut28资讯网——每日最新资讯28at.com

本月初的o3-mini在这一挑战中表现出色,斩获“可能是懂现实物理的LLM”:Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

而相比于慢悠悠的o3-mini,Claude 3.7 Sonnet则另辟蹊径主打一个“天下武功,唯快不破”。Wut28资讯网——每日最新资讯28at.com

小小四维空间内,小球弹跳速度快出残影,真滴很需要一个眼尖的裁判来决出胜者(doge)。Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

与此同时,除了物理模拟,用Claude 3.7 Sonnet编写各种小游戏竟默契成为一众网友佳选择。Wut28资讯网——每日最新资讯28at.com

【游戏成热场景】Wut28资讯网——每日最新资讯28at.com

挑战生成爆火游戏《Flappy bird》,Claude 3.7 Sonnet一眼完胜o3 mini-high。Wut28资讯网——每日最新资讯28at.com

游戏中,玩家必须控制一只小鸟,跨越由各种不同长度水管所组成的障碍。Wut28资讯网——每日最新资讯28at.com

先看Claude 3.7 Sonnet,一次性生成的代码就高度还原了游戏理念:Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

高档位推理模式下的o3 mini,只有一个小方块在画面中原地鬼畜,基本看不出游戏的亚子。Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

一时间,这一惨烈对比直接将Claude 3.7 Sonnet推上了新的高度:Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

同时,随着难度进一步升级,这句评价的含金量还在上升。Wut28资讯网——每日最新资讯28at.com

除了简单还原游戏理念,生成更精致甚至可以上下左右交互的“大制作”也是不在话下。Wut28资讯网——每日最新资讯28at.com

在早期测试中,知名博主Rowan Cheung就用它一句话创建了克隆版《我的世界》,而且能立即在Artifacts中玩。Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

类似的还有下面这个,也是一句话生成一个完整游戏:Wut28资讯网——每日最新资讯28at.com

使用Phaser.js制作一个横版平台游戏,仅使用箭头键进行游戏操作。(左上角还会实时更新得分情况)Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

这还不算完,更有脑洞大开的网友仅用5个提示,就为Apple Watch制作了一个与心率绑定的贪吃蛇游戏。Wut28资讯网——每日最新资讯28at.com

你越紧张,蛇移动得越快,你越冷静,就越容易。Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

笑死,知名博主Pietro Schirano借机又调侃了Anthropic一波:Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

而除了各种游戏,将Claude 3.7 Sonnet应用于实际开发场景的例子也是精彩纷呈。Wut28资讯网——每日最新资讯28at.com

【生产力提效Max】Wut28资讯网——每日最新资讯28at.com

目前,Claude平台已提供GitHub集成,开发人员可以将其代码存储库直接连接到Claude。Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

设置完成后,它会显示特定项目的容量百分比,这样用户就知道自己使用了多少容量。Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

知名博主elvis特意cue到了“Artifacts”功能,直连后这对于今后修改代码非常方便。Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

在实际体验中,有人用它来生成动画天气卡,移动的云彩、飘落的雨滴等全都栩栩如生,还支持自主调节移动快慢。Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

当然,创建网页这种活儿,单看可能没感觉,那我们直接请出几位选手挑战扒同一个HTML网页。Wut28资讯网——每日最新资讯28at.com

要完成的目标是这样婶儿的:Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

Claude 3.7 Sonnet堪称还原度高,而且在没有图标素材的情况下用emoji填充了左侧边栏的按钮:Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

而其他几位选手o1-mini-high、Grok 3以及Gemini 2.0 Pro依次作答如下,有的只简单地列举了数据,甚至还有的干脆只给了个表格:Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

鉴于编写程序的能力确实很强,还有人激动表示自己在cursor里尝试了一番,效果嘛:Wut28资讯网——每日最新资讯28at.com

添加了15个以上的文件,并且看起来很好,看上去一次可以处理的内容更多了。Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

【“数字母”问题埋下小彩蛋】Wut28资讯网——每日最新资讯28at.com

而且Claude团队也非常“时髦”,在3.7 Sonnet当中埋下了关于strawberry数r的彩蛋。Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

不过虽然这种幽默的态度十分可嘉,但是换了个词可能还是会掉链子。Wut28资讯网——每日最新资讯28at.com

虽然数错了,Claude还不忘纠正拼写错误,耿直地指出你这个“密西西比”拼的不对啊,正确的拼写里就是有4个s。Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

【实测:识破逻辑陷阱,弱智吧也能招架】Wut28资讯网——每日最新资讯28at.com

Claude 3.7 Sonnet的推理能力除了体现在编程上,还包括在存在误导信息的情况下准确推理。Wut28资讯网——每日最新资讯28at.com

而且即使不开启推理模式,Claude 3.7 Sonnet依然能够在有误导信息推理测试当中取得和o3-mini一样的成绩。Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

这项测试,使用的GitHub上一个名为Misguided Attention的Benchmark。Wut28资讯网——每日最新资讯28at.com

其中包含了很多经典谜题……的改编版本,考验的就是大模型能不能做到不被表象迷惑。Wut28资讯网——每日最新资讯28at.com

举个例子,电车难题我们都很熟悉:Wut28资讯网——每日最新资讯28at.com

假设在一个电车轨道上被绑了5个人,而它的备用轨道上被绑了1个人,又有一辆失控的电车飞速驶来,而你身边正好有一个摇杆,你可以推动摇杆来让电车驶入备用轨道。Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

但在这套Benchmark里,这道题被改编成了这个样子:Wut28资讯网——每日最新资讯28at.com

假设在一个电车轨道上被绑了5个死了的人,而它的备用轨道上被绑了1个活着的人,又有一辆失控的电车飞速驶来,而你身边正好有一个摇杆,你可以推动摇杆来让电车驶入备用轨道。Wut28资讯网——每日最新资讯28at.com

o3-mini-high毫不犹豫地就选择了让电车冲向活人,还言之凿凿地解释说这样会减少受害者数量。Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

Claude 3.7(未开启拓展思考)就能够发现这其中的门道,表示这是一个变体,并选择了不伤害还活着的人。Wut28资讯网——每日最新资讯28at.com

再比如物理学当中的名场面——薛定谔的猫,在这套基准当中,这只猫的“猫设”被改成了一只死去的猫。Wut28资讯网——每日最新资讯28at.com

一只死猫与核同位素、一瓶毒药和辐射探测器一起放入盒子中。如果辐射探测器检测到辐射,它将释放毒药。一天后,盒子打开。猫还活着吗?Wut28资讯网——每日最新资讯28at.com

Claude 3.7也是准确把握了关键点,正确回答了猫的存活概率为0。Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

也是有一些弱智吧的味道了,既然如此,那我们就加试几个弱智吧问题看看。(doge)Wut28资讯网——每日最新资讯28at.com

还是没有开启思考模式,Claude 3.7就识破了我们问题当中的逻辑缺陷。Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

像这类因果倒置的弱智吧场面,Claude 3.7也能及时发现,相比之下o3-mini-high的回答就好像是成功被诱骗。Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

后,我们让Claude 3.7解释了一些中文中有趣的语言现象。Wut28资讯网——每日最新资讯28at.com

结果,“咖啡因不存在于成品咖啡”这句出了错误,但是瑕不掩瑜,整体的解释还是比较靠谱的。Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

【One More Thing】Wut28资讯网——每日最新资讯28at.com

关于Claude 3.7 Sonnet的命名,Anthropic首席产品官Mike Krieger揭秘了这当中的过程。Wut28资讯网——每日最新资讯28at.com

由于之前Claude 3.5 Sonnet发布过一次更新,所以团队一开始是考虑叫3.5 Sonnet newer或者newest,又或者3.5 Sonnet v3。Wut28资讯网——每日最新资讯28at.com

也许是觉得还叫3.5体现不出这版模型的强大,后来又改成了3.6,终敲定在了处于3.5和4中间的3.7。Wut28资讯网——每日最新资讯28at.com

Claude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守Wut28资讯网——每日最新资讯28at.com

参考链接:Wut28资讯网——每日最新资讯28at.com

[1]https://x.com/rowancheung/status/1894106441536946235[Wut28资讯网——每日最新资讯28at.com

2]https://x.com/mckaywrigley/status/1894123739178270774Wut28资讯网——每日最新资讯28at.com

[3]https://x.com/omarsar0/status/1894145008556519602Wut28资讯网——每日最新资讯28at.com

[4]https://www.reddit.com/r/singularity/comments/1ix9sl2/shots_fired_direct_sting_against_openai_from/Wut28资讯网——每日最新资讯28at.com

[5]https://www.reddit.com/r/singularity/comments/1ixawwd/the_most_interesting_strawberry_solution_so_far/Wut28资讯网——每日最新资讯28at.com

[6[https://www.wsj.com/tech/ai/ai-startup-anthropic-finalizing-3-5-billion-funding-round-020e320dWut28资讯网——每日最新资讯28at.com


文章出处:量子位

本文链接:http://www.28at.com/showinfo-17-133535-0.htmlClaude 3.7 AI大模型神了!3200行代码一口气输出 弱智吧已失守

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 百度21亿美元收购YY

下一篇: 欧盟批准面包虫粉末放入面包!此前还将蟋蟀粉加入食物

标签:
  • 热门焦点
  • Find N3入网:最高支持16+1TB

    OPPO将于近期登场的Find N3折叠屏目前已经正式入网,型号为PHN110。本次Find N3在外观方面相比前两代有很大的变化,不再是小号的横向折叠屏,而是跟别的厂商一样采用了较为常见的
  • 5月安卓手机好评榜:魅族20 Pro夺冠

    性能榜和性价比榜之后,我们来看最后的安卓手机好评榜,数据来源安兔兔评测,收集时间2023年5月1日至5月31日,仅限国内市场。第一名:魅族20 Pro好评率:97.50%不得不感慨魅族老品牌还
  • 微信语音大揭秘:为什么禁止转发?

    大家好,我是你们的小米。今天,我要和大家聊一个有趣的话题:为什么微信语音不可以转发?这是一个我们经常在日常使用中遇到的问题,也是一个让很多人好奇的问题。让我们一起来揭开这
  • 只需五步,使用start.spring.io快速入门Spring编程

    步骤1打开https://start.spring.io/,按照屏幕截图中的内容创建项目,添加 Spring Web 依赖项,并单击“生成”按钮下载 .zip 文件,为下一步做准备。请在进入步骤2之前进行解压。图
  • Temu起诉SHEIN,跨境电商战事升级

    来源 | 伯虎财经(bohuFN)作者 | 陈平安日前据外媒报道,拼多多旗下跨境电商平台Temu正对竞争对手SHEIN提起新诉讼,诉状称Shein“利用市场支配力量强迫服装厂商与之签订独家
  • 阿里瓴羊One推出背后,零售企业迎数字化新解

    作者:刘旷近年来随着数字经济的高速发展,各式各样的SaaS应用服务更是层出不穷,但本质上SaaS大多局限于单一业务流层面,对用户核心关切的增长问题等则没有提供更好的解法。在Saa
  • 认真聊聊东方甄选:如何告别低垂的果实

    来源:山核桃作者:财经无忌爆火一年后,俞敏洪和他的东方甄选依旧是颇受外界关心的“网红”。7月5日至9日,为期5天的东方甄选“甘肃行”首次在自有App内直播,
  • 造车两年股价跌六成,小米的估值逻辑变了吗?

    如果从小米官宣造车后的首个交易日起持有小米集团的股票,那么截至2023年上半年最后一个交易日,投资者将浮亏59.16%,同区间的恒生科技指数跌幅为52.78%
  • 引领旗舰级影像能力向中端机普及 OPPO K11 系列发布 1799 元起

    7月25日,OPPO正式发布K系列新品—— OPPO K11 。此次 K11 在中端手机市场长期被忽视的影像板块发力,突破性地搭载索尼 IMX890 旗舰大底主摄,支持 OIS
Top