当前位置:首页 > 科技  > 网络

豆包文科成绩超了一本线:为什么理科不行

来源: 责编: 时间:2024-07-01 17:11:20 259观看
导读 什么?好多大模型的文科成绩超一本线,还是卷的河南省???△图源:极客公园没错,近就有这么一项大模型“高考大摸底”评测走红了。河南高考文科今年的一本线是521分,根据这项评测,共计四个大模型大于或等于这

什么?好多大模型的文科成绩超一本线,还是卷的河南省???BT228资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行△图源:极客公园BT228资讯网——每日最新资讯28at.com

没错,近就有这么一项大模型“高考大摸底”评测走红了。BT228资讯网——每日最新资讯28at.com

河南高考文科今年的一本线是521分,根据这项评测,共计四个大模型大于或等于这个分数,其中头两名值得关注:BT228资讯网——每日最新资讯28at.com

GPT-4o:562分BT228资讯网——每日最新资讯28at.com

字节豆包:542.5分BT228资讯网——每日最新资讯28at.com

……BT228资讯网——每日最新资讯28at.com

从结果中来看,GPT-4o的表现依旧是处于领先状态,而在国产大模型这边,比较亮眼的成绩便属于豆包了。BT228资讯网——每日最新资讯28at.com

并且在语文和历史等科目的成绩甚至还超越了GPT-4o。BT228资讯网——每日最新资讯28at.com

这也让不少网友纷纷感慨:BT228资讯网——每日最新资讯28at.com

AI文科成绩这么好,看来在处理语言和逻辑上还是很有优势的。BT228资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行BT228资讯网——每日最新资讯28at.com

不过有一说一,毕竟国产大模型的竞争是如此之激烈,这份评测的排名真的靠谱吗?发布仅数月的豆包,真具备此等实力吗?以及这数学……又是怎么一回事儿?BT228资讯网——每日最新资讯28at.com

先看评测榜单BT228资讯网——每日最新资讯28at.com

要回答上述的问题,我们不妨先来查一查豆包在新的权威评测榜单中的表现是否一致。BT228资讯网——每日最新资讯28at.com

首先有请由智源研究院发布的FlagEval(天秤)。BT228资讯网——每日最新资讯28at.com

它的评测方式是这样的:BT228资讯网——每日最新资讯28at.com

对于开源模型, FlagEval会综合概率选择和自由生成两种方式来评测,对于闭源模型, FlagEval只采用自由生成的方式来评测,两种评测方式区别参照。BT228资讯网——每日最新资讯28at.com

主观评测时部分闭源模型对极小部分题目有拒绝回答的情形,这部分题目并没有计入能力分数的计算。BT228资讯网——每日最新资讯28at.com

在“客观评测”这个维度上,榜单成绩如下:BT228资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行BT228资讯网——每日最新资讯28at.com

不难看出,这一维度下的FlagEval中,前四名的成绩是与“高考大摸底”的名次一致。BT228资讯网——每日最新资讯28at.com

大模型依旧分别来自OpenAI、字节跳动、百度和百川智能。BT228资讯网——每日最新资讯28at.com

并且豆包在“知识运用”和“数学能力”两个维度上成绩还高于第一名的GPT-4。BT228资讯网——每日最新资讯28at.com

若是将评测方式调节至“主观评测”,那么结果是这样的:BT228资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行BT228资讯网——每日最新资讯28at.com

此时,百度的大模型跃居到了第一名,而字节的豆包依旧是稳居第二的成绩。BT228资讯网——每日最新资讯28at.com

由此可见,不论是主观还是客观维度上,前几位的名次都是与“高考大摸底”的成绩是比较接近的。BT228资讯网——每日最新资讯28at.com

接下来,我们再来有请另一个权威测评——OpenCompass(司南)。BT228资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行BT228资讯网——每日最新资讯28at.com

在新的5月榜单中,豆包的成绩也是仅次于OpenA家的大模型。BT228资讯网——每日最新资讯28at.com

同样的,在细分的“语言”和“推理”两个维度中,豆包还是超越了GPT-4o和GPT-4 Turbo。BT228资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行BT228资讯网——每日最新资讯28at.com

但与专业评测冷冰冰的分数相比,人们都对高考有着更深刻的体验和记忆。BT228资讯网——每日最新资讯28at.com

那么接下来我们就通过豆包回答高考题,来看看大模型在应对人类考试时的具体表现。BT228资讯网——每日最新资讯28at.com

再看实际效果BT228资讯网——每日最新资讯28at.com

既然目前许多试卷的题目都已经流出,我们不妨亲测一下豆包的实力。BT228资讯网——每日最新资讯28at.com

例如让它先写一篇新课标I卷语文的作文题目:BT228资讯网——每日最新资讯28at.com

随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少?BT228资讯网——每日最新资讯28at.com

以上材料引发了你怎样的联想和思考?请写一篇文章。BT228资讯网——每日最新资讯28at.com

要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。BT228资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行△结果由豆包PC端对话生成BT228资讯网——每日最新资讯28at.com

从豆包的作答上来看,是已经摆脱了AI写作文经常犯的“首先-其次-以及-后”这种模板式的写法,也擅长引经据典来做论证。BT228资讯网——每日最新资讯28at.com

但毕竟每个人对于文笔的审美标准不同,因此豆包高考作文写得如何,评价就交给你们了(欢迎在留言区讨论)。BT228资讯网——每日最新资讯28at.com

值得一提的是,在量子位向豆包团队询问后得知,原来豆包PC端对话和手机端“拍题答疑”是两种截然不同的招式——BT228资讯网——每日最新资讯28at.com

前者走的是LLM链路,后者走的则是RAG链路(若是用豆包手机端“拍题答疑”功能,高考数理化成绩也能接近满分)。BT228资讯网——每日最新资讯28at.com

加上在这次“高考大摸底”评测出炉之后,很多网友们都将关注的重点聚焦到了数学成绩上:BT228资讯网——每日最新资讯28at.com

AI也怕数学。BT228资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行BT228资讯网——每日最新资讯28at.com

因此,接下来的实际效果测试,我们就将以“LLM链路+数学”的方式来展开。BT228资讯网——每日最新资讯28at.com

先拿这次的选择题来小试牛刀一下:BT228资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行BT228资讯网——每日最新资讯28at.com

当我们把题目在PC端“喂”豆包之后,它的作答如下:BT228资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行BT228资讯网——每日最新资讯28at.com

因此,豆包给出的答案是:BT228资讯网——每日最新资讯28at.com

A、C、D、D、B、B、A、ABT228资讯网——每日最新资讯28at.com

这里我们再来引入排名第一选手GPT-4o的作答:BT228资讯网——每日最新资讯28at.com

A、D、B、D、C、A、C、BBT228资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行BT228资讯网——每日最新资讯28at.com

而根据网上目前多个信源得到的标准答案是:A、C、D、A、B、B、C、B。BT228资讯网——每日最新资讯28at.com

对比来看,豆包对5道,GPT-4o答对4道。BT228资讯网——每日最新资讯28at.com

而对于更多的数学题的作答,其实复旦大学自然语言处理实验室在高考试卷曝光后第一时间做了更加全面的测试(所有大模型只能依靠LLM推理答题,不能通过RAG检索答案):BT228资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行BT228资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行△图源:复旦大学自然语言处理实验室BT228资讯网——每日最新资讯28at.com

由此可见,大模型并不能完全hold住高考数学题目,并且不同人生成答案的结果也会出现偏差。BT228资讯网——每日最新资讯28at.com

并且量子位在反复测试后发现,豆包对话答题时有一定随机性,多轮测试时的结果并不完全一样。上文只取样其中一轮的结果。BT228资讯网——每日最新资讯28at.com

这也正如广大网友所反馈的那般——大模型文科强、理科弱。BT228资讯网——每日最新资讯28at.com

对此,技术圈也已经有一些讨论和解释:BT228资讯网——每日最新资讯28at.com

大语言模型的基本原理是“文字接龙”,通过预测下一个token来生成内容,每次预测都有随机性和概率分布。BT228资讯网——每日最新资讯28at.com

当大语言模型学习了海量知识数据,天然就适应考验记忆能力和语言运用的文科考试。BT228资讯网——每日最新资讯28at.com

但理科考试主要考验推理和计算,比如一道数学题包含5步推理和5步计算,假设大语言模型每一步预测准确的概率都有90%,综合下来的准确率就只有35%。BT228资讯网——每日最新资讯28at.com

另一方面,理科语料比较稀缺。大模型的训练数据中,文科语料要远远大于理科语料。这也是大模型更擅长文科的一个原因。BT228资讯网——每日最新资讯28at.com

大模型都在努力提升智能水平,主要目标就是提高推理和计算能力。目前学界对此存在争议,有观点认为,“预测下一个token”本身就包含了推理,计算也是一种推理。BT228资讯网——每日最新资讯28at.com

只要Scaling Law生效,大模型性能持续提升,推理和计算能力就能够提升;但也有反对者(如Yann LeCun)认为,大语言模型缺乏真正的规划推理能力,其涌现能力实际上是上下文学习的结果,主要体现在简单任务和事先知道答案的情境中。大语言模型未来是否能够真正实现AGI,目前还没有定论。BT228资讯网——每日最新资讯28at.com

那是不是大模型就不适合用户来解数学题了呢?BT228资讯网——每日最新资讯28at.com

也并不全是。BT228资讯网——每日最新资讯28at.com

正如刚才所说,如果用豆包手机端的“拍题答疑”,也就是RAG链路的方式,那么结果的“打开方式”就截然不同了。BT228资讯网——每日最新资讯28at.com

我们可以先用豆包APP对着题目拍照,让它先进行识别:BT228资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行BT228资讯网——每日最新资讯28at.com

结果就是——全对!BT228资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行BT228资讯网——每日最新资讯28at.com

至于更多类型题目大模型们的表现会如何,友友们可以拿着感兴趣的题目自行测试一番了。BT228资讯网——每日最新资讯28at.com

如何评价?BT228资讯网——每日最新资讯28at.com

从“高考大摸底”和智源FlagEval、上海AI Lab OpenCompass等评测上可以看到,豆包大模型已经稳稳进入国产第一梯队。BT228资讯网——每日最新资讯28at.com

但随即而来的一个问题便是,过去一年多异常低调的豆包,是如何在短短一个月内就开始爆发的?BT228资讯网——每日最新资讯28at.com

其实早在发布之际,豆包与其它大模型厂商截然不同的路径就已经有所体现,归结其背后的逻辑就是:BT228资讯网——每日最新资讯28at.com

只有大的使用量,才能打磨出好的大模型。BT228资讯网——每日最新资讯28at.com

据了解,豆包大模型在5月15日正式发布时,其每天平均处理的token数量高达1200亿,相当于1800亿的汉字;每天生成图片的数量为3000万张。BT228资讯网——每日最新资讯28at.com

不仅如此,豆包大模型家族还会在包括抖音、今日头条等在内的50多个场景中进行实践和验证。BT228资讯网——每日最新资讯28at.com

因此,我们可以把豆包在大模型性能上的路数,视为用“左手使用量,右手多场景”的方式反复打磨而来。BT228资讯网——每日最新资讯28at.com

一言蔽之,大模型好不好,用一下就知道了。BT228资讯网——每日最新资讯28at.com

并且基于豆包大模型打造的同名产品豆包APP,已成为国内受欢迎的AIGC类应用。BT228资讯网——每日最新资讯28at.com

这一点上,从量子位智库所汇总的智能助手“APP下载总量”和“APP月新增下载总量”便可一目了然——BT228资讯网——每日最新资讯28at.com

豆包,均拿下第一。BT228资讯网——每日最新资讯28at.com


文章出处:量子位

本文链接:http://www.28at.com/showinfo-17-97821-0.html豆包文科成绩超了一本线:为什么理科不行

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 微软回应关闭所有线下授权门店:已决定对中国大陆市场渠道进行整合

下一篇: 中国地铁站有厕所让老外破防:美国网友感叹干净 里面的水能直接喝

标签:
  • 热门焦点
  • 小米官宣:2023年上半年出货量中国第一!

    今日早间,小米电视官方微博带来消息,称2023年小米电视上半年出货量达到了中国第一,同时还表示小米电视的巨屏风暴即将开始。“公布一个好消息2023年#小米电视上半年出货量中国
  • 2023 年的 Node.js 生态系统

    随着技术的不断演进和创新,Node.js 在 2023 年达到了一个新的高度。Node.js 拥有一个庞大的生态系统,可以帮助开发人员更快地实现复杂的应用。本文就来看看 Node.js 最新的生
  • 如何正确使用:Has和:Nth-Last-Child

    我们可以用CSS检查,以了解一组元素的数量是否小于或等于一个数字。例如,一个拥有三个或更多子项的grid。你可能会想,为什么需要这样做呢?在某些情况下,一个组件或一个布局可能会
  • 学习JavaScript的10个理由...

    作者 | Simplilearn编译 | 王瑞平当你决心学习一门语言的时候,很难选择到底应该学习哪一门,常用的语言有Python、Java、JavaScript、C/CPP、PHP、Swift、C#、Ruby、Objective-
  • 十个简单但很有用的Python装饰器

    装饰器(Decorators)是Python中一种强大而灵活的功能,用于修改或增强函数或类的行为。装饰器本质上是一个函数,它接受另一个函数或类作为参数,并返回一个新的函数或类。它们通常用
  • 三分钟白话RocketMQ系列—— 如何发送消息

    我们知道RocketMQ主要分为消息 生产、存储(消息堆积)、消费 三大块领域。那接下来,我们白话一下,RocketMQ是如何发送消息的,揭秘消息生产全过程。注意,如果白话中不小心提到相关代
  • 中国家电海外掘金正当时|出海专题

    作者|吴南南编辑|胡展嘉运营|陈佳慧出品|零态LT(ID:LingTai_LT)2023年,出海市场战况空前,中国创业者在海外纷纷摩拳擦掌,以期能够把中国的商业模式、创业理念、战略打法输出海外,他们依
  • 得物宠物生意「狂飙」,发力“它经济”

    作者|花花小萌主近日,得物宣布正式上线宠物鉴别,通过得物App内的“在线鉴别”,可找到鉴别宠物的选项。通过上传自家宠物的部位细节,就能收获拥有专业资质认证的得物鉴
  • 中关村论坛11月25日开幕,15位诺奖级大咖将发表演讲

    11月18日,记者从2022中关村论坛新闻发布会上获悉,中关村论坛将于11月25至30日在京举行。本届中关村论坛由科学技术部、国家发展改革委、工业和信息化部、国务
Top