当前位置：首页 > 百科 > 豆包文科成绩超了一本线：为什么理科不行

豆包文科成绩超了一本线：为什么理科不行

2025-01-02 01:52:16 [百科] 来源：狼前虎后网

什么？好多大模型的豆包文科成绩超一本线，还是文科最卷的河南省？？？

豆包文科成绩超了一本线：为什么理科不行
△图源：极客公园

没错，最近就有这么一项大模型“高考大摸底”评测走红了。成绩超本

河南高考文科今年的线为行一本线是521分，根据这项评测，什理共计四个大模型大于或等于这个分数，豆包其中头两名最值得关注：

GPT-4o：562分

字节豆包：542.5分

……

从结果中来看，文科GPT-4o的成绩超本表现依旧是处于领先状态，而在国产大模型这边，线为行比较亮眼的什理成绩便属于豆包了。

并且在语文和历史等科目的豆包成绩甚至还超越了GPT-4o。

这也让不少网友纷纷感慨：

AI文科成绩这么好，文科看来在处理语言和逻辑上还是成绩超本很有优势的。

豆包文科成绩超了一本线：为什么理科不行

不过有一说一，线为行毕竟国产大模型的什理竞争是如此之激烈，这份评测的排名真的靠谱吗？发布仅数月的豆包，真具备此等实力吗？以及这数学……又是怎么一回事儿？

先看评测榜单

要回答上述的问题，我们不妨先来查一查豆包在最新的权威评测榜单中的表现是否一致。

首先有请由智源研究院发布的FlagEval（天秤）。

它的评测方式是这样的：

对于开源模型， FlagEval会综合概率选择和自由生成两种方式来评测，对于闭源模型， FlagEval只采用自由生成的方式来评测，两种评测方式区别参照。

主观评测时部分闭源模型对极小部分题目有拒绝回答的情形，这部分题目并没有计入能力分数的计算。

在“客观评测”这个维度上，榜单成绩如下：

豆包文科成绩超了一本线：为什么理科不行

不难看出，这一维度下的FlagEval中，前四名的成绩是与“高考大摸底”的名次一致。

大模型依旧分别来自OpenAI、字节跳动、百度和百川智能。

并且豆包在“知识运用”和“数学能力”两个维度上成绩还高于第一名的GPT-4。

若是将评测方式调节至“主观评测”，那么结果是这样的：

豆包文科成绩超了一本线：为什么理科不行

此时，百度的大模型跃居到了第一名，而字节的豆包依旧是稳居第二的成绩。

由此可见，不论是主观还是客观维度上，前几位的名次都是与“高考大摸底”的成绩是比较接近的。

接下来，我们再来有请另一个权威测评——OpenCompass（司南）。

豆包文科成绩超了一本线：为什么理科不行

在最新的5月榜单中，豆包的成绩也是仅次于OpenA家的大模型。

同样的，在细分的“语言”和“推理”两个维度中，豆包还是超越了GPT-4o和GPT-4 Turbo。

豆包文科成绩超了一本线：为什么理科不行

但与专业评测冷冰冰的分数相比，人们都对高考有着更深刻的体验和记忆。

那么接下来我们就通过豆包回答高考题，来看看大模型在应对人类考试时的具体表现。

再看实际效果

既然目前许多试卷的题目都已经流出，我们不妨亲测一下豆包的实力。

例如让它先写一篇新课标I卷语文的作文题目：

随着互联网的普及、人工智能的应用，越来越多的问题能很快得到答案。那么，我们的问题是否会越来越少？

以上材料引发了你怎样的联想和思考？请写一篇文章。

要求：选准角度，确定立意，明确文体，自拟标题；不要套作，不得抄袭；不得泄露个人信息；不少于800字。

豆包文科成绩超了一本线：为什么理科不行
△结果由豆包PC端对话生成

从豆包的作答上来看，是已经摆脱了AI写作文经常犯的“首先-其次-以及-最后”这种模板式的写法，也擅长引经据典来做论证。

但毕竟每个人对于文笔的审美标准不同，因此豆包高考作文写得如何，评价就交给你们了（欢迎在留言区讨论）。

值得一提的是，在量子位向豆包团队询问后得知，原来豆包PC端对话和手机端“拍题答疑”是两种截然不同的招式——

前者走的是LLM链路，后者走的则是RAG链路（若是用豆包手机端“拍题答疑”功能，高考数理化成绩也能接近满分）。

加上在这次“高考大摸底”评测出炉之后，很多网友们都将关注的重点聚焦到了数学成绩上：

AI也怕数学。

豆包文科成绩超了一本线：为什么理科不行

因此，接下来的实际效果测试，我们就将以“LLM链路+数学”的方式来展开。

先拿这次的选择题来小试牛刀一下：

豆包文科成绩超了一本线：为什么理科不行

当我们把题目在PC端“喂”豆包之后，它的作答如下：

豆包文科成绩超了一本线：为什么理科不行

因此，豆包给出的答案是：

A、C、D、D、B、B、A、A

这里我们再来引入排名第一选手GPT-4o的作答：

A、D、B、D、C、A、C、B

豆包文科成绩超了一本线：为什么理科不行

而根据网上目前多个信源得到的标准答案是：A、C、D、A、B、B、C、B。

对比来看，豆包对5道，GPT-4o答对4道。

而对于更多的数学题的作答，其实复旦大学自然语言处理实验室在高考试卷曝光后第一时间做了更加全面的测试（所有大模型只能依靠LLM推理答题，不能通过RAG检索答案）：

豆包文科成绩超了一本线：为什么理科不行

豆包文科成绩超了一本线：为什么理科不行
△图源：复旦大学自然语言处理实验室

由此可见，大模型并不能完全hold住高考数学题目，并且不同人生成答案的结果也会出现偏差。

并且量子位在反复测试后发现，豆包对话答题时有一定随机性，多轮测试时的结果并不完全一样。上文只取样其中一轮的结果。

这也正如广大网友所反馈的那般——大模型文科强、理科弱。

对此，技术圈也已经有一些讨论和解释：

大语言模型的基本原理是“文字接龙”，通过预测下一个token来生成内容，每次预测都有随机性和概率分布。

当大语言模型学习了海量知识数据，天然就适应考验记忆能力和语言运用的文科考试。

但理科考试主要考验推理和计算，比如一道数学题包含5步推理和5步计算，假设大语言模型每一步预测准确的概率都有90%，综合下来的准确率就只有35%。

另一方面，理科语料比较稀缺。大模型的训练数据中，文科语料要远远大于理科语料。这也是大模型更擅长文科的一个原因。

大模型都在努力提升智能水平，主要目标就是提高推理和计算能力。目前学界对此存在争议，有观点认为，“预测下一个token”本身就包含了推理，计算也是一种推理。

只要Scaling Law生效，大模型性能持续提升，推理和计算能力就能够提升；但也有反对者（如Yann LeCun）认为，大语言模型缺乏真正的规划推理能力，其涌现能力实际上是上下文学习的结果，主要体现在简单任务和事先知道答案的情境中。大语言模型未来是否能够真正实现AGI，目前还没有定论。

那是不是大模型就不适合用户来解数学题了呢？

也并不全是。

正如刚才所说，如果用豆包手机端的“拍题答疑”，也就是RAG链路的方式，那么结果的“打开方式”就截然不同了。

我们可以先用豆包APP对着题目拍照，让它先进行识别：

豆包文科成绩超了一本线：为什么理科不行

结果就是——全对！

豆包文科成绩超了一本线：为什么理科不行

至于更多类型题目大模型们的表现会如何，友友们可以拿着感兴趣的题目自行测试一番了。

如何评价？

从“高考大摸底”和智源FlagEval、上海AI Lab OpenCompass等评测上可以看到，豆包大模型已经稳稳进入国产第一梯队。

但随即而来的一个问题便是，过去一年多异常低调的豆包，是如何在短短一个月内就开始爆发的？

其实早在发布之际，豆包与其它大模型厂商截然不同的路径就已经有所体现，归结其背后的逻辑就是：

只有最大的使用量，才能打磨出最好的大模型。

据了解，豆包大模型在5月15日正式发布时，其每天平均处理的token数量高达1200亿，相当于1800亿的汉字；每天生成图片的数量为3000万张。

不仅如此，豆包大模型家族还会在包括抖音、今日头条等在内的50多个场景中进行实践和验证。

因此，我们可以把豆包在大模型性能上的路数，视为用“左手使用量，右手多场景”的方式反复打磨而来。

一言蔽之，大模型好不好，用一下就知道了。

并且基于豆包大模型打造的同名产品豆包APP，已成为国内最受欢迎的AIGC类应用。

这一点上，从量子位智库所汇总的智能助手“APP下载总量”和“APP月新增下载总量”便可一目了然——

豆包，均拿下第一。

(责任编辑：焦点)

相关内容

推荐文章

硬刚比亚迪海鸥吉利几何E萤火虫限时优惠：最高额度8000元

快科技7月6日消息，吉利汽车宣布旗下几何E萤火虫车型推出限时优惠，即日起至7月31日购车可享现金优惠4000-8000元不等，最新售价为5.98-8.18万元。除现金优惠外，官方还推出了首任个人非营运 ...[详细]
情深意长歌曲原唱

前言：答：是彝族民歌。这首歌创作于1964年。作为国庆献礼歌曲，《情深谊长》以抒情的旋律、深情的歌词，表达了红军到来时彝族同胞的喜悦心情，反映了红军和彝族人民的鱼水深情，50多年来经久不衰，成为一首世 ...[详细]
阻冲之什么梗

周淑怡为什么被称为祖冲之?这个梗的由来是因为周淑怡长得好看但是“长了张嘴”,网友们调侃她的毒舌而发明的。周淑怡本是女团出身,有着美丽的相貌和魔鬼的身材,但是她的直播并不是靠这...大家觉得《龙岭迷窟》 ...[详细]
蛐螋虫咬人吗有毒吗

蛐螋虫咬人吗有毒吗-业百科蠼螋无毒,不会主动咬人,在受到攻击或感到害怕时会举起尾部双夹示威。蠼螋别称夹板子、剪指甲虫、夹板虫、或剪刀虫、耳夹子虫、二母夹子,为一种杂食。求问这是什么虫子?蛐螋不咬人蛐螋 ...[详细]
可怜吗！贾跃亭感叹终于在美国吃到中国口味鸡腿堡网友喊话快回来

快科技7月3日消息，近日，贾跃亭微博发布视频，感慨自己终于在洛杉矶吃上了和北京一样味道的辣腿儿堡。随后网友疯狂在贾跃亭视频下留言，喊话希望他快点回来。在这之前，贾跃亭表示，中国汽车下个十年应变“内卷” ...[详细]
手抄报的模板图简单

前言：手抄报花边简单图片大全百度图片里搜“手抄报花边”，尺寸选大尺寸或特大尺寸，上面很多的求比较漂亮，但比较简单的小装饰图案，装饰手抄报...漂亮、简单的小装饰图案：1、做成枫叶的形状，上面可以写一些 ...[详细]
买桔子的梗是什么意思

买橘子的三个梗?买橘子就是买橘子的价格、人、买橘子这三个梗。买橘子就是买橘子的价格、人、买橘子这三个梗。买橘子什么梗?这出自朱自清的短篇散文《背影》,该文中朱自清的爸爸对朱自清说“我买几个橘子去。你就 ...[详细]
舞的部首

前言：舞字的部首是什么？舞的部首是夕。舞，wu，从无从舛，乐也。用足相背，(1)形声。从舛(chuǎn),两足相背。古舞字象人执牛尾而舞之形。本义:舞蹈。(2)同本义[dance]本意舞蹈，按一定的节 ...[详细]
专家称职高要比普通高中更重要：农村孩子占比75%、取消中考浪费时间

快科技7月9日消息，据国内媒体报道称，北大国发院教授姚洋表示，其实职高要比普通高中更重要。北大国发院教授姚洋表示，农村孩子因教育基础薄弱而多进入职高，在职高学生的构成中，农村孩子占比75%。但目前，职 ...[详细]
cba体育

前言：CBA、CUBA、NBA各是什么意思？有什么区别？一、CBA、CUBA、NBA的意思1、CBA是中国男子篮球职业联赛即CBA，英文全称ChinaBasketballAssociation），简称 ...[详细]

热点阅读

随机内容

友情链接

接受PR>=1、BR>=1，流量相当，内容相关类链接。

9月22日：今日主力资金净流入\流出前50只个股名单

我国新一代中低速磁浮列车时速120公里最快1年后投产

钛白粉板块午后活跃龙蟒佰利涨逾5%

光明园迪专业学习桌椅，助力孩子养成良好坐姿习惯

双11快递量创历年“双11”当日新高当天快递业务量7.01亿件

联想首款旗舰AI平板开售，YOGA Pad Pro开创智能轻办公新时代

中国海油建成全球最大液化天然气项目核心模块运往北极圈

我国快递年业务量首次突破1500亿件

证监会亮剑“忽悠式”重组叫停“有毒资产”九好集团借壳

5G概念股爆发中国5G技术研发取得阶段性成功