Skip to content

Latest commit

 

History

History
533 lines (489 loc) · 52.8 KB

README.md

File metadata and controls

533 lines (489 loc) · 52.8 KB

全国甲卷摘要

全国甲卷覆盖的省份包括四川、内蒙古、陕西、青海、宁夏五个省份,本次测试使用全国甲卷的全套各科试题进行测试(除政治试题;政治试题尚未公开)。具体题目可以在 高考直通车 查看。

评测

在评测过程中,模型的回答被随机命名为A、B、C、D、E、F、G提供给老师进行打分,在打分时依照以下标准打分

  • 语数外三科均丢弃图片使用纯文本推理(与新课标卷保持一致)
  • 各科目的单选题、填空题和答案是否完全一致才得分;
  • 数学中多选题按照正确选项个数比例给分,如果有错误选项则直接不给分;
  • 主观题根据步骤正确性会提供步骤分;
  • 作文题根据作文给分标准进行打分;
  • 带有图片的文综理综的题目由该系列模型中的多模态模型进行打分,其中Mixtral等模型因为仅有纯文本版本,所以采用不看图的分数。Qwen2模型由于只开源了QwenVL-7B版本,因此Qwen多模态模型的结果可能与模型的真实实力存在一定差距;
  • 由于QwenVL-7B作答结果过差,为尽量体现Qwen系列的真实水平,我们同时评测Qwen2-72B文本模型对全国甲卷物理、化学、地理的多模态题目进行作答。 此外为了保证模型结果可复现,除了作文以外,所有的答案均由各个模型通过贪婪解码生成。

总分情况

参加考试的模型总分情况如下所示

全国甲卷得分情况(按照理科总分排序)
模型 研发机构 语文 英语 数学(理) 物理 化学 生物 数学(文) 历史 地理 理科总分 文科总分(缺政治)
Qwen2-72B纯文本 阿里巴巴 128 141 89 32 48 50 95 71 81 488 516
GPT-4o OpenAI(美国) 122 142.5 84 31 34 72 89 82 66 485.5 501.5
InternLM-WQX-20B+VL-20B 上海人工智能实验室 & 商汤科技 联合研发 111 141 78 30 52 50 71 76 64 462 463
Qwen2-72B+VL-7B 阿里巴巴 128 141 89 22 22 50 95 71 34 452 469
Mixtral 8x22B Mistral 92 142 58 38 39 54 53 74 74 423 435
GLM4-9B+VL-9B 智谱 AI 108 110.5 71 29 44 55 75 54 62 417.5 409.5
Qwen2-57B+VL-7B 阿里巴巴 108 141 65 6 22 44 75 77 30 386 431
Yi-34B+VL-34B 零一万物 109 107.5 39 15 40 55.5 65 53 54 366 388.5

题号带星号(*)的表示题目包含图片,如果模型名称中含有“+VL”的字样,表明涉及到图片的题目会使用相应的多模态版本模型进行推理;如果没有“+VL”的字样,则只进行不看图的纯文本推理。

语文

语文试卷各部分的得分如下所示

语文各题型得分情况
模型 现代文阅读(满分36分) 文言文阅读(满分19分) 古诗文阅读(满分9分) 名篇名句默写(满分6分) 语言文字运用(满分20分) 作文(满分60分) 总分(满分150)
Qwen2-72B 35 19 9 2 15 48 128
GPT-4o 29 19 8 4 14 48 122
书生·浦语-文曲星-20B 26 14 7 6 15 43 111
Yi-1.5-34B+VL-34B 28 12 7 0 16 46 109
GLM4-9B+4v-9B 24 13 8 2 15 46 108
Qwen2-57B 27 14 7 2 14 44 108
Mixtral 8x22B 24 0 7 0 14 47 92
语文试卷中每个小题得分情况如下所示
语文 题号 现代文阅读Ⅰ现代文阅读ⅠI现代文阅读Ⅲ文言文阅读古诗文阅读名篇名句默写语言文字运用Ⅰ语言文字运用ⅠI作文总分
1.11.21.32.12.22.33.13.23.34.14.24.34.45.15.267.17.27.37.47.58
测试模型分值333336366333103663434660150 (100%)
Qwen2-72B333326366333103623402648128 (85.3%)
GPT-4o333324056333103543204548122 (81.3%)
书生·浦语-文曲星-20B33332403533083463404443111 (74%)
Yi-1.5-34B33333305513083403430646109 (72.7%)
GLM4-9B33302403623083523404446108 (72%)
Qwen2-57B33332332530383423402544108 (72%)
Mixtral 8x22B3333220350000340333054792 (61.3%)

数学(文)

数学(文)试卷各部分的得分如下所示

数学(文)各题型得分情况
模型 单选题(满分60分)填空题(满分20分)简答题(满分60分)选考题-简答题(满分20分)总分(满分150)
Qwen2-72B5015201495
GPT-4o4015241089
GLM4-9B351027375
Qwen2-57B401018975
书生·浦语-文曲星-20B301526071
Yi-1.5-34B25531665
Mixtral 8x22B30515353
数学(文)试卷中每个小题得分情况如下所示
数学(文) 题号 单选题填空题简答题选考题-简答题总分
1234567891011121314151617181920212223
测试模型分值555555555555555512121212121010150 (100%)
Qwen2-72B55550550555555500909210495 (63.3%)
GPT-4o555555505000555011008510089 (59.3%)
GLM4-9B55050055550055000102780375 (50%)
Qwen2-57B5505555050505500293227275 (50%)
书生·浦语-文曲星-20B55050550005055052100860071 (47.3%)
Yi-1.5-34B55550050000050004901264265 (43.3%)
Mixtral 8x22B5505000055505000090420353 (35.3%)
题号带星号(*)的表示题目包含图片,如果模型名称中含有“+VL”的字样,表明涉及到图片的题目会使用相应的多模态版本模型进行推理;如果没有“+VL”的字样,则只进行不看图的纯文本推理。

数学(理)

数学(理)试卷各部分的得分如下所示

数学(理)各题型得分情况
模型 单选题(满分60分)填空题(满分20分)简答题(满分60分)选考题-简答题(满分20分)总分(满分150)
Qwen2-72B5010191589
GPT-4o3515271284
书生·浦语-文曲星-20B35538078
GLM4-9B35528371
Qwen2-57B405131365
Mixtral 8x22B300211258
Yi-1.5-34B20017239
数学(理)试卷中每个小题得分情况如下所示
数学(理) 题号 单选题填空题简答题选考题-简答题总分
1234567891011121314151617181920212223
测试模型分值555555555555555512121212121010150 (100%)
Qwen2-72B55555505055505504704410589 (59.3%)
GPT-4o555555050000555010205107584 (56%)
书生·浦语-文曲星-20B550555000505050010648100078 (52%)
GLM4-9B55050555000505004701250371 (47.3%)
Qwen2-57B5550550555000500600257665 (43.3%)
Mixtral 8x22B5505000555000000690245758 (38.7%)
Yi-1.5-34B5550050000000000610642039 (26%)
题号带星号(*)的表示题目包含图片,如果模型名称中含有“+VL”的字样,表明涉及到图片的题目会使用相应的多模态版本模型进行推理;如果没有“+VL”的字样,则只进行不看图的纯文本推理。

英语

英语试卷各部分的得分如下所示

英语各题型得分情况
模型 阅读理解(满分30分) 7选5(满分10分) 完形填空(满分30分) 语法补全(满分15分) 写作(满分35分) 听力(满分30分) 总分(满分150)
GPT-4o 30 10 28.5 15 29 30 142.5
Mixtral 8x22B 30 10 30 15 27 30 142
Qwen2-72B 30 10 30 15 26 30 141
书生·浦语-文曲星-20B 30 10 28.5 15 27.5 30 141
Qwen2-57B 28 10 30 15 28 30 141
GLM4-9B 26 0 21 12 21.5 30 110.5
Yi-1.5-34B 24 8 16.5 13.5 15.5 30 107.5

英语试卷中每个小题得分情况如下所示

英语 题号 阅读理解A 阅读理解B 阅读理解C 阅读理解D 7选5 完形填空 语法补全 写作-短文改错 写作-书面表达 听力 总分
12345678910
测试模型分值6888103015102530150 (100%)
GPT-4o68881028.51582130142.5 (95%)
Mixtral 8x22B688810301581930142 (94.7%)
Qwen2-72B688810301581830141 (94%)
书生·浦语-文曲星-20B68881028.515918.530141 (94%)
Qwen2-57B686810301591930141 (94%)
GLM4-9B686602112615.530110.5 (73.7%)
Yi-1.5-34B4866816.513.5510.530107.5 (71.7%)

物理

物理试卷各部分的得分如下所示

物理各题型得分情况
模型 单选题(满分48分)填空题(满分15分)简答题(满分32分)选考题-选择题(满分10分)选考题(满分20分)总分(满分110)
Mixtral 8x22B27191038
Qwen2-72B18190432
GPT-4o155101031
书生·浦语-文曲星-20B+VL-20B24141030
GLM4-9B+4v-9B18262129
Qwen2-72B+VL-7B12280022
Yi-1.5-34B+VL-34B9060015
Qwen2-57B+VL-7B024006
物理试卷中每个小题得分情况如下所示
物理 题号 单选题填空题简答题选考题-选择题选考题总分带图题总分不带图题总分
12*34*5*6*7*8*9*10*1112*13.113.214.114.2
测试模型分值666666665101220510510110 (100%)71 (65%)39 (35%)
Mixtral 8x22B066663001045001038 (34.5%)27 (38%)11 (28.2%)
Qwen2-72B606003301063110433 (30%)10 (14.1%)23 (61.5%)
GPT-4o606000033273100031 (28.2%)11 (15.5%)20 (51.3%)
书生·浦语-文曲星-20B+VL-20B606600061040100030 (27.3%)13 (18.3%)17 (43.6%)
GLM4-9B+4v-9B606003030242210029 (26.4%)10 (14.1%)19 (48.7%)
Qwen2-72B+VL-7B606000000280000022 (20%)2 (2.8%)20 (51.3%)
Yi-1.5-34B+VL-34B000003330042000015 (13.6%)11 (15.5%)4 (10.3%)
Qwen2-57B+VL-7B00000000024000006 (5.5%)2 (2.8%)4 (10.3%)
题号带星号(*)的表示题目包含图片,如果模型名称中含有“+VL”的字样,表明涉及到图片的题目会使用相应的多模态版本模型进行推理;如果没有“+VL”的字样,则只进行不看图的纯文本推理。 ## 化学 化学试卷各部分的得分如下所示
化学各题型得分情况
模型 单选题(满分42分)填空题(满分43分)选考题-填空题(满分30分)总分(满分100)
书生·浦语-文曲星-20B+VL-20B30151052
Qwen2-72B24131348
GLM4-9B+4v-9B2415744
Yi-1.5-34B+VL-34B2413440
Mixtral 8x22B248739
GPT-4o1214834
Qwen2-72B+VL-7B127522
Qwen2-57B+VL-7B127522
化学试卷中每个小题得分情况如下所示
化学 题号 单选题填空题选考题-填空题总分带图题总分不带图题总分
123*4*56*7*8*9*10*11*12*
测试模型分值66666661414151515100 (100%)82 (82%)18 (18%)
书生·浦语-文曲星-20B+VL-20B66606604837352 (52%)37 (45.1%)15 (100%)
Qwen2-72B666006038211248 (48%)38 (46.3%)10 (66.7%)
GLM4-9B+4v-9B66606005735244 (44%)28 (34.1%)16 (100%)
Yi-1.5-34B+VL-34B66600603553140 (40%)29 (35.4%)11 (66.7%)
Mixtral 8x22B66600602247039 (39%)27 (32.9%)12 (66.7%)
GPT-4o66000006538034 (34%)22 (26.8%)12 (66.7%)
Qwen2-72B+VL-7B66000002323222 (22%)12 (14.6%)10 (66.7%)
Qwen2-57B+VL-7B66000002323222 (22%)12 (14.6%)10 (66.7%)
题号带星号(*)的表示题目包含图片,如果模型名称中含有“+VL”的字样,表明涉及到图片的题目会使用相应的多模态版本模型进行推理;如果没有“+VL”的字样,则只进行不看图的纯文本推理。

生物

生物试卷各部分的得分如下所示

生物各题型得分情况
模型 单选题(满分36分)填空题(满分39分)选考题-填空题(满分30分)总分(满分90)
GPT-4o30272372
Yi-1.5-34B+VL-34B3010.52655.5
GLM4-9B+4v-9B24161955
Mixtral 8x22B18212454
Qwen2-72B+VL-7B18171550
书生·浦语-文曲星-20B+VL-20B18212150
Qwen2-57B+VL-7B18111544
生物试卷中每个小题得分情况如下所示
生物 题号 单选题填空题选考题-填空题总分带图题总分不带图题总分
1234*56*78*9*101112*
测试模型分值6666661010910151590 (100%)31 (34%)59 (66%)
GPT-4o6666068451015872 (80%)29 (93.5%)43 (86.4%)
Yi-1.5-34B+VL-34B66660644.520151155.5 (61.7%)29.5 (95.2%)26 (62.7%)
GLM4-9B+4v-9B666006433615455 (61.1%)16 (51.6%)39 (72.9%)
Mixtral 8x22B066006645615954 (60%)24 (77.4%)30 (66.1%)
Qwen2-72B+VL-7B666000830615050 (55.6%)3 (9.7%)47 (79.7%)
书生·浦语-文曲星-20B+VL-20B6660004854111050 (55.6%)23 (74.2%)27 (62.7%)
Qwen2-57B+VL-7B666000430415044 (48.9%)3 (9.7%)41 (69.5%)
题号带星号(*)的表示题目包含图片,如果模型名称中含有“+VL”的字样,表明涉及到图片的题目会使用相应的多模态版本模型进行推理;如果没有“+VL”的字样,则只进行不看图的纯文本推理。

历史

历史试卷各部分的得分如下所示

历史各题型得分情况
模型 单选题(满分48分)简答题(满分52分)总分(满分100)
GPT-4o364682
Qwen2-57B+VL-7B403777
书生·浦语-文曲星-20B+VL-20B403676
Mixtral 8x22B363874
Qwen2-72B+VL-7B323971
GLM4-9B+4v-9B203454
Yi-1.5-34B+VL-34B203353
历史试卷中每个小题得分情况如下所示
历史 题号 单选题简答题总分带图题总分不带图题总分
1234567891011121314*15
测试模型分值444444444444251215100 (100%)12 (12%)88 (88%)
GPT-4o40004444444423101382 (82%)10 (83.3%)72 (81.8%)
Qwen2-57B+VL-7B4400444444442141277 (77%)4 (33.3%)73 (83%)
书生·浦语-文曲星-20B+VL-20B4004444444441781176 (76%)8 (66.7%)68 (77.3%)
Mixtral 8x22B044044044444227974 (74%)7 (58.3%)67 (76.1%)
Qwen2-72B+VL-7B4040440440442141471 (71%)4 (33.3%)67 (76.1%)
GLM4-9B+4v-9B4000400400441741354 (54%)4 (33.3%)50 (56.8%)
Yi-1.5-34B+VL-34B400000440404204953 (53%)4 (33.3%)49 (55.7%)
题号带星号(*)的表示题目包含图片,如果模型名称中含有“+VL”的字样,表明涉及到图片的题目会使用相应的多模态版本模型进行推理;如果没有“+VL”的字样,则只进行不看图的纯文本推理。

地理

地理试卷各部分的得分如下所示

地理各题型得分情况
模型 单选题(满分44分) 简答题(满分46分) 选考题-简答题(满分10分) 总分(满分100)
Qwen2-72B 40 31 10 81
Mixtral 8x22B 36 30 8 74
GPT-4o 32 24 10 66
书生·浦语-文曲星-20B+VL-20B 24 36 4 64
GLM4-9B+4v-9B 24 28 10 62
Yi-1.5-34B+VL-34B 28 16 10 54
Qwen2-72B+VL-7B 24 0 10 34
Qwen2-57B+VL-7B 16 0 14 30

地理试卷中每个小题得分情况如下所示

地理 题号 单选题 简答题 选考题-简答题 总分 带图题总分 不带图题总分
1*2*3*456* 7*8*9*10*11* 12.1*12.2*12.3*12.4* 13.1*13.2*13.3*13.4* 1415
测试模型分值 444444 44444 66666 4841010 100 (100%)82 (82%)18 (100%)
Qwen2-72B 440444 44444 62661 2441010 81 (81%)63 (76.8%)18 (100%)
Mixtral 8x22B 440404 44444 62266 04458 74 (74%)62 (75.6%)12 (66.7%)
GPT-4o 040444 04444 02460 4441010 66 (66%)48 (58.5%)18 (100%)
书生·浦语-文曲星-20B+VL-20B 000400 44444 42666 44404 64 (64%)56 (68.3%)8 (42.1%)
GLM4-9B+4v-9B 440400 44400 42662 4221010 62 (62%)48 (58.5%)14 (77.8%)
Yi-1.5-34B+VL-34B 400004 44444 42460 0001010 54 (54%)44 (53.7%)10 (55.6%)
Qwen2-72B+VL-7B 000440 44044 00000 0001010 34 (34%)16 (19.5%)18 (100%)
Qwen2-57B+VL-7B 000400 44044 00000 0001010 30 (30%)16 (19.5%)14 (77.8%)
题号带星号(*)的表示题目包含图片,如果模型名称中含有“+VL”的字样,表明涉及到图片的题目会使用相应的多模态版本模型进行推理;如果没有“+VL”的字样,则只进行不看图的纯文本推理。

老师整体点评

在改完所有的科目之后,我们告知了以上试卷的回答由大模型生成,然后我们邀请阅卷老师对7个大模型整体的表现进行了点评。

语文老师点评
大模型进行文言文翻译问题不大,但主观题大部分审题失败,读不懂题,对题目中某些代词的指向不太明确导致答非所问。大模型写作文都不太像高考作文更像问答题,虽然有针对性但缺乏修饰,人类考生都会使用举例论证、引用论证,习惯用名人名言和人物素材,但是大模型写作文时几乎都没用过。写一个暗喻的句子,大模型几乎全军覆没,本体喻体都搞错了,大模型似乎不懂得“暗喻”手法是什么,都写成了普通的“比喻”,也不懂得“本体”是什么。补写句子也不太能写对,看来对于与上下文语意的衔接、中文中的一些语言习惯(补写句子中后文出现了一个新的概念,如“睡眠质量”,那么补写的这个句子中应该要出现这个概念,否则后文突然提起就很突兀,衔接不紧密),语言中的一些“潜台词”,大模型还不能完全明白。

文科数学老师点评
客观题大多数题目分析正确,一小部分题分析的过程的结果与题目选项不一致,仍能得出与题目选项不一致的选项。主观题大部分做不到第二问,并且回答内容以分析为主,过程有些简易。并且在解答过程中出现错误,会重复此项代码;如17题,大部分都能求出an,后面写的内容跟真人写的完全不同;18题,大部分计算K方列式正确,计算结果错误;19题,部分题目解答过程中自己编造已知条件,缺少具体的书写内容;后面几何题,能从图上看出解答过程中明显的垂直平行问题,几乎是非常离谱的推理过程;后面不等式证明,自己增加已知条件,并通过自己的已知条件进行证明。整体主观题缺少逻辑思维。

理科数学老师点评
大模型做题总体感觉很机械,大部分题目都无法通过正常的推理过程得出。例如填空题第一题,大模型都只能进行到少部分过程而达到一个结果,并不能够像考生做题一样进行全面分析,列出完整的计算过程达到正确结果。此外,对于几何题,大模型对于平面几何题的证明过程过于离谱,对于立体几何的计算并非会同考生一样利用正常的计算方法求解。大模型的基础公式记忆能力较为优秀,但无法做到灵活使用。此外有些题目结果正确,但过程逻辑差不符合正规计算,导致阅卷比较困难。

英语老师点评
在完成情况上,大模型基本上可以完成题目要求。但是也不可避免会出现问题,首先是在题目过长的情况下,可能会无法识别出问题,导致未作答的现象发生。其次是部分试卷没有按照题目要求作答,比如在完成作文时,没有按照要求写明题目和首句;以及在完成改错时,没有写明错误的地方,而是直接呈现修改好的文章。再者是在批阅时,也看到了大模型对于题目的解析,题目的解析与正常考生的解答思路不太一致,语言充满套话,格式过于规范化,大模型的制作过于明显。

政治老师点评
大模型整体选择题做的正确率不高,简答题答题太机械,尤其是第一个简答题,人大主体这道题答的最差,没有一个模型写到了书本知识点。不会结合书本知识点,离开书本理论知识点在机械重复材料话。其次是不能够审清楚题目,这是所有模型试卷的共性,不知道题目设问的角度是需要进一步分析的,比如问的是什么题型?是意义类的,原因类的,还是措施类的,答题不够规范。最后部分题目得分较好就是机械类的回答知识点,比如辩证思维这道题目,得分较好,因为这种题目本身就是知识点范围较小,在考试中也是属于送分题。

历史老师点评
试卷特点:注重材料分析,立足课本,注重考察能力,贯穿了“试题在书外,答案在材料中”的思想,强调对重大事件、线索的识记和历史现象对应的结论的理解,重视对学科主干知识和基本能力进行考查,属于识记层次的内容占50%左右,属于理解加识记层面的同样也占50%左右。 知识覆盖面广,包括课本上一些细节问题的考察十分详细 答题存在问题: 基础知识掌握的较好,但缺乏对有效信息的分析能力,对题目的理解较差,不能灵活的运用所学知识解决相关问题,答题习惯和方式上急需提高,语言表达能力依旧较差,口语化严重。

(1)模型答题对题目的理解较差,阅读理解能力还有待提高,尤其是不会从材料中提取有效信息作为试题的答案,难以抓住考察重点。

(2)答题格式较差,简答题写成小作文,没有分条答题的习惯。

(3)对于书本上的基础知识掌握不牢,记忆不准确。

(4)做题的思路不清晰,没有紧扣材料分析。会写一些无关紧要的信息 15题和17题答的较好,分数普遍都很高,小作文较差,不认真读题,要先回答问题之后才进行论述,不能鲜明的表明自己的观点,格式问题很大,字数不够或者太多。

地理老师点评
大模型在答题过程中展现了对地理知识的全面覆盖,从自然地理到人文地理,从地理现象到地理规律,都能有所涉及。尤其在基础知识点的考察上较为出色,然而,在涉及一些深入分析或推理的问题中,存在一定的偏差和遗漏,所以模型在面对非常规、开放性较强的问题时,其表现较差。

物理老师点评
大模型总体感觉比较机械,很多都无法识别到题目的意思,有些选择题即使选项对了,但是分析也是错误的。并且在一些读数的问题上尤为容易出错,给出的答案与正确答案相差较大。一些大题步骤冗杂,并且没有逻辑,常常出现将本次的结论带入到推理出本次结论的证据中,如此循环,没有道理。并且在步骤的规范上也有所欠缺,常常出现跳步的现象 整份卷好几道题都因为没有给到具体数据而只写分析过程不求解,但高中物理中用字母表达结果是最常见的体型。 选择题有不选答案的情况。 实验读数部分全都是假设未知数,没有具体数值。这些都是学生做题不会出现的低级错误。

化学老师点评
综合成绩来看,大模型准确率较低。在选择题目上,有题目识别不全面的问题,后四道逻辑性较强的题目无法正确作答;填空题现象作答精准猜中得分点的很少,方程式书写基本上没有准确率,且存在乱码现象,没有逻辑思维能力,综合有机、无机元素等逻辑较强题目,不能准确作答。

生物老师点评
大模型客观选择题带有图形的题型基本错误,部分单选题识别成了多选题,主观题部分对于基因型数量等需要计算的部分答案容易出错,不能完全理解题干意思,对带有图的题型错误率更高,部分题目答案出现乱码,不能举出题目所需的多个项。