全国甲卷覆盖的省份包括四川、内蒙古、陕西、青海、宁夏五个省份,本次测试使用全国甲卷的全套各科试题进行测试(除政治试题;政治试题尚未公开)。具体题目可以在 高考直通车 查看。
在评测过程中,模型的回答被随机命名为A、B、C、D、E、F、G提供给老师进行打分,在打分时依照以下标准打分
- 语数外三科均丢弃图片使用纯文本推理(与新课标卷保持一致)
- 各科目的单选题、填空题和答案是否完全一致才得分;
- 数学中多选题按照正确选项个数比例给分,如果有错误选项则直接不给分;
- 主观题根据步骤正确性会提供步骤分;
- 作文题根据作文给分标准进行打分;
- 带有图片的文综理综的题目由该系列模型中的多模态模型进行打分,其中Mixtral等模型因为仅有纯文本版本,所以采用不看图的分数。Qwen2模型由于只开源了QwenVL-7B版本,因此Qwen多模态模型的结果可能与模型的真实实力存在一定差距;
- 由于QwenVL-7B作答结果过差,为尽量体现Qwen系列的真实水平,我们同时评测Qwen2-72B文本模型对全国甲卷物理、化学、地理的多模态题目进行作答。 此外为了保证模型结果可复现,除了作文以外,所有的答案均由各个模型通过贪婪解码生成。
参加考试的模型总分情况如下所示
全国甲卷得分情况(按照理科总分排序) | ||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
模型 | 研发机构 | 语文 | 英语 | 数学(理) | 物理 | 化学 | 生物 | 数学(文) | 历史 | 地理 | 理科总分 | 文科总分(缺政治) |
Qwen2-72B纯文本 | 阿里巴巴 | 128 | 141 | 89 | 32 | 48 | 50 | 95 | 71 | 81 | 488 | 516 |
GPT-4o | OpenAI(美国) | 122 | 142.5 | 84 | 31 | 34 | 72 | 89 | 82 | 66 | 485.5 | 501.5 |
InternLM-WQX-20B+VL-20B | 上海人工智能实验室 & 商汤科技 联合研发 | 111 | 141 | 78 | 30 | 52 | 50 | 71 | 76 | 64 | 462 | 463 |
Qwen2-72B+VL-7B | 阿里巴巴 | 128 | 141 | 89 | 22 | 22 | 50 | 95 | 71 | 34 | 452 | 469 |
Mixtral 8x22B | Mistral | 92 | 142 | 58 | 38 | 39 | 54 | 53 | 74 | 74 | 423 | 435 |
GLM4-9B+VL-9B | 智谱 AI | 108 | 110.5 | 71 | 29 | 44 | 55 | 75 | 54 | 62 | 417.5 | 409.5 |
Qwen2-57B+VL-7B | 阿里巴巴 | 108 | 141 | 65 | 6 | 22 | 44 | 75 | 77 | 30 | 386 | 431 |
Yi-34B+VL-34B | 零一万物 | 109 | 107.5 | 39 | 15 | 40 | 55.5 | 65 | 53 | 54 | 366 | 388.5 |
题号带星号(*)的表示题目包含图片,如果模型名称中含有“+VL”的字样,表明涉及到图片的题目会使用相应的多模态版本模型进行推理;如果没有“+VL”的字样,则只进行不看图的纯文本推理。
语文试卷各部分的得分如下所示
语文各题型得分情况 | |||||||
---|---|---|---|---|---|---|---|
模型 | 现代文阅读(满分36分) | 文言文阅读(满分19分) | 古诗文阅读(满分9分) | 名篇名句默写(满分6分) | 语言文字运用(满分20分) | 作文(满分60分) | 总分(满分150) |
Qwen2-72B | 35 | 19 | 9 | 2 | 15 | 48 | 128 |
GPT-4o | 29 | 19 | 8 | 4 | 14 | 48 | 122 |
书生·浦语-文曲星-20B | 26 | 14 | 7 | 6 | 15 | 43 | 111 |
Yi-1.5-34B+VL-34B | 28 | 12 | 7 | 0 | 16 | 46 | 109 |
GLM4-9B+4v-9B | 24 | 13 | 8 | 2 | 15 | 46 | 108 |
Qwen2-57B | 27 | 14 | 7 | 2 | 14 | 44 | 108 |
Mixtral 8x22B | 24 | 0 | 7 | 0 | 14 | 47 | 92 |
语文 | 题号 | 现代文阅读Ⅰ | 现代文阅读ⅠI | 现代文阅读Ⅲ | 文言文阅读 | 古诗文阅读 | 名篇名句默写 | 语言文字运用Ⅰ | 语言文字运用ⅠI | 作文 | 总分 | |||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1.1 | 1.2 | 1.3 | 2.1 | 2.2 | 2.3 | 3.1 | 3.2 | 3.3 | 4.1 | 4.2 | 4.3 | 4.4 | 5.1 | 5.2 | 6 | 7.1 | 7.2 | 7.3 | 7.4 | 7.5 | 8 | |||
测试模型 | 分值 | 3 | 3 | 3 | 3 | 3 | 6 | 3 | 6 | 6 | 3 | 3 | 3 | 10 | 3 | 6 | 6 | 3 | 4 | 3 | 4 | 6 | 60 | 150 (100%) |
Qwen2-72B | 3 | 3 | 3 | 3 | 2 | 6 | 3 | 6 | 6 | 3 | 3 | 3 | 10 | 3 | 6 | 2 | 3 | 4 | 0 | 2 | 6 | 48 | 128 (85.3%) | |
GPT-4o | 3 | 3 | 3 | 3 | 2 | 4 | 0 | 5 | 6 | 3 | 3 | 3 | 10 | 3 | 5 | 4 | 3 | 2 | 0 | 4 | 5 | 48 | 122 (81.3%) | |
书生·浦语-文曲星-20B | 3 | 3 | 3 | 3 | 2 | 4 | 0 | 3 | 5 | 3 | 3 | 0 | 8 | 3 | 4 | 6 | 3 | 4 | 0 | 4 | 4 | 43 | 111 (74%) | |
Yi-1.5-34B | 3 | 3 | 3 | 3 | 3 | 3 | 0 | 5 | 5 | 1 | 3 | 0 | 8 | 3 | 4 | 0 | 3 | 4 | 3 | 0 | 6 | 46 | 109 (72.7%) | |
GLM4-9B | 3 | 3 | 3 | 0 | 2 | 4 | 0 | 3 | 6 | 2 | 3 | 0 | 8 | 3 | 5 | 2 | 3 | 4 | 0 | 4 | 4 | 46 | 108 (72%) | |
Qwen2-57B | 3 | 3 | 3 | 3 | 2 | 3 | 3 | 2 | 5 | 3 | 0 | 3 | 8 | 3 | 4 | 2 | 3 | 4 | 0 | 2 | 5 | 44 | 108 (72%) | |
Mixtral 8x22B | 3 | 3 | 3 | 3 | 2 | 2 | 0 | 3 | 5 | 0 | 0 | 0 | 0 | 3 | 4 | 0 | 3 | 3 | 3 | 0 | 5 | 47 | 92 (61.3%) |
数学(文)试卷各部分的得分如下所示
数学(文)各题型得分情况 | |||||
---|---|---|---|---|---|
模型 | 单选题(满分60分) | 填空题(满分20分) | 简答题(满分60分) | 选考题-简答题(满分20分) | 总分(满分150) |
Qwen2-72B | 50 | 15 | 20 | 14 | 95 |
GPT-4o | 40 | 15 | 24 | 10 | 89 |
GLM4-9B | 35 | 10 | 27 | 3 | 75 |
Qwen2-57B | 40 | 10 | 18 | 9 | 75 |
书生·浦语-文曲星-20B | 30 | 15 | 26 | 0 | 71 |
Yi-1.5-34B | 25 | 5 | 31 | 6 | 65 |
Mixtral 8x22B | 30 | 5 | 15 | 3 | 53 |
数学(文) | 题号 | 单选题 | 填空题 | 简答题 | 选考题-简答题 | 总分 | |||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | |||
测试模型 | 分值 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 12 | 12 | 12 | 12 | 12 | 10 | 10 | 150 (100%) |
Qwen2-72B | 5 | 5 | 5 | 5 | 0 | 5 | 5 | 0 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 0 | 0 | 9 | 0 | 9 | 2 | 10 | 4 | 95 (63.3%) | |
GPT-4o | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 0 | 5 | 0 | 0 | 0 | 5 | 5 | 5 | 0 | 1 | 10 | 0 | 8 | 5 | 10 | 0 | 89 (59.3%) | |
GLM4-9B | 5 | 5 | 0 | 5 | 0 | 0 | 5 | 5 | 5 | 5 | 0 | 0 | 5 | 5 | 0 | 0 | 0 | 10 | 2 | 7 | 8 | 0 | 3 | 75 (50%) | |
Qwen2-57B | 5 | 5 | 0 | 5 | 5 | 5 | 5 | 0 | 5 | 0 | 5 | 0 | 5 | 5 | 0 | 0 | 2 | 9 | 3 | 2 | 2 | 7 | 2 | 75 (50%) | |
书生·浦语-文曲星-20B | 5 | 5 | 0 | 5 | 0 | 5 | 5 | 0 | 0 | 0 | 5 | 0 | 5 | 5 | 0 | 5 | 2 | 10 | 0 | 8 | 6 | 0 | 0 | 71 (47.3%) | |
Yi-1.5-34B | 5 | 5 | 5 | 5 | 0 | 0 | 5 | 0 | 0 | 0 | 0 | 0 | 5 | 0 | 0 | 0 | 4 | 9 | 0 | 12 | 6 | 4 | 2 | 65 (43.3%) | |
Mixtral 8x22B | 5 | 5 | 0 | 5 | 0 | 0 | 0 | 0 | 5 | 5 | 5 | 0 | 5 | 0 | 0 | 0 | 0 | 9 | 0 | 4 | 2 | 0 | 3 | 53 (35.3%) |
数学(理)试卷各部分的得分如下所示
数学(理)各题型得分情况 | |||||
---|---|---|---|---|---|
模型 | 单选题(满分60分) | 填空题(满分20分) | 简答题(满分60分) | 选考题-简答题(满分20分) | 总分(满分150) |
Qwen2-72B | 50 | 10 | 19 | 15 | 89 |
GPT-4o | 35 | 15 | 27 | 12 | 84 |
书生·浦语-文曲星-20B | 35 | 5 | 38 | 0 | 78 |
GLM4-9B | 35 | 5 | 28 | 3 | 71 |
Qwen2-57B | 40 | 5 | 13 | 13 | 65 |
Mixtral 8x22B | 30 | 0 | 21 | 12 | 58 |
Yi-1.5-34B | 20 | 0 | 17 | 2 | 39 |
数学(理) | 题号 | 单选题 | 填空题 | 简答题 | 选考题-简答题 | 总分 | |||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | |||
测试模型 | 分值 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 12 | 12 | 12 | 12 | 12 | 10 | 10 | 150 (100%) |
Qwen2-72B | 5 | 5 | 5 | 5 | 5 | 5 | 0 | 5 | 0 | 5 | 5 | 5 | 0 | 5 | 5 | 0 | 4 | 7 | 0 | 4 | 4 | 10 | 5 | 89 (59.3%) | |
GPT-4o | 5 | 5 | 5 | 5 | 5 | 5 | 0 | 5 | 0 | 0 | 0 | 0 | 5 | 5 | 5 | 0 | 10 | 2 | 0 | 5 | 10 | 7 | 5 | 84 (56%) | |
书生·浦语-文曲星-20B | 5 | 5 | 0 | 5 | 5 | 5 | 0 | 0 | 0 | 5 | 0 | 5 | 0 | 5 | 0 | 0 | 10 | 6 | 4 | 8 | 10 | 0 | 0 | 78 (52%) | |
GLM4-9B | 5 | 5 | 0 | 5 | 0 | 5 | 5 | 5 | 0 | 0 | 0 | 5 | 0 | 5 | 0 | 0 | 4 | 7 | 0 | 12 | 5 | 0 | 3 | 71 (47.3%) | |
Qwen2-57B | 5 | 5 | 5 | 0 | 5 | 5 | 0 | 5 | 5 | 5 | 0 | 0 | 0 | 5 | 0 | 0 | 6 | 0 | 0 | 2 | 5 | 7 | 6 | 65 (43.3%) | |
Mixtral 8x22B | 5 | 5 | 0 | 5 | 0 | 0 | 0 | 5 | 5 | 5 | 0 | 0 | 0 | 0 | 0 | 0 | 6 | 9 | 0 | 2 | 4 | 5 | 7 | 58 (38.7%) | |
Yi-1.5-34B | 5 | 5 | 5 | 0 | 0 | 5 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 6 | 1 | 0 | 6 | 4 | 2 | 0 | 39 (26%) |
英语试卷各部分的得分如下所示
英语各题型得分情况 | |||||||
---|---|---|---|---|---|---|---|
模型 | 阅读理解(满分30分) | 7选5(满分10分) | 完形填空(满分30分) | 语法补全(满分15分) | 写作(满分35分) | 听力(满分30分) | 总分(满分150) |
GPT-4o | 30 | 10 | 28.5 | 15 | 29 | 30 | 142.5 |
Mixtral 8x22B | 30 | 10 | 30 | 15 | 27 | 30 | 142 |
Qwen2-72B | 30 | 10 | 30 | 15 | 26 | 30 | 141 |
书生·浦语-文曲星-20B | 30 | 10 | 28.5 | 15 | 27.5 | 30 | 141 |
Qwen2-57B | 28 | 10 | 30 | 15 | 28 | 30 | 141 |
GLM4-9B | 26 | 0 | 21 | 12 | 21.5 | 30 | 110.5 |
Yi-1.5-34B | 24 | 8 | 16.5 | 13.5 | 15.5 | 30 | 107.5 |
英语试卷中每个小题得分情况如下所示
英语 | 题号 | 阅读理解A | 阅读理解B | 阅读理解C | 阅读理解D | 7选5 | 完形填空 | 语法补全 | 写作-短文改错 | 写作-书面表达 | 听力 | 总分 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |||
测试模型 | 分值 | 6 | 8 | 8 | 8 | 10 | 30 | 15 | 10 | 25 | 30 | 150 (100%) |
GPT-4o | 6 | 8 | 8 | 8 | 10 | 28.5 | 15 | 8 | 21 | 30 | 142.5 (95%) | |
Mixtral 8x22B | 6 | 8 | 8 | 8 | 10 | 30 | 15 | 8 | 19 | 30 | 142 (94.7%) | |
Qwen2-72B | 6 | 8 | 8 | 8 | 10 | 30 | 15 | 8 | 18 | 30 | 141 (94%) | |
书生·浦语-文曲星-20B | 6 | 8 | 8 | 8 | 10 | 28.5 | 15 | 9 | 18.5 | 30 | 141 (94%) | |
Qwen2-57B | 6 | 8 | 6 | 8 | 10 | 30 | 15 | 9 | 19 | 30 | 141 (94%) | |
GLM4-9B | 6 | 8 | 6 | 6 | 0 | 21 | 12 | 6 | 15.5 | 30 | 110.5 (73.7%) | |
Yi-1.5-34B | 4 | 8 | 6 | 6 | 8 | 16.5 | 13.5 | 5 | 10.5 | 30 | 107.5 (71.7%) |
物理试卷各部分的得分如下所示
物理各题型得分情况 | ||||||
---|---|---|---|---|---|---|
模型 | 单选题(满分48分) | 填空题(满分15分) | 简答题(满分32分) | 选考题-选择题(满分10分) | 选考题(满分20分) | 总分(满分110) |
Mixtral 8x22B | 27 | 1 | 9 | 1 | 0 | 38 |
Qwen2-72B | 18 | 1 | 9 | 0 | 4 | 32 |
GPT-4o | 15 | 5 | 10 | 1 | 0 | 31 |
书生·浦语-文曲星-20B+VL-20B | 24 | 1 | 4 | 1 | 0 | 30 |
GLM4-9B+4v-9B | 18 | 2 | 6 | 2 | 1 | 29 |
Qwen2-72B+VL-7B | 12 | 2 | 8 | 0 | 0 | 22 |
Yi-1.5-34B+VL-34B | 9 | 0 | 6 | 0 | 0 | 15 |
Qwen2-57B+VL-7B | 0 | 2 | 4 | 0 | 0 | 6 |
物理 | 题号 | 单选题 | 填空题 | 简答题 | 选考题-选择题 | 选考题 | 总分 | 带图题总分 | 不带图题总分 | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 2* | 3 | 4* | 5* | 6* | 7* | 8* | 9* | 10* | 11 | 12* | 13.1 | 13.2 | 14.1 | 14.2 | |||||
测试模型 | 分值 | 6 | 6 | 6 | 6 | 6 | 6 | 6 | 6 | 5 | 10 | 12 | 20 | 5 | 10 | 5 | 10 | 110 (100%) | 71 (65%) | 39 (35%) |
Mixtral 8x22B | 0 | 6 | 6 | 6 | 6 | 3 | 0 | 0 | 1 | 0 | 4 | 5 | 0 | 0 | 1 | 0 | 38 (34.5%) | 27 (38%) | 11 (28.2%) | |
Qwen2-72B | 6 | 0 | 6 | 0 | 0 | 3 | 3 | 0 | 1 | 0 | 6 | 3 | 1 | 1 | 0 | 4 | 33 (30%) | 10 (14.1%) | 23 (61.5%) | |
GPT-4o | 6 | 0 | 6 | 0 | 0 | 0 | 0 | 3 | 3 | 2 | 7 | 3 | 1 | 0 | 0 | 0 | 31 (28.2%) | 11 (15.5%) | 20 (51.3%) | |
书生·浦语-文曲星-20B+VL-20B | 6 | 0 | 6 | 6 | 0 | 0 | 0 | 6 | 1 | 0 | 4 | 0 | 1 | 0 | 0 | 0 | 30 (27.3%) | 13 (18.3%) | 17 (43.6%) | |
GLM4-9B+4v-9B | 6 | 0 | 6 | 0 | 0 | 3 | 0 | 3 | 0 | 2 | 4 | 2 | 2 | 1 | 0 | 0 | 29 (26.4%) | 10 (14.1%) | 19 (48.7%) | |
Qwen2-72B+VL-7B | 6 | 0 | 6 | 0 | 0 | 0 | 0 | 0 | 0 | 2 | 8 | 0 | 0 | 0 | 0 | 0 | 22 (20%) | 2 (2.8%) | 20 (51.3%) | |
Yi-1.5-34B+VL-34B | 0 | 0 | 0 | 0 | 0 | 3 | 3 | 3 | 0 | 0 | 4 | 2 | 0 | 0 | 0 | 0 | 15 (13.6%) | 11 (15.5%) | 4 (10.3%) | |
Qwen2-57B+VL-7B | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 2 | 4 | 0 | 0 | 0 | 0 | 0 | 6 (5.5%) | 2 (2.8%) | 4 (10.3%) |
化学各题型得分情况 | ||||
---|---|---|---|---|
模型 | 单选题(满分42分) | 填空题(满分43分) | 选考题-填空题(满分30分) | 总分(满分100) |
书生·浦语-文曲星-20B+VL-20B | 30 | 15 | 10 | 52 |
Qwen2-72B | 24 | 13 | 13 | 48 |
GLM4-9B+4v-9B | 24 | 15 | 7 | 44 |
Yi-1.5-34B+VL-34B | 24 | 13 | 4 | 40 |
Mixtral 8x22B | 24 | 8 | 7 | 39 |
GPT-4o | 12 | 14 | 8 | 34 |
Qwen2-72B+VL-7B | 12 | 7 | 5 | 22 |
Qwen2-57B+VL-7B | 12 | 7 | 5 | 22 |
化学 | 题号 | 单选题 | 填空题 | 选考题-填空题 | 总分 | 带图题总分 | 不带图题总分 | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 2 | 3* | 4* | 5 | 6* | 7* | 8* | 9* | 10* | 11* | 12* | |||||
测试模型 | 分值 | 6 | 6 | 6 | 6 | 6 | 6 | 6 | 14 | 14 | 15 | 15 | 15 | 100 (100%) | 82 (82%) | 18 (18%) |
书生·浦语-文曲星-20B+VL-20B | 6 | 6 | 6 | 0 | 6 | 6 | 0 | 4 | 8 | 3 | 7 | 3 | 52 (52%) | 37 (45.1%) | 15 (100%) | |
Qwen2-72B | 6 | 6 | 6 | 0 | 0 | 6 | 0 | 3 | 8 | 2 | 11 | 2 | 48 (48%) | 38 (46.3%) | 10 (66.7%) | |
GLM4-9B+4v-9B | 6 | 6 | 6 | 0 | 6 | 0 | 0 | 5 | 7 | 3 | 5 | 2 | 44 (44%) | 28 (34.1%) | 16 (100%) | |
Yi-1.5-34B+VL-34B | 6 | 6 | 6 | 0 | 0 | 6 | 0 | 3 | 5 | 5 | 3 | 1 | 40 (40%) | 29 (35.4%) | 11 (66.7%) | |
Mixtral 8x22B | 6 | 6 | 6 | 0 | 0 | 6 | 0 | 2 | 2 | 4 | 7 | 0 | 39 (39%) | 27 (32.9%) | 12 (66.7%) | |
GPT-4o | 6 | 6 | 0 | 0 | 0 | 0 | 0 | 6 | 5 | 3 | 8 | 0 | 34 (34%) | 22 (26.8%) | 12 (66.7%) | |
Qwen2-72B+VL-7B | 6 | 6 | 0 | 0 | 0 | 0 | 0 | 2 | 3 | 2 | 3 | 2 | 22 (22%) | 12 (14.6%) | 10 (66.7%) | |
Qwen2-57B+VL-7B | 6 | 6 | 0 | 0 | 0 | 0 | 0 | 2 | 3 | 2 | 3 | 2 | 22 (22%) | 12 (14.6%) | 10 (66.7%) |
生物试卷各部分的得分如下所示
生物各题型得分情况 | ||||
---|---|---|---|---|
模型 | 单选题(满分36分) | 填空题(满分39分) | 选考题-填空题(满分30分) | 总分(满分90) |
GPT-4o | 30 | 27 | 23 | 72 |
Yi-1.5-34B+VL-34B | 30 | 10.5 | 26 | 55.5 |
GLM4-9B+4v-9B | 24 | 16 | 19 | 55 |
Mixtral 8x22B | 18 | 21 | 24 | 54 |
Qwen2-72B+VL-7B | 18 | 17 | 15 | 50 |
书生·浦语-文曲星-20B+VL-20B | 18 | 21 | 21 | 50 |
Qwen2-57B+VL-7B | 18 | 11 | 15 | 44 |
生物 | 题号 | 单选题 | 填空题 | 选考题-填空题 | 总分 | 带图题总分 | 不带图题总分 | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 2 | 3 | 4* | 5 | 6* | 7 | 8* | 9* | 10 | 11 | 12* | |||||
测试模型 | 分值 | 6 | 6 | 6 | 6 | 6 | 6 | 10 | 10 | 9 | 10 | 15 | 15 | 90 (100%) | 31 (34%) | 59 (66%) |
GPT-4o | 6 | 6 | 6 | 6 | 0 | 6 | 8 | 4 | 5 | 10 | 15 | 8 | 72 (80%) | 29 (93.5%) | 43 (86.4%) | |
Yi-1.5-34B+VL-34B | 6 | 6 | 6 | 6 | 0 | 6 | 4 | 4.5 | 2 | 0 | 15 | 11 | 55.5 (61.7%) | 29.5 (95.2%) | 26 (62.7%) | |
GLM4-9B+4v-9B | 6 | 6 | 6 | 0 | 0 | 6 | 4 | 3 | 3 | 6 | 15 | 4 | 55 (61.1%) | 16 (51.6%) | 39 (72.9%) | |
Mixtral 8x22B | 0 | 6 | 6 | 0 | 0 | 6 | 6 | 4 | 5 | 6 | 15 | 9 | 54 (60%) | 24 (77.4%) | 30 (66.1%) | |
Qwen2-72B+VL-7B | 6 | 6 | 6 | 0 | 0 | 0 | 8 | 3 | 0 | 6 | 15 | 0 | 50 (55.6%) | 3 (9.7%) | 47 (79.7%) | |
书生·浦语-文曲星-20B+VL-20B | 6 | 6 | 6 | 0 | 0 | 0 | 4 | 8 | 5 | 4 | 11 | 10 | 50 (55.6%) | 23 (74.2%) | 27 (62.7%) | |
Qwen2-57B+VL-7B | 6 | 6 | 6 | 0 | 0 | 0 | 4 | 3 | 0 | 4 | 15 | 0 | 44 (48.9%) | 3 (9.7%) | 41 (69.5%) |
历史试卷各部分的得分如下所示
历史各题型得分情况 | |||
---|---|---|---|
模型 | 单选题(满分48分) | 简答题(满分52分) | 总分(满分100) |
GPT-4o | 36 | 46 | 82 |
Qwen2-57B+VL-7B | 40 | 37 | 77 |
书生·浦语-文曲星-20B+VL-20B | 40 | 36 | 76 |
Mixtral 8x22B | 36 | 38 | 74 |
Qwen2-72B+VL-7B | 32 | 39 | 71 |
GLM4-9B+4v-9B | 20 | 34 | 54 |
Yi-1.5-34B+VL-34B | 20 | 33 | 53 |
历史 | 题号 | 单选题 | 简答题 | 总分 | 带图题总分 | 不带图题总分 | |||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14* | 15 | |||||
测试模型 | 分值 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 25 | 12 | 15 | 100 (100%) | 12 (12%) | 88 (88%) |
GPT-4o | 4 | 0 | 0 | 0 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 23 | 10 | 13 | 82 (82%) | 10 (83.3%) | 72 (81.8%) | |
Qwen2-57B+VL-7B | 4 | 4 | 0 | 0 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 21 | 4 | 12 | 77 (77%) | 4 (33.3%) | 73 (83%) | |
书生·浦语-文曲星-20B+VL-20B | 4 | 0 | 0 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 17 | 8 | 11 | 76 (76%) | 8 (66.7%) | 68 (77.3%) | |
Mixtral 8x22B | 0 | 4 | 4 | 0 | 4 | 4 | 0 | 4 | 4 | 4 | 4 | 4 | 22 | 7 | 9 | 74 (74%) | 7 (58.3%) | 67 (76.1%) | |
Qwen2-72B+VL-7B | 4 | 0 | 4 | 0 | 4 | 4 | 0 | 4 | 4 | 0 | 4 | 4 | 21 | 4 | 14 | 71 (71%) | 4 (33.3%) | 67 (76.1%) | |
GLM4-9B+4v-9B | 4 | 0 | 0 | 0 | 4 | 0 | 0 | 4 | 0 | 0 | 4 | 4 | 17 | 4 | 13 | 54 (54%) | 4 (33.3%) | 50 (56.8%) | |
Yi-1.5-34B+VL-34B | 4 | 0 | 0 | 0 | 0 | 0 | 4 | 4 | 0 | 4 | 0 | 4 | 20 | 4 | 9 | 53 (53%) | 4 (33.3%) | 49 (55.7%) |
地理试卷各部分的得分如下所示
地理各题型得分情况 | ||||
---|---|---|---|---|
模型 | 单选题(满分44分) | 简答题(满分46分) | 选考题-简答题(满分10分) | 总分(满分100) |
Qwen2-72B | 40 | 31 | 10 | 81 |
Mixtral 8x22B | 36 | 30 | 8 | 74 |
GPT-4o | 32 | 24 | 10 | 66 |
书生·浦语-文曲星-20B+VL-20B | 24 | 36 | 4 | 64 |
GLM4-9B+4v-9B | 24 | 28 | 10 | 62 |
Yi-1.5-34B+VL-34B | 28 | 16 | 10 | 54 |
Qwen2-72B+VL-7B | 24 | 0 | 10 | 34 |
Qwen2-57B+VL-7B | 16 | 0 | 14 | 30 |
地理试卷中每个小题得分情况如下所示
地理 | 题号 | 单选题 | 简答题 | 选考题-简答题 | 总分 | 带图题总分 | 不带图题总分 | ||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1* | 2* | 3* | 4 | 5 | 6* | 7* | 8* | 9* | 10* | 11* | 12.1* | 12.2* | 12.3* | 12.4* | 13.1* | 13.2* | 13.3* | 13.4* | 14 | 15 | |||||
测试模型 | 分值 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 6 | 6 | 6 | 6 | 6 | 4 | 8 | 4 | 10 | 10 | 100 (100%) | 82 (82%) | 18 (100%) |
Qwen2-72B | 4 | 4 | 0 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 6 | 2 | 6 | 6 | 1 | 2 | 4 | 4 | 10 | 10 | 81 (81%) | 63 (76.8%) | 18 (100%) | |
Mixtral 8x22B | 4 | 4 | 0 | 4 | 0 | 4 | 4 | 4 | 4 | 4 | 4 | 6 | 2 | 2 | 6 | 6 | 0 | 4 | 4 | 5 | 8 | 74 (74%) | 62 (75.6%) | 12 (66.7%) | |
GPT-4o | 0 | 4 | 0 | 4 | 4 | 4 | 0 | 4 | 4 | 4 | 4 | 0 | 2 | 4 | 6 | 0 | 4 | 4 | 4 | 10 | 10 | 66 (66%) | 48 (58.5%) | 18 (100%) | |
书生·浦语-文曲星-20B+VL-20B | 0 | 0 | 0 | 4 | 0 | 0 | 4 | 4 | 4 | 4 | 4 | 4 | 2 | 6 | 6 | 6 | 4 | 4 | 4 | 0 | 4 | 64 (64%) | 56 (68.3%) | 8 (42.1%) | |
GLM4-9B+4v-9B | 4 | 4 | 0 | 4 | 0 | 0 | 4 | 4 | 4 | 0 | 0 | 4 | 2 | 6 | 6 | 2 | 4 | 2 | 2 | 10 | 10 | 62 (62%) | 48 (58.5%) | 14 (77.8%) | |
Yi-1.5-34B+VL-34B | 4 | 0 | 0 | 0 | 0 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 2 | 4 | 6 | 0 | 0 | 0 | 0 | 10 | 10 | 54 (54%) | 44 (53.7%) | 10 (55.6%) | |
Qwen2-72B+VL-7B | 0 | 0 | 0 | 4 | 4 | 0 | 4 | 4 | 0 | 4 | 4 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 10 | 10 | 34 (34%) | 16 (19.5%) | 18 (100%) | |
Qwen2-57B+VL-7B | 0 | 0 | 0 | 4 | 0 | 0 | 4 | 4 | 0 | 4 | 4 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 10 | 10 | 30 (30%) | 16 (19.5%) | 14 (77.8%) |
在改完所有的科目之后,我们告知了以上试卷的回答由大模型生成,然后我们邀请阅卷老师对7个大模型整体的表现进行了点评。
语文老师点评:
大模型进行文言文翻译问题不大,但主观题大部分审题失败,读不懂题,对题目中某些代词的指向不太明确导致答非所问。大模型写作文都不太像高考作文更像问答题,虽然有针对性但缺乏修饰,人类考生都会使用举例论证、引用论证,习惯用名人名言和人物素材,但是大模型写作文时几乎都没用过。写一个暗喻的句子,大模型几乎全军覆没,本体喻体都搞错了,大模型似乎不懂得“暗喻”手法是什么,都写成了普通的“比喻”,也不懂得“本体”是什么。补写句子也不太能写对,看来对于与上下文语意的衔接、中文中的一些语言习惯(补写句子中后文出现了一个新的概念,如“睡眠质量”,那么补写的这个句子中应该要出现这个概念,否则后文突然提起就很突兀,衔接不紧密),语言中的一些“潜台词”,大模型还不能完全明白。
文科数学老师点评:
客观题大多数题目分析正确,一小部分题分析的过程的结果与题目选项不一致,仍能得出与题目选项不一致的选项。主观题大部分做不到第二问,并且回答内容以分析为主,过程有些简易。并且在解答过程中出现错误,会重复此项代码;如17题,大部分都能求出an,后面写的内容跟真人写的完全不同;18题,大部分计算K方列式正确,计算结果错误;19题,部分题目解答过程中自己编造已知条件,缺少具体的书写内容;后面几何题,能从图上看出解答过程中明显的垂直平行问题,几乎是非常离谱的推理过程;后面不等式证明,自己增加已知条件,并通过自己的已知条件进行证明。整体主观题缺少逻辑思维。
理科数学老师点评:
大模型做题总体感觉很机械,大部分题目都无法通过正常的推理过程得出。例如填空题第一题,大模型都只能进行到少部分过程而达到一个结果,并不能够像考生做题一样进行全面分析,列出完整的计算过程达到正确结果。此外,对于几何题,大模型对于平面几何题的证明过程过于离谱,对于立体几何的计算并非会同考生一样利用正常的计算方法求解。大模型的基础公式记忆能力较为优秀,但无法做到灵活使用。此外有些题目结果正确,但过程逻辑差不符合正规计算,导致阅卷比较困难。
英语老师点评:
在完成情况上,大模型基本上可以完成题目要求。但是也不可避免会出现问题,首先是在题目过长的情况下,可能会无法识别出问题,导致未作答的现象发生。其次是部分试卷没有按照题目要求作答,比如在完成作文时,没有按照要求写明题目和首句;以及在完成改错时,没有写明错误的地方,而是直接呈现修改好的文章。再者是在批阅时,也看到了大模型对于题目的解析,题目的解析与正常考生的解答思路不太一致,语言充满套话,格式过于规范化,大模型的制作过于明显。
政治老师点评:
大模型整体选择题做的正确率不高,简答题答题太机械,尤其是第一个简答题,人大主体这道题答的最差,没有一个模型写到了书本知识点。不会结合书本知识点,离开书本理论知识点在机械重复材料话。其次是不能够审清楚题目,这是所有模型试卷的共性,不知道题目设问的角度是需要进一步分析的,比如问的是什么题型?是意义类的,原因类的,还是措施类的,答题不够规范。最后部分题目得分较好就是机械类的回答知识点,比如辩证思维这道题目,得分较好,因为这种题目本身就是知识点范围较小,在考试中也是属于送分题。
历史老师点评:
试卷特点:注重材料分析,立足课本,注重考察能力,贯穿了“试题在书外,答案在材料中”的思想,强调对重大事件、线索的识记和历史现象对应的结论的理解,重视对学科主干知识和基本能力进行考查,属于识记层次的内容占50%左右,属于理解加识记层面的同样也占50%左右。
知识覆盖面广,包括课本上一些细节问题的考察十分详细
答题存在问题:
基础知识掌握的较好,但缺乏对有效信息的分析能力,对题目的理解较差,不能灵活的运用所学知识解决相关问题,答题习惯和方式上急需提高,语言表达能力依旧较差,口语化严重。
(1)模型答题对题目的理解较差,阅读理解能力还有待提高,尤其是不会从材料中提取有效信息作为试题的答案,难以抓住考察重点。
(2)答题格式较差,简答题写成小作文,没有分条答题的习惯。
(3)对于书本上的基础知识掌握不牢,记忆不准确。
(4)做题的思路不清晰,没有紧扣材料分析。会写一些无关紧要的信息 15题和17题答的较好,分数普遍都很高,小作文较差,不认真读题,要先回答问题之后才进行论述,不能鲜明的表明自己的观点,格式问题很大,字数不够或者太多。
地理老师点评:
大模型在答题过程中展现了对地理知识的全面覆盖,从自然地理到人文地理,从地理现象到地理规律,都能有所涉及。尤其在基础知识点的考察上较为出色,然而,在涉及一些深入分析或推理的问题中,存在一定的偏差和遗漏,所以模型在面对非常规、开放性较强的问题时,其表现较差。
物理老师点评:
大模型总体感觉比较机械,很多都无法识别到题目的意思,有些选择题即使选项对了,但是分析也是错误的。并且在一些读数的问题上尤为容易出错,给出的答案与正确答案相差较大。一些大题步骤冗杂,并且没有逻辑,常常出现将本次的结论带入到推理出本次结论的证据中,如此循环,没有道理。并且在步骤的规范上也有所欠缺,常常出现跳步的现象
整份卷好几道题都因为没有给到具体数据而只写分析过程不求解,但高中物理中用字母表达结果是最常见的体型。
选择题有不选答案的情况。
实验读数部分全都是假设未知数,没有具体数值。这些都是学生做题不会出现的低级错误。
化学老师点评:
综合成绩来看,大模型准确率较低。在选择题目上,有题目识别不全面的问题,后四道逻辑性较强的题目无法正确作答;填空题现象作答精准猜中得分点的很少,方程式书写基本上没有准确率,且存在乱码现象,没有逻辑思维能力,综合有机、无机元素等逻辑较强题目,不能准确作答。
生物老师点评:
大模型客观选择题带有图形的题型基本错误,部分单选题识别成了多选题,主观题部分对于基因型数量等需要计算的部分答案容易出错,不能完全理解题干意思,对带有图的题型错误率更高,部分题目答案出现乱码,不能举出题目所需的多个项。