AI“高考”語文、英語表現良好數學成績不盡如人意

2024-06-20 11:13:27 上海 37℃ 0

摘要：

記者俞陶然

上海人工智慧實驗室昨天公佈了多名“AI考生”參加今年中國高考的成績，阿裡Qwen2-72B、GPT-4o和“書生·浦語”2.0文曲星（InternLM2-20BWQX）成為前三名，得分率均超過70%。大部分“AI考生”在語文、英語科目上表現良好，但數學成績不盡如人意。其中，“書生·浦語”2.0文曲星獲得數學最高分，超越包括GPT-4o在內的其他大模型。

大模型數學成績不及格

今年高考結束後，司南評測體系OpenCompass選取6個開源大模型和GPT-4o，開展了語文、數學、英語全卷能力測試，評測採用全國新課標I卷。成績由具有高考評卷經驗的教師人工評判，接近真實閱卷的標準。

這六個大模型分別是阿裡巴巴開源的Qwen2-57B和Qwen2-72B、上海人工智慧實驗室開源的“書生·浦語”2.0文曲星、智譜AI開源的GLM-4-9B、零一萬物開源的Yi-1.5-34B、法國企業Mistral開源的Mixtral 8x22B。由於無法確定閉源大模型的更新時間，為公平起見，此次評測沒有納入商用閉源模型，只引入GPT-4o作為評測參攷。

因為受測的開源模型均為大語言模型，在評測過程中，僅輸入文字題幹（數學包含2道帶圖試題），英語聽力部分（分值30分）不納入此次評測。結果，阿裡Qwen2-72B以總分303分排名第一，其中語文124分（滿分150分），數學70分（滿分150分），英語109分（滿分120分）；GPT-4o以總分296分位居第二，其中語文111.5分，數學73分，英語111.5分；“書生·浦語”2.0文曲星以0.5分之差排名第三，其中語文112分，數學75分，英語108.5分。

可以看到，“AI考生”前三名都擅長文科，語文和英語成績優良，而數學推理能力有待提升，高考數學成績都不及格。現時，數學是所有大模型的短板，得益於上海人工智慧實驗室在數學推理上的投入，“書生·浦語”2.0文曲星在高考中得到75分，在所有受測模型中位居榜首，但仍存在較大提升空間。

閱卷老師點評考生表現

與以往多採用高考客觀題評測大模型的管道不同，在此次測試中，研究團隊使用了語數外三科的全卷試題，既有選擇、填空等“答案唯一性”題目，也包括簡答、閱讀理解、作文等主觀題，在更接近真實高考的環境中測試模型的能力。

為貼近高考評卷模式，研究團隊邀請多位有閱卷經驗的高中教師對主觀題答案評分，每份考卷至少由3人分別打分。遇到評分懸殊的情况，老師們會進行覆核，儘量做到評分公正，為人工智慧學術界和產業界提供更有價值的參攷名額。與真實的高考一樣，所有大模型答卷均進行了匿名處理，避免閱卷教師產生“先入為主”的觀念。

對於這些“AI考生”的語數外水准，老師們給出了中肯的評估——語文評卷顯示，大模型的現代文閱讀理解能力普遍較强，但不同模型的文言文閱讀理解能力差距較大。大模型寫的作文更像問答題，雖有針對性，但缺乏修飾，幾乎不用人類考生都會使用的舉例論證、引用論證、名人名言等手法。多數大模型不理解“本體”“喻體”“暗喻”等語文概念。對於文章中的一些“潛臺詞”，大模型也無法完全理解。數學評卷顯示，大模型的主觀題回答相對淩亂，解題過程有迷惑性，甚至出現過程錯誤但得到正確答案的情况。大模型的公式記憶能力很强，但無法在解題過程中靈活運用。大模型的英語整體表現良好，大模型寫的英語作文普遍存在因超出字數限制被扣分的情况，而人類考生大多因為字數不够被扣分。

标签：

上一篇：觀眾可親手觸摸商代文物奉賢博物館“中國古代科技文物精華展”開幕

下一篇：上海昨天入梅首日即迎豪雨考驗今年預計出梅較晚雨量偏多交通出行農業生產全力應對

評論留言

熱心網友
暫時沒有留言

我要留言

昵稱：*

郵箱：

內容：

◎歡迎參與討論，請在這裡發表您的看法、交流您的觀點。【所有評論需要人工稽核後才能顯示，請勿發佈垃圾資訊】