AI“高考”語文、英語表現良好數學成績不盡如人意

上海 14℃ 0
摘要:

  記者俞陶然

  上海人工智慧實驗室昨天公佈了多名“AI考生”參加今年中國高考的成績,阿裡Qwen2-72B、GPT-4o和“書生·浦語”2.0文曲星(InternLM2-20BWQX)成為前三名,得分率均超過70%。大部分“AI考生”在語文、英語科目上表現良好,但數學成績不盡如人意。其中,“書生·浦語”2.0文曲星獲得數學最高分,超越包括GPT-4o在內的其他大模型。

  大模型數學成績不及格

  今年高考結束後,司南評測體系OpenCompass選取6個開源大模型和GPT-4o,開展了語文、數學、英語全卷能力測試,評測採用全國新課標I卷。成績由具有高考評卷經驗的教師人工評判,接近真實閱卷的標準。

  這六個大模型分別是阿裡巴巴開源的Qwen2-57B和Qwen2-72B、上海人工智慧實驗室開源的“書生·浦語”2.0文曲星、智譜AI開源的GLM-4-9B、零一萬物開源的Yi-1.5-34B、法國企業Mistral開源的Mixtral 8x22B。由於無法確定閉源大模型的更新時間,為公平起見,此次評測沒有納入商用閉源模型,只引入GPT-4o作為評測參攷。

  因為受測的開源模型均為大語言模型,在評測過程中,僅輸入文字題幹(數學包含2道帶圖試題),英語聽力部分(分值30分)不納入此次評測。結果,阿裡Qwen2-72B以總分303分排名第一,其中語文124分(滿分150分),數學70分(滿分150分),英語109分(滿分120分);GPT-4o以總分296分位居第二,其中語文111.5分,數學73分,英語111.5分;“書生·浦語”2.0文曲星以0.5分之差排名第三,其中語文112分,數學75分,英語108.5分。

  可以看到,“AI考生”前三名都擅長文科,語文和英語成績優良,而數學推理能力有待提升,高考數學成績都不及格。現時,數學是所有大模型的短板,得益於上海人工智慧實驗室在數學推理上的投入,“書生·浦語”2.0文曲星在高考中得到75分,在所有受測模型中位居榜首,但仍存在較大提升空間。

  閱卷老師點評考生表現

  與以往多採用高考客觀題評測大模型的管道不同,在此次測試中,研究團隊使用了語數外三科的全卷試題,既有選擇、填空等“答案唯一性”題目,也包括簡答、閱讀理解、作文等主觀題,在更接近真實高考的環境中測試模型的能力。

  為貼近高考評卷模式,研究團隊邀請多位有閱卷經驗的高中教師對主觀題答案評分,每份考卷至少由3人分別打分。遇到評分懸殊的情况,老師們會進行覆核,儘量做到評分公正,為人工智慧學術界和產業界提供更有價值的參攷名額。與真實的高考一樣,所有大模型答卷均進行了匿名處理,避免閱卷教師產生“先入為主”的觀念。

  對於這些“AI考生”的語數外水准,老師們給出了中肯的評估——語文評卷顯示,大模型的現代文閱讀理解能力普遍較强,但不同模型的文言文閱讀理解能力差距較大。大模型寫的作文更像問答題,雖有針對性,但缺乏修飾,幾乎不用人類考生都會使用的舉例論證、引用論證、名人名言等手法。多數大模型不理解“本體”“喻體”“暗喻”等語文概念。對於文章中的一些“潛臺詞”,大模型也無法完全理解。數學評卷顯示,大模型的主觀題回答相對淩亂,解題過程有迷惑性,甚至出現過程錯誤但得到正確答案的情况。大模型的公式記憶能力很强,但無法在解題過程中靈活運用。大模型的英語整體表現良好,大模型寫的英語作文普遍存在因超出字數限制被扣分的情况,而人類考生大多因為字數不够被扣分。

标签:

評論留言

  • 熱心網友
    暫時沒有留言

我要留言

◎歡迎參與討論,請在這裡發表您的看法、交流您的觀點。【所有評論需要人工稽核後才能顯示,請勿發佈垃圾資訊】