20款國產大模型角逐“最强王者”

2024-06-02 11:13:02 上海 56℃ 0

摘要：

記者查睿

近日，上海人工智慧實驗室聯合魔搭社區推出中國大語言模型評測競技場Compass Arena，首度集齊國內主流大模型全陣容，阿裡通義千問、百度文心一言、騰訊混元、位元組跳動豆包、書生·浦語等20款國產大模型出戰，角逐中國大模型“最强王者”。

當下，“百模大戰”廝殺正酣，各類榜單也層出不窮，其中國際開放研究組織LMSYS Org（Large Model Systems Organization）推出的大模型競技場Chatbot Arena，已成為海外最具公信力的大模型競技場之一，遺憾的是該競技場中教育程度相對不足。為此，Compass Arena的推出將有效填補這一領域的空白。

相比考題固定的傳統測評，中國大語言模型評測競技場Compass Arena採用盲測、開放的測評模式，可以更全面地檢驗模型實力。Compass Arena設定了隨機、匿名對戰，大模型選手們成為“蒙面唱將”，模型資訊隱去後，由系統隨機匹配進行PK，用戶可以天馬行空自由出題，並作為评审主觀評判和投票。如果大模型不小心“自報家門”，則對話被過濾，不計入成績。通過成千上萬輪PK挑戰和用戶投票，系統將對大模型進行自動排名。

Compass Arena由上海人工智慧實驗室OpenCompass司南評測體系與魔搭社區聯合建設，前者負責組織評測，後者負責開源模型引入及社區打造。與Chatbot Arena相比，Compass Arena更聚焦中文大模型，主流國產大模型全覆蓋，同時評測用戶大多使用中文，可以充分評估國產大模型的效能。

現時，Compass Arena已彙聚超20款商業及社區模型，包括Qwen-Max、ERNIE-4.0-8K、Spark3.5 Max、Abab6.5、GLM4等國內頭部廠商的旗艦款大模型，並引入了Llama3、Mixtral等海外標杆模型進行參照。更多模型及廠商還在不斷加入中。

标签：

上一篇：59種圖書入圍“上海好童書”

下一篇：今年“六一”期間，孩子們暢遊博物館體驗溫暖和力量埋下星辰大海的種子