(資料圖片)
北京商報(bào)訊(記者 楊月涵)8月28日,國(guó)內(nèi)大模型榜單SuperCLUE發(fā)布8月最新排名,總排行榜顯示,在國(guó)產(chǎn)大模型中,百川智能的Baichuan-13B-Chat(V2)拿下榜首,緊隨其后的分別為MiniMax的MiniMax-abab5以及百度的文心一言(V2.2.3)。
據(jù)悉,8月榜單由5部分組成,包括總排行榜、OPEN多輪開放問(wèn)題排行榜、OPT三大能力客觀題排行榜、十大基礎(chǔ)能力排行榜、開源排行榜。本次評(píng)測(cè)選取了目前國(guó)內(nèi)外最具代表性的16個(gè)通用大語(yǔ)言模型,8月評(píng)測(cè)數(shù)據(jù)集為全新的3337道測(cè)試題。
SuperCLUE分享了在8月評(píng)測(cè)中的新發(fā)現(xiàn):國(guó)內(nèi)大模型在中文任務(wù)上的表現(xiàn)與GPT3.5仍有一定距離,但差距在持續(xù)縮?。婚_源模型競(jìng)爭(zhēng)力進(jìn)一步提升;模型在開放問(wèn)題和客觀選擇題的表現(xiàn)有不一致的情況。
“我們認(rèn)為,選擇題能力不能全面代表大模型的綜合能力,這也是SuperCLUE8月將OPEN開放問(wèn)題和OPT選擇題合并為總排行榜的原因?!盨uperCLUE提到,OPEN開放問(wèn)題,主要針對(duì)與用戶偏好接近的大模型生成、指令遵循能力;OPT選擇題,更多考察SuperCLUE 8月榜單發(fā)布 百川智能、MiniMax、百度拿下國(guó)產(chǎn)大模型前三甲
北京商報(bào)訊(記者 楊月涵)8月28日,國(guó)內(nèi)大模型榜單SuperCLUE發(fā)布8月最新排名,總排行榜顯示,在國(guó)產(chǎn)大模型中,百川智能的Baichuan-13B-Chat(V2)拿下榜首,緊隨其后的分別為MiniMax的MiniMax-abab5以及百度的文心一言(V2.2.3)。
據(jù)悉,8月榜單由5部分組成,包括總排行榜、OPEN多輪開放問(wèn)題排行榜、OPT三大能力客觀題排行榜、十大基礎(chǔ)能力排行榜、開源排行榜。本次評(píng)測(cè)選取了目前國(guó)內(nèi)外最具代表性的16個(gè)通用大語(yǔ)言模型,8月評(píng)測(cè)數(shù)據(jù)集為全新的3337道測(cè)試題。
SuperCLUE分享了在8月評(píng)測(cè)中的新發(fā)現(xiàn):國(guó)內(nèi)大模型在中文任務(wù)上的表現(xiàn)與GPT3.5仍有一定距離,但差距在持續(xù)縮??;開源模型競(jìng)爭(zhēng)力進(jìn)一步提升;模型在開放問(wèn)題和客觀選擇題的表現(xiàn)有不一致的情況。
“我們認(rèn)為,選擇題能力不能全面代表大模型的綜合能力,這也是SuperCLUE8月將OPEN開放問(wèn)題和OPT選擇題合并為總排行榜的原因?!盨uperCLUE提到,OPEN開放問(wèn)題,主要針對(duì)與用戶偏好接近的大模型生成、指令遵循能力;OPT選擇題,更多考察模型的知識(shí)儲(chǔ)備。模型的知識(shí)儲(chǔ)備。
標(biāo)簽:
熱門