新測試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了

    2024-04-23 09:09:02 235觀看

    如果試題太簡單,學(xué)霸和學(xué)渣都能考90分,拉不開差距……6YZ驛資訊

    隨著Claude 3、Llama 3甚至之后GPT-5等更強(qiáng)模型發(fā)布,業(yè)界急需一款更難、更有區(qū)分度的基準(zhǔn)測試。6YZ驛資訊

    大模型競技場背后組織LMSYS推出下一代基準(zhǔn)測試Arena-Hard,引起廣泛關(guān)注。6YZ驛資訊

    Llama 3的兩個指令微調(diào)版本實(shí)力到底如何,也有了新參考。6YZ驛資訊

    新測試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了6YZ驛資訊

    與之前大家分?jǐn)?shù)都相近的MT Bench相比,Arena-Hard區(qū)分度從22.6%提升到87.4%,孰強(qiáng)孰弱一目了然。6YZ驛資訊

    Arena-Hard利用競技場實(shí)時人類數(shù)據(jù)構(gòu)建,與人類偏好一致率也高達(dá)89.1%。6YZ驛資訊

    除了上面兩個指標(biāo)都達(dá)到SOTA之外,還有一個額外的好處:6YZ驛資訊

    實(shí)時更新的測試數(shù)據(jù)包含人類新想出的、AI在訓(xùn)練階段從未見過的提示詞,減輕潛在的數(shù)據(jù)泄露。6YZ驛資訊

    并且新模型發(fā)布后,無需再等待一周左右時間讓人類用戶參與投票,只需花費(fèi)25美元快速運(yùn)行測試管線,即可得到結(jié)果。6YZ驛資訊

    有網(wǎng)友評價,使用真實(shí)用戶提示詞而不是高中考試來測試,真的很重要。6YZ驛資訊

    新測試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了6YZ驛資訊

    新基準(zhǔn)測試如何運(yùn)作?6YZ驛資訊

    簡單來說,通過大模型競技場20萬個用戶查詢中,挑選500個高質(zhì)量提示詞作為測試集。6YZ驛資訊

    首先,挑選過程中確保多樣性,也就是測試集應(yīng)涵蓋廣泛的現(xiàn)實(shí)世界話題。6YZ驛資訊

    為了確保這一點(diǎn),團(tuán)隊(duì)采用BERTopic中主題建模管道,首先使用OpenAI的嵌入模型(text-embedding-3-small)轉(zhuǎn)換每個提示,使用 UMAP 降低維度,并使用基于層次結(jié)構(gòu)的模型聚類算法 (HDBSCAN) 來識別聚類,后使用GPT-4-turbo進(jìn)行匯總。6YZ驛資訊

    新測試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了6YZ驛資訊

    同時確保入選的提示詞具有高質(zhì)量,有七個關(guān)鍵指標(biāo)來衡量:6YZ驛資訊

    -具體性:提示詞是否要求特定的輸出?6YZ驛資訊

    -領(lǐng)域知識:提示詞是否涵蓋一個或多個特定領(lǐng)域?6YZ驛資訊

    -復(fù)雜性:提示詞是否有多層推理、組成部分或變量?6YZ驛資訊

    -解決問題:提示詞是否直接讓AI展示主動解決問題的能力?6YZ驛資訊

    -創(chuàng)造力:提示詞是否涉及解決問題的一定程度的創(chuàng)造力?6YZ驛資訊

    -技術(shù)準(zhǔn)確性:提示詞是否要求響應(yīng)具有技術(shù)準(zhǔn)確性?6YZ驛資訊

    -實(shí)際應(yīng)用:提示詞是否與實(shí)際應(yīng)用相關(guān)?6YZ驛資訊

    新測試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了6YZ驛資訊

    使用GPT-3.5-Turbo和GPT-4-Turbo對每個提示進(jìn)行從 0 到 7 的注釋,判斷滿足多少個條件。然后根據(jù)提示的平均得分給每個聚類評分。6YZ驛資訊

    高質(zhì)量的問題通常與有挑戰(zhàn)性的話題或任務(wù)相關(guān),比如游戲開發(fā)或數(shù)學(xué)證明。6YZ驛資訊

    新測試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了6YZ驛資訊

    新基準(zhǔn)測試準(zhǔn)嗎?6YZ驛資訊

    Arena-Hard目前還有一個弱點(diǎn):使用GPT-4做裁判更偏好自己的輸出。官方也給出了相應(yīng)提示。6YZ驛資訊

    可以看出,新兩個版本的GPT-4分?jǐn)?shù)高過Claude 3 Opus一大截,但在人類投票分?jǐn)?shù)中差距并沒有那么明顯。6YZ驛資訊

    新測試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了6YZ驛資訊

    其實(shí)關(guān)于這一點(diǎn),近已經(jīng)有研究論證,前沿模型都會偏好自己的輸出。6YZ驛資訊

    新測試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了6YZ驛資訊

    研究團(tuán)隊(duì)還發(fā)現(xiàn),AI天生就可以判斷出一段文字是不是自己寫的,經(jīng)過微調(diào)后自我識別的能力還能增強(qiáng),并且自我識別能力與自我偏好線性相關(guān)。6YZ驛資訊

    新測試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了6YZ驛資訊

    那么使用Claude 3來打分會使結(jié)果產(chǎn)生什么變化?LMSYS也做了相關(guān)實(shí)驗(yàn)。6YZ驛資訊

    首先,Claude系列的分?jǐn)?shù)確實(shí)會提高。6YZ驛資訊

    新測試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了6YZ驛資訊

    但令人驚訝的是,它更喜歡幾種開放模型如Mixtral和零一萬物Yi,甚至對GPT-3.5的評分都有明顯提高。6YZ驛資訊

    總體而言,使用Claude 3打分的區(qū)分度和與人類結(jié)果的一致性都不如GPT-4。6YZ驛資訊

    新測試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了6YZ驛資訊

    所以也有很多網(wǎng)友建議,使用多個大模型來綜合打分。6YZ驛資訊

    新測試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了6YZ驛資訊

    除此之外,團(tuán)隊(duì)還做了更多消融實(shí)驗(yàn)來驗(yàn)證新基準(zhǔn)測試的有效性。6YZ驛資訊

    比如在提示詞中加入“讓答案盡可能詳盡”,平均輸出長度更高,分?jǐn)?shù)確實(shí)會提高。6YZ驛資訊

    但把提示詞換成“喜歡閑聊”,平均輸出長度也有提高,但分?jǐn)?shù)提升就不明顯。6YZ驛資訊

    新測試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了6YZ驛資訊

    此外在實(shí)驗(yàn)過程中還有很多有意思的發(fā)現(xiàn)。6YZ驛資訊

    比如GPT-4來打分非常嚴(yán)格,如果回答中有錯誤會狠狠扣分;而Claude 3即使識別出小錯誤也會寬大處理。6YZ驛資訊

    對于代碼問題,Claude 3傾向于提供簡單結(jié)構(gòu)、不依賴外部代碼庫,能幫助人類學(xué)習(xí)編程的答案;而GPT-4-Turbo更傾向?qū)嵱玫拇鸢?,不管其教育價值如何。6YZ驛資訊

    另外即使設(shè)置溫度為0,GPT-4-Turbo也可能產(chǎn)生略有不同的判斷。6YZ驛資訊

    從層次結(jié)構(gòu)可視化的前64個聚類中也可以看出,大模型競技場用戶的提問質(zhì)量和多樣性確實(shí)是高。6YZ驛資訊

    新測試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了6YZ驛資訊

    這里面也許就有你的貢獻(xiàn)。6YZ驛資訊

    Arena-Hard GitHub:6YZ驛資訊

    https://github.com/lm-sys/arena-hard6YZ驛資訊

    Arena-Hard HuggingFace:6YZ驛資訊

    https://huggingface.co/spaces/lmsys/arena-hard-browser6YZ驛資訊

    大模型競技場:6YZ驛資訊

    https://arena.lmsys.org6YZ驛資訊

    參考鏈接:6YZ驛資訊

    [1]https://x.com/lmsysorg/status/17821799976226493306YZ驛資訊

    [2]https://lmsys.org/blog/2024-04-19-arena-hard/6YZ驛資訊

    本文鏈接:http://www.bbbearmall.com/news-128749.html新測試基準(zhǔn)發(fā)布 強(qiáng)開源Llama 3尷尬了

    標(biāo)簽:
    聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com。天上從來不會掉餡餅,請大家時刻謹(jǐn)防詐騙
    日韩乱码人妻无码中文字幕| 亚洲福利中文字幕在线网址| 一本一道色欲综合网中文字幕| 国产在线无码一区二区三区视频| 亚洲欧美成人久久综合中文网| 亚洲欧美精品一中文字幕| 久久青青草原亚洲av无码app| 久久精品?ⅴ无码中文字幕 | 精品久久久无码中文字幕| 亚洲精品无码成人片在线观看| 十八禁无码免费网站| 熟妇人妻系列av无码一区二区| 亚洲视频中文字幕| 中文一国产一无码一日韩| 亚洲?v无码国产在丝袜线观看 | 好硬~好爽~别进去~动态图, 69式真人无码视频免 | 自慰无码一区二区三区| 人妻丝袜中文无码av影音先锋专区 | 亚洲国产精品无码一线岛国| 日韩中文字幕在线不卡| 佐藤遥希在线播放一二区| 无码人妻久久一区二区三区免费| 老子午夜精品无码| 中文字幕亚洲综合久久菠萝蜜| avtt亚洲一区中文字幕| 一本大道香蕉中文在线高清| 亚洲欧美日韩中文字幕在线不卡 | 久久男人中文字幕资源站| 99精品久久久久中文字幕| 亚洲欧美中文日韩在线v日本 | 特级做A爰片毛片免费看无码| 国产资源网中文最新版| 最近免费2019中文字幕大全| 日本欧美亚洲中文| 无码人妻丰满熟妇区96| 在线a亚洲v天堂网2019无码| 超清无码熟妇人妻AV在线电影| 亚洲AV无码久久精品色欲| 无码人妻精品一区二区三区99仓本| 无码国产色欲XXXXX视频| 东京热无码av一区二区|