新測試基準發布 強開源Llama 3尷尬了

    2024-04-23 09:09:02 151觀看

    如果試題太簡單,學霸和學渣都能考90分,拉不開差距……zsg驛資訊

    隨著Claude 3、Llama 3甚至之后GPT-5等更強模型發布,業界急需一款更難、更有區分度的基準測試。zsg驛資訊

    大模型競技場背后組織LMSYS推出下一代基準測試Arena-Hard,引起廣泛關注。zsg驛資訊

    Llama 3的兩個指令微調版本實力到底如何,也有了新參考。zsg驛資訊

    新測試基準發布 強開源Llama 3尷尬了zsg驛資訊

    與之前大家分數都相近的MT Bench相比,Arena-Hard區分度從22.6%提升到87.4%,孰強孰弱一目了然。zsg驛資訊

    Arena-Hard利用競技場實時人類數據構建,與人類偏好一致率也高達89.1%。zsg驛資訊

    除了上面兩個指標都達到SOTA之外,還有一個額外的好處:zsg驛資訊

    實時更新的測試數據包含人類新想出的、AI在訓練階段從未見過的提示詞,減輕潛在的數據泄露。zsg驛資訊

    并且新模型發布后,無需再等待一周左右時間讓人類用戶參與投票,只需花費25美元快速運行測試管線,即可得到結果。zsg驛資訊

    有網友評價,使用真實用戶提示詞而不是高中考試來測試,真的很重要。zsg驛資訊

    新測試基準發布 強開源Llama 3尷尬了zsg驛資訊

    新基準測試如何運作?zsg驛資訊

    簡單來說,通過大模型競技場20萬個用戶查詢中,挑選500個高質量提示詞作為測試集。zsg驛資訊

    首先,挑選過程中確保多樣性,也就是測試集應涵蓋廣泛的現實世界話題。zsg驛資訊

    為了確保這一點,團隊采用BERTopic中主題建模管道,首先使用OpenAI的嵌入模型(text-embedding-3-small)轉換每個提示,使用 UMAP 降低維度,并使用基于層次結構的模型聚類算法 (HDBSCAN) 來識別聚類,后使用GPT-4-turbo進行匯總。zsg驛資訊

    新測試基準發布 強開源Llama 3尷尬了zsg驛資訊

    同時確保入選的提示詞具有高質量,有七個關鍵指標來衡量:zsg驛資訊

    -具體性:提示詞是否要求特定的輸出?zsg驛資訊

    -領域知識:提示詞是否涵蓋一個或多個特定領域?zsg驛資訊

    -復雜性:提示詞是否有多層推理、組成部分或變量?zsg驛資訊

    -解決問題:提示詞是否直接讓AI展示主動解決問題的能力?zsg驛資訊

    -創造力:提示詞是否涉及解決問題的一定程度的創造力?zsg驛資訊

    -技術準確性:提示詞是否要求響應具有技術準確性?zsg驛資訊

    -實際應用:提示詞是否與實際應用相關?zsg驛資訊

    新測試基準發布 強開源Llama 3尷尬了zsg驛資訊

    使用GPT-3.5-Turbo和GPT-4-Turbo對每個提示進行從 0 到 7 的注釋,判斷滿足多少個條件。然后根據提示的平均得分給每個聚類評分。zsg驛資訊

    高質量的問題通常與有挑戰性的話題或任務相關,比如游戲開發或數學證明。zsg驛資訊

    新測試基準發布 強開源Llama 3尷尬了zsg驛資訊

    新基準測試準嗎?zsg驛資訊

    Arena-Hard目前還有一個弱點:使用GPT-4做裁判更偏好自己的輸出。官方也給出了相應提示。zsg驛資訊

    可以看出,新兩個版本的GPT-4分數高過Claude 3 Opus一大截,但在人類投票分數中差距并沒有那么明顯。zsg驛資訊

    新測試基準發布 強開源Llama 3尷尬了zsg驛資訊

    其實關于這一點,近已經有研究論證,前沿模型都會偏好自己的輸出。zsg驛資訊

    新測試基準發布 強開源Llama 3尷尬了zsg驛資訊

    研究團隊還發現,AI天生就可以判斷出一段文字是不是自己寫的,經過微調后自我識別的能力還能增強,并且自我識別能力與自我偏好線性相關。zsg驛資訊

    新測試基準發布 強開源Llama 3尷尬了zsg驛資訊

    那么使用Claude 3來打分會使結果產生什么變化?LMSYS也做了相關實驗。zsg驛資訊

    首先,Claude系列的分數確實會提高。zsg驛資訊

    新測試基準發布 強開源Llama 3尷尬了zsg驛資訊

    但令人驚訝的是,它更喜歡幾種開放模型如Mixtral和零一萬物Yi,甚至對GPT-3.5的評分都有明顯提高。zsg驛資訊

    總體而言,使用Claude 3打分的區分度和與人類結果的一致性都不如GPT-4。zsg驛資訊

    新測試基準發布 強開源Llama 3尷尬了zsg驛資訊

    所以也有很多網友建議,使用多個大模型來綜合打分。zsg驛資訊

    新測試基準發布 強開源Llama 3尷尬了zsg驛資訊

    除此之外,團隊還做了更多消融實驗來驗證新基準測試的有效性。zsg驛資訊

    比如在提示詞中加入“讓答案盡可能詳盡”,平均輸出長度更高,分數確實會提高。zsg驛資訊

    但把提示詞換成“喜歡閑聊”,平均輸出長度也有提高,但分數提升就不明顯。zsg驛資訊

    新測試基準發布 強開源Llama 3尷尬了zsg驛資訊

    此外在實驗過程中還有很多有意思的發現。zsg驛資訊

    比如GPT-4來打分非常嚴格,如果回答中有錯誤會狠狠扣分;而Claude 3即使識別出小錯誤也會寬大處理。zsg驛資訊

    對于代碼問題,Claude 3傾向于提供簡單結構、不依賴外部代碼庫,能幫助人類學習編程的答案;而GPT-4-Turbo更傾向實用的答案,不管其教育價值如何。zsg驛資訊

    另外即使設置溫度為0,GPT-4-Turbo也可能產生略有不同的判斷。zsg驛資訊

    從層次結構可視化的前64個聚類中也可以看出,大模型競技場用戶的提問質量和多樣性確實是高。zsg驛資訊

    新測試基準發布 強開源Llama 3尷尬了zsg驛資訊

    這里面也許就有你的貢獻。zsg驛資訊

    Arena-Hard GitHub:zsg驛資訊

    https://github.com/lm-sys/arena-hardzsg驛資訊

    Arena-Hard HuggingFace:zsg驛資訊

    https://huggingface.co/spaces/lmsys/arena-hard-browserzsg驛資訊

    大模型競技場:zsg驛資訊

    https://arena.lmsys.orgzsg驛資訊

    參考鏈接:zsg驛資訊

    [1]https://x.com/lmsysorg/status/1782179997622649330zsg驛資訊

    [2]https://lmsys.org/blog/2024-04-19-arena-hard/zsg驛資訊

    本文鏈接:http://www.bbbearmall.com/news-128749.html新測試基準發布 強開源Llama 3尷尬了

    標簽:
    聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com。天上從來不會掉餡餅,請大家時刻謹防詐騙
    永久免费AV无码网站国产| 久久亚洲精品成人无码网站| 亚洲精品高清无码视频| 永久免费无码日韩视频| 自拍偷在线精品自拍偷无码专区| 亚洲AV无码乱码在线观看性色扶 | 亚洲va无码va在线va天堂| 人妻少妇久久中文字幕| 久久精品无码一区二区app| 97无码人妻福利免费公开在线视频| 精品久久久久中文字幕日本 | 西西午夜无码大胆啪啪国模| 无码人妻少妇久久中文字幕| 熟妇人妻中文a∨无码| 99热门精品一区二区三区无码| 亚洲AV永久无码精品成人| 乱人伦中文视频高清视频| 人妻无码αv中文字幕久久琪琪布| 中文字幕亚洲综合小综合在线| 成?∨人片在线观看无码| 日韩一区二区三区无码影院| 亚洲AV无码一区东京热久久| 精品久久久无码21p发布 | 人妻无码αv中文字幕久久琪琪布 人妻无码精品久久亚瑟影视 | 久久久久久亚洲Av无码精品专口| 亚洲av永久无码精品漫画| 最新高清无码专区| 国产品无码一区二区三区在线蜜桃 | 久久久久久国产精品无码下载| 无码av中文一二三区| 久久精品中文字幕有码| 中文字幕在线看视频一区二区三区| 久久精品亚洲中文字幕无码麻豆| 国偷自产短视频中文版| 中文字幕无码无码专区| 亚洲无av在线中文字幕 | 日本精品自产拍在线观看中文| 狠狠精品久久久无码中文字幕| 国产资源网中文最新版| 一二三四在线播放免费观看中文版视频 | 色综合久久无码五十路人妻|