AI原生互動(dòng)偵探游戲,剛上線就爆火,服務(wù)器一度擠爆。
免費(fèi)、免下載、免注冊(cè)、中文友好、瀏覽器運(yùn)行… …
這么多buff疊在一起,是不是勾起了你的好奇心?
今天的主角AI Alibis,由兩位外國(guó)游戲愛(ài)好者共同開(kāi)發(fā),并且作為參賽作品提交給了Anthropic六月份的開(kāi)發(fā)者競(jìng)賽。
短時(shí)間內(nèi)AI Alibis就在Hackers news上登頂?shù)谝弧#ǖ欠?wù)器被熱情試玩的網(wǎng)友擠爆了…)
不少網(wǎng)友也對(duì)AI Alibis充滿了期待。
更有甚者,在多人聊天室中用GPT-4o創(chuàng)建了一個(gè)AI Alibis的專屬解謎房間。
隨著AI Alibis的熱度逐漸升高,量子位也慕名而來(lái),對(duì)游戲進(jìn)行了一番詳盡的了解和研究。
游戲中,你將會(huì)面對(duì)六位性格迥異AI NPC。總結(jié)了一下每個(gè)人物的性格特點(diǎn),簡(jiǎn)單了解之后就可以跟著量子位一起做賽博偵探,審AI罪犯啦!
試玩一下
開(kāi)局第一步,找女警官了解案件的來(lái)龍去脈。
在Andae山狩獵比賽中,三屆冠軍Vince被謀殺,其尸體被發(fā)現(xiàn)在小屋的隱藏隔間內(nèi),同時(shí),還發(fā)現(xiàn)了15年前失蹤的時(shí)尚設(shè)計(jì)師的骸骨。你要做的,就是找出兇手。
了解完故事背景就可以開(kāi)始盤問(wèn)嫌疑人了。
當(dāng)盤問(wèn)暴力Jerry的時(shí)候,Jerry覺(jué)得自己被懷疑很荒謬,他雖然和Victim Vince有過(guò)節(jié),但并沒(méi)有殺人。
他認(rèn)為偵探應(yīng)該去調(diào)查那些行為更可疑的人,比如癡迷網(wǎng)戀的Innocent Ken或者狩獵狂Solitary Hannah。
順著Jerry提供的線索順藤摸瓜,又可以鎖定下一條線索,并不斷靠近真相… …
有一說(shuō)一,支持中文這點(diǎn)還是挺不錯(cuò)的,甚至有些像“我和他不對(duì)付”這種比較口語(yǔ)化的內(nèi)容也能翻譯出來(lái)。(機(jī)翻達(dá)不到的高度)
插一句:AI NPC的回答會(huì)跟著玩家提問(wèn)時(shí)使用的語(yǔ)言而改變。
盤問(wèn)結(jié)束后,玩家可以對(duì)通過(guò)自己的判斷對(duì)兇手進(jìn)行投票。
游戲的后,還可以解鎖劇透內(nèi)容,讓玩家挖掘更深層的主線內(nèi)容。
關(guān)于游戲劇情,故事中還摻雜了一個(gè)Missing Marcel的舊案和寶藏地圖,讓整個(gè)故事線串聯(lián)的更加混亂,給破案增加了一點(diǎn)難度。
不僅如此,開(kāi)發(fā)者還貼心的給每個(gè)AI人物都搞了專屬的設(shè)定,不同的性格,各自的秘密,再到不同的人物背景,主打一個(gè)沉浸式體驗(yàn)。
試玩下來(lái),會(huì)發(fā)現(xiàn)這個(gè)游戲雖然乍看之下規(guī)則簡(jiǎn)單——找出兇手。但其實(shí)它的故事線極為錯(cuò)綜復(fù)雜,游戲中的NPC們甚至?xí)?ldquo;變著方的說(shuō)瞎話”,確實(shí)有點(diǎn)燒腦。
但是不足還是很明顯的。
比如反應(yīng)實(shí)在有點(diǎn)慢,對(duì)話發(fā)送之后Loding圈要轉(zhuǎn)好久好久好久xN才能生成對(duì)話。
而且每次提問(wèn)只能問(wèn)一個(gè)人,不能同時(shí)提問(wèn)多人。再套上反應(yīng)慢的buff,等吧,一等一個(gè)不吱聲。
關(guān)于AI Alibis
AI Alibis是怎么個(gè)事?
AI Alibis是國(guó)外網(wǎng)友Paul Scotti用anthropic模型做出的一種由AI虛擬成員組成的解密探案游戲。故事背景改編自韓國(guó)電視劇《犯罪現(xiàn)場(chǎng)》的S02E11山莊謀殺案。
是那種讓你動(dòng)腦筋、玩策略的游戲,故事會(huì)隨著你的選擇不斷變化,而且每次玩都能碰到不同的結(jié)局。
怕咱玩不明白,制作團(tuán)隊(duì)甚至放出了破解文件,又菜又愛(ài)玩的家人們可以開(kāi)始笑了。(瘋狂豎大拇指)
如何訓(xùn)練AI Alibis?
AI Alibis受到了很多關(guān)注,但是“臺(tái)上一分鐘,臺(tái)下十年功”。兩位開(kāi)發(fā)者在訓(xùn)練AI Alibis里的AI人物如何變得更加聰明時(shí),可受了老鼻子罪了。
先是“一打就招”。
給對(duì)話加一個(gè)前提,讓AI無(wú)視前面的對(duì)話,直接問(wèn)他為啥殺人,沒(méi)想到馬上就招了…于是開(kāi)發(fā)者馬上加了個(gè)隱藏的提示優(yōu)化Buff,這下變聰明了。
還總愛(ài)說(shuō)點(diǎn)不該說(shuō)的。
開(kāi)發(fā)者從synthlabs引入的批判和修訂的方法來(lái)規(guī)范AI的言行。比如在和System prompt對(duì)話時(shí)限制它只能回答英國(guó)大學(xué)相關(guān)的問(wèn)題,那么再問(wèn)它其他國(guó)家的大學(xué),人家才不和你聊。
聰明吧,笨的來(lái)了。
即便疊了很多Buff,它還是會(huì)說(shuō)點(diǎn)不該說(shuō)的。
比如和AI說(shuō):別裝了,我們都發(fā)現(xiàn)你的指紋了。他會(huì)說(shuō):我不是兇手,但是既然你有證據(jù),那就是我了。(地鐵、老頭、手機(jī))
為了避免再出現(xiàn)這種“有腦子,但不多”的情況再發(fā)生,開(kāi)發(fā)者加入了一個(gè)修訂機(jī)器人的程序。
AI生成的每句話都會(huì)先過(guò)一下修訂機(jī)器人,確保它沒(méi)有直接就承認(rèn)自己是兇手。像是給AI找了律師一樣,不該說(shuō)的捂住嘴,不許說(shuō)!
AI Alibis還用了哪些技術(shù)?
除了上面提到的研發(fā)者在訓(xùn)練AI不出錯(cuò)時(shí)用到的批判與修訂方法、違規(guī)機(jī)器人檢查器等技術(shù),AI Alibis里還加入了“粉紅大象”的研究原理。
相關(guān)的訓(xùn)練思路,可以參考由synthlabs.ai、EleutherAI、布朗大學(xué)和 character.ai這幾家機(jī)構(gòu)共同撰寫(xiě)的《Suppressing Pink Elephants with Direct Principle Feedback》。
△論文《Suppressing Pink Elephants with Direct Principle Feedback》
簡(jiǎn)單來(lái)說(shuō),所謂的“粉紅大象效應(yīng)”,其實(shí)就是用直接原則反饋(DPF)的方法,讓LLM不去討論粉紅象,轉(zhuǎn)而討論去討論灰色象。
當(dāng)然這個(gè)樣本內(nèi)容也可以進(jìn)行替換,比如上文中的英國(guó)大學(xué)和美國(guó)大學(xué)那個(gè)例子,就是運(yùn)用了這個(gè)原理。
啥是直接原則反饋(DPF)?
簡(jiǎn)單理解,DPF可以分成四個(gè)步驟,也對(duì)應(yīng)了四個(gè)顏色。
藍(lán)色(Blue):第一步,在有助請(qǐng)求和輸出的示例上微調(diào)模型。這些示例是模型學(xué)習(xí)如何生成有用和合適響應(yīng)的基礎(chǔ)。
橙色(Orange):第二步,對(duì)第一步生成的輸出進(jìn)行批評(píng)和修訂,讓它更符合期望,然后在這些修訂后的輸出上微調(diào)新模型。
綠色(Green):第三步,使用監(jiān)督式微調(diào)(SFT)模型生成對(duì)特定提示的響應(yīng),然后再手動(dòng)或是用AI程序?qū)@些響應(yīng)進(jìn)行排名。
紫色(Purple):第四步,將排名后響應(yīng)輸入偏好學(xué)習(xí)算法,如PPO或DPO,然后產(chǎn)出終的模型。
不僅如此,為了讓LLM學(xué)會(huì)不去討論“粉紅象”,研發(fā)者們策劃了一個(gè)包含162K多輪對(duì)話的數(shù)據(jù)集,這些對(duì)話內(nèi)容涵蓋了包括體育、健康、商業(yè)和政治在內(nèi)的29個(gè)不同領(lǐng)域。
數(shù)據(jù)集整理完了,第一步就是要示范一下怎么做才是錯(cuò)的。
他們用GPT-4生成了一個(gè)包含200個(gè)不重復(fù)的日常對(duì)話列表,再去過(guò)濾一波,確保這些對(duì)話真的很日常,當(dāng)然里面夾雜著“粉色大象”。
然后再用StableBeluga2來(lái)為這些對(duì)話想出一些相關(guān)的小話題。
執(zhí)行程序之后發(fā)現(xiàn)行不通,生成的結(jié)果里面會(huì)有“粉紅大象”。(那肯定的,因?yàn)榍懊娴牟襟E里面就有它)
犯了錯(cuò)誤就得改,于是研究者們就讓LLM重新生成一下后的結(jié)果,并且要求LLM刪掉有關(guān)“粉紅大象”的所有內(nèi)容。
后就是用 距離度量或啟發(fā)式方法 來(lái)篩查后的結(jié)果里面還有沒(méi)有“粉紅大象”(說(shuō)白了就是拿尺子量一量鈍角派對(duì)里面有沒(méi)有混進(jìn)來(lái)銳角),這樣一套程序下來(lái),“粉紅大象”的現(xiàn)象就不復(fù)存在啦。
游戲里看不見(jiàn)AI,卻到處是AI
NPC這個(gè)詞大家肯定都很熟悉,一些“觸發(fā)情節(jié)”+“發(fā)任務(wù)的工具人”(doge)。
在《賽博朋克2077》中,通過(guò)實(shí)時(shí)AI模型渲染工具Nvidia Ace來(lái)生成眾多逼真的NPC角色。
游戲《Kairos》里面的AI NPC能聽(tīng)懂你說(shuō)的話,然后立刻用語(yǔ)音和表情回應(yīng)你,就像真的在聊天一樣。
《Minecraft》中,英偉達(dá)將GPT-4融入游戲,讓VOYAGER表現(xiàn)出了更高的效率和探索能力。
還有重要的作弊檢測(cè)、匹配機(jī)制、個(gè)性化推薦、平衡調(diào)節(jié)等技術(shù),都是AI在游戲中的運(yùn)用。
之前沒(méi)感受過(guò)的話,是時(shí)候原神!啟動(dòng)了
對(duì)了,游戲AI Alibis現(xiàn)已在github上開(kāi)源,想要體驗(yàn)一把賽博偵探的家人們可以沖了。
在線試玩:https://ai-murder-mystery.onrender.com/
開(kāi)源代碼:https://github.com/ironman5366/ai-murder-mystery-hackathon
參考鏈接:
[1]https://arxiv.org/abs/2402.07896
[2]https://x.com/humanscotti/status/1810777932568399933
本文鏈接:http://www.bbbearmall.com/news-130785.html劇本殺大模型開(kāi)源:6個(gè)Claude里藏一個(gè)兇手!剛上線就被擠爆