10月19日,字節(jié)跳動(dòng)大模型訓(xùn)練遭實(shí)習(xí)生攻擊一事引發(fā)廣泛關(guān)注。據(jù)多位知情人士透露,字節(jié)跳動(dòng)某技術(shù)團(tuán)隊(duì)在今年6月遭遇了一起內(nèi)部技術(shù)襲擊事件,一名實(shí)習(xí)生因?qū)F(tuán)隊(duì)資源分配不滿,使用攻擊代碼破壞了團(tuán)隊(duì)的模型訓(xùn)練任務(wù)。
圖|來(lái)源于網(wǎng)絡(luò)
據(jù)悉,該事件的主要涉事者為一名田姓實(shí)習(xí)生所為,他利用了Huggingface(HF)平臺(tái)的漏洞,在公司的共享模型中寫入了破壞代碼,導(dǎo)致模型訓(xùn)練效果忽高忽低,無(wú)法產(chǎn)生預(yù)期的訓(xùn)練成果。
一位前字節(jié)技術(shù)員工表示,“字節(jié)AI Lab的實(shí)習(xí)生權(quán)限和正職員工差異不大,也使得此次事件有了發(fā)生的機(jī)會(huì)”,其也對(duì)此次事件帶來(lái)的惡性影響表達(dá)了擔(dān)憂,“這件事之后肯定會(huì)極大地收縮實(shí)習(xí)生的權(quán)限”。
在消息曝出后,該名涉事實(shí)習(xí)生試圖在社交平臺(tái)上辟謠,將責(zé)任推給他人,不過(guò)很快便遭到了接近字節(jié)跳動(dòng)人士的否認(rèn)。
據(jù)相關(guān)知情人士在Gitbub上表述,“你(指田某)在長(zhǎng)達(dá)2個(gè)月的時(shí)間里對(duì)集群代碼進(jìn)行惡意攻擊,對(duì)公司近30位各級(jí)員工造成巨大傷害,讓你的同事近一個(gè)季度的工作白費(fèi)。所有的記錄和審查都證明這是不容狡辯的事實(shí)!”
該名人士還分享了一則調(diào)查人員對(duì)田姓實(shí)習(xí)生 (TianKeyu)的詢問(wèn)錄音,錄音中的對(duì)話還原其攻擊的過(guò)程:田某先輸入的code本來(lái)是被用于影響通訊和隨機(jī)性的,“開始的時(shí)候它并不是以攻擊為目的,它是為了debug,但這確實(shí)會(huì)涉及到程序的一些運(yùn)行情況。但是后面它經(jīng)過(guò)一些文件,就是那些upload文件,code也會(huì)被update,code就變成了攻擊code。它大概的作用就是去修改code,然后就會(huì)造成一些后果。”
錄音中疑似田某本人的回應(yīng)承認(rèn)了其通過(guò)update使得code帶有了攻擊性。其也對(duì)問(wèn)詢?nèi)藛T明確表示,“就是因?yàn)槟承┰驅(qū)е铝宋覀兌挤浅2粷M”。
另?yè)?jù)傳聞稱此次損失可能超過(guò)千萬(wàn)美元,但內(nèi)部人士表示實(shí)際損失并沒(méi)有傳聞中那么嚴(yán)重。
據(jù)了解,該事件發(fā)生于今年6月底,目前字節(jié)跳動(dòng)已對(duì)田姓實(shí)習(xí)生采取了辭退處理,并將此事通報(bào)給相關(guān)行業(yè)聯(lián)盟和該實(shí)習(xí)生所在的學(xué)校。
不過(guò)前述相關(guān)知情人士表示,除了被字節(jié)辭退,田某目前未受到任何處罰。
多方消息顯示,田姓實(shí)習(xí)生為國(guó)內(nèi)某高校在讀博士生,于2021年9月起在字節(jié)AI Lab實(shí)習(xí),其所在的團(tuán)隊(duì)剛在今年4月與北大王立威團(tuán)隊(duì)提出了VAR研究,在圖像生成質(zhì)量、推理速度、數(shù)據(jù)效率和可拓展性等方面均超過(guò)了DiT。此外,VAR的推理速度比傳統(tǒng)自回歸模型快了約20倍。
本文鏈接:http://www.bbbearmall.com/news-132559.html字節(jié)跳動(dòng)實(shí)習(xí)生投毒自家大模型:全刪了