3月6日消息,當地時間3月5日,美國計算機學會宣布,安德魯·巴托和理查德·薩頓獲得 2024 年 ACM A.M. 圖靈獎,以表彰他們在強化學習方向的研究。
據了解,自 20 世紀 80 年代起,巴托和薩頓在一系列論文中提出了強化學習的核心思想、構建了數學基礎并開發了重要算法,使其成為創建智能系統的關鍵方法之一。
獲獎后,“強化學習之父”薩頓在采訪中探討了AI的發展進程,同時給予了青年研究員們一些個人建議。
當被主持人問道AI領域智能愿景,在這么多年即將要實現,是不是特別激動時。
薩頓坦然表示:沒錯,但也不盡然,我并不認同“一切都能迅速地大功告成”的觀點。
他繼續補充道:AI確實已經取得巨大進展,但我不認可那種急于求成的心態。
“我認為這是一場馬拉松,而非短跑沖刺,前面的路還很長,AI偉大、具影響力的那些方面尚未到來。”
隨后,主持人又問到了其對于研究者,尤其是年輕的研究者的建議。
薩頓認為:“跑馬拉松”挺不容易的,保持動力也不簡單,我的建議是,要志存高遠,但別驕傲自滿!”
說到這一點,他與主持人相視哈哈大笑。
隨后,他繼續補充道:我始終敬佩年輕人不盲從權威的態度,因為沒有人能獨斷AI的發展方向,在科學領域不存在所謂的權威,這就賦予了任何人的能力和權力。
同時,薩頓謙遜強調:這也許令人有些失落,因為你或許曾視我為權威,而我本可利用這一名號,但我必須坦誠,我不能。
眾所周知,ACM A.M. 圖靈獎素有 “計算機界諾貝爾獎” 之稱,以英國數學家艾倫·圖靈(Alan Turing)命名,他奠定了計算的數學基礎,通常被認為是理論計算機科學和人工智能的創始人。
另外,該獎從1966年開始頒發,2014年起獎金為 100 萬美元,由谷歌公司提供。
在這里,特別強調一下什么是“強化學習”?
人工智能(AI)領域關注構建智能體,即能感知與行動的實際存在,而更智能的智能體現在其能選擇更優的行動方案。因此,“某些行動優于其他”的概念是 AI 的核心。
獎勵(reward,源于心理學與神經科學的術語)表示提供給智能體與其實際行為質量相關的信號。
強化學習(RL) 則是通過獎勵信號學習更成功行為的過程。
20 世紀 80 年代初,受心理學啟發,巴托與博士生薩頓開始將強化學習定義為通用問題框架。
在此后的數十年間,巴托和薩頓與其他研究人員共同開發了強化學習的許多基本算法。
比如,他們二人編寫的經典教材《強化學習:導論》(Reinforcement Learning: An Introduction,1998)被引用超 7.5 萬次,至今仍是該領域標準參考資料。
在這本書的影響下,成千上萬的研究者能夠理解并參與到這個新興領域,并繼續激發今天計算機科學領域的大量重要創新。
盡管巴托和薩頓的算法誕生于數十年前,但其與深度學習算法的結合(由2018年圖靈獎獲得者Bengio、Hinton和LeCun開創),從而導致了深度強化學習的出現,并在過去 15 年取得多項重大突破。
突出的例子是 AlphaGo 程序在 2016 年和 2017 年戰勝了優秀的人類圍棋選手。近一項重大成就則是聊天機器人 ChatGPT 的開發。
本文鏈接:http://www.bbbearmall.com/news-133993.html新晉圖靈獎得主薩頓:AI發展是場馬拉松 具影響力的方面尚未到來