六月丁香婷婷色狠狠久久-最近免费中文字幕中文高清-啊灬啊灬啊灬快灬高潮了学长-国产av无码-欧美日激情日韩精品嗯-国产日韩欧美一区二区三区-免费国产黄网站电影-18日本黑人尻逼内射免费观看-把女闺蜜日出了白浆-国产成人无码精品亚洲-免费观看黄色app,gogogo高清在线观看视频电影,91麻豆精品国产自产在线观,亚洲熟妇丰满多毛xxxx

首頁 > 機(jī)器人資訊 > 這臺對世界好奇的機(jī)器,竟然還玩起了超級馬里奧?

這臺對世界好奇的機(jī)器,竟然還玩起了超級馬里奧?

日期:2019-08-01   人氣:  來源:互聯(lián)網(wǎng)
簡介:這臺對世界好奇的機(jī)器,竟然還玩起了超級馬里奧? 十年前我們就能讓機(jī)器人完成那些可以被完美建模的任務(wù)了,那些機(jī)器人完美地運(yùn)轉(zhuǎn)在工廠的車間里,完成一個特定的操作。但真正的人工智能需要在一個無法被建模的情境中,走出去,學(xué)會獨(dú)自探索需要完成什么任……

這臺對世界好奇的機(jī)器,竟然還玩起了超級馬里奧?

十年前我們就能讓機(jī)器人完成那些可以被完美建模的任務(wù)了,那些機(jī)器人完美地運(yùn)轉(zhuǎn)在工廠的車間里,完成一個特定的操作。但真正的人工智能需要在一個無法被建模的情境中,走出去,學(xué)會獨(dú)自探索需要完成什么任務(wù)。這就是「好奇心」,是通向強(qiáng)人工智能的必經(jīng)之路。

你也許不記得自己第一次玩超級馬里奧兄弟時的感受了,但是讓我們試著回想這個8-bit的游戲世界閃亮登場:淡藍(lán)色的天空,有紋路的石頭地面,一個矮胖的、紅色著裝的小人靜靜站在那里。他面朝右邊:你將他朝右推動。走幾步之后便會有一排磚頭在頭頂盤旋,上面盤旋著一堆「憤怒的蘑菇」。游戲手柄的另一個按鍵能夠讓那個小人兒跳起來,他的四個像素大的拳頭指向天空。然后呢?或許是把「向右」和「跳躍」動作結(jié)合起來。好了,驚喜不驚喜:他會用自己的頭部撞擊懸浮在空中的磚塊,磚塊會像裝了彈簧一樣迅速向上彎曲并且彈回,把小人兒彈向正在靠近的蘑菇的身上,將其迅速壓平。馬里奧輕輕地從被征服的蘑菇身上跳開。然后出現(xiàn)一個帶有問號的棕色的對話框,似乎在問,「現(xiàn)在呢?」

對于20世紀(jì)80年代長大的人來說,這個場景特別熟悉,但你可以在PulkitAgrawal的YouTube頻道上看到更年輕的玩家。加利福尼亞大學(xué)伯克利分校的計算機(jī)科學(xué)研究員Agrawal正在研究天生的好奇心如何讓學(xué)習(xí)完成一個不熟悉的任務(wù)的過程更有效率就像你第一次玩超級馬里奧兄弟一樣。重點是,Agrawal的視頻中的新手玩家不是人類,甚至是沒有生命的。它就像馬里奧一樣,僅僅是一個軟件。但是這個軟件配備了Agrawal和他在伯克利人工智能研究實驗室(BAIR)的其他同事DeepakPathak,AlexeiA.Efros和TrevorDarrell一起開發(fā)的實驗性機(jī)器學(xué)習(xí)算法。這個算法有一個讓人驚嘆的目標(biāo):讓機(jī)器具有好奇心。

Agrawal說,「你可以把好奇心想象成是智能體內(nèi)部自動生成的一種獎勵,有了好奇心之后它們可以更進(jìn)一步的探索這個世界」。這個內(nèi)部生成的獎勵信號在認(rèn)知心理學(xué)中被稱為「內(nèi)在激勵」。這種感覺你或許在讀我寫的游戲描述時有間接的體會就是一種想要看看視野之外有什么的欲望,或者想要走出你的能力范圍,去看一下到底會發(fā)生什么這就是內(nèi)在激勵。

人類也會響應(yīng)源于外界環(huán)境的外在激勵。這類例子包括你從工作中獲得的薪水、你必須在特定時點完成的需求等。計算機(jī)科學(xué)家利用一種類似的,被稱為「強(qiáng)化學(xué)習(xí)」的方法來訓(xùn)練他們的算法:軟件程序在按照被期望的方式執(zhí)行任務(wù)的時候會得到「分?jǐn)?shù)」,然而在以不被期望的方式執(zhí)行的時候會受到懲罰。

但是這種胡蘿卜加大棒的方法對機(jī)器學(xué)習(xí)而言是有局限性的,并且人工智能研究者開始將內(nèi)在激勵視為能夠高效靈活學(xué)習(xí)的軟件智能體的一項重要組成部分,也就是說,它們不太像脆弱的機(jī)器,而是更像人類和動物一樣。在人工智能中使用內(nèi)在激勵的方法受啟發(fā)于心理學(xué)和神經(jīng)生物學(xué)幾以及那些有數(shù)十年歷史的原始人工智能研究,現(xiàn)在重新變得有用了起來。(「機(jī)器學(xué)習(xí)領(lǐng)域里無新鮮事。」OpenAI研究員ReinHouthooft如是說。)

這種智能體現(xiàn)在已經(jīng)可以被訓(xùn)練用于視頻游戲中,但是開發(fā)「具有好奇心」的人工智能的吸引力超越任何現(xiàn)有工作。伯克利人工智能實驗室的聯(lián)合主管Darrell說,「你列舉一個你最喜歡的應(yīng)用領(lǐng)域,我會給出一個例子」。「在家里,我們希望自動化地清理房間、收拾東西。在物流領(lǐng)域,我們希望貨物能被自動化地搬運(yùn)、完成各種操作。我們希望汽車能夠在復(fù)雜的環(huán)境中自動駕駛,我們希望救援機(jī)器人能夠在建筑里搜救需要幫助的人。在所有這些例子中,我們都在嘗試解決這個非常棘手的問題:你如何創(chuàng)造一臺能夠自己想明白要完成什么的任務(wù)機(jī)器?」

「打分」問題

強(qiáng)化學(xué)習(xí)是讓Google的AlphaGo軟件得以在圍棋中戰(zhàn)勝人類玩家的利器。在此之前,圍棋作為一款古老的直覺游戲,向來被認(rèn)為是機(jī)器無法企及的。如何在特定的領(lǐng)域成功使用強(qiáng)化學(xué)習(xí)的細(xì)節(jié)是很復(fù)雜的,但是通用的思想是簡單的:給算法或者「智能體」一個獎勵函數(shù),一個用數(shù)學(xué)方法定義的信號來追尋并最大化。然后把它自由地置于一個環(huán)境中,可以是任何的虛擬世界或者現(xiàn)實世界。隨著智能體在環(huán)境中運(yùn)行,能夠增加獎勵函數(shù)的值的動作會被強(qiáng)化。只要有足夠多的重復(fù)如果說計算機(jī)在某一件事上百分百勝過人類,KUKA機(jī)器人示教器維修,那就是重復(fù)智能體就會學(xué)會這個動作的模式或者策略,以最大化它的激勵函數(shù)。理想情況下,這些策略會導(dǎo)致智能體達(dá)到期望的最終狀態(tài)(例如在圍棋游戲中獲勝),在這個過程中程序員或者工程師不必在智能體進(jìn)化的每一步都手動編碼。

換句話說,一個獎勵函數(shù)就是能夠讓配備了強(qiáng)化學(xué)習(xí)算法的智能體能夠鎖定目標(biāo)的指導(dǎo)系統(tǒng)。目標(biāo)定義得越是清晰,智能體就運(yùn)行得越好這就是為什么目前很多智能體都是在較老的視頻游戲上做測試的原因,因為這些游戲都有基于分?jǐn)?shù)的明確獎勵制度。(游戲的塊狀的、二維的圖像也是研究者選擇它們的理由:因為游戲相對比較容易模仿,研究者可以快速地運(yùn)行并測試他們的實驗。)

加州伯克利的計算機(jī)科學(xué)家PulkitAgrawal

Agrawal說,「然而現(xiàn)實世界中并沒有分?jǐn)?shù)」。計算機(jī)科學(xué)家希望讓他們創(chuàng)造的智能體去探索一個不是預(yù)加載了可量化對象的世界。

此外,如果環(huán)境沒有快速并且有規(guī)則地提供顯式的激勵,那么智能體「就沒有一個用來判斷它是否做得正確的準(zhǔn)則」,Houthooft說。就像熱引導(dǎo)的導(dǎo)彈不能鎖定目標(biāo)一樣,「它沒有任何自己通過環(huán)境引導(dǎo)自己的方法,所以只能亂飛」。

最后,即使是煞費(fèi)苦心定義的激勵函數(shù)能夠指導(dǎo)智能體表現(xiàn)出不同凡響的智能行為就像AlphaGo打敗頂級人類玩家一樣這種激勵函數(shù)也不可能在未經(jīng)大量修訂的情況下遷移到任何其他情境中。并且,這種修改必須是人工完成的,確切地說這就是機(jī)器學(xué)習(xí)首先應(yīng)該幫助人類完成的事。

除了像導(dǎo)彈一樣能夠可靠地命中目標(biāo)的偽人工智能體之外,我們真正想要從人工智能獲得的更像是一種內(nèi)部引導(dǎo)能力。「你是可以自己給自己創(chuàng)造激勵的對吧?」Agrawal說,「并不存在一個天天指導(dǎo)你做這件事要『加1』或者『減1』的神」。

好奇心作為協(xié)同引導(dǎo)力

DeepakPathak從未嘗試過給「好奇心」這么虛無縹緲的概念建模。「『好奇心』一詞指的是『引導(dǎo)一個智能體在存在噪聲的環(huán)境中有效地探索的模型』」。隸屬于伯克利Darrell的實驗室研究員Pathak如是說。

但是在2106年,Pathak著迷于強(qiáng)化學(xué)習(xí)中的稀疏獎勵問題。含有強(qiáng)化學(xué)習(xí)技術(shù)的深度學(xué)習(xí)軟件最近在玩分?jǐn)?shù)驅(qū)動的雅達(dá)利游戲(比如太空入侵者和打磚塊)中獲得了顯著的進(jìn)步。但是在像超級馬里奧兄弟一樣的稍微復(fù)雜的游戲就超出人工智能的能力范圍了。因為在這些復(fù)雜的場景需要在時間和空間上朝著一個遙遠(yuǎn)的目標(biāo)前進(jìn),而且沒有一個明確的獎勵,更不用說學(xué)習(xí)并成功地執(zhí)行游戲中的組合動作(例如在奔跑中同時跳躍)。

免責(zé)聲明:本網(wǎng)部分文章和信息來源于互聯(lián)網(wǎng),本網(wǎng)轉(zhuǎn)載出于傳遞更多信息和學(xué)習(xí)之目的。如轉(zhuǎn)載稿涉及版權(quán)等問題,請立即聯(lián)系網(wǎng)站所有人,我們會予以更改或刪除相關(guān)文章,保證您的權(quán)利。