李飛飛新研究:基于深度學(xué)習(xí)和視覺(jué)化語(yǔ)言來(lái)了解不同物體間的關(guān)系
2017未來(lái)科學(xué)大獎(jiǎng)?lì)C獎(jiǎng)典禮暨未來(lái)論壇年會(huì)28、29日在京舉辦,斯坦福大學(xué)終身教授、谷歌云首席科學(xué)家李飛飛在人工智能研討會(huì)上表示,最近她所在的實(shí)驗(yàn)室正在做一項(xiàng)新研究,基于深度學(xué)習(xí)和視覺(jué)化語(yǔ)言模式了解不同物體之間的關(guān)系。
李飛飛表示,無(wú)論是動(dòng)物智能還是機(jī)器智能,視覺(jué)都是非常重要的技術(shù)。視覺(jué)是人腦中最為復(fù)雜的系統(tǒng),占有大腦中50%的認(rèn)識(shí)單位。視覺(jué)反應(yīng)速度非常快,只需要150微秒。這使得圖像識(shí)別技術(shù)變得非常重要但又十分復(fù)雜。
過(guò)去8年時(shí)間,圖像識(shí)別的錯(cuò)誤率降低了10倍。2012年對(duì)GPU和深度識(shí)別技術(shù)的了解讓這一領(lǐng)域?qū)崿F(xiàn)了突破。但是,在一個(gè)圖集中,要獲得數(shù)據(jù)和物體之前關(guān)系的信息依然很難,目前所能做的工作都十分有限。李飛飛所在實(shí)驗(yàn)室正在為攻克這一領(lǐng)域展開(kāi)新的研究。
她列舉了一張圖中的算法,這種算法可以預(yù)測(cè)不同物體之間的空間關(guān)系,進(jìn)行對(duì)比,了解這種對(duì)稱(chēng)的關(guān)系,然后了解物體之間的動(dòng)作,以及它們的之間位置關(guān)系。物體之間還能有什么樣的數(shù)據(jù)集,提供一個(gè)標(biāo)簽,進(jìn)行短句子描述。進(jìn)行進(jìn)一步了解視覺(jué)世界,而不僅僅是一系列的物體名稱(chēng),實(shí)驗(yàn)室正在做相關(guān)量化研究。
以下是李飛飛演講實(shí)錄,enjoy:
今天我給大家?guī)?lái)的是最近的一些研究思路,今天我的演講內(nèi)容是關(guān)于視覺(jué)智能,動(dòng)物世界當(dāng)中有很多物種,而且有一種非常了不起,絕大多數(shù)動(dòng)物都有眼睛,因此視覺(jué)是最為重要的一種感觀的方法和認(rèn)知方法,這是在動(dòng)物的大腦當(dāng)中,幫助動(dòng)物在世界當(dāng)中生存下來(lái)進(jìn)行溝通,去操控和生存。
所以我們無(wú)論是討論動(dòng)物智能或者是機(jī)器智能的話,視覺(jué)是非常重要的基石。世界上所存在的這些系統(tǒng)當(dāng)中,最為了解的一點(diǎn)是我們所知道的人類(lèi)視覺(jué)系統(tǒng)。所以在5億多年前的時(shí)候,這個(gè)進(jìn)化已經(jīng)不斷地讓我們的視覺(jué)系統(tǒng)不斷地發(fā)展,使得我們的視覺(jué)系統(tǒng)非常重要的去理解這個(gè)世界,而且這是我們大腦當(dāng)中最為復(fù)雜的系統(tǒng),而且有50%的大腦當(dāng)中的這些認(rèn)知的單位,都有著最為復(fù)雜、最為高級(jí)的感知系統(tǒng),所以能夠讓我們知道人類(lèi)的視覺(jué)系統(tǒng)非常了不起。
這是認(rèn)知心理學(xué)家做過(guò)的一個(gè)最為著名的一個(gè)實(shí)驗(yàn),這也就是告訴大家人類(lèi)的視覺(jué)體系有多么了不起,大家看一下這個(gè)視頻,你的任務(wù)是如果看到一個(gè)人的話就舉手,這是一個(gè)智商測(cè)試。所以每個(gè)圖景的時(shí)間是非常短的,也就是1/10秒,不僅這樣,而且讓大家看一個(gè)人的話,并沒(méi)有告訴你是什么樣的人,或者他站在哪里,什么樣的姿勢(shì),穿什么樣的衣服,然而大家仍然能很快地識(shí)別出這個(gè)人。
1996年的時(shí)候,Newl(音譯)教授學(xué)生證明出視覺(jué)認(rèn)知能力是人類(lèi)大腦當(dāng)中最為了不起的能力,因?yàn)樗俣确浅?欤掖蟾攀?50微秒,在150微秒之內(nèi),我們的大腦能夠區(qū)別非常復(fù)雜的圖像。會(huì)把非常復(fù)雜的含動(dòng)物和不含動(dòng)物的圖像區(qū)別出來(lái),那個(gè)時(shí)候計(jì)算機(jī)沒(méi)有接近人類(lèi)的,這種工作激勵(lì)著計(jì)算機(jī)科學(xué)家,希望解決最為基本的問(wèn)題就是圖像識(shí)別問(wèn)題。
過(guò)了20年到現(xiàn)在,計(jì)算機(jī)領(lǐng)域和專(zhuān)家也在這個(gè)問(wèn)題上發(fā)明了幾代技術(shù),這個(gè)就是我們所了解到的這些圖集,當(dāng)然也取得了非常大的進(jìn)展和進(jìn)步。這張圖表是給大家總結(jié)一下,在過(guò)去的幾年當(dāng)中,KUKA機(jī)器人示教器維修,在分類(lèi)挑戰(zhàn)當(dāng)中一些標(biāo)志性的項(xiàng)目,橫軸是時(shí)間年份,左邊縱軸指的是分類(lèi)錯(cuò)誤。我們能夠看到它的錯(cuò)誤是降低了10倍。8年的時(shí)間里錯(cuò)誤率就降低了十倍,所以這八年當(dāng)中經(jīng)歷了非常大的革命。
2012年的時(shí)候了解了GPU技術(shù),以及深度識(shí)別技術(shù),幫助世界了解在深層學(xué)習(xí)革命的一個(gè)發(fā)展,所以非常令人激動(dòng)的領(lǐng)域,尤其過(guò)去幾十年在人工智能的研究。作為科學(xué)家就會(huì)想一下在這個(gè)圖集之外,還可以做到什么。
通過(guò)一個(gè)例子告訴大家,兩張圖片,包括一個(gè)動(dòng)物和一個(gè)人,通過(guò)圖像識(shí)別來(lái)看這兩個(gè)圖非常相似,但是他們的故事卻是非常不同的,當(dāng)然你肯定不想在右邊的圖的場(chǎng)景當(dāng)中,我們?cè)谶@就會(huì)出現(xiàn)一個(gè)非常重要的問(wèn)題,就是人們能夠做的,這也是最為重要、最為基礎(chǔ)的一點(diǎn)圖像識(shí)別功能,就是識(shí)別圖像物體之間的關(guān)系,首先這個(gè)輸入是圖像本身,但是我們所輸出的信息包括物體的位置以及物體之間的關(guān)系。當(dāng)然這個(gè)領(lǐng)域有一些前期工作,但是絕大多數(shù)工作都是比較有限的。獲得數(shù)據(jù)和物體之間的關(guān)系信息比較有限。
最近我們的實(shí)驗(yàn)當(dāng)中做了這樣一項(xiàng)工作,開(kāi)始新的研究,預(yù)測(cè)根據(jù)深度學(xué)習(xí),以及視覺(jué)化語(yǔ)言模式了解不同物體之間的關(guān)系。
這張圖的算法能夠預(yù)測(cè)不同物體之間的空間關(guān)系,進(jìn)行對(duì)比,了解這種對(duì)稱(chēng)的關(guān)系,然后了解他們之間的動(dòng)作,以及他們的之間位置關(guān)系。所以這就是一個(gè)更為豐富的方法,了解我們的視覺(jué)世界,而不僅僅是一系列的物體名稱(chēng),這是我們所做出的一些量化研究。說(shuō)明我們的工作在不斷地進(jìn)展和取得進(jìn)步的。
一年前的時(shí)候,我們知道這個(gè)領(lǐng)域發(fā)展非常快,就是關(guān)于計(jì)算機(jī)圖像識(shí)別方面。我們也知道有很多新的研究已經(jīng)超過(guò)了我們的研究成果。
我們可以看一下,在他們之間的關(guān)系是什么,而且在這個(gè)圖像當(dāng)中不同物體的關(guān)系,能夠讓我們?nèi)ジM(jìn)一步了解這個(gè)問(wèn)題,就是在物體之間還會(huì)有什么樣的數(shù)據(jù)集。最開(kāi)始我們知道有這個(gè)形象,非常有限的信息,比如這是一個(gè)物體,COCO進(jìn)一步學(xué)習(xí),提供一個(gè)標(biāo)簽,進(jìn)行短句子描述,視覺(jué)數(shù)據(jù)信息是非常復(fù)雜和非常多的,
根據(jù)途徑出來(lái)一些問(wèn)答,經(jīng)過(guò)三年的研究,我們發(fā)現(xiàn)可以有更為豐富的方法來(lái)描述這些內(nèi)容,通過(guò)這些不同的標(biāo)簽,描述這些物體,包括他們的性質(zhì)、屬性以及關(guān)系,然后通過(guò)這樣的一個(gè)圖譜建立起他們之間的聯(lián)系。可以在這看一下這個(gè)內(nèi)容。這樣一個(gè)數(shù)據(jù)庫(kù)當(dāng)中,包括上千個(gè)標(biāo)簽,工業(yè)機(jī)器人維修,包括屬性和關(guān)系,還有句子、問(wèn)答信息,在我們這樣一個(gè)信息庫(kù)當(dāng)中,能夠非常精確地讓我們來(lái)進(jìn)行更加精確的研究,而不僅僅知道物體識(shí)別本身。
我們?nèi)绾蝸?lái)去使用這樣的圖表呢?我們做過(guò)的一個(gè)工作,就是我們看一下這個(gè)場(chǎng)景的搜索,大家無(wú)論在百度還是在Google搜索中,搜索過(guò)圖像或者圖集,比如可以輸入穿西裝的男性,可以展現(xiàn)出很多的圖,如果輸入可愛(ài)的小狗的話,有很多類(lèi)似的圖會(huì)出現(xiàn),這一點(diǎn)非常好。同時(shí)看一下他們解決了什么問(wèn)題呢?是否解決了圖像搜索的問(wèn)題呢?我們輸入一個(gè)句子,男性穿著西裝,抱著可愛(ài)的小狗,瞬間結(jié)果不是特別好了。絕大多數(shù)搜索引擎的這種算法,在搜索圖像的時(shí)候,可能很多還是僅僅使用物體本身的信息,他們只是簡(jiǎn)單地了解這個(gè)圖有什么物體,但是這是不夠的。
如果我想搜索一個(gè)坐在椅子上的男性的話,如果物體本身給我們一個(gè)人形象或者椅子形象再能加上更多的屬性,加上更多的信息,這個(gè)結(jié)果就會(huì)更好一些。




