理解生物視覺和計算機(jī)視覺之間的區(qū)別及存在的主要問題
自人工智能誕生之初,科學(xué)家就一直夢想著創(chuàng)造出能“看到”世界的計算機(jī)。視覺在我們每天做的事情中扮演著關(guān)鍵的角色,破解計算機(jī)視覺的密碼似乎是發(fā)展人工通用智能的主要步驟之一。
但就像人工智能的許多其他目標(biāo)一樣,事實證明,計算機(jī)視覺說起來容易做起來難。1966年,麻省理工學(xué)院的科學(xué)家啟動了“夏季視覺項目”,這是一個為期兩個月的項目,旨在創(chuàng)建一個能夠識別圖像中物體和背景區(qū)域的計算機(jī)系統(tǒng)。但實現(xiàn)這些目標(biāo)所花的時間遠(yuǎn)不止一個暑假。事實上,直到2010年代早期,圖像分類器和目標(biāo)探測器才足夠靈活和可靠,可以在主流應(yīng)用中使用。在過去的幾十年里,機(jī)器學(xué)習(xí)和神經(jīng)科學(xué)的進(jìn)步幫助計算機(jī)視覺取得了巨大的進(jìn)步。但是,要建立一個像我們一樣觀察世界的人工智能系統(tǒng),我們還有很長的路要走。
哈佛大學(xué)醫(yī)學(xué)院教授加Gabriel Kreiman所著的《生物與計算機(jī)視覺》一書對人類和動物如何處理視覺數(shù)據(jù)以及我們在計算機(jī)復(fù)制這些功能方面取得的進(jìn)展進(jìn)行了詳盡的描述。它有助于理解生物視覺和計算機(jī)視覺之間的區(qū)別,并詳細(xì)描述了數(shù)十億年的進(jìn)化是如何讓我們擁有一個復(fù)雜的視覺處理系統(tǒng),以及對它的研究如何幫助激發(fā)出更好的計算機(jī)視覺算法。
1、硬件差異
生物視覺是數(shù)百萬年進(jìn)化的產(chǎn)物,我們可以從生物學(xué)中學(xué)習(xí)如何解決視覺問題,并將這些解決方案作為靈感來構(gòu)建更好的算法。
的確,對視覺皮層的研究是計算機(jī)視覺和人工智能的一大靈感來源。但在將視覺進(jìn)行數(shù)字化之前,科學(xué)家必須克服生物視覺和計算機(jī)視覺之間巨大的硬件差距。生物視覺在皮層細(xì)胞和有機(jī)神經(jīng)元的相互連接的網(wǎng)絡(luò)上運行。而計算機(jī)視覺是在晶體管組成的電子芯片上運行的。
神經(jīng)科學(xué)和醫(yī)學(xué)技術(shù)的進(jìn)步使得以毫秒為粒度研究單個神經(jīng)元的活動成為可能。這些研究的結(jié)果幫助開發(fā)了不同類型的人工神經(jīng)網(wǎng)絡(luò),這種人工智能算法可以大概模擬哺乳動物大腦皮層區(qū)域的工作方式。近年來,神經(jīng)網(wǎng)絡(luò)已被證明是視覺數(shù)據(jù)模式識別中最有效的算法,并已成為許多計算機(jī)視覺應(yīng)用的關(guān)鍵組成部分。
2、體系結(jié)構(gòu)的差異
近幾十年來,深度學(xué)習(xí)領(lǐng)域出現(xiàn)了一系列創(chuàng)新工作,幫助計算機(jī)模擬生物視覺的某些功能。卷積層的靈感來自于對動物視覺皮層的研究,卷積層在尋找視覺數(shù)據(jù)中的模式方面非常有效。池化層有助于泛化卷積層的輸出,使其對視覺模式的位移不那么敏感。疊在一起,卷積和池化層塊可以從尋找小圖案(角、邊等)一直到復(fù)雜物體(臉、椅子、汽車等)。
在生物學(xué)中,大腦中的信息會向多個方向移動:光信號從視網(wǎng)膜到顳下葉皮質(zhì),再到視覺皮層的V1、V2和其他層。但每一層也會向其前序階段提供反饋。在每一層中,神經(jīng)元相互作用并傳遞信息。所有這些互動和相互聯(lián)系幫助大腦填補(bǔ)視覺輸入的空白,并在信息不完整時做出推論。
相比之下,在人工神經(jīng)網(wǎng)絡(luò)中,數(shù)據(jù)通常朝著單一方向移動。卷積神經(jīng)網(wǎng)絡(luò)是“前饋網(wǎng)絡(luò)”,意思是信息只從輸入層傳遞到更高的層和輸出層。有一種反饋機(jī)制叫做“反向傳播”,可以幫助糾正錯誤并調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù)。但是反向傳播在計算上很昂貴,而且只用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。目前還不清楚反向傳播是否直接對應(yīng)于皮層的反饋機(jī)制。另一方面,將高層的輸出與前一層的輸入相結(jié)合的循環(huán)神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺中的應(yīng)用還很有限。
3、目標(biāo)的差異
通過演進(jìn),已經(jīng)發(fā)展出一種能夠完成許多任務(wù)的神經(jīng)結(jié)構(gòu)。研究表明,我們的視覺系統(tǒng)可以動態(tài)地調(diào)整它對我們想要完成的目標(biāo)的敏感度。然而,創(chuàng)建具有這種靈活性的計算機(jī)視覺系統(tǒng)仍然是一個重大挑戰(zhàn)。
目前的計算機(jī)視覺系統(tǒng)是為完成一項任務(wù)而設(shè)計的。我們有神經(jīng)網(wǎng)絡(luò)可以分類物體,定位物體,將圖像分割成不同的物體,描述圖像,生成圖像,等等。
但核心問題是理解“視覺慣例”——我們怎樣才能以任務(wù)相關(guān)的方式靈活地傳遞視覺信息呢?從本質(zhì)上說,你可以在一張圖像上回答無數(shù)個問題,不只是標(biāo)記對象,還可以計算對象,可以描述它們的顏色,它們的相互作用、大小等等。我們可以建立不同網(wǎng)絡(luò)來做這些事情,但我們沒有網(wǎng)絡(luò)可以同時做所有這些事情。雖然通過問答系統(tǒng)可以找到一些有趣的方法,但與人類的表現(xiàn)相比這些算法但仍然相當(dāng)原始。
4、集成的差異
在人類和動物中,視覺與嗅覺、觸覺和聽覺密切相關(guān)。視覺、聽覺、軀體感覺和嗅覺皮質(zhì)相互作用,從對方那里獲取線索,以調(diào)整他們對世界的推斷。而在AI系統(tǒng)中,這些內(nèi)容都是獨立存在的。
我們需要這種整合來制造更好的計算機(jī)視覺系統(tǒng)嗎?作者說:“作為科學(xué)家,我們經(jīng)常喜歡把問題分開來解決,我個人認(rèn)為這是一個合理的開始方式。沒有嗅覺和聽覺,我們也能看得很清楚。例如卓別林的默片電影。如果一個人天生耳聾,他們?nèi)匀豢梢钥吹煤芮宄km然有很多有趣的跨模式相互作用的例子,但我認(rèn)為,通過這種簡化,我們將取得很大進(jìn)展。”
然而,更復(fù)雜的問題是視覺與大腦中更復(fù)雜的區(qū)域的整合。人類的視覺與其他大腦功能如邏輯、推理、語言和常識深度融合。一些視覺問題可能花費更多的時間,需要將視覺輸入與現(xiàn)有的世界知識相結(jié)合。語言和常識等領(lǐng)域本身就是人工智能的巨大挑戰(zhàn)。但是,這些問題是可以單獨解決,還是整合本身就是解決所有問題的關(guān)鍵,仍有待觀察。
總結(jié)
在某種程度上,我們需要研究認(rèn)知的所有其他方面,很難想象在沒有語言和邏輯的情況下如何整合認(rèn)知。希望在未來的幾年里,將更多的語言和邏輯整合到視覺模型中;反之,也可以將視覺整合到語言模型中,這將是令人興奮的重大努力。
聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載請注明出處,請勿轉(zhuǎn)載至外網(wǎng)或用于商業(yè)用途。
- 免責(zé)聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。