試想一下,你的電腦里存了成千上萬(wàn)張未分類(lèi)的照片,然而只要你在腦海里想象一下初戀花兒般的臉,系統(tǒng)就可以自動(dòng)幫你找到那張照片。又或者,不需要提筆,你就可以畫(huà)出廚房設(shè)計(jì)草圖。甚至,給你的愛(ài)人發(fā)一張唯美的日落照,盡管這張照片你從來(lái)沒(méi)有拍到過(guò)。
顯然,能夠讀懂人類(lèi)在想什么(會(huì)讀心術(shù))的計(jì)算機(jī)在日常生活中大有用武之地,特別是對(duì)殘疾人來(lái)說(shuō),他們急需一種高效的交流工具。
雖然這些場(chǎng)景聽(tīng)起來(lái)都非常夢(mèng)幻,但是科學(xué)家們正在努力向這一夢(mèng)想靠近。
如今,來(lái)自日本京都大學(xué)科學(xué)家們已經(jīng)創(chuàng)造了一種算法,它可以解釋并準(zhǔn)確地重現(xiàn)他人看到或想象的圖像。這項(xiàng)技術(shù)可能仍然需要數(shù)十年的時(shí)間才能投入實(shí)際使用,但是研究人員距離這個(gè)可以投射我們內(nèi)心世界的系統(tǒng)又近了一步。
美國(guó)印第安納州普渡大學(xué)計(jì)算機(jī)科學(xué)家 Zhongming Liu 評(píng)價(jià)說(shuō):“它的運(yùn)行效果非常好,這讓我印象深刻。”此前,Zhongming Liu 曾開(kāi)發(fā)了一種算法,可以在一定程度上重現(xiàn)電影愛(ài)好者觀影時(shí)所看到的內(nèi)容。
實(shí)際上,使用算法來(lái)解碼心理圖像并不新鮮。自2011年以來(lái),已經(jīng)有研究人員通過(guò)將大腦活動(dòng)與早先觀看圖像時(shí)記錄的活動(dòng)進(jìn)行匹配,重構(gòu)了影像片段、照片甚至是夢(mèng)中的意象。但是,這些方法都有很大的局限性:有些方法只能處理臉型,有些方法必須從預(yù)先設(shè)置好的圖片和類(lèi)別中選擇,而不能從頭開(kāi)始構(gòu)建圖像。
而這一次的工作則可以立即生成圖像,甚至再現(xiàn)人類(lèi)想象中而非親眼所見(jiàn)的圖形的形狀。
為了弄清楚一個(gè)人看到的到底是什么,京都大學(xué)的研究人員使用了功能磁共振成像(fMRI),來(lái)測(cè)量大腦的血液流量,作為大腦神經(jīng)活動(dòng)的衡量值。在實(shí)驗(yàn)中,研究人員讓三名測(cè)試人員每次觀察 1000 多張圖像,并重復(fù)幾次,然后以此來(lái)映射出可視化處理區(qū)域,分辨率可達(dá) 2mm。這樣做的目的是,觀察大腦在思考圖像時(shí)的活動(dòng),并讓計(jì)算機(jī)構(gòu)建出一幅能夠讓大腦產(chǎn)生相同活動(dòng)的圖像。
計(jì)算機(jī)會(huì)反復(fù)修改繪制的圖像,一直到正確為止。除此之外,該研究團(tuán)隊(duì)還為大腦建立了一個(gè)軟件平臺(tái)——一個(gè)深度神經(jīng)網(wǎng)絡(luò)(DNN)。日本京都大學(xué)的神經(jīng)科學(xué)家,同時(shí)也是該論文的作者 Yakiyasu Kamitani 表示:“我們相信深層神經(jīng)網(wǎng)絡(luò)可以很好地代表大腦的分層處理,通過(guò)使用 DNN,我們可以從不同層面的大腦視覺(jué)系統(tǒng)中提取出信息。”從簡(jiǎn)單的光線對(duì)比度到人臉,都屬于這些信息。
使用解碼器,研究人員可以創(chuàng)建人類(lèi)大腦對(duì)圖像的反應(yīng)的表示,只不過(guò)這個(gè)表示存在于 DNN 中。從此以后,研究人員便不再需要進(jìn)行fMRI測(cè)量,用 DNN 來(lái)轉(zhuǎn)換就可以了。
當(dāng)系統(tǒng)猜測(cè)某人正在查看的是什么內(nèi)容時(shí),這里的“翻譯”就起到了模板的作用,而不再需要fMRI數(shù)據(jù)。然后系統(tǒng)會(huì)嘗試?yán)L制出圖片,然后觸發(fā) DNN 與此模板進(jìn)行匹配,這一過(guò)程會(huì)不斷重復(fù),直到繪制出我們希望的圖像為止。
一開(kāi)始,這個(gè)系統(tǒng)會(huì)隨機(jī)生成圖像,然后不斷地改進(jìn)并細(xì)化圖像,一共迭代 200 輪。為了讓其更接近理想中的圖像,系統(tǒng)會(huì)將 DNN 活動(dòng)與模板 DNN 活動(dòng)進(jìn)行比較,自動(dòng)計(jì)算兩者之間的差異,以此來(lái)擬合一個(gè)個(gè)像素,知道接近理想的圖像。
為了讓最終的成像更加準(zhǔn)確,研究人員開(kāi)發(fā)了一個(gè)“深層生成器網(wǎng)絡(luò)”(DGN),這種算法已經(jīng)進(jìn)行過(guò)預(yù)訓(xùn)練,可以根據(jù)輸入生成逼真的成像。DGN 將細(xì)化這些圖像,使其看起來(lái)更加自然。研究人員表示,一旦加入了 DGN,一個(gè)中立的人類(lèi)觀察員可以輕易地分辨兩張圖片中哪張是我們希望重建的,而且準(zhǔn)確率可達(dá) 99%。
接下來(lái),研究人員開(kāi)始嘗試讀懂人類(lèi)想象圖像時(shí)的腦部活動(dòng)。如何進(jìn)行這項(xiàng)研究呢?他們讓參與實(shí)驗(yàn)的人員回憶之前展示過(guò)的圖像,包括一條魚(yú)、一架飛機(jī)、以及一些簡(jiǎn)單的彩色圖形,然后依次掃描他們的大腦。實(shí)驗(yàn)證明,這種方法對(duì)于復(fù)雜的照片并不適用,對(duì)圖形卻很有效,研究表明,生成器 83% 的時(shí)間里都可以生成一張可識(shí)別的圖像。
首先,輸入圖像的像素值會(huì)被優(yōu)化,以便使圖像的 DNN 特征與從 fMRI 活動(dòng)記錄中解碼出來(lái)的特征相似。之后,深度生成器網(wǎng)絡(luò)(DGN)可以有選擇的與 DNN 組合,以生成自然的圖片,其中,優(yōu)化過(guò)程在 DGN 的輸入層執(zhí)行。
圖1:深度圖像重建。
圖2:自然圖像重建。黑框和灰框分別代表展示的圖像和重建的圖像。
圖 3:人眼看到的形狀重建。黑框和灰框分別代表展示和重建的圖像。
圖 4:意象重建。黑框和灰框分別代表目標(biāo)圖像和重建圖像。
哥倫比亞大學(xué)祖克曼研究所(Zuckerman Institute)的計(jì)算神經(jīng)科學(xué)家 Nikolaus Kriegeskorte 雖然認(rèn)為這是一項(xiàng)“有趣而且謹(jǐn)慎”的工作,但是他提出了自己的疑問(wèn):計(jì)算機(jī)生成的圖像的不準(zhǔn)確性,和大腦活動(dòng)測(cè)量的限制,到底有多大關(guān)聯(lián),以及它們?cè)诙啻蟪潭壬希磻?yīng)了我們的大腦是如何錯(cuò)誤解讀圖像的。
Kriegeskorte 表示:“更高分辨率的 fMRI 結(jié)合其他大腦成像技術(shù)可能會(huì)進(jìn)一步改善現(xiàn)在的結(jié)果。隨著更先進(jìn)的測(cè)量方式的出現(xiàn)以及算法的不斷改進(jìn),未來(lái)我們有可能會(huì)通過(guò)意念圖片來(lái)進(jìn)行交流。
-
算法
+關(guān)注
關(guān)注
23文章
4629瀏覽量
93202 -
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7534瀏覽量
88476 -
fMRI
+關(guān)注
關(guān)注
0文章
5瀏覽量
7149
原文標(biāo)題:AI讀心術(shù):想象一下,計(jì)算機(jī)就可以重現(xiàn)意念中的畫(huà)面
文章出處:【微信號(hào):AI_Thinker,微信公眾號(hào):人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論