與大多數AI系統不同,人類在上下文中一起理解文本,視頻,音頻和圖像的含義。例如,給定文本和圖像,當它們分開看時似乎是無害的(例如,“看有多少人愛你”和一張荒蕪的沙漠圖片),人們就會認識到,這些元素在配對或配對時具有潛在的有害含義。并列。
盡管能夠進行這些多模式推斷的系統仍然遙不可及,但是已經取得了進步。過去一年中的新研究推動了多模式學習的最新發展,特別是在視覺問題解答(VQA)子領域,這是一種計算機視覺任務,其中向系統提供有關圖像和圖像的基于文本的問題。必須推斷答案。事實證明,多模式學習可以承載互補的信息或趨勢,只有當它們全部包含在學習過程中時,這些信息或趨勢才會變得明顯。這為從字幕到將漫畫書翻譯成不同語言的應用程序帶來了希望。
在多模式系統中,計算機視覺和自然語言處理模型在數據集上一起訓練,以學習組合的嵌入空間,或由代表圖像,文本和其他媒體的特定特征的變量占據的空間。如果將不同的單詞與相似的圖像配對,則這些單詞很可能用來描述相同的事物或對象,而如果某些單詞出現在不同的圖像旁邊,則表示這些圖像表示相同的對象。那么,多模式系統應該有可能從文本描述中預測諸如圖像對象之類的東西,并且大量的學術文獻已經證明是這種情況。
僅存在一個問題:眾所周知,多峰系統會吸收數據集中的偏差。VQA等任務中涉及的問題和概念的多樣性,以及缺乏高質量的數據,通常會使模型無法學習到“推理”,從而導致他們依靠數據集統計信息做出有根據的猜測。
關鍵見解可能在于Orange實驗室和里昂國家應用科學研究院的科學家開發的基準測試。他們聲稱測量VQA模型準確性的標準度量標準具有誤導性,因此提供了替代方法GQA-OOD,它可以評估無法推理得出的問題的表現。在一項涉及7個VQA模型和3種減少偏見的技術的研究中,研究人員發現這些模型未能解決涉及頻率不高的概念的問題,這表明該領域需要開展工作。
該解決方案可能涉及更大,更全面的培訓數據集。巴黎écoleNormaleSupérieure的工程師,巴黎Inria巴黎以及捷克的信息學,機器人技術和控制論研究所的工程師發表的一篇論文提出了一個VQA數據集,該數據集是由數百萬個旁白的視頻創建的。研究人員稱,該數據集由轉錄視頻中自動生成的問題和答案對組成,消除了手動注釋的需要,同時可以在流行的基準上實現出色的性能。(大多數機器學習模型學會根據自動或手工標記的數據做出預測。)
責任編輯:lq
-
應用程序
+關注
關注
38文章
3292瀏覽量
57860 -
計算機視覺
+關注
關注
8文章
1700瀏覽量
46086 -
數據集
+關注
關注
4文章
1209瀏覽量
24797
發布評論請先 登錄
相關推薦
評論