近日,李飛飛的斯坦福大學視覺實驗室發布了一篇即將在 CVPR 2018上要介紹的論文 Referring Relationships(指稱關系),這篇論文主要研究的問題是給出一張圖像中實體的關系網絡,從而讓 AI 迅速定位出某一主體所對應的客體,或者某一客體所對應的主體。
圖像不僅僅是對象集合,每個圖像都代表一個互相關聯的關系網絡。實體之間的關系具有語義意義,并能幫助觀察者區分實體的實例。例如,在一張足球比賽的圖像中,可能有多人在場,但每個人都參與著不同的關系:一個是踢球,另一個是守門。
在本文中,我們制定了利用這些“指稱關系”來消除同一類別實體之間的歧義的任務。我們引入了一種迭代模型,它將指稱關系中的兩個實體進行定位,并相互制約。我們通過建模謂語來建立關系中實體之間的循環條件,這些謂語將實體連接起來,將注意力從一個實體轉移到另一個實體。
我們證明了我們的模型不僅好于在三種數據集上實現的現有方法--- CLEVR,VRD 和 Visual Genome ---而且它還可以產生視覺上有意義的謂語變換,可以作為可解釋神經網絡的一個實例。最后,我們展示了將謂語建模為注意力轉換,我們甚至可以在沒有其類別的情況下進行定位實體,從而使模型找到完全看不見的類別。
▌指稱關系任務
指稱表達可以幫助我們在日常交流中識別和定位實體。比如,我們能夠指出“踢球人”來區分“守門員”(圖 1)。在這些例子中,我們都可以根據他們與其它實體的關系來區分這兩人。 當一個人射門時,另一個人守門。 最終的目標是建立計算模型,以識別其他人所指的實體。
圖1:指稱關系通過使用實體間的相對關系來消除同一類別實例之間的歧義。給出這種關系之后,這項任務需要我們的模型通過理解謂語來正確識別圖像中的踢球人。
▌指稱關系模型
我們的目標是通過對指稱關系的實體進行定位,從而使用輸入的指稱關系來消除圖像中的實體歧義。 形式上而言,輸入是具有指稱關系的圖像 I,R = ,它們分別是主體,謂語和對象類別。 預計這個模型可以定位主體和客體。
▌模型設計
圖 2:指稱關系的推理首先要提取圖像特征,這是用于生成主體和客體的基礎。接下來,這些估值可以用來執行轉換注意力,注意力使用了從主體到我們所期望客體位置的謂語。在對客體的新估值進行細化的同時,我們通過關注轉換區域來修改圖像特征。同時,我們研究了從初始客體到主體的反向移位。通過兩個預測移位模塊迭代地在主體和對象之間傳遞消息,可以最終定位這兩個實體。
▌實驗
我們在跨三個數據集的指稱關系中評估模型性能來進行實驗操作,其中每個數據集提供了一組獨特的特征來補充我們的實驗。 接下來,我們評估在輸入指稱關系中缺少其中一個實體的情況下如何改進模型。 最后,通過展示模型如何模塊化并用于場景圖注意力掃視來結束實驗。
以下是我們在 CLEVR、VRD 和 Visual Genome 上的評估結果。 我們分別標出了對主題和對象定位的 Mean IoU 和 KL 分歧:
在三種測試條件下缺少實體的指稱關系結果:
圖 3:(a)相對于圖像中的主體,當使用關系來查找客體時,左邊的謂語會把注意力轉移到右邊。相反,當使用物體找到主體時,左側的逆謂語會將注意力轉移到左側。在輔助材料中,我們可視化了 70 個 VRD、6 個 CLEVR 和 70 個 Visual Genome 的謂語和逆謂語轉化(b)我們還看到,在查看用于了解它們的數據集時,這些轉換是直觀的。
圖 4:這是 CLEVR 和 Visual Genome 數據集的注意力轉移如何跨越多次迭代的示例。在第一次迭代時,模型僅接收試圖找到以及嘗試定位這些類別中所有實例的實體信息。在后面的迭代中,我們看到謂語轉換注意力,這可以讓我們的模型消除相同類別的不同實例之間的歧義。
圖 5:我們可以將我們的模型分解成其注意力和轉換模塊,并將它們堆疊起來作為場景圖的節點。 在這里,我們演示了如何使用模型從一個節點(手機)開始,并使用指稱關系來通過場景圖連接節點,并在短語<拿電話的人旁邊有人身穿夾克>中定位實體。 第二個例子是關于<在戴帽子的人的右邊有個人一張桌子前>中的實體。
▌結論
-
神經網絡
+關注
關注
42文章
4774瀏覽量
100898 -
圖像
+關注
關注
2文章
1087瀏覽量
40501
原文標題:李飛飛團隊最新論文:如何對圖像中的實體精準“配對”?
文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論