原神p站黄本子免费看网站,午夜国产精品视频,丝袜情趣在线资源二区

Human-Object Interac tion (HOI) Detection Background and Motivations

HOI Detection要求定位出存在交互的人、物并給出兩者之間的動作關系，即最終要求給出三元組$$。實際的HOI系統執行以人為中心的場景理解，因此有著廣泛的用途，例如監控事件監測和機器人模仿學習。

傳統的HOI范式傾向于以多階段的方式來解決這個有挑戰性的復雜問題，即先執行object detection，再執行動作關系的分類，這種范式需要繁重的后處理（post-processing），例如啟發式匹配來完成任務，這導致其無法以端到端的方式進行training，導致了次優的性能。

最近sota的一系列HOI方法往往受啟發于DETR，將HOI Detection視為集合預測問題來克服這一問題，實現end-to-end的訓練優化，這類方法的基本流程如下圖（a）中所示，可以看出，這類方法往往利用transformer來將可學習的queries映射為HOI的預測集合，從而實現one-stage的HOI detection

然而，這些HOI檢測范式中的parametric interaction queries（參數化的交互queries）往往是隨機初始化的，這就導致范式中的queris和輸出HOI 預測之間的對應關系是動態的，其中對應于每個目標HOI三元組的query，例如$$，在預測開始時往往是未知的，這將嚴重影響模型去探索先驗知識，即inter-interaction 或 intra-interaction structure，即交互間的結構性關系和交互內的結構性關系知識，而這對于交互間的關系reasoning是非常有幫助的。

（a）之前的Transformer風格的HOI檢測范式（b）本文方法示意圖

Inter&Intra-interaction Structure For HOI Detection

交互間的結構性（Inter-interaction Structure）非常有助于互相提供線索來提高檢測效果，例如上圖中“human wear (baseball) glove” 就提供了非常強的線索來提示另一個interaction：“human hold bat”，有趣的是,內部交互結構（Intra-interaction Structure）可以解釋為每個HOI三元組的局部空間結構，例如人和物體的布局結構以一種額外的先驗知識來將model的注意力引導到有效的圖像區域，從而描述交互行為。

STIP : Structure-aware Transformer over Interaction Proposals

講了背景知識和基本的motivations，終于步入正題了，作者提出的方法叫做STIP（ Structure-aware Transformer over Interaction Proposals），其將一階段的HOI檢測方案分解為了兩階段的級聯pipeline：首先產生交互proposals（有可能存在交互的人-物對），接著基于這些proposal 執行HOI集合預測，如上圖中所示，STIP將這些proposal視為非參交互queries，從而啟發后續的HOI集合預測問題，也可以將其視為靜態的、query-based的HOI檢測pipeline。

下面將分別介紹Interaction Proposal Network 、Interaction-centric Graph和Structure-aware Transformer。

STIP整體流程示意圖

Interaction Proposal Network

STIP利用DETR作為物體（和人）檢測的base network，訓練過程中，DETR部分的權重是凍住的，不進行學習，基于DETR給出的檢測結果，Interaction Proposal Network（IPN）將構建存在潛在交互的的human-object對，對于每個human-object對，IPN將通過MLP給出潛在交互的分數，即 interactiveness score。只有Top-K個最高得分的human-object對將送入下一階段。

Human-Object Pairs Construction

STIP為了充分利用knowledge，從不同的信息層次來構建Human-Object對，每個HO對都由外觀特征、空間特征、和語言學特征（linguistic features）來構成。具體來說，外觀特征是從DETR中得到的human和object實例特征來構建，即分類頭前的、256通道維度的區域特征（即ROI區域特征）。我們將human和object的bounding box定義為： and ，則空間特征由

來構建，其中，則分別代表了人的區域，物體的區域，交叉的區域和聯合bounding box的區域信息。語言學特征則是將bounding box的類別名編碼為one-hot向量，向量的通道維度大小為300。每個HO對都將被如上方式進行表征，最終concat到一起，送入MLP中。

Interactiveness Prediction

構建Human-Object Pairs 后，將構建出的Human-Object Pairs 經過hard mining strategy（難樣本挖掘策略）來篩選出負樣本，正樣本則是由置信度大于0.5的human和object的bounding box IOUs組成。STIP需要預測出每個proposal成立的可能度，因此將其視為一個二分類問題，從而利用Focal loss來進行優化。在推理階段，只有top-K個最高得分的human-object 對將被送入下個階段作為交互proposal。

Interaction-Centric Graph

利用IPN來篩選出潛在的proposal后，接著STIP利用Interaction-Centric Graph來充分利用豐富的inter-interaction和intra-interaction structure的先驗知識，在實際實現中，將每個interaction proposal作為一個單一的graph node（圖節點），因此完整的interaction-centric graph利用每兩個nodes之間的連接來作為圖的edge。

Exploit Inter-interaction in Interaction-Centric Graph

回到本文開頭提到的motivation：交互間的結構性（Inter-interaction Structure）非常有助于互相提供線索來提高檢測效果，舉個栗子，當圖中有一個interaction為 human hold mouse，那么很有可能圖中還有另一個相同human instance的interaction：human look-at screen。這個有趣的先驗現象啟發了作者構建一個graph來充分利用該prior的知識。作者定義了下圖所示的六種交互間的關系來充分利用該先驗：

這六種類間語義關系由兩個交互proposal之間是否共享相同的humanobject來被具體指派。

Exploit Intra-interaction in Interaction-Centric Graph

接著我們看本文開頭提到的另一條motivation：內部交互結構（Intra-interaction Structure）可以解釋為每個HOI三元組的局部空間結構，例如人和物體的布局結構以一種額外的先驗知識來將model的注意力引導到有效的圖像區域。 STIP也通過分類、編碼來利用interaction內的空間關系，如下圖所示：

將背景、union、human、object、intersection分別進行轉換編碼，從而將spatial layout structures編碼進features中，參與特征交互。

Structure-aware Self-attention & Structure-aware Cross-attention

Structure-aware Self-attention & Structure-aware Cross-attention和傳統的self- attention基本類似，就不細講了～其中值得注意的是，作者受相對位置編碼的啟發，將每個key 與其的 inter-interaction semantic dependency 結合：

Training Objective

針對action的監督，也是利用folcal loss：

Experiments

可以看出，在VCOCO數據集上，STIP的性能非常強勁，比之前的IDN高了十幾個點，HICO-DET上的性能也很強。

Ablation Study

從消融實驗中可以看出， inter-interaction 和intra-interaction的相關module都非常漲點，

Conclusion

STIP不同與以往的query-based 范式，將proposal set prediction拆開為兩個stage，第一個stage產生高質量的queries，其中融合了豐富、多樣的的prior features來充分利用背景知識，從而有了非常驚艷的性能效果。

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

編碼器

編碼器

+關注

關注
45

文章
3651

瀏覽量
134826
ROI

ROI

+關注

關注
0

文章
14

瀏覽量
6264
MLP

MLP

+關注

關注
0

文章
57

瀏覽量
4258

原文標題：CVPR2022 人-物交互檢測中結構感知轉換

文章出處：【微信號：GiantPandaCV，微信公眾號：GiantPandaCV】歡迎添加關注！文章轉載請注明出處。

人機交互界面設計在產品設計中的應用

`　　人機交互界面是產品設計中實現人與機器信息傳遞的界面，是人、機器及環境發生交互關系的具體表達形式，是用戶與機器

發表于 01-25 16:18

【設計技巧】rtos的核心原理簡析

rtos的核心原理簡析rtos全稱real-time operating system（實時操作系統），我來簡單分析下：我們都知道，c語句中調用一個函數后，該函數的返回地址都是放在堆棧中

發表于 07-23 08:00

怎樣去設計一種基于物聯網感知的家居人體健康狀況檢測系統

=>身高串口獲取不定長數據摘要為滿足家居生活中檢測身體健康狀況的需求，鑒于現有的健康檢測系統具有使用環境局限性大、測試指標不夠完善、不能聯網等缺點，本系統從物聯網

發表于 07-28 08:31

如何去實現一種基于物聯網感知的家居人體健康狀況檢測系統設計

為什么要設計一種基于物聯網感知的家居人體健康狀況檢測系統？如何去實現一種基于物聯網

發表于 10-20 06:23

CVPR2022 人-物交互檢測中結構感知轉換相關資料推薦

1、CVPR2022人-物交互檢測中結構感知

發表于 11-09 17:26

OpenHarmony應用核心技術理念與需求機遇簡析

一、核心技術理念圖片來源：OpenHarmony官方網站二、需求機遇簡析新的萬物互聯智能世界代表著新規則、新賽道、新切入點、新財富機會;各WEB網站、客戶端( 蘋果APP、安卓

發表于 09-22 16:12

EPON技術簡析

EPON技術簡析 EPON是一個新技術，用于保證提供一個高品質與高帶寬利用率的應用。　　EPON在日本、韓國、中國大陸、中國臺灣及其它以以太網絡為基礎的地區都

發表于 01-22 10:43 ?874次閱讀

鼠標HID例程(中)簡析

鼠標 HID 例程簡析緊接《鼠標 HID 例程簡析（上）》一文，繼續向大家介紹鼠標 HID

發表于 07-26 15:18 ?0次下載

工業機器人技術特點現狀情況及技術趨勢簡析

一般來說，工業機器人由3大部分6個子系統組成。3大部分是機械部分、傳感部分和控制部分。6個子系統可分為機械結構系統、驅動系統、感知系統、機器人

發表于 08-08 08:50 ?2909次閱讀

簡析555電壓檢測電路資料下載

電子發燒友網為你提供簡析555電壓檢測電路資料下載的電子資料下載，更有其他相關的電路圖、源代碼、課件教程、中文資料、英文資料、參考設計、用戶指南、解決方案等資料，希望可以幫助到廣大的電子工程師們。

發表于 04-13 08:41 ?25次下載

5G AAU 功放控制和監測模塊簡析

5G AAU 功放控制和監測模塊簡析

發表于 10-28 12:00 ?2次下載

AFE8092幀同步特性簡析

AFE8092幀同步特性簡析

發表于 08-24 13:37 ?671次閱讀

簡析電動汽車充電樁檢測技術應用及分析

簡析電動汽車充電樁檢測技術應用及分析張穎姣安科瑞電氣股份有限公司?上海嘉定 201801 摘要：直流和交流充電樁是我國當前電動汽車充電樁中投運數量多的種類，為了維持正常運行和使用，

發表于 02-26 10:52 ?1494次閱讀

【鴻蒙】OpenHarmony 4.0藍牙代碼結構簡析

OpenHarmony 4.0藍牙代碼結構簡析前言 OpenHarmony 4.0上藍牙倉和目錄結構進行一次較大整改，本文基于4.0以上版本

發表于 02-26 16:08 ?1619次閱讀

簡析智慧燈桿一鍵告警功能的實用場景

智慧路燈桿是一種兼具智能化和多功能的新型物聯網基礎設施，通過搭載一鍵告警對講盒，能夠大大豐富安防及報警求助資源，對提升城市的安全性和管理效能具有重要的作用。本篇就結合城市中的不同場景，

發表于 04-28 16:42 ?385次閱讀