色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

兩種應用于3D對象檢測的點云深度學習方法

新機器視覺 ? 來源:新機器視覺 ? 2024-01-03 10:32 ? 次閱讀

隨著激光雷達傳感器(“光檢測和測距”的縮寫,有時稱為“激光掃描”,現在在一些最新iPhone 上可用)或 RGB-D 攝像頭(一種 RGB-D 攝像頭)的興起,3D 數據變得越來越廣泛。D 圖像是標準 RGB 圖像與其關聯的“深度圖”的組合,目前由 Kinect 或英特爾實感技術使用。3D 數據可以對傳感器周圍環境進行豐富的空間表示,并可應用于機器人智能家居設備、無人駕駛汽車或醫學成像。

3D 數據可以采用多種格式:RGB-D 圖像、多邊形網格、體素、點云。點云只是一組無序的坐標三元組 (x, y, z),這種格式已經變得非常流行,因為它保留了所有原始 3D 信息,不使用任何離散化或 2D 投影。從根本上講,基于 2D 的方法無法提供準確的 3D 位置信息,這對于機器人或自動駕駛等許多關鍵應用來說是個問題。

因此,直接在點云輸入上應用機器學習技術非常有吸引力:它可以避免執行 2D 投影或體素化時發生的幾何信息丟失。由于 3D 數據固有的豐富特征表示,點云深度學習在過去 5 年中引起了廣泛關注。

但也存在一些挑戰:輸入的高維度和非結構化性質,以及可用數據集的小規模及其噪聲水平。此外,點云本質上是被遮擋和稀疏的:3D 對象的某些部分對傳感器來說只是隱藏的,或者信號可能會丟失或被阻擋。除此之外,點云本質上是不規則的,使得 3D 卷積與 2D 情況非常不同(見下圖)。

受 ML6 客戶的幾個用例的啟發,我們研究了兩種應用于 3D 對象檢測的點云深度學習方法(VoteNet 和 3DETR)。兩者都是由 Facebook 研究團隊發明的(請參閱下面的鏈接部分中 Facebook 研究文章的鏈接[5]、[6]和[7])。該模型的目標是使用點云(從 RGB-D 圖像預處理)并估計定向 3D 邊界框以及對象的語義類別。

1、數據預處理

我們一直使用的主要數據集是 SUN RGB-D 數據集。它包括室內場景(臥室、家具店、辦公室、教室、浴室、實驗室、會議室等)的 10,335 個 RGB-D 圖像。這些場景使用圍繞 37 種對象的 64,595 個定向 3D 邊界框進行注釋,其中包括椅子、桌子、枕頭、沙發……(請參閱鏈接[1]、[2]、[3]和[4]鏈接部分詳細說明數據集的各種來源以及用于創建數據集的方法)。在訓練期間通過應用點云的隨機子采樣、翻轉、旋轉和隨機縮放來使用數據增強。

RGB-D 圖像到濁點的轉換是通過圖像中給定坐標處的 2D 坐標和深度值的線性變換來完成的,同時考慮到相機的固有特性?;镜娜菍W考慮導致了這種線性變換的數學公式(有關更詳細的解釋,請參閱[8])。下圖(由 yodayoda Inc. 在[8]中提供)說明了該操作。預處理可以使用 Matlab 函數來完成,例如 Facebook 團隊的代碼(需要對代碼進行一些更改才能使其與免費版本 Octave 一起使用,這會顯著減慢預處理速度)或使用 Open3D 開源庫(請參閱 鏈接部分鏈接[9]到圖書館的主頁)。

2、Pointnet++ 和 VoteNet

第一種方法 VoteNet ([5]) 使用 Pointnet++ ([7]) 作為主干(均來自同一作者 Charles R. Qi)。

Pointnet++ 將點云作為輸入并輸出輸入云的子集,但每個點都有更多特征,并且現在豐富了有關局部幾何圖案的上下文。這與卷積網絡類似,只是輸入云以數據相關的方式進行子采樣,特定點周圍的鄰域由度量距離定義,并且該鄰域中的點數是可變的。下圖(摘自[7])說明了 Pointnet++ 架構。

df971f00-a9ca-11ee-8b88-92fbcf53809c.png

圖片

該圖像上的 Pointnet 層創建每個局部區域的抽象(由固定半徑定義)。每個局部區域都被轉換為由其質心和豐富特征組成的向量,從而形成鄰域的抽象表示。在我們的特定情況下,原始輸入點云由可變數量(20,000 或 40,000)的三元組(x、y、z)組成,Pointnet++ 主干網的輸出是一組 1,024 個維度為 3+256 的點。主干中的每個 Pointnet 層只是一個多層感知器(每個 1 或 2 個隱藏層)。

用于 3D 對象檢測的 VoteNet 方法使用 Pointnet++ 的輸出并應用“深度霍夫投票”。下圖說明了該方法(摘自[5])。

dfa90364-a9ca-11ee-8b88-92fbcf53809c.png

圖片

主干輸出的每個點(具有豐富的特征)都被輸入到共享的多層感知器中以生成投票(“投票模塊”):該投票神經網絡輸出點(其輸入)和點的質心之間的位移三元組。它所屬的對象(如果有)。它經過訓練,可以最大限度地減少位移的范數,并添加一些有助于投票聚合的額外功能。

如上圖所示,投票被聚集。每個簇都被饋送到“提議和分類模塊”(實際上是 2 個多層感知器),該模塊輸出一個預測向量,包括:客觀性得分、邊界框參數和語義分類得分。這三個元素中的每一個都構成一個損失函數(如果我們添加上面提到的投票回歸損失,那么總共 4 個元素):對象交叉熵損失、邊界框估計損失和類別預測損失。

3、3DETR

3DETR 方法(在[6]中描述)是一種純粹基于Transformer的方法,與普通transformer架構相比幾乎沒有任何修改,這是非常了不起的。3DETR 架構如下圖所示(摘自[6])。

dfc38612-a9ca-11ee-8b88-92fbcf53809c.png

圖片

Transformer 編碼器從子采樣+集合聚合層接收輸入,就像上面描述的 Pointnet++ 主干一樣(除了在這種情況下該操作僅應用一次,而不是在 Pointnet++ 中應用多次)。然后,Transformer 編碼器應用多層自注意力和非線性投影(在我們的例子中,有 3 個多頭注意力層,每個層有 8 個頭)。不需要位置嵌入,因為該信息已包含在輸入中。自注意力機制是排列不變的,并且允許表示長范圍依賴。話雖這么說,編碼器中的自注意力層可以使用掩碼進行修改,以便關注局部模式而不是全局模式。

解碼器由多個transformer塊組成(在我們的例子中為 8 個)。它接收查詢并預測 3D 邊界框。查詢是通過從輸入云中采樣一些點(在我們的例子中為 128 個)并將它們輸入到位置嵌入層和隨后的多層感知器中來生成的。

4、實戰案例

這是來自 SUN RGB-D 數據集的 RGB-D 圖像的示例。

然后圖像被預處理成 20,000 或 80,000 個點的點云。你可以使用 MeshLab 可視化各種 3D 數據,包括點云。

VoteNet 或 3DETR 算法現在可以預測邊界框(和對象類)。

5、性能表現

為了評估 3D 對象檢測技術,最廣泛使用的指標是平均精度 (mAP):平均精度 (AP) 是精度-召回率曲線下的面積,平均精度 (mAP) 是所有對象的平均值 類。IoU(交并集)閾值固定為 0.25 或 0.5,為我們提供 AP25 或 AP50 指標。這控制了預測邊界框和真實邊界框之間所需的重疊。

我們在 Google Cloud Platform 虛擬機上的 SUN RGB-D 訓練集上對 VoteNet 模型進行了 180 個 epoch 的訓練(如[5]的作者所建議),并在測試集上獲得了 57% 的 AP25(如[5])。我們的 VoteNet 模型大小合理,具有大約 100 萬個可訓練參數。

至于3DETR模型,該模型更大,有700萬個可訓練參數,需要訓練360個epoch才能在SUN RGB-D數據集上達到57%的AP25。這需要幾天的訓練。幸運的是,[6]的作者公開了一個在 SUN RGB-D 上預訓練了 1080 個 epoch 的模型。我們對其進行了測試,得到了與 VoteNet 相同的 AP25,即 57%。編碼器中帶有屏蔽自注意力的 3DETR 模型版本也可用,并且性能稍好一些。應該指出的是,根據[6]的作者的說法,性能增益在另一個數據集上更為重要(ScanNetV2 請參閱下面該數據集的更多信息)。

6、遷移學習

一個重要的考慮因素是將預訓練模型(例如[5]和[6]的作者提供的模型)轉移到我們客戶的數據上的能力。這在 3D 對象檢測的情況下尤其重要,因為數據難以注釋、被遮擋且有噪聲。

我們測試了在 ScanNetV2 數據集上訓練的 VoteNet 到 SUN RGB-D 數據集的可遷移性。ScanNetV2(詳細信息請參閱[10])是一個由室內場景重建的 1,200 個 3D 網格的帶注釋數據集。它確實包括 18 個對象類別 雖然 SUN RGB-D 和 ScanNetV2 都屬于相似的室內場景領域,但它們實際上完全不同:ScanNetV2 中的場景覆蓋更大的表面、更完整并包含更多對象。對 ScanNetV2 數據集中的頂點進行采樣以創建輸入點云。

我們使用在 ScanNetV2 上預訓練了 180 個 epoch 的 VoteNet 模型。我們盡可能保留了這個模型的內容:主干模塊、投票模塊以及除最后一個輸出層之外的所有提案和分類模塊。有趣的是,該模型僅在 SUN RGB-D 上進行了 30 個 epoch 的微調,就達到了與在 SUN RGB-D 上從頭開始訓練 180 個 epoch 的相同 VoteNet 模型相同的性能。

這是一個令人鼓舞的結果,讓我們相信我們的預訓練模型可以輕松地從其他類型的室內域轉移到 ML6 客戶端的數據,而不需要大型注釋數據集。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 傳感器
    +關注

    關注

    2556

    文章

    51725

    瀏覽量

    758766
  • 攝像頭
    +關注

    關注

    60

    文章

    4882

    瀏覽量

    96743
  • 激光雷達
    +關注

    關注

    970

    文章

    4064

    瀏覽量

    190918
  • 深度學習
    +關注

    關注

    73

    文章

    5527

    瀏覽量

    121873

原文標題:點云目標識別深度網絡

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于深度學習方法在處理3D進行缺陷分類應用

    背景部分介紹了3D應用領域中公開可訪問的數據集的重要性,這些數據集對于分析和比較各種模型至關重要。研究人員專門設計了各種數據集,包括用于3D
    的頭像 發表于 02-22 16:16 ?1442次閱讀
    基于<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的<b class='flag-5'>方法</b>在處理<b class='flag-5'>3D</b><b class='flag-5'>點</b><b class='flag-5'>云</b>進行缺陷分類應用

    兩種建立元件3D圖形的方法

    使用 Altium Desinger繪制的PCB封裝默認情況下為平面,也就是將其切換到 3D 視圖時,只能看到的是封裝的形狀,并不是元件的外觀,這里給大家介紹兩種建立元件3D圖形的方法
    發表于 07-12 07:37

    基于深度學習3D圖像處理的精密加工件外觀缺陷檢測系統

    的要求; 創新三:深度學習應用于3D圖像的分析處理。直接聯通三維圖像數據與深度
    發表于 03-08 13:59

    3D技術介紹及其與VR體驗的關系

    ;x>nkedIn上發表了一篇跟澳大利亞科技公司優立(Euclideon)所使用的數據有關的文章,并在業內引起了一番討論。 1. 的問題
    發表于 09-15 09:28 ?20次下載

    問題的介紹及3D技術在VR中的應用

    1. 的問題 是由3D掃描硬件收集的數據,如FARO的Focus 3D激光掃描儀和Shi
    發表于 09-27 15:27 ?17次下載

    基于圖卷積的層級圖網絡用于基于3D目標檢測

    論文:A Hierarchical Graph Network for 3D Object Detection on Point Clouds 由于大多數現有的對象
    的頭像 發表于 06-21 12:15 ?6307次閱讀
    基于圖卷積的層級圖網絡<b class='flag-5'>用于</b>基于<b class='flag-5'>點</b><b class='flag-5'>云</b>的<b class='flag-5'>3D</b>目標<b class='flag-5'>檢測</b>

    3D 的無監督膠囊網絡 多任務上實現SOTA

    這是一3D 提出的無監督膠囊架構,并且在 3D
    的頭像 發表于 01-02 09:39 ?2175次閱讀

    基于層級圖網絡的圖卷積,用完成3D目標檢測

    由于大多數現有的對象檢測方法不能充分適應點的特征(例如稀疏性),所以一些關鍵的語義信息(如
    的頭像 發表于 12-24 15:25 ?714次閱讀

    如何在LiDAR上進行3D對象檢測

    該項目將借助KV260上的PYNQ-DPU覆蓋,從而能夠使我們在LiDAR上進行3D對象檢測比以往任何時候都更加高效!
    的頭像 發表于 04-26 17:41 ?2297次閱讀
    如何在LiDAR<b class='flag-5'>點</b><b class='flag-5'>云</b>上進行<b class='flag-5'>3D</b><b class='flag-5'>對象</b><b class='flag-5'>檢測</b>

    何為3D語義分割

    融合標注使用的3D標注工具仍以3D立體框為主,但在3D數據以外,還需要使用2D標注工具在
    的頭像 發表于 07-21 15:52 ?8870次閱讀

    用于處理三維深度學習方法的分析

    3D學習( Point Clouds)作為近年來的研究熱點之一,受到了廣泛關注,每年在各大會議上都有大量的相關文章發表。
    的頭像 發表于 11-02 15:07 ?1192次閱讀

    設計時空自監督學習框架來學習3D云表示

    1)方法優于現有技術。通過使用 STRL 進行預訓練并將學習到的模型應用于下游任務,它在 ModelNet40上優于最先進的無監督方法,并通過線性評估達到 90.9% 的
    的頭像 發表于 12-06 10:23 ?963次閱讀

    有效將3D分割成平面組件的多分辨率方法

    在實驗中,將改方法與使用 SegComp 數據庫的最先進方法進行了比較。實驗結果表明,我們以高幀率和高質量處理 3D 激光和深度傳感器(例如 Kinect)的
    的頭像 發表于 01-09 11:28 ?1192次閱讀

    基于深度學習分割的方法介紹

      摘 要:分割是數據理解中的一個關鍵技術,但傳統算法無法進行實時語義分割。近年來深度學習
    發表于 07-20 15:23 ?3次下載

    基于深度學習3D實例分割方法

    3D實例分割(3DIS)是3D領域深度學習的核心問題。給定由云表示的
    發表于 11-13 10:34 ?2771次閱讀
    基于<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的<b class='flag-5'>3D</b><b class='flag-5'>點</b><b class='flag-5'>云</b>實例分割<b class='flag-5'>方法</b>
    主站蜘蛛池模板: 美女大鸡鸡 | 日韩成人性视频 | 办公室的秘密2中文字幕 | 青青草原在线新免费 | 91免费网站在线看入口黄 | 精品无码日本蜜桃麻豆 | 奇米网一区二区三区在线观看 | 趁老师睡着吃她的奶水 | 亚洲阿v天堂在线2017 | 日本视频中文字幕一区二区 | 国产在线观看91精品 | 1区2区3区4区产品不卡码网站 | 中文字幕永久在线观看 | 琪琪电影午夜理论片77网 | 国产精品第八页 | 国产精品久久一区二区三区蜜桃 | 久久国产精品麻豆AV影视 | 亚洲综合AV色婷婷五月蜜臀 | 久久9精品区-无套内射无码 | 含羞草影院AE在线观看 | 精品国产乱码久久久久久口爆 | 97人人看碰人免费公开视频 | 蜜芽国产在线精品欧美 | 看全色黄大色大片免费久黄久 | 大香伊蕉在人线国产最新 | 久久无码AV亚洲精品色午夜 | 24小时日本在线观看片 | 大陆极品少妇内射AAAAAA | 性刺激欧美三级在线现看中文 | 人人爽天天碰狠狠添 | 99久久蜜臀亚洲AV无码精品 | 日本国产黄色片 | 欧美亚洲精品真实在线 | 99精品久久 | 国产精品久久久久久久久齐齐 | 青青草原国产 | 欧美亚洲日韩在线在线影院 | 抽插内射高潮呻吟爆乳 | 国产最新进精品视频 | 欧美阿v在线免播播放 | 国产亚洲精品久久久闺蜜 |