色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

開放詞匯檢測新晉SOTA:地瓜機器人開源DOSOD實時檢測算法

地瓜機器人 ? 2025-01-08 15:27 ? 次閱讀

計算機視覺領域,目標檢測是一項關鍵技術,旨在識別圖像或視頻中感興趣物體的位置與類別。傳統的閉集檢測長期占據主導地位,但近年來,開放詞匯檢測(Open-Vocabulary Object Detection-OVOD 或者 Open-Set Object Detection-OSOD)嶄露頭角,為目標檢測帶來了新的活力與可能性。與閉集檢測相比,開放詞匯檢測打破了檢測類別固定的“枷鎖”,它在訓練時利用豐富多樣的文本 - 區域對(text-region pairs)數據,將文本作為類別標簽,大大拓寬了可檢測的范圍。尤其是在機器人感受周圍環境的任務中,能夠起到極大的幫助。

目前主流的開放詞匯檢測算法有Grounding-DINO系列和YOLO-World。在海量的私有數據集的加持下,前者具有非常強大的檢測能力,精度遙遙領先,其模型依賴參數量較大的Transformer結構,實時性較弱。后者依賴輕量級的Convolution結構,能夠達到實時推理的效率,精度上依然不錯。

DOSOD(Decoupled Open-Set Object Detection)是地瓜機器人最新發布的開放詞匯目標檢測算法,力求在低算力邊緣端實現更高的推理效率,同時帶來比YOLO-World更具競爭力的精度表現。在算法上,DOSOD采用了獨特的解耦特征對齊策略,摒棄了傳統的圖像-文本交互方式,通過基于MLPs的特征適配模塊對圖像與文本的特征進行優化與對齊,進一步提升了模型的推理效率和精度。

實驗結果顯示,DOSOD在多個公開數據集(如LVIS)上的表現超越了YOLO-World-v2,并在邊緣AI計算平臺上展現了壓倒性的效率優勢。

wKgZPGd-J-yAGoSwAACJUwG6G7Q417.pngwKgZPGd-J-yAFdkCAADuErP-nd8054.png

文章開源地址:https://arxiv.org/abs/2412.14680

代碼開源地址:https://github.com/D-Robotics-AI-Lab/DOSOD

文章由地瓜機器人應用算法部,中科院自動化所多模態人工智能系統全國重點實驗室,蘇州大學未來學院,上海科技大學信息科學技術學院聯合出品。

DOSOD的基本原理

wKgZO2d-J_iAWCzrAAE33dqtCyY933.png

目前主流的開放詞匯檢測對齊策略主要分為以下三種:

(a) 教師 - 學生蒸餾方法

  • 描述:利用 VLM(視覺語言模型)的文本編碼器生成的文本嵌入來監督圖像特征和檢測器特征的對齊。也可以通過裁剪圖像區域來對齊特征。
  • 總結:通過 VLM 的文本編碼器來指導圖像和檢測器特征的對齊。

(b) 基于交互的對齊策略

  • 描述:文本嵌入與檢測器骨干網絡提取的圖像特征進行交互,以實現對齊。
  • 總結:通過文本嵌入與圖像特征的交互來實現特征對齊。

(c) 提出的解耦對齊策略

  • 描述:在不進行交互的情況下對齊特征,通過視覺 - 語言特征適配來實現。
  • 總結:采用解耦方式,不依賴交互來進行特征對齊。

DOSOD(Decoupled Open-Set Object Detection) 屬于第三種開放詞匯檢測對齊策略——解耦對齊策略。該方法的核心思想是通過將文本和圖像模態的特征解耦,以實現更高效的對齊過程,從而在保證檢測精度的同時大幅提升推理速度。

wKgZPGd-J-yAFdkCAADuErP-nd8054.png

在此基礎上,DOSOD洞察到了閉集檢測開放詞匯檢測之間的本質聯系,提出了全新的結構框架(如上圖所示)。具體來說,DOSOD將傳統分類分支最后的卷積操作等價地解構為兩個模態的特征對齊操作,從而激發出解耦的特征學習和共同空間對齊的結構。

在該框架中,類別標簽文本首先通過一個文本編碼器(來自VLM)生成初步的Text Embedding,然后經過一個基于MLPs的特征適應模塊,對Text Embedding進行特征優化,為Joint Space中的對齊操作做準備。

在圖像側,DOSOD使用經典的單階段目標檢測器(文中使用了YOLOv8)來提取圖像的多尺度特征圖。每個特征點表示圖像中的一個區域特征。最后,在Joint Space中,通過計算Text Embedding與Region Feature之間的相似度,從而完成特征對齊。

DOSOD的實驗結果

在實驗部分,DOSOD在公開數據集上進行了預訓練,并在LVISCOCO數據集上進行了Zero-shot驗證。DOSOD均擁有優秀的精度表現:

  • 在LVIS數據集上,相較于YOLO-World-v2,DOSOD精度全面領先,并與YOLO-World-v1不分伯仲。
wKgZPGd-KCSALFMrAAIe5rvyLD8554.png
  • 在COCO數據集上,DOSOD整體精度要略低于YOLO-World,但YOLO-World-v2的精度微高于YOLO-World-v1,也一定程度上說明,COCO由于詞匯豐富程度較低,不太適用于開放詞匯檢測任務評測。
wKgZO2d-KC6AKSsFAAGDQ-iWUZo696.png

在推理速度上,通過將DOSODYOLO-WorldNVIDIA RTX 4090D-Robotics RDK X5上進行全面對比,我們可以看到:

  • DOSOD在主流的服務器級別的芯片上,推理效率是顯著高于YOLO-World
wKgZO2d-KC6AKSsFAAGDQ-iWUZo696.pngwKgZPGd-KEOALx_OAAGP2zjV2sc218.png
  • 在邊緣側的AI計算平臺上,DOSOD以碾壓式的效率提升,遠遠超越YOLO-World
wKgZPGd-KDyAMKDDAAFpUcnVdy8314.png

DOSOD的應用效果

DOSOD開放詞匯檢測算法有著廣泛的應用場景,既能用于常規檢測任務里的目標檢測,也可以應用在特殊場景下長尾目標類型的檢測任務當中。針對某些極端長尾的目標類型,只需收集少量相關數據進行微調,就能顯著提高模型的穩定性和檢測效果。

  • DOSOD 在常規目標檢測上的檢測效果

在閉集目標檢測任務中,COCO數據集預先定義了80個固定類別。我們可以看到,在經過大數據量的開放詞匯數據集預訓練后,DOSOD能夠檢測出諸多長尾類別,如圖2左下角的“heater”,圖4中的“shoe”和“wheel”,而這些詞匯并未包含在COCO數據集的80個類別之內。

wKgZPGd-KGuAD2btABTSXQElOvM312.png
  • DOSOD 在特殊場景的長尾類別上的檢測效果

以下展示的是掃地機視角下的圖像,任務要求是檢測出地面上的各類污漬或障礙物,這些類別并不是常規目標檢測任務中的標準類別。通過少量數據的微調,DOSOD成功識別了這些特殊類別,為在該場景中準確檢測出多樣化的長尾類別發揮了關鍵作用。

wKgZO2d-KHiAbTY1AA2qnxQlJ6M949.pngwKgZO2d-KHyAWxULAAs0BhJTdr4300.pngwKgZO2d-KICAQBnfAArijXABNDw183.pngwKgZO2d-KIeAahcBAAljeeMwkGw740.png

DOSOD作為一款新興的開放詞匯檢測算法,憑借創新的解耦特征對齊策略,在提升推理效率的同時,成功地保證了精度,展示出了極強的應用潛力。未來,隨著計算資源的提升與算法的不斷優化,DOSOD有望在機器人、自動駕駛智能家居等領域提供更加高效精準的目標檢測解決方案。

作為地瓜機器人前沿算法研究的最新成果,DOSOD不僅在精度上超越了對標方法,更成功解決了推理效率與低算力設備適應性之間的挑戰,為智能機器人技術的普及與發展提供了有力支持。

未來,地瓜機器人將秉承“成為機器人時代的Wintel”的品牌初心,持續與客戶一同深入應用場景,在提供擁有極致性能表現的硬件的同時,為行業客戶和開發者提供豐富的具有實用價值的算法,加速機器人技術的落地和廣泛應用。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    212

    文章

    29280

    瀏覽量

    210847
  • 算法
    +關注

    關注

    23

    文章

    4682

    瀏覽量

    94341
  • 人工智能
    +關注

    關注

    1804

    文章

    48449

    瀏覽量

    244856
  • RDK
    RDK
    +關注

    關注

    0

    文章

    22

    瀏覽量

    9137
  • 地瓜機器人
    +關注

    關注

    0

    文章

    20

    瀏覽量

    19
收藏 0人收藏

    評論

    相關推薦

    大象機器人攜手進迭時空推出 RISC-V 全棧開源六軸機械臂產品

    末端執行器。 全棧開源 從RISC-V指令集、芯片SDK到機器人控制代碼100%開放,開發者可自由定制算法與控制邏輯。 官方apt倉庫提供deepseek-r1-distill-qwe
    發表于 04-25 17:59

    地瓜機器人RDK X5 規格書與地瓜機器人RDK X5原理圖

    地瓜機器人是芯片公司地平線成立的全資控股子公司。專注于機器人市場的軟硬件通用底座提供商。地瓜機器人以旭日智能計算芯片和 RDK
    的頭像 發表于 04-21 19:01 ?329次閱讀
    <b class='flag-5'>地瓜</b><b class='flag-5'>機器人</b>RDK X5 規格書與<b class='flag-5'>地瓜</b><b class='flag-5'>機器人</b>RDK X5原理圖

    大象機器人推出myCobot 280 RDK X5,攜手地瓜機器人共建智能教育機

    摘要大象機器人全新推出輕量級高性能教育機械臂myCobot280RDKX5,該產品集成地瓜機器人RDKX5開發者套件,深度整合雙方在硬件研發與智能計算領域的技術優勢,實現芯片架構、軟件算法
    的頭像 發表于 04-15 22:05 ?221次閱讀
    大象<b class='flag-5'>機器人</b>推出myCobot 280 RDK X5,攜手<b class='flag-5'>地瓜</b><b class='flag-5'>機器人</b>共建智能教育機

    地瓜機器人,和全球機器人開發者交朋友

    前言自2024年9月20日在國內官宣以來,地瓜機器人(D-Robotics)正在以行業領軍者的角色,開放姿態擁抱全球機遇,致力于和全球機器人開發者交朋友。短短半年間,從亞洲的東京、首爾
    的頭像 發表于 03-24 15:27 ?542次閱讀
    <b class='flag-5'>地瓜</b><b class='flag-5'>機器人</b>,和全球<b class='flag-5'>機器人</b>開發者交朋友

    開啟報名!地瓜機器人-全國大學生嵌入式芯片與系統設計競賽賽題發布

    1公司介紹公司簡介起步于2015年誕生的地平線,地瓜機器人是業界領先的機器人軟硬件通用底座提供商。承載著「成為機器人時代的Wintel」的品牌初心,
    的頭像 發表于 03-13 22:33 ?523次閱讀
    開啟報名!<b class='flag-5'>地瓜</b><b class='flag-5'>機器人</b>-全國大學生嵌入式芯片與系統設計競賽賽題發布

    破解透明物體抓取難題,地瓜機器人 CASIA 推出幾何和語義融合的單目抓取方案|ICRA 2025

    近日,全球機器人領域頂會ICRA 2025(IEEE機器人與自動化國際會議)公布論文錄用結果,地瓜機器人主導研發的DOSOD
    的頭像 發表于 03-05 19:30 ?339次閱讀
    破解透明物體抓取難題,<b class='flag-5'>地瓜</b><b class='flag-5'>機器人</b> CASIA 推出幾何和語義融合的單目抓取方案|ICRA 2025

    【「具身智能機器人系統」閱讀體驗】2.具身智能機器人的基礎模塊

    具身智能機器人的基礎模塊,這個是本書的第二部分內容,主要分為四個部分:機器人計算系統,自主機器人的感知系統,自主機器人的定位系統,自主機器人
    發表于 01-04 19:22

    地瓜機器人發布一系列通用機器人套件

    在“機器人+”浪潮的推動下,地瓜機器人近日隆重推出了一系列面向未來的軟硬件產品組合,旨在賦能新一代通用機器人的發展。此次發布的亮點包括旭日5智能計算芯片、RDK X5
    的頭像 發表于 09-25 15:56 ?590次閱讀

    地瓜機器人與廣和通深度合作,共驅智能機器人商用落地

    9月20日,2024地瓜機器人開發者日暨新品發布在深圳順利舉辦。廣和通作為地瓜機器人官方授權硬件IDH合作伙伴,受邀出席大會并展示了一系列基于地瓜
    的頭像 發表于 09-23 16:27 ?533次閱讀
    <b class='flag-5'>地瓜</b><b class='flag-5'>機器人</b>與廣和通深度合作,共驅智能<b class='flag-5'>機器人</b>商用落地

    地瓜機器人與廣和通深度合作,共驅智能機器人商用落地

    9月20日,2024地瓜機器人開發者日暨新品發布在深圳順利舉辦。廣和通作為地瓜機器人官方授權硬件IDH合作伙伴,受邀出席大會并展示了一系列基于地瓜
    的頭像 發表于 09-23 16:27 ?688次閱讀
    <b class='flag-5'>地瓜</b><b class='flag-5'>機器人</b>與廣和通深度合作,共驅智能<b class='flag-5'>機器人</b>商用落地

    地瓜機器人攜手廣和通共推智能機器人新紀元

    2024年9月20日,深圳迎來了科技界的一場盛會——地瓜機器人開發者日暨新品發布會圓滿舉行。此次活動不僅見證了地瓜機器人在智能計算領域的又一里程碑,還深化了其與廣和通作為官方授權硬件I
    的頭像 發表于 09-23 13:03 ?902次閱讀

    使用OpenVINO C# API部署YOLO-World實現實時開放詞匯對象檢測

    的快速準確識別,并通過AR技術將虛擬元素與真實場景相結合,為用戶帶來沉浸式的交互體驗。在本文中,我們將結合OpenVINO C# API使用最新發布的OpenVINO 2024.0部署 YOLO-World實現實時開放詞匯對象
    的頭像 發表于 08-30 16:27 ?1306次閱讀
    使用OpenVINO C# API部署YOLO-World實現<b class='flag-5'>實時</b><b class='flag-5'>開放</b><b class='flag-5'>詞匯</b>對象<b class='flag-5'>檢測</b>

    旗晟機器人環境檢測算法有哪些?

    硬件支撐,更離不開強大的算法庫作為軟件核心,二者相輔相成,缺一不可。今天就來了解旗晟機器人環境檢測算法。 1、設施異常監測 通過集成高精度傳感器與智能圖像識別技術。它不僅能檢測A字梯是
    的頭像 發表于 07-19 17:54 ?737次閱讀
    旗晟<b class='flag-5'>機器人</b>環境<b class='flag-5'>檢測算法</b>有哪些?

    口罩佩戴檢測算法

    口罩佩戴檢測算法基于YOLOv5在圖像識別檢測領域的優異性能,本文研究基于基于YOLOv5的口罩佩自動戴檢測方法。首先從網絡和真實生活中中尋找并采集不同場景人群口罩佩戴的圖片約500張并自建數據集
    的頭像 發表于 07-01 20:20 ?516次閱讀
    口罩佩戴<b class='flag-5'>檢測算法</b>

    基于FPGA EtherCAT的六自由度機器人視覺伺服控制設計

    機器人視覺伺服中有著廣闊的應用,本實驗將集成攝像頭的 伊瑟特主站應用在自主研發的六自由度串聯機器人上,將機器人運動學算法編寫入 伊瑟特主站,使得機器
    發表于 05-29 16:17
    主站蜘蛛池模板: 国产亚洲日韩欧美视频 | 相声flash | 毛片无码免费无码播放 | 午夜神器老司机高清无码 | 色戒床震视频片段 | 日本人吃奶玩奶虐乳 | 日韩av无码在线直播 | 热久久免费频精品99热 | 最新 国产 精品 精品 视频 | 麻豆免费观看高清完整视频在线 | 香蕉 在线播放 | 久久亚洲精品AV成人无码 | 国产精品嫩草久久久久 | 99福利影院| 亚洲乱码中文字幕久久 | 久久精品一区二区三区资源网 | 成人1000部免费观看视频 | 伊人久久亚洲综合天堂 | 熟女久久久久久久久久久 | 神马电影院午夜神福利在线观看 | 两个女人互添下身高潮自视频 | 99精品免费久久久久久久久蜜桃 | 天天躁躁水汪汪人碰人 | 午夜福利理论片高清在线 | 在线观看免费视频播放视频 | 俄罗斯呦呦 | 中文字幕在线播放视频 | 国产精品毛片AV久久97 | 色多多污污下载 | 69精品人人人人 | 小伙无套内射老女人 | 偷偷鲁青春草原视频分类 | 亚洲男人片片在线观看 | 精品精品国产自在现拍 | 小学生偷拍妈妈视频遭性教育 | 亚洲呦女专区 | 国精产品一区一区三区M | 內射XXX韩国在线观看 | 亚洲AV综合色一区二区三区 | 欧美日韩中文字幕综合图区 | 厨房玩朋友娇妻中文字幕 |

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品