資料介紹
描述
盲人和視障人士經常遇到各種社會經濟挑戰,這些挑戰可能會阻礙他們獨立生活和充分參與社會的能力。然而,機器學習的出現為輔助技術的發展開辟了新的可能性。在這項研究中,我們利用圖像字幕和文本轉語音技術創建了一種設備,可以幫助視力受損或失明的人。圖像字幕與文字轉語音技術相結合,可以為視障人士和盲人提供幫助。
此外,我想分享我使用TensorRT優化深度學習模型以縮短其推理時間的經驗。有關詳細信息,請參閱 TechRxiv 上的預印本,標題為:適用于視障人士和盲人的圖像字幕:低資源語言的秘訣。
為簡單起見,我們假設一切都已安裝。
隨著單板計算機 (SBC) 越來越流行用于運行 AI 和深度學習項目,有些甚至專門設計用于運行 AI 和深度學習項目。我們使用來自SeeedStudio (@seeedstudio)的 reComputer NVIDIA Jetson Xavier NX作為我們系統的大腦。reComputer J20 配備 Jetson Xavier NX,可提供高達 21 TOPS 的性能,使其成為嵌入式和邊緣系統中高性能計算和 AI 的理想選擇。
NVIDIA Jetson 設備緊湊且節能,能夠實時執行機器學習算法。然而,在這些內存有限的設備上部署復雜的深度學習模型可能很困難。為了克服這個問題,我們使用了TensorRT等推理優化工具,它使我們能夠通過減少內存占用來在邊緣設備上執行深度學習模型。
圖像描述模型部署管道
我們使用流行的 Microsoft COCO 2014 (COCO) 基準數據集來訓練ExpansionNet v2圖像描述模型。該數據集由 123, 287 張圖像組成,每張圖像都有五個人工注釋的說明,總共有超過 600, 000 個圖像-文本對。我們將數據集拆分為訓練(113、287 張圖像)、驗證(5、000 張圖像)和測試(5、000 張圖像)集,使用Karpathy拆分策略進行離線評估。為了生成哈薩克語的字幕,我們使用免費提供的谷歌翻譯服務翻譯了原始的英文字幕。
為了訓練哈薩克語字幕的模型,我們遵循了ExpansioNet v2的原始工作中定義的模型架構。預訓練的 Swin Transformer 被用作骨干網絡,從輸入圖像生成視覺特征。該模型在Nvidia DGX-2 服務器的四個 V100 圖形處理單元 (GPU) 上進行訓練。
最后,圖像字幕模型 ExpansionNet v2 部署在 Nvidia Jetson Xavier NX 板上。按下按鈕觸發相機捕捉分辨率為 640 × 480 像素的 RGB 圖像。然后,將捕獲的圖像調整為 384 × 384 并傳遞給 ExpansionNet v2 模型以生成說明。接下來,使用文本到語音模型將生成的字幕文本轉換為音頻。在我們的研究中,我們利用KazakhTTS模型將哈薩克文本轉換為語音。最后,生成的音頻通過用戶的耳機播放,使盲人或視障人士能夠理解他們面前的內容。
ONNX 概述
ONNX 是一種用于機器學習和深度學習模型的開放格式。它允許您將來自不同框架(例如 TensorFlow、PyTorch、MATLAB、Caffe 和 Keras)的深度學習和機器學習模型轉換為單一格式。
該工作流程包括以下步驟:
- 將常規 PyTorch 模型文件轉換為 ONNX 格式。ONNX 轉換腳本可在此處獲得。
- 使用 trtexec 實用程序創建 TensorRT 引擎
trtexec --onnx=./model.onnx --saveEngine=./model_fp32.engine --workspace=200
- 從 TensorRT 引擎運行推理。
使用 TensorRT 進行推理優化
TensorRT 是 NVIDIA 開發的高性能深度學習推理引擎。它優化神經網絡模型并生成可在 NVIDIA GPU 上運行的高度優化的推理引擎。TensorRT 使用靜態和動態優化的組合來實現高性能,包括層融合、內核自動調整和精度校準。
另一方面,PyTorch 是一種流行的深度學習框架,廣泛用于研究和開發。PyTorch 提供了一個動態計算圖,允許用戶動態定義和修改他們的模型,這使得嘗試不同的架構和訓練方法變得容易。
與 PyTorch 模型相比,TensorRT 模型似乎提供了更快的推理結果。與 PyTorch 模型相比,TensorRT 模型處理圖像的時間減少了大約 50%,盡管它的文件大小更小。
簡而言之,如果速度和效率是您的首要關注點,那么 TensorRT 可能是更好的選擇。這對于大多數實時對象檢測應用來說已經足夠快了。
在推理過程中,您可以使用jetson-stats實用程序檢查 Nvidia Jetson 板的當前性能。您可以實時監控模型正在使用的資源,并最大限度地利用硬件。
以佩戴圖像字幕輔助設備的人類為對象的真實世界實驗
該圖說明了我們的圖像字幕輔助系統的真實世界實驗,該系統包括一個攝像頭、一個單板深度學習計算機(Nvidia Jetson Xavier NX)、一個按鈕和耳機。
攝像頭通過通用串行總線(USB)連接到單板機,按鈕和耳機分別連接到單板機的通用輸入/輸出(GPIO)引腳和音頻端口. 攝像頭使用可調節的帶子固定在用戶的額頭上,而用戶則將單板計算機(和移動電源)放在背包中,并在操作過程中佩戴耳機。
結論和進一步改進
視障人士和盲人在日常生活中面臨著獨特的挑戰,包括無法獨立獲取視覺信息。圖像字幕技術已顯示出為該社區提供幫助的希望。
除了現有的圖像字幕和文本轉語音技術外,我們的目標是將視覺問答 (VQA) 功能整合到我們為視障人士和盲人提供的輔助設備中。這將使用戶能夠提出有關圖像的問題并獲得口頭答復。
為了進一步優化我們的深度學習模型并提高其性能,我們將執行從 FP32 到 FP16 或 INT8 的量化。這將減少推理所需的內存占用和計算時間,使我們的輔助設備更加高效。
如果您對我們的項目感興趣,請考慮為我們在github上的存儲庫加星。多謝!
我希望您發現這項研究有用,并感謝您閱讀它。如果您有任何問題或反饋,請在下方發表評論。敬請關注!
致謝
- 該項目得到了智能系統與人工智能研究所工作人員的支持、指導和協助,得以順利完成。
- Image captioning 模型的實現依賴于ExpansioNet v2。
- 視障人士智能手杖開源硬件
- 基于超聲波傳感器的盲人智能眼鏡 0次下載
- 基于超聲波傳感器的視障人士夾克 0次下載
- 為聽障人士設計的智能房間控制器
- 為視障人士設計的支持Arduino的PCB設備
- 帶有顯示時間的自動車碼表避障程序下載 0次下載
- 用于視障人士的集成無線室內導航系統 16次下載
- 如何設計面向視障人士的RFID和GPS組合導航系統智能機器人 5次下載
- 使用Arduino設計的智能小車自動避障的接線說明 18次下載
- 使用AudioGuid系統和GPS接收器設計視障人士戶外行走輔助系統的研究 3次下載
- 設計雙目視覺移動機器人的路徑規劃和避障系統的研究說明 3次下載
- 智能小車進行避障的詳細資料說明如何讓小車看到障礙物 33次下載
- 圖像處理教程之圖像復原的詳細資料說明 7次下載
- 圖像處理教程之圖像運算的詳細資料說明 12次下載
- 一個基于語音識別的盲人上網輔助系統的設計
- 技術指南丨深視智能3D相機上下對射測厚操作流程 170次閱讀
- 全對稱多面鏡單視點折反射周視系統概述 755次閱讀
- Lesson38 圖像傳感器介紹與設計架構 518次閱讀
- 使用傾斜傳感器為視障人士設計水平儀 921次閱讀
- 基于單片機和GS-89m-J定位模塊實現智能拐杖系統的設計 2424次閱讀
- Linux服務器排障相關的性能問題、優化和便利工具 1662次閱讀
- 可以實現寬動態及LED閃爍抑制的汽車圖像傳感器OX01D10的說明 1190次閱讀
- 最基礎的圖像處理常用算法 3156次閱讀
- 機器人視覺避障的常用傳感器介紹和原理說明 1.3w次閱讀
- 如何解決機器人“避障”的問題 4442次閱讀
- VizWiz數據集:用計算機視覺回答盲人的問題 7079次閱讀
- ISP圖像處理芯片 1.9w次閱讀
- 圖像分割算法有哪些 3w次閱讀
- 超聲波傳感器在智能小車避障系統中的應用 1.3w次閱讀
- 什么是無人機避障技術 在消費級無人機領域為什么火不了? 3146次閱讀
下載排行
本周
- 1山景DSP芯片AP8248A2數據手冊
- 1.06 MB | 532次下載 | 免費
- 2RK3399完整板原理圖(支持平板,盒子VR)
- 3.28 MB | 339次下載 | 免費
- 3TC358743XBG評估板參考手冊
- 1.36 MB | 330次下載 | 免費
- 4DFM軟件使用教程
- 0.84 MB | 295次下載 | 免費
- 5元宇宙深度解析—未來的未來-風口還是泡沫
- 6.40 MB | 227次下載 | 免費
- 6迪文DGUS開發指南
- 31.67 MB | 194次下載 | 免費
- 7元宇宙底層硬件系列報告
- 13.42 MB | 182次下載 | 免費
- 8FP5207XR-G1中文應用手冊
- 1.09 MB | 178次下載 | 免費
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234315次下載 | 免費
- 2555集成電路應用800例(新編版)
- 0.00 MB | 33566次下載 | 免費
- 3接口電路圖大全
- 未知 | 30323次下載 | 免費
- 4開關電源設計實例指南
- 未知 | 21549次下載 | 免費
- 5電氣工程師手冊免費下載(新編第二版pdf電子書)
- 0.00 MB | 15349次下載 | 免費
- 6數字電路基礎pdf(下載)
- 未知 | 13750次下載 | 免費
- 7電子制作實例集錦 下載
- 未知 | 8113次下載 | 免費
- 8《LED驅動電路設計》 溫德爾著
- 0.00 MB | 6656次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935054次下載 | 免費
- 2protel99se軟件下載(可英文版轉中文版)
- 78.1 MB | 537798次下載 | 免費
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420027次下載 | 免費
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234315次下載 | 免費
- 5Altium DXP2002下載入口
- 未知 | 233046次下載 | 免費
- 6電路仿真軟件multisim 10.0免費下載
- 340992 | 191187次下載 | 免費
- 7十天學會AVR單片機與C語言視頻教程 下載
- 158M | 183279次下載 | 免費
- 8proe5.0野火版下載(中文版免費下載)
- 未知 | 138040次下載 | 免費
評論
查看更多