由于受到無線傳輸帶寬的限制, 無人機對地面目標偵察獲得的高分辨率視頻圖像必須經過有效壓縮才能實時傳輸給地面接收處理系統?,F有的視頻壓縮標準有H.261、H. 262、H . 263 及MPEG-1、MPEG-2、MPEG-4 等。
其中MPEG-4 由于采用基于對象的壓縮編碼方法, 較之以往各標準的基于幀的壓縮編碼方法, 其時間和空間冗余更低, 在保持解碼質量的同時提高了壓縮率。MPEG-4 還具有更好的交互性能及更強的抗誤碼性能 , 較之以往的壓縮標準, 更適合無線信道的傳輸。
視頻壓縮算法比較復雜, 加之無人機有效載荷的重量和體積限制, 難以實現對機載視頻圖像的實時壓縮編碼,通常只能低分辨率圖像實時壓縮。本文基于TI 公司最新推出的媒體處理器TMS320DM642 設計并實現了機載圖像實時壓縮編碼與處理系統, 實現了對最高分辨率為D1分辨率機載視頻圖像的分辨率和壓縮比可調的MPEG-4實時壓縮處理及恒定碼流的輸出。
1?? 設計要求
整個壓縮處理系統完成對機載高分辨率攝像機輸出的PA L 制式模擬視頻信號進行實時采集、壓縮與傳輸。
為了便于地面接收處理系統實時地分析圖像, 須將無人機拍攝圖像的時間及空間位置等附加信息和壓縮圖像數據實時地打包。MPEG-4 為不等長壓縮編碼, 為便于無線傳輸, 需將MPEG-4 數據包流進行編幀, 形成256 KB/ s的恒定基帶碼流, 實時傳輸給無線信道子系統供調制發射。系統還需根據控制命令動態地改變圖像的分辨率及壓縮比。
2?? 系統硬件設計
2. 1?? TMS320DM642 芯片的特點
DM642 屬于TMS320C64x 系列DSPs。Veloci T I 結構使C6000 DSPs 在視頻和圖像處理中得到廣泛應用。
CPU 的VLIW 結構由多個并行運行的執行單元組成, 這些單元在單個周期內可執行多種指令。并行是C6000 獲得高性能的關鍵。C64x 在C6000 的基礎上有一些重要的改進。除了有更高的時鐘頻率外, C64x 從以前的VelociTI 結構擴展到Veloci TI. 2 結構, 包含了許多新的指令,增加了額外的數據通道, 寄存器的數量也增加了一倍。這些擴展使得CPU 可以在一個時鐘周期內處理更多的數據, 從而獲得更高的運算性能。
DM642 芯片集成了各種片內外設, 使得開發視頻和圖像領域的應用更為方便。它帶有3 個可配置的視頻端口, 提供與視頻輸入、視頻輸出以及碼流輸入的無縫接口。
這些視頻端口支持許多格式的視頻輸入/ 輸出。利用DM642 開發視頻編碼器, 其視頻輸入部分只需要一塊視頻采集芯片即可, 如AD 公司的A DV7181, 無需外加邏輯控制電路和FIFO 緩存, 使硬件系統更為簡單和穩定。
DM642 集成的64 位的無縫外部存儲器接口( EMIF) , 能夠實現與外部同步和異步存儲器或外設的無縫連接。
DM642 的其他外設包括: 10 Mbps/ 100 Mbps 的以太網口( EMAC) 、多通道音頻串口(McASP) 、主機接口( HPI) 、多通道緩沖串口( McBSP) 以及PCI 接口等。
2. 2?? 系統硬件組成
機載圖像實時壓縮與處理系統以TMS320DM642 高性能通用DSP 芯片為核心, 由視頻輸入采集模塊、圖像壓縮處理模塊、外部存儲模塊及傳輸控制接口模塊組成。其硬件系統框圖如圖1 所示。
?
圖1?? 機載視頻圖像實時壓縮處理系統硬件框圖
圖像采集模塊對輸入模擬視頻信號進行同步捕獲、采集和視頻解碼。視頻解碼器輸出的數據格式為YUV4: 2:2。視頻解碼數據通過DMA 通道向DM642 VPORT 通道緩沖單元發送數據, 當采集完一幀數據時產生DMA 中斷。圖像壓縮處理模塊根據接收到的控制命令將視頻解碼數據進行實時壓縮數理后緩存到存儲模塊中。存儲模塊采用32 MB 64 位的SDRAM, 實現程序和數據的存儲。
傳輸控制接口模塊將緩存在SDRAM 中的待傳輸碼流以256 KB/ s 的恒定速率8 位并行傳輸至輸出端口, 并接收地面發送的控制命令。該模塊由FIFO 芯片和CPLD 組成, FIFO 半空時向DSP 發送中斷信號。
2. 3?? 系統工作流程
系統由初始化模塊、采集模塊、壓縮模塊、打包編幀模塊、存儲模塊和傳輸模塊組成。其工作流程如圖2 所示。
?
圖2?? 機載圖像將壓縮處理子系統軟件工作流程
初始化模塊完成對程序從Flash 中導入內存、DSP各端口及解碼芯片工作模式的設置及全局數據的申請及初始化, 并啟動對視頻端口狀態的查詢。當定時檢測到視頻端口緩沖區中有數據時, 將端口緩沖區中的原始數據根據接收的控制命令進行指定大小大抽取, 輸出YUV4: 2: 0格式的圖像數據緩存到外圍存儲模塊中。壓縮模塊將采集的圖像數據進行MPEG-4 壓縮。打包、編幀模塊將壓縮后的MPEG-4 編碼數據進行實時打包, 并對打包后的數據進行連續的實時編幀。當數據包緩沖區中無數據時,便在傳輸幀中插入空數據。編幀完的數據64 位并行緩存到外圍SDRAM 中。在FIFO 中斷服務程序中, 啟動一次DMA 傳輸, 將緩存在SDRAM 中的幀數據流傳輸到FIFO 中, 實現256 KB/ s 的恒定速率的數據傳輸。
需要注意的是原始圖像和壓縮碼流在DSP 中的存儲。視頻端口、編碼程序都要訪問原始圖像, 例如在某一時刻,編碼程序訪問當前幀圖像, 而視頻端口正在輸入下一幀圖像, 為了避免訪問沖突, 原始圖像在DSP 中采用三緩沖區進行管理。壓縮碼流由編碼程序寫入, 根據FIFO 狀態恒定碼率輸出, 所以采用環式存儲管理協調讀寫的步調。
2. 4?? 內存分配
DM642 片內只有256 KB 的存儲空間, 因此當前幀、參考幀和當前幀的重建幀都必須放至片外存儲器, 壓縮碼流若被主機讀取, 也放至片外。其他數據如程序代碼、全局變量、VLC碼表、各編碼模塊產生的中間數據等均可放至片內。
由于CPU 訪問片外的速度通常要比訪問片內慢幾十倍, 片外數據的傳輸通常成為程序運行時的瓶頸, 即使代碼效率很高, 流水線也會因為等待數據而被嚴重阻塞。解決這一問題的有效方法是用EDMA 傳送數據。程序是逐個宏塊進行編碼時, 在編碼當前宏塊的同時, EDMA 將下一個宏塊的數據、用到的參考幀數據由片外傳送至片內;當前宏塊做完成運動補償后, EDMA 將重建后的宏塊由片內傳送至片外。這樣CPU 只對片內數據進行操作, 使得流水線可以順利進行, 而壓縮碼流按逐個碼字有時間間隔地寫入, 可由CPU 直接寫至片外。
3?? 基于DM642 的軟件優化技術
為了提高代碼的執行效率, 必須充分利用C64x CPU的VL IW 和流水線結構對其進行優化, 使程序無沖突地并行執行[ 6] 。MPEG 4 編碼程序中包含大量的循環體, 例如計算量化、DCT、半像素插值、運動補償和構建重建幀等。這些循環體代碼并不復雜, 且執行次數頻繁, 占據了編碼的絕大部分時間, 因此循環體的優化是重點。本文所采取的代碼優化為C 語言優化和編寫線性匯編兩個步驟,主要從消除數據相關性、數據打包和循環體的軟件流水3個方面進行優化。
3. 1?? 針對C語言的優化
C 代碼的優化主要依靠開發環境CCS 的編譯器完成, 編程者需要合理選擇編譯選項, 并利用特定的關鍵字和指令向編譯器提供優化信息 。例如關鍵字rest rict 用來消除數據間的相關性, 編譯器從而可以安排語句的并行執行 ; 內聯函數_ nasser t 有助于數據的打包處理; 宏指令# pragma MU ST _IT ERAT E 告訴編譯器有關循環迭代次數的信息, 編碼器會根據這一信息進行軟件流水。
3. 2?? 用線性匯編改寫關鍵代碼
線性匯編是TMS320C6000 特有的一種編程語言, 介于高級語言和匯編語言之間。它可以指定指令用到的寄存器和功能單元, 更易于對數據的打包處理。
線性匯編代碼的并行處理和軟件流水由匯編優化器完成, 編程者需要熟悉C64x DSP 的CPU 結構和指令集, 認真設計代碼并充分利用編譯器的反饋信息合理修改代碼, 才能寫出高質量的線性匯編。本設計中程序主框架采用C 語言編寫, 其它各關鍵部分的代碼采用線性匯編實現。
4?? 結果分析
本壓縮系統在對標準Foreman 序列、地面人群及道路車輛等視頻序列進行壓縮測試。對D1 分辨率視頻序列能夠實現25 幀/ 秒實時的壓縮編碼, 壓縮碼率為1. 8 Mb/ s, 解碼圖像視覺效果良好, 經編幀后輸出250KB/ s 恒定基帶碼流。在圖像傳輸中沒有出現數據擁塞和丟失現象。有效滿足了高清晰機載圖像幀察的目的。
5?? 結束語
本文以TMS320DM642 芯片為中心, 詳細介紹了機載圖像實時壓縮系統的設計及MPEG 4 實時編碼器的優化。系統經測試實現了高分辨率圖像的實時壓縮和實時編幀傳輸, 滿足了系統設計需求。本文采用MPEG 4Simlpe Profile 算法, 在算法方面還有一定的研究空間。
評論
查看更多