當今可用的許多源代碼分析工具,包括 Coverity Prevent、GrammaTech CodeSonar、Klocwork K7 和 MathWorks PolySpace Verifier,可檢測軟件缺陷和漏洞。在過去的幾年里,對可執行機器代碼進行類似分析的興趣越來越大。三個主要因素推動了對直接機器代碼分析的興趣:控制 COTS 軟件可靠性和安全性的需要、相對于源代碼分析的技術優勢,以及最近其可行性和實用性的增加,這些已被研究的突破所證實社區。David 探討了機器代碼分析的優勢并總結了當前的技術水平。
收回對應用程序可靠性和安全性的控制
上市時間和成本要求增加了開發人員在嵌入式軟件應用程序中使用 COTS 組件的情況。雖然這些組件具有優勢,但它們的代價是一些公認的缺點。特別是,消費者通常必須接受軟件,“按原樣”,并相信生產者已采取必要措施來確保安全性和可靠性。不幸的是,經驗表明情況并非總是如此。
消費者如何知道 COTS 組件是否具有滿足其需求的可接受的安全性和可靠性?一些 COTS 組件提供了一些關于所遵循的開發和測試過程的信息。示例包括一些實時操作系統 (RTOS),它們提供文檔以幫助航空電子軟件開發人員完成 DO-178B 認證過程。但即使在這些不尋常的情況下,通常也只有 RTOS 的精簡功能版本有據可查。對于大多數第三方組件,沒有關于開發和測試過程的信息可用。
對于開發安全或高可靠性應用程序的組織而言,無法評估第三方組件的質量是一個重大問題。毫不奇怪,最早支持開發更好的可執行文件分析技術的人之一是國家安全局,它在 2004 年公開強調了分析二進制文件的工具的重要性。特別值得關注的是用于國家關鍵基礎設施的軟件,例如應急準備通信和發電廠。
機器代碼分析提供了一種評估第三方代碼的方法,即使源不可用。檢測缺陷、漏洞和故意插入的惡意代碼的能力使用戶能夠重新獲得一些控制權來確定一個軟件是否符合他們的接受標準。用戶不必盲目信任軟件生產者。
機器碼分析的技術優勢
COTS 軟件通常不提供源代碼,因此需要進行機器代碼分析。事實上,即使源代碼可用,機器代碼分析也比其他分析技術具有許多優勢。這是因為源代碼沒有被執行;相反,它被編譯成機器代碼程序(可執行文件)。分析用解釋性語言編寫的程序是另一回事,盡管在那里,源代碼也不是直接在處理器上執行的。
由于多種原因,源代碼語義和編譯后的可執行語義之間可能存在差異。這種潛在的不匹配被稱為“你所看到的不是你所執行的”(WYSINWYX)效應。WYSINWYX 承認,鑒于過程中實際執行的內容,源代碼中的語義可能不完整或不精確。
WYSINWYX 效果可能由多種因素引起,包括編譯器錯誤和鏈接第三方庫。圖 1 說明了原始程序的含義如何隨著在最終可執行文件創建之前添加模塊而發生變化。
圖1
在 2002 年 Microsoft的一次安全審查中發現了一個引發 WYSINWYX 效應的編譯器錯誤示例。在這種情況下,登錄程序的源代碼中出現了如下代碼:
memset(密碼,,?ò\0,??, len);
免費(密碼);
如其名稱所示,緩沖區密碼用于保存用戶的密碼。作為安全預防措施,程序員希望盡量減少這些敏感信息在內存中的保存時間。因此,在釋放緩沖區(第 2 行)之前,目的是用零覆蓋敏感密碼(第 1 行)。
但是,在這種情況下,Microsoft C++ 編譯器確定密碼歸零語句是“無用”,并將其刪除。從技術意義上說,編譯器是正確的:memset 寫入的零不應該被任何其他語句讀取,并且刪除 memset 不會影響程序的結果。然而,優化導致了源代碼中不可見的安全漏洞。
每一個潛在的 WYSINWYX 效果都強調了機器代碼分析工具,?? 優于源代碼分析工具的優勢。上一節討論了無法訪問程序源代碼的問題。然而,即使是擁有源代碼的開發人員也很少擁有最終包含在可執行文件中的所有代碼的源代碼。通常,他們將其源代碼鏈接到僅以二進制形式存在的第三方庫。特別是在嵌入式軟件中,源代碼可能包括內聯匯編。在某些情況下,會在編譯源代碼后對可執行文件進行修改。源工具通常針對以一種語言編寫的程序,但可執行文件可以從多種不同語言的源代碼編譯。
WYSINWYX 效應最突出的原因之一是源語言語義通常未指定。例如,C 和 C++ 沒有指定函數調用參數的求值順序。(Scott Meyers的 Effective C++ 中的示例請參見側邊欄。)從技術上講,由于源語言歧義導致的問題在源代碼中是可見的。然而,分析一個模棱兩可的陳述的所有可能行為很快就會變得棘手。出于這個原因,源代碼分析工具(通常是程序員)通常通過任意選擇一種合理的解釋來解決歧義。由于無法保證他們的選擇與編譯器相同,因此語言歧義被認為是 WYSINWYX 效應的主要原因。
編譯器為解決源語言歧義所做的選擇可能會對漏洞的存在產生重要影響。安全漏洞經常依賴于數據對象布局、堆棧中變量的順序、值是存儲在 RAM 中還是僅存儲在寄存器中等細節。在像 C 或 C++ 這樣的語言中,這些細節中的大部分都由編譯器自行決定。
源代碼分析工具不能考慮編譯器可能選擇的所有不同選項,至少在沒有做出模糊近似的情況下不能考慮。然而,機器代碼分析具有查看編譯器做出的確切決定的優勢。出于這個原因,機器代碼分析有可能比源代碼分析更精確。
機器碼分析的最新進展
研究人員在將靜態分析應用于機器代碼方面取得了長足的進步。幾個小組已經證明了機器代碼分析在識別惡意代碼、安全漏洞和影響可靠性的缺陷方面的實用性。
機器代碼分析的一種用途是創建捕獲程序語義的中間表示 (IR)。用于查找錯誤和安全漏洞的源代碼分析工具通常依賴于源代碼中現成的信息(例如類型),而不是機器代碼。IR 恢復的目標是填補這一空白,并允許開發人員在機器代碼上使用源分析技術。與開發專門技術或一次采用一種源分析技術相比,IR 恢復可以同時啟用多種技術。
CodeSurfer/x86 是從可執行文件中恢復 IR 的一種高級工具,它是 GrammaTech 和威斯康星大學合作研究的成果。對于需要了解一段惡意代碼的潛在影響的安全分析師來說,CodeSurfer/x86 是一個很有價值的工具。雖然該工具目前支持 x86 機器代碼分析,但支持其他處理器架構的工作正在進行中,包括 PowerPC 架構和 ARM。它的目的是構建一個類似于編譯器或源分析工具使用的 IR。具體來說,恢復的 IR 代表以下信息:
拆解清單
控制流圖,解決了間接跳轉
調用圖,解決了間接調用
關于程序的信息,??s 變量
指針變量的可能值
每個控制流圖節點的已使用、已終止和可能已終止的變量集
數據依賴關系,包括涉及內存訪問的指令之間的依賴關系
類型信息(例如,基類型、指針類型和結構)
CodeSurfer/x86 從在 Intel x86 處理器上運行的可執行文件執行 IR 恢復。IR 可用作構建進一步分析以查找錯誤和漏洞的基礎,或用于瀏覽 GUI 界面。圖 2 顯示了臭名昭著的 Nimda 病毒版本的恢復 IR。可視化的 IR 組件包括反匯編列表、所選程序點的可能數據值和調用圖。
圖 2
許多因素會使 IR 恢復復雜化。CodeSurfer/x86 不依賴符號表或源代碼信息,因為這些信息通常從 COTS 產品中剝離。即使存在此信息,它在潛在的惡意代碼中也不可靠。恢復有關潛在指針值的信息需要同時分析指針和數值,因為地址值和數值不容易區分。必須根據數據訪問模式推斷類型信息,因為沒有可用的結構化數據類型。
盡管執行 IR 恢復有困難,但該技術已經發展到足以開始產生結果。Balakrishnan 和 Reps 最近在 Windows 設備驅動程序分析中展示了 IR 恢復的使用。他們發現 CodeSurfer 的 IR 恢復在設備驅動程序上產生了精確的結果,并證明通過在恢復的 IR 上進行構建,他們可以采用一種分析設備驅動程序源代碼的技術來分析機器代碼并復制一些相同的結果。分析機器代碼也有助于解決前面討論的所見即所得問題。
滿足安全關鍵需求
機器代碼分析已經在識別軟件中的錯誤和安全漏洞以及幫助用戶評估第三方代碼方面發揮著重要作用。預計安全關鍵軟件生產商將開始對他們自己的軟件使用機器代碼分析來解釋所見即所得效應。不斷增長的需求和不斷增加的工具支持和功能將繼續推動機器代碼分析的增長。
審核編輯:郭婷
-
C++
+關注
關注
22文章
2114瀏覽量
73803 -
源代碼
+關注
關注
96文章
2946瀏覽量
66871 -
編譯器
+關注
關注
1文章
1642瀏覽量
49246
發布評論請先 登錄
相關推薦
評論