一.簡介
回憶一下 PC 的體系結構我們可以知道,PC 機中的引導加載程序由 BIOS(其本質就是一段固件程序)和位于硬盤 MBR 中的OS Boot Loader(比如,LILO 和GRUB 等)一起組成。BIOS 在完成硬件檢測和資源分配后,將硬盤 MBR 中的 Boot Loader 讀到系統的 RAM 中,然后將控制權交給 OS Boot Loader。Boot Loader 的主要運行任務就是將內核映象從硬盤上讀到 RAM 中,然后跳轉到內核的入口點去運行,也即開始啟動操作系統。而在嵌入式系統中,通常并沒有像 BIOS 那樣的固件程序(注,有的嵌入式 CPU 也會內嵌一段短小的啟動程序),因此整個系統的加載啟動任務就完全由 Boot Loader 來完成。比如在一個基于 ARM7TDMI core 的嵌入式系統中,系統在上電或復位時通常都從地址0x00000000 處開始執行,而在這個地址處安排的通常就是系統的 Boot Loader 程序。
引導加載程序 。包括固化在固件 (firmware) 中的 boot 代碼 ( 可選 ) ,和 Boot Loader 兩大部分。
Linux 內核 。特定于嵌入式板子的定制內核以及內核的啟動參數。
引導加載程序是系統加電后運行的第一段軟件代碼。
本文將從 BootLoader 的概念、BootLoader 的主要任務、BootLoader 的框架結構以及 BootLoader 的安裝等四個方面來討論嵌入式系統的 BootLoader。
二.Boot Loader 的概念
簡單地說,Boot Loader 就是在操作系統內核運行之前運行的一段小程序。通過這段小程序,我們可以初始化硬件設備、建立內存空間的映射圖,從而將系統的軟硬件環境帶到一個合適的狀態,以便為最終調用操作系統內核準備好正確的環境。
1. Boot Loader 所支持的 CPU 和嵌入式板
每種不同的 CPU 體系結構都有不同的 Boot Loader。有些 Boot Loader 也支持多種體系結構的 CPU,比如 U-Boot 就同時支持 ARM 體系結構和MIPS 體系結構。除了依賴于CPU 的體系結構外,BootLoader 實際上也依賴于具體的嵌入式板級設備的配置。這也就是說,對于兩塊不同的嵌入式板而言,即使它們是基于同一種 CPU 而構建的,要想讓運行在一塊板子上的 Boot Loader 程序也能運行在另一塊板子上,通常也都需要修改Boot Loader 的源程序。
2. Boot Loader 的安裝媒介(Installation Medium)
系統加電或復位后,所有的 CPU 通常都從某個由 CPU 制造商預先安排的地址上取指令。比如,基于 ARM7TDMI core 的 CPU 在復位時通常都從地址 0x00000000 取它的第一條指令。而基于 CPU 構建的嵌入式系統通常都有某種類型的固態存儲設備(比如:ROM、EEPROM 或 FLASH 等)被映射到這個預先安排的地址上。因此在系統加電后,CPU 將首先執行 Boot Loader 程序。
3. 用來控制 Boot Loader 的設備或機制
主機和目標機之間一般通過串口建立連接,Boot Loader 軟件在執行時通常會通過串口來進行 I/O,比如:輸出打印信息到串口,從串口讀取用戶控制字符等。
4. Boot Loader 的啟動過程
Boot Loader 的啟動過程是單階段(Single Stage)還是多階段(Multi-Stage)通常多階段的 Boot Loader 能提供更為復雜的功能,以及更好的可移植性。從固態存儲設備上啟動的 Boot Loader 大多都是 2 階段的啟動過程,也即啟動過程可以分為 stage 1 和stage 2 兩部分。而至于在 stage 1 和 stage 2 具體完成哪些任務將在下面討論。
5. BootLoader 與主機之間進行文件傳輸所用的通信設備及協議
最常見的情況就是,目標機上的 Boot Loader 通過串口與主機之間進行文件傳輸,傳輸協議通常是 xmodem/ymodem/zmodem 協議中的一種。但是,串口傳輸的速度是有限的,因此通過以太網連接并借助 TFTP 協議來下載文件是個更好的選擇。在討論了 BootLoader 的上述概念后,下面我們來具體看看 BootLoader 的應該完成哪些任務。
三. Boot Loader 的主要任務與典型結構框架
在繼續本節的討論之前,首先我們做一個假定,那就是:假定內核映像與根文件系統映像都被加載到 RAM 中運行。之所以提出這樣一個假設前提是因為,在嵌入式系統中內核映像與根文件系統映像也可以直接在 ROM 或 Flash 這樣的固態存儲設備中直接運行。但這種做法無疑是以運行速度的犧牲為代價的。
從操作系統的角度看,Boot Loader 的總目標就是正確地調用內核來執行。另外,由于 Boot Loader 的實現依賴于 CPU 的體系結構,因此大多數 Boot Loader 都分為 stage1 和 stage2 兩大部分。依賴于 CPU 體系結構的代碼,比如設備初始化代碼等,通常都放在 stage1 中,而且通常都用匯編語言來實現,以達到短小精悍的目的。
而 stage2 則通常用C語言來實現,這樣可以實現給復雜的功能,而且代碼會具有更好的可讀性和可移植性。
Boot Loader 的 stage1 通常包括以下步驟(以執行的先后順序):
硬件設備初始化。
為加載 Boot Loader 的 stage2 準備 RAM 空間。
拷貝 Boot Loader 的 stage2 到 RAM 空間中。
設置好堆棧。
跳轉到 stage2 的 C 入口點。
Boot Loader 的 stage2 通常包括以下步驟(以執行的先后順序):
初始化本階段要使用到的硬件設備。
檢測系統內存映射(memory map)。
將 kernel 映像和根文件系統映像從 flash 上讀到 RAM 空間中。
為內核設置啟動參數。
調用內核。
3.1 Boot Loader 的 stage1
3.1.1基本的硬件初始化
這是 Boot Loader 一開始就執行的操作,其目的是為 stage2 的執行以及隨后的 kernel 的執行準備好一些基本的硬件環境。它通常包括以下步驟(以執行的先后順序):
屏蔽所有的中斷。為中斷提供服務通常是 OS 設備驅動程序的責任,因此在 BootLoader 的執行全過程中可以不必響應任何中斷。中斷屏蔽可以通過寫CPU 的中斷屏蔽寄存器或狀態寄存器(比如ARM 的 CPSR 寄存器)來完成。
設置 CPU 的速度和時鐘頻率。
RAM 初始化。包括正確地設置系統的內存控制器的功能寄存器以及各內存庫控制寄存器等。
初始化 LED。典型地,通過 GPIO 來驅動 LED,其目的是表明系統的狀態是 OK 還是 Error。如果板子上沒有 LED,那么也可以通過初始化 UART 向串口打印 Boot Loader 的 Logo 字符信息來完成這一點。
關閉 CPU 內部指令/數據 cache。
3.1.2 為加載 stage2 準備 RAM 空間
為了獲得更快的執行速度,通常把 stage2 加載到 RAM 空間中來執行,因此必須為加載Boot Loader 的 stage2 準備好一段可用的 RAM 空間范圍。由于 stage2 通常是 C 語言執行代碼,因此在考慮空間大小時,除了 stage2 可執行映象的大小外,還必須把堆??臻g也考慮進來。此外,空間大小最好是 memory page 大小(通常是 4KB)的倍數。一般而言,1M的 RAM 空間已經足夠了。具體的地址范圍可以任意安排,比如 blob 就將它的 stage2 可執行映像安排到從系統 RAM 起始地址 0xc0200000 開始的1M空間內執行。
但是,將 stage2 安排到整個 RAM 空間的最頂 1MB(也即(RamEnd-1MB) - RamEnd)是一種值得推薦的方法。
為了后面的敘述方便,這里把所安排的 RAM 空間范圍的大小記為:stage2_size(字節) ,把起始地址和終止地址分別記為:stage2_start 和 stage2_end(這兩個地址均以 4 字節邊界對齊)。因此: stage2_end=stage2_start+stage2_size
另外,還必須確保所安排的地址范圍的的確確是可讀寫的 RAM 空間,因此,必須對你所安排的地址范圍進行測試。
具體的測試方法可以采用類似于 blob 的方法,也即:以 memory page 為被測試單位,測試每個 memory page 開始的兩個字是否是可讀寫的。為了后面敘述的方便,我們記這個檢測算法為:test_mempage,其具體步驟如下:
先保存 memory page 一開始兩個字的內容。
向這兩個字中寫入任意的數字。比如:向第一個字寫入 0x55,第 2 個字寫入 0xaa。
然后,立即將這兩個字的內容讀回。顯然,我們讀到的內容應該分別是 0x55 和 0xaa。如果不是,則說明這個 memory page 所占據的地址范圍不是一段有效的 RAM 空間。
再向這兩個字中寫入任意的數字。比如:向第一個字寫入 0xaa,第 2 個字中寫入0x55。
然后,立即將這兩個字的內容立即讀回。顯然,我們讀到的內容應該分別是 0xaa和 0x55。如果不是,則說明這個 memory page 所占據的地址范圍不是一段有效的 RAM空間。
恢復這兩個字的原始內容。測試完畢。
為了得到一段干凈的 RAM 空間范圍,我們也可以將所安排的 RAM 空間范圍進行清零操作。
3.1.3 拷貝 stage2 到 RAM 中
拷貝時要確定兩點:
(1) stage2 的可執行映象在固態存儲設備的存放起始地址和終止地址;
(2) RAM 空間的起始地址。
3.1.4 設置堆棧指針 sp
堆棧指針的設置是為了執行 C 語言代碼作好準備。通常我們可以把 sp 的值設置為(stage2_end-4),也即在 3.1.2 節所安排的那個 1MB 的 RAM 空間的最頂端(堆棧向下生長)。
此外,在設置堆棧指針 sp 之前,也可以關閉 led 燈,以提示用戶我們準備跳轉到 stage2。
經過上述這些執行步驟后,系統的物理內存布局應該如下圖2所示。
3.1.5 跳轉到 stage2 的 C 入口點
在上述一切都就緒后,就可以跳轉到 Boot Loader 的 stage2 去執行了。
比如,在 ARM 系統中,這可以通過修改 PC 寄存器為合適的地址來實現。
3.2 Boot Loader 的stage2
正如前面所說,stage2 的代碼通常用 C 語言來實現,以便于實現更復雜的功能和取得更好的代碼可讀性和可移植性。
但是與普通 C 語言應用程序不同的是,在編譯和鏈接boot loader 這樣的程序時,我們不能使用 glibc 庫中的任何支持函數。其原因是顯而易見的。這就給我們帶來一個問題,那就是從那里跳轉進 main() 函數呢?直接把 main() 函數的起始地址作為整個 stage2 執行映像的入口點或許是最直接的想法。但是這樣做有兩個缺點:
1)無法通過main() 函數傳遞函數參數;
2)無法處理 main() 函數返回的情況。
一種更為巧妙的方法是利用 trampoline(彈簧床)的概念。也即,用匯編語言寫一段trampoline 小程序,并將這段 trampoline 小程序來作為 stage2 可執行映象的執行入口點。然后我們可以在 trampoline 匯編小程序中用 CPU 跳轉指令跳入 main() 函數中去執行;而當 main() 函數返回時,CPU 執行路徑顯然再次回到我們的 trampoline 程序。簡而言之,這種方法的思想就是:用這段 trampoline 小程序來作為main() 函數的外部包裹(external wrapper)。
下面給出一個簡單的 trampoline 程序示例(來自blob):
.text
.globl _trampoline
_trampoline:
bl main
/* if main ever returns we just call it again */
b _trampoline
可以看出,當 main() 函數返回后,我們又用一條跳轉指令重新執行 trampoline 程序,當然也就重新執行 main() 函數,這也就是 trampoline(彈簧床)一詞的意思所在。
3.2.1初始化本階段要使用到的硬件設備
這通常包括:
(1)初始化至少一個串口,以便和終端用戶進行 I/O 輸出信息;
(2)初始化計時器等。
在初始化這些設備之前,也可以重新把 LED 燈點亮,以表明我們已經進入 main() 函數執行。
設備初始化完成后,可以輸出一些打印信息,程序名字字符串、版本號等。
3.2.2 檢測系統的內存映射(memory map)
所謂內存映射就是指在整個 4GB 物理地址空間中有哪些地址范圍被分配用來尋址系統的RAM 單元。
比如,在 SA-1100 CPU 中,從 0xC000,0000 開始的512M地址空間被用作系統的 RAM 地址空間,而在 Samsung S3C44B0X CPU 中,從 0x0c00,0000 到 0x1000,0000 之間的64M地址空間被用作系統的 RAM 地址空間。雖然 CPU 通常預留出一大段足夠的地址空間給系統 RAM,但是在搭建具體的嵌入式系統時卻不一定會實現 CPU 預留的全部 RAM 地址空間。也就是說,具體的嵌入式系統往往只把 CPU 預留的全部 RAM 地址空間中的一部分映射到 RAM 單元上,而讓剩下的那部分預留 RAM 地址空間處于未使用狀態。
由于上述這個事實,因此 Boot Loader 的 stage2 必須在它想干點什么 (比如,將存儲在 flash 上的內核映像讀到 RAM 空間中) 之前檢測整個系統的內存映射情況,也即它必須知道CPU 預留的全部 RAM 地址空間中的哪些被真正映射到 RAM 地址單元,哪些是處于 “unused” 狀態的。
(1) 內存映射的描述
可以用如下數據結構來描述 RAM 地址空間中的一段連續(continuous)的地址范圍:
typedef struct memory_area_struct {
u32 start; /* the base address of the memory region */
u32 size; /* the byte number of the memory region */
int used;
} memory_area_t;
這段 RAM 地址空間中的連續地址范圍可以處于兩種狀態之一:
(1)used=1,則說明這段連續的地址范圍已被實現,也即真正地被映射到 RAM 單元上。
(2)used=0,則說明這段連續的地址范圍并未被系統所實現,而是處于未使用狀態。
基于上述 memory_area_t 數據結構,整個 CPU 預留的 RAM 地址空間可以用一個 memory_area_t 類型的數組來表示,如下所示:
memory_area_t memory_map[NUM_MEM_AREAS] = {
[0 。.. (NUM_MEM_AREAS - 1)] = {
.start = 0,
.size = 0,
.used = 0
},
};
(2) 內存映射的檢測
下面我們給出一個可用來檢測整個 RAM 地址空間內存映射情況的簡單而有效的算法:
/* 數組初始化 */
for(i = 0; i < NUM_MEM_AREAS; i++)
memory_map[i].used = 0;
/* first write a 0 to all memory locations */
for(addr = MEM_START; addr < MEM_END; addr += PAGE_SIZE)
* (u32 *)addr = 0;
for(i = 0, addr = MEM_START; addr < MEM_END; addr += PAGE_SIZE) {
/*
* 檢測從基地址 MEM_START+i*PAGE_SIZE 開始,大小為
* PAGE_SIZE 的地址空間是否是有效的RAM地址空間。
*/
調用3.1.2節中的算法test_mempage();
if ( current memory page isnot a valid ram page) {
/* no RAM here */
if(memory_map[i].used )
i++;
continue;
}
/*
* 當前頁已經是一個被映射到 RAM 的有效地址范圍
* 但是還要看看當前頁是否只是 4GB 地址空間中某個地址頁的別名?
*/
if(* (u32 *)addr != 0) { /* alias? */
/* 這個內存頁是 4GB 地址空間中某個地址頁的別名 */
if ( memory_map[i].used )
i++;
continue;
}
/*
* 當前頁已經是一個被映射到 RAM 的有效地址范圍
* 而且它也不是4GB 地址空間中某個地址頁的別名。
*/
if (memory_map[i].used == 0) {
memory_map[i].start = addr;
memory_map[i].size = PAGE_SIZE;
memory_map[i].used = 1;
} else {
memory_map[i].size += PAGE_SIZE;
}
} /* end of for (…) */
在用上述算法檢測完系統的內存映射情況后,Boot Loader 也可以將內存映射的詳細信息打印到串口。
3.2.3 加載內核映像和根文件系統映像
(1)規劃內存占用的布局
這里包括兩個方面:
內核映像所占用的內存范圍;
根文件系統所占用的內存范圍。
在規劃內存占用的布局時,主要考慮基地址和映像的大小兩個方面。
對于內核映像,一般將其拷貝到從(MEM_START+0x8000) 這個基地址開始的大約1MB大小的內存范圍內(嵌入式 Linux 的內核一般都不超過 1MB)。為什么要把從 MEM_START 到MEM_START+0x8000 這段 32KB 大小的內存空出來呢?這是因為 Linux 內核要在這段內存中放置一些全局數據結構,如:啟動參數和內核頁表等信息。
而對于根文件系統映像,則一般將其拷貝到 MEM_START+0x0010,0000 開始的地方。如果用 Ramdisk 作為根文件系統映像,則其解壓后的大小一般是1MB。
(2)從 Flash 上拷貝
由于像 ARM 這樣的嵌入式 CPU 通常都是在統一的內存地址空間中尋址 Flash 等固態存儲設備的,因此從 Flash 上讀取數據與從 RAM 單元中讀取數據并沒有什么不同。用一個簡單的循環就可以完成從 Flash 設備上拷貝映像的工作:
while(count) {
*dest++ = *src++; /* they are all aligned with word boundary */
count -= 4; /* byte number */
};
3.2.4 設置內核的啟動參數
應該說,在將內核映像和根文件系統映像拷貝到 RAM 空間中后,就可以準備啟動 Linux 內核了。
但是在調用內核之前,應該作一步準備工作,即:設置 Linux 內核的啟動參數。
Linux 2.4.x 以后的內核都期望以標記列表(tagged list)的形式來傳遞啟動參數。啟動參數標記列表以標記 ATAG_CORE 開始,以標記 ATAG_NONE 結束。每個標記由標識被傳遞參數的 tag_header 結構以及隨后的參數值數據結構來組成。
數據結構 tag 和 tag_ header 定義在 Linux 內核源碼的include/asm/setup.h 頭文件中:
/* The list ends with an ATAG_NONE node. */
#define ATAG_NONE 0x00000000
struct tag_header {
u32 size; /* 注意,這里size是字數為單位的 */
u32 tag;
};
……
struct tag {
struct tag_header hdr;
union {
struct tag_core core;
struct tag_mem32 mem;
struct tag_videotext videotext;
struct tag_ramdisk ramdisk;
struct tag_initrd initrd;
struct tag_serialnr serialnr;
struct tag_revision revision;
struct tag_videolfb videolfb;
struct tag_cmdline cmdline;
/*
*/
struct tag_acorn acorn;
/*
* DC21285 specific
*/
struct tag_memclk memclk;
} u;
};
在嵌入式 Linux 系統中,通常需要由 Boot Loader 設置的常見啟動參數有:ATAG_CORE、ATAG_MEM、ATAG_CMDLINE、ATAG_RAMDISK、ATAG_INITRD等。
比如,設置 ATAG_CORE 的代碼如下:
params = (struct tag *)BOOT_PARAMS;
params->hdr.tag = ATAG_CORE;
params->hdr.size = tag_size(tag_core);
params->u.core.flags = 0;
params->u.core.pagesize = 0;
params->u.core.rootdev = 0;
params = tag_next(params);
其中,BOOT_PARAMS 表示內核啟動參數在內存中的起始基地址,指針 params 是一個 struct tag 類型的指針。
宏 tag_next() 將以指向當前標記的指針為參數,計算緊臨當前標記的下一個標記的起始地址。
注意,內核的根文件系統所在的設備ID就是在這里設置的。
下面是設置內存映射情況的示例代碼:
for(i = 0; i < NUM_MEM_AREAS; i++) {
if(memory_map[i].used) {
params->hdr.tag = ATAG_MEM;
params->hdr.size = tag_size(tag_mem32);
params->u.mem.start = memory_map[i].start;
params->u.mem.size = memory_map[i].size;
params = tag_next(params);
}
}
可以看出,在 memory_map[]數組中,每一個有效的內存段都對應一個 ATAG_MEM 參數標記。
Linux 內核在啟動時可以以命令行參數的形式來接收信息,利用這一點我們可以向內核提供那些內核不
能自己檢測的硬件參數信息,或者重載(override)內核自己檢測到的信息。
比如,我們用這樣一個命令行參數字符串“console=ttyS0,115200n8”來通知內核以ttyS0 作為控制臺,且串口采用 “115200bps、無奇偶校驗、8位數據位”這樣的設置。下面是一段設置調用內核命令行參數字符串的示例代碼:
char *p;
/* eat leading white space */
for(p = commandline; *p == ‘ ’; p++)
;
/* skip non-existent command lines so the kernel will still
* use its default command line.
*/
if(*p == ‘\0’)
return;
params->hdr.tag = ATAG_CMDLINE;
params->hdr.size = (sizeof(struct tag_header) + strlen(p) + 1 + 4) >> 2;
strcpy(params->u.cmdline.cmdline, p);
params = tag_next(params);
請注意在上述代碼中,設置 tag_header 的大小時,必須包括字符串的終止符‘\0’,此外還要將字節數向上圓整4個字節,因為 tag_header 結構中的size 成員表示的是字數。
下面是設置 ATAG_INITRD 的示例代碼,它告訴內核在 RAM 中的什么地方可以找到 initrd 映象(壓縮格式)以及它的大小:
params->hdr.tag = ATAG_INITRD2;
params->hdr.size = tag_size(tag_initrd);
params->u.initrd.start = RAMDISK_RAM_BASE;
params->u.initrd.size = INITRD_LEN;
params = tag_next(params);
下面是設置 ATAG_RAMDISK 的示例代碼,它告訴內核解壓后的 Ramdisk 有多大(單位是KB):
params->hdr.tag = ATAG_RAMDISK;
params->hdr.size = tag_size(tag_ramdisk);
params->u.ramdisk.start = 0;
params->u.ramdisk.size = RAMDISK_SIZE; /* 請注意,單位是KB */
params->u.ramdisk.flags = 1; /* automatically load ramdisk */
params = tag_next(params);
最后,設置 ATAG_NONE 標記,結束整個啟動參數列表:
static void setup_end_tag(void)
{
params->hdr.tag = ATAG_NONE;
params->hdr.size = 0;
}
3.2.5 調用內核
Boot Loader 調用 Linux 內核的方法是直接跳轉到內核的第一條指令處,
也即直接跳轉到 MEM_START+0x8000 地址處。在跳轉時,下列條件要滿足:
CPU 寄存器的設置:
R0=0;
R1=機器類型 ID;關于 Machine Type Number,可以參見 linux/arch/arm/tools/mach-types。
R2=啟動參數標記列表在 RAM 中起始基地址;
CPU 模式:
必須禁止中斷(IRQs和FIQs);
CPU 必須 SVC 模式;
Cache 和 MMU 的設置:
MMU 必須關閉;
指令 Cache 可以打開也可以關閉;
數據 Cache 必須關閉;
如果用 C 語言,可以像下列示例代碼這樣來調用內核:
void (*theKernel)(int zero, int arch, u32 params_addr) = (void (*)(int, int,u32))KERNEL_RAM_BASE;
……
theKernel(0, ARCH_NUMBER, (u32) kernel_params_start);
注意,theKernel()函數調用應該永遠不返回的。如果這個調用返回,則說明出錯。
四. 關于串口終端
在 boot loader 程序的設計與實現中,沒有什么能夠比從串口終端正確地收到打印信息能更令人激動了。此外,向串口終端打印信息也是一個非常重要而又有效的調試手段。但是,我們經常會碰到串口終端顯示亂碼或根本沒有顯示的問題。造成這個問題主要有兩種原因:
boot loader 對串口的初始化設置不正確。
運行在 host 端的終端仿真程序對串口的設置不正確,這包括:波特率、奇偶校驗、數據位和停止位等方面的設置。
此外,有時也會碰到這樣的問題,那就是:在 boot loader 的運行過程中我們可以正確地向串口終端輸出信息,但當 boot loader 啟動內核后卻無法看到內核的啟動輸出信息。對這一問題的原因可以從以下幾個方面來考慮:
首先請確認你的內核在編譯時配置了對串口終端的支持,并配置了正確的串口驅動程序。
你的 boot loader 對串口的初始化設置可能會和內核對串口的初始化設置不一致。此外,對于諸如 s3c44b0x 這樣的 CPU,CPU 時鐘頻率的設置也會影響串口,因此如果boot loader 和內核對其 CPU 時鐘頻率的設置不一致,也會使串口終端無法正確顯示信息。
最后,還要確認 boot loader 所用的內核基地址必須和內核映像在編譯時所用的運行基地址一致,尤其是對于 uClinux 而言。假設你的內核映像在編譯時用的基地址是0xc0008000,但你的 boot loader 卻將它加載到 0xc0010000 處去執行,那么內核映像當然不能正確地執行了。
五. 結束語
Boot Loader 的設計與實現是一個非常復雜的過程。
評論
查看更多