Linux下ARM彙編教程
第一部分 Linux下ARM彙編文法儘管在Linux下使用C或C++編寫程式很方便,但彙編來源程式用於系統最基本的初始化,如初始化堆棧指標、設定頁表、操作ARM的副處理器等。初始化完成後就可以跳轉到C代碼執行。需要注意的是,GNU的彙編器遵循AT&T的彙編文法,可以從GNU的網站(www.gnu.org)上下載有關規範。
一. Linux彙編行結構
任何彙編行都是如下結構:
[:] [} @ comment
[:] [} @ 注釋
Linux ARM 彙編中,任何以冒號結尾的標識符都被認為是一個標號,而不一定非要在一行的開始。
【例1】定義一個"add"的函數,返回兩個參數的和。
.section .text, “x”
.global add @ give the symbol add external linkage
add:
ADD r0, r0, r1 @ add input arguments
MOV pc, lr @ return from subroutine
@ end of program
二. Linux 組譯工具中的標號
標號只能由a~z,A~Z,0~9,“.”,_等字元組成。當標號為0~9的數字時為局部標號,局部標號可以重複出現,使用方法如下:
l 標號f: 在引用的地方向前的標號
標號b: 在引用的地方向後的標號l
【例2】使用局部符號的例子,一段迴圈程式
1:
subs r0,r0,#1 @每次迴圈使r0=r0-1
bne 1f @跳轉到1標號去執行
局部標號代表它所在的地址,因此也可以當作變數或者函數來使用。
三. Linux組譯工具中的分段
(1).section偽操作
使用者可以通過.section偽操作來自訂一個段,格式如下:
.section section_name [, "flags"[, %type[,flag_specific_arguments]]]
每一個段以段名為開始, 以下一個段名或者檔案結尾為結束。這些段都有預設的標誌(flags),連接器可以識別這些標誌。(與armasm中的AREA相同)。
下面是ELF格式允許的段標誌
<標誌> 含義
a 允許段
w 可寫段
x 執行段
【例3】定義段
.section .mysection @自訂資料區段,段名為 “.mysection”
.align 2
strtemp:
.ascii "Temp string /n/0"
(2)彙編系統預定義的段名
.text @程式碼片段
.data @初始化資料區段
.bss @未初始化資料區段
.sdata @
.sbss @
需要注意的是,來源程式中.bss段應該在.text之前。
四. 定義進入點
組譯工具的預設入口是 start標號,使用者也可以在串連指令檔中用ENTRY標誌指明其它進入點。
【例4】定義進入點
.section.data
< initialized data here>
.section .bss
< uninitialized data here>
.section .text
.globl _start
_start:
五. Linux組譯工具中的宏定義
格式如下:
.macro 宏名 參數名列表 @偽指令.macro定義一個宏
宏體
.endm @.endm表示宏結束
如果宏使用參數,那麼在宏體中使用該參數時添加首碼“/”。宏定義時的參數還可以使用預設值。
可以使用.exitm偽指令來退出宏。
【例5】宏定義
.macro SHIFTLEFT a, b
.if /b < 0
MOV /a, /a, ASR #-/b
.exitm
.endif
MOV /a, /a, LSL #/b
.endm
六. Linux組譯工具中的常數
(1)十進位數以非0數字開頭,如:123和9876;
(2)位元以0b開頭,其中字母也可以為大寫;
(3)八位元以0開始,如:0456,0123;
(4)十六進位數以0x開頭,如:0xabcd,0X123f;
(5)字串常量需要用引號括起來,中間也可以使用逸出字元,如: “You are welcome!/n”;
(6)當前地址以“.”表示,在組譯工具中可以使用這個符號代表當前指令的地址;
(7)運算式:在組譯工具中的運算式可以使用常數或者數值, “-”表示取負數, “~”表示取補,“<>”表示不相等,其他的符號如:+、-、*、/、%、<、<<、>、>>、|、&、^、!、==、>=、<=、&&、||跟C語言中的用法相似。
七. Linux下ARM彙編的常用偽操作
在前面已經提到過了一些為操作,還有下面一些為操作:
資料定義偽操作: .byte,.short,.long,.quad,.float,.string/.asciz/.ascii,重複定義偽操作.rept,指派陳述式.equ/.set ;
函數的定義 ;
對齊偽操作 .align;
源檔案結束偽操作.end;
.include偽操作;
if偽操作;
.global/ .globl 偽操作 ;
.type偽操作 ;
列表控制語句 ;
區別於gas彙編的通用偽操作,下面是ARM特有的偽操作 :.reg ,.unreq ,.code ,.thumb ,.thumb_func ,.thumb_set, .ltorg ,.pool
1. 資料定義偽操作
(1) .byte:單位元組定義,如:.byte 1,2,0b01,0x34,072,'s' ;
(2) .short:定義雙位元組資料,如:.short 0x1234,60000 ;
(3) .long:定義4位元組資料,如:.long 0x12345678,23876565
(4) .quad:定義8位元組,如:.quad 0x1234567890abcd
(5) .float:定義浮點數,如:
.float 0f-314159265358979323846264338327/
95028841971.693993751E-40 @ - pi
(6) .string/.asciz/.ascii:定義多個字串,如:
.string "abcd", "efgh", "hello!"
.asciz "qwer", "sun", "world!"
.ascii "welcome/0"
需要注意的是:.ascii偽操作定義的字串需要自行添加結尾字元'/0'。
(7) .rept:重複定義偽操作, 格式如下:
.rept 重複次數
資料定義
.endr @結束重複定義
例如:
.rept 3
.byte 0x23
.endr
(8) .equ/.set: 指派陳述式, 格式如下:
.equ(.set) 變數名,運算式
例如:
.equ abc 3 @讓abc=3
2.函數的定義偽操作
(1)函數的定義,格式如下:
函數名:
函數體
返回語句
一般的,函數如果需要在其他檔案中調用, 需要用到.global偽操作將函式宣告為全域函數。為了不至於在其他程式在調用某個C函數時發生混亂,對寄存器的使用我們需要遵循APCS準則。函數編譯器將處理為函數代碼為一段.global的彙編碼。
(2)函數的編寫應當遵循如下規則:
a1-a4寄存器(參數、結果或暫存寄存器,r0到r3 的同義字)以及浮點寄存器f0-f3(如果存在浮點副處理器)在函數中是不必儲存的;
如果函數返回一個不大於一個字大小的值,則在函數結束時應該把這個值送到 r0 中;
如果函數返回一個浮點數,則在函數結束時把它放入浮點寄存器f0中;
如果函數的過程改動了sp(堆棧指標,r13)、fp(架構指標,r11)、sl(堆棧限制,r10)、lr(串連寄存器,r14)、v1-v8(變數寄存器,r4 到 r11)和 f4-f7,那麼函數結束時這些寄存器應當被恢複為包含在進入函數時它所持有的值。
3. .align .end .include .incbin偽操作
(1).align:用來指定資料的對齊,格式如下:
.align [absexpr1, absexpr2]
以某種對齊,在未使用的儲存地區填儲值. 第一個值表示對齊,4, 8,16或 32. 第二個運算式值表示填充的值。
(2).end:表明源檔案的結束。
(3).include:可以將指定的檔案在使用.include 的地方展開,一般是標頭檔,例如:
.include “myarmasm.h”
(4).incbin偽操作可以將原封不動的一個二進位檔案編譯到當前檔案中,使用方法如下:
.incbin "file"[,skip[,count]]
skip表明是從檔案開始跳過skip個位元組開始讀取檔案,count是讀取的字數.
4. .if偽操作
根據一個運算式的值來決定是否要編譯下面的代碼, 用.endif偽操作來表示條件判斷的結束, 中間可以使用.else來決定.if的條件不滿足的情況下應該編譯哪一部分代碼。
.if有多個變種:
.ifdef symbol @判斷symbol是否定義
.ifc string1,string2 @字串string1和string2是否相等,字串可以用單引號括起來
.ifeq expression @判斷expression的值是否為0
.ifeqs string1,string2 @判斷string1和string2是否相等,字元 串必須用雙引號括起來
.ifge expression @判斷expression的值是否大於等於0
.ifgt absolute expression @判斷expression的值是否大於0
.ifle expression @判斷expression的值是否小於等於0
.iflt absolute expression @判斷expression的值是否小於0
.ifnc string1,string2 @判斷string1和string2是否不相等, 其用法跟.ifc恰好相反。
.ifndef symbol, .ifnotdef symbol @判斷是否沒有定義symbol, 跟.ifdef恰好相反
.ifne expression @如果expression的值不是0, 那麼編譯器將編譯下面的代碼
.ifnes string1,string2 @如果字串string1和string2不相 等, 那麼編譯器將編譯下面的代碼.
5. .global .type .title .list
(1).global/ .globl :用來定義一個全域的符號,格式如下:
.global symbol 或者 .globl symbol
(2).type:用來指定一個符號的類型是函數類型或者是物件類型, 物件類型一般是資料, 格式如下:
.type 符號, 類型描述
【例6】
.globl a
.data
.align 4
.type a, @object
.size a, 4
a:
.long 10
【例7】
.section .text
.type asmfunc, @function
.globl asmfunc
asmfunc:
mov pc, lr
(3)列表控制語句:
.title:用來指定彙編列表的標題,例如:
.title “my program”
.list:用來輸出資料行表檔案.
6. ARM特有的偽操作
(1) .reg: 用來給寄存器賦予別名,格式如下:
別名 .req 寄存器名
(2) .unreq: 用來取消一個寄存器的別名,格式如下:
.unreq 寄存器別名
注意被取消的別名必須事先定義過,否則編譯器就會報錯,這個偽操作也可以用來取消系統預製的別名, 例如r0, 但如果沒有必要的話不推薦那樣做。
(3) .code偽操作用來選擇ARM或者Thumb指令集,格式如下:
.code 運算式
如果運算式的值為16則表明下面的指令為Thumb指令,如果運算式的值為32則表明下面的指令為ARM指令.
(4) .thumb偽操作等同於.code 16, 表明使用Thumb指令, 類似的.arm等同於.code 32
(5) .force_thumb偽操作用來強制目標處理器選擇thumb的指令集而不管處理器是否支援
(6) .thumb_func偽操作用來指明一個函數是thumb指令集的函數
(7) .thumb_set偽操作的作用類似於.set, 可以用來給一個標誌起一個別名, 比.set功能增加的一點是可以把一個標誌標記為thumb函數的入口, 這點功能等同於.thumb_func
(8) .ltorg用於聲明一個資料緩衝池(literal pool)的開始,它可以分配很大的空間。
(9) .pool的作用等同.ltorg
(9).space {,}
分配number_of_bytes位元組的資料空間,並填充其值為fill_byte,若未指定該值,預設填充0。(與armasm中的SPACE功能相同)
(10).word {,} …
插入一個32-bit的資料隊列。(與armasm中的DCD功能相同)
可以使用.word把標識符作為常量使用
例如:
Start:
valueOfStart:
.word Start
這樣程式的開頭Start便被存入了記憶體變數valueOfStart。
(11).hword {,} …
插入一個16-bit的資料隊列。(與armasm中的DCW相同)
八. GNU ARM彙編特殊字元和文法
程式碼中的注釋符號: ‘@’
整行注釋符號: ‘#’
語句分離符號: ‘;’
直接運算元首碼: ‘#’ 或 ‘$’
第二部分 GNU的編譯器和調試工具
一. 編譯工具
1.編輯工具介紹
GNU提供的編譯工具包括彙編器as、C編譯器gcc、C++編譯器g++、連接器ld和二進位轉換工具objcopy。基於ARM平台的工具分別為arm-linux-as、arm-linux-gcc、arm-linux-g++、arm-linux-ld和arm-linux- objcopy。GNU的編譯器功能非常強大,共有上百個操作選項,這也是這類工具讓初學者頭痛的原因。不過,實際開發中只需要用到有限的幾個,大部分可以採用預設選項。GNU工具的開發流程如下:編寫C、C++語言或彙編來源程式,用gcc或g++產生目標檔案,編寫串連指令檔,用連接器產生最終目標檔案(elf格式),用二進位轉換工具產生可下載的二進位代碼。
(1)編寫C、C++語言或彙編來源程式
通常彙編來源程式用於系統最基本的初始化,如初始化堆棧指標、設定頁表、操作ARM的副處理器等。初始化完成後就可以跳轉到C代碼執行。需要注意的是,GNU的彙編器遵循AT&T的彙編文法,讀者可以從GNU的網站(www.gnu.org)上下載有關規範。組譯工具的預設入口是 start標號,使用者也可以在串連指令檔中用ENTRY標誌指明其它進入點(見下文關於串連指令碼的說明)。
(2)用gcc或g++產生目標檔案
如果應用程式套件組合括多個檔案,就需要進行分別編譯,最後用連接器串連起來。如筆者的引導程式包括3個檔案:init.s(彙編代碼、初始化硬體)xmrecever.c(通訊模組,採用Xmode協議)和flash.c(Flash擦寫模組)。
分別用如下命令產生目標檔案: arm-linux-gcc-c-O2-o init.o init.s arm-linux-gcc-c-O2-oxmrecever.oxmrecever.c arm-linux-gcc-c-O2-oflash.oflash.c 其中-c命令表示只產生目標代碼,不進行串連;-o命令指明目標檔案的名稱;-O2表示採用二級最佳化,採用最佳化後可使產生的程式碼更短,運行速度更快。如果項目包含很多檔案,則需要編寫makefile檔案。關於makefile的內容,請感興趣的讀者參考相關資料。
(3)編寫串連指令檔
gcc等編譯器內建有預設的串連指令碼。如果採用預設指令碼,則產生的目標代碼需要作業系統才能載入運行。為了能在嵌入式系統上直接運行,需要編寫自己的串連指令檔。編寫串連指令碼,首先要對目標檔案的格式有一定瞭解。GNU編譯器產生的目標檔案預設為elf格式。elf檔案由若干段(section)組成,如不特殊指明,由C來源程式產生的目標代碼中包含如下段:.text(本文段)包含程式的指令代碼;.data(資料區段)包含固定的資料,如常量、字串;.bss(未初始化資料區段)包含未初始化的變數、數組等。C++來源程式產生的目標代碼中還包括.fini(解構函式代碼)和. init(建構函式代碼)等。連接器的任務就是將多個目標檔案的.text、.data和.bss等段串連在一起,而串連指令檔是告訴連接器從什麼地址開始放置這些段。例如串連檔案link.lds為:
ENTRY(begin)
SECTION
{
.=0x30000000;
.text:{*(.text)}
.data:{*(.data)}
.bss:{*(.bss)}
}
其中,ENTRY(begin)指明程式的進入點為begin標號;.=0x00300000指明目標代碼的起始地址為0x30000000,這一段地址為MX1的片內RAM;.text:{*(.text)}表示從0x30000000開始放置所有目標檔案的程式碼片段,隨後的.data:{* (.data)}表示資料區段從程式碼片段的末尾開始,再後是.bss段。
(4)用連接器產生最終目標檔案
有了串連指令檔,如下命令可產生最終的目標檔案:
arm-linux-ld –no stadlib –o bootstrap.elf -Tlink.lds init.o xmrecever.o flash.o
其中,ostadlib表示不串連系統的運行庫,而是直接從begin入口;-o指明目標檔案的名稱;-T指明採用的串連指令檔(也可以使用-Ttext address,address表示執行區地址);最後是需要串連的目標檔案列表。
(5)產生二進位代碼
串連產生的elf檔案還不能直接下載執行,通過objcopy工具可產生最終的二進位檔案:
arm-linux-objcopy –O binary bootstrap.elf bootstrap.bin
其中-O binary指定產生為二進位格式檔案。Objcopy還可以產生S格式的檔案,只需將參數換成-O srec。還可以使用-S選項,移除所有的符號資訊及重定位資訊。如果想將產生的目標代碼反組譯碼,還可以用objdump工具:
arm-linux-objdump -D bootstrap.elf
至此,所產生的目標檔案就可以直接寫入Flash中運行了。
2.Makefile執行個體
example: head.s main.c
arm-linux-gcc -c -o head.o head.s
arm-linux-gcc -c -o main.o main.c
arm-linux-ld -Tlink.lds head.o main.o -o example.elf
arm-linux-objcopy -O binary -S example_tmp.o example
arm-linux-objdump -D -b binary -m arm example >ttt.s
二. 調試工具
Linux下的GNU調試工具主要是gdb、gdbserver和kgdb。其中gdb和gdbserver可完成對目標板上Linux下應用程式的遠端偵錯。gdbserver是一個很小的應用程式,運行於目標板上,可監控被調試進程的運行,並通過串口與上位機上的gdb通訊。開發人員可以通過上位機的gdb輸入命令,控制目標板上進程的運行,查看記憶體和寄存器的內容。gdb5.1.1以後的版本加入了對ARM處理器的支援,在初始化時加入- target==arm參數可直接產生基於ARM平台的gdbserver。gdb工具可以從ftp: //ftp.gnu.org/pub/gnu/gdb/上下載。
對於Linux核心的調試,可以採用kgdb工具,同樣需要通過串口與上位機上的gdb通訊,對目標板的Linux核心進行調試。可以從http://oss.sgi.com/projects/kgdb/上瞭解具體的使用方法。
參考資料:
1. Richard Blum,Professional Assembly Language
2. GNU ARM 彙編快速入門,http://blog.chinaunix.net/u/31996/showart.php?id=326146
3. ARM GNU 彙編偽指令簡介,http://www.cppblog.com/jb8164/archive/2008/01/22/41661.aspx
4. GNU彙編使用經驗,http://blog.chinaunix.net/u1/37614/showart_390095.html
5. GNU的編譯器和開發工具,http://blog.ccidnet.com/blog-htm-do-showone-uid-34335-itemid-81387-type-blog.html
6. 用GNU工具開發基於ARM的嵌入式系統,http://blog.163.com/liren0@126/blog/static/32897598200821211144696/
7. objcopy命令介紹,http://blog.csdn.net/junhua198310/archive/2007/06/27/1669545.aspx