Tasklet機制是一種較為特殊的非強制中斷。Tasklet一詞的原意是“小片任務”的意思,這裡是指一小段可執行檔代碼,且通常以函數的形式出現。非強制中斷向量HI_SOFTIRQ和TASKLET_SOFTIRQ均是用tasklet機制來實現的。
從某種程度上講,tasklet機制是Linux核心對BH機制的一種擴充。在2.4核心引入了softirq機制後,原有的BH機制正是通過tasklet機制這個橋樑來納入softirq機制的整體架構中的。正是由於這種曆史的延伸關係,使得tasklet機制與一般意義上的非強制中斷有所不同,而呈現出以下兩個顯著的特點:
1. 與一般的非強制中斷不同,某一段tasklet代碼在某個時刻只能在一個CPU上運行,而不像一般的非強制中斷服務函數(即softirq_action結構中的action函數指標)那樣——在同一時刻可以被多個CPU並發地執行。
2. 與BH機制不同,不同的tasklet代碼在同一時刻可以在多個CPU上並發地執行,而不像BH機制那樣必須嚴格地序列化執行(也即在同一時刻系統中只能有一個CPU執行BH函數)。
Linux用資料結構tasklet_struct來描述一個tasklet。該資料結構定義在include/linux/interrupt.h標頭檔中。如下所示:
struct tasklet_struct{ struct tasklet_struct *next; unsigned long state; atomic_t count; void (*func)(unsigned long); unsigned long data;};
各成員的含義如下:
(1)next指標:指向下一個tasklet的指標。
(2)state:定義了這個tasklet的目前狀態。這一個32位的無符號長整數,當前只使用了bit[1]和bit[0]兩個狀態位。其中,bit[1]=1表示這個tasklet當前正在某個CPU上被執行,它僅對SMP系統才有意義,其作用就是為了防止多個CPU同時執行一個tasklet的情形出現;bit[0]=1表示這個tasklet已經被調度去等待執行了。對這兩個狀態位的宏定義如下所示(interrupt.h):
enum{ TASKLET_STATE_SCHED, /* Tasklet is scheduled for execution */ TASKLET_STATE_RUN /* Tasklet is running (SMP only) */};
(3)原子計數count:對這個tasklet的引用計數值。NOTE!只有當count等於0時,tasklet程式碼片段才能執行,也即此時tasklet是被使能的;如果count非零,則這個tasklet是被禁止的。任何想要執行一個tasklet程式碼片段的人都首先必須先檢查其count成員是否為0。
(4)函數指標func:指向以函數形式表現的可執行tasklet程式碼片段。
(5)data:函數func的參數。這是一個32位的不帶正負號的整數,其具體含義可供func函數自行解釋,比如將其解釋成一個指向某個使用者自訂資料結構的地址值。
Linux在interrupt.h標頭檔中又定義了兩個用來定義tasklet_struct結構變數的輔助宏:
#define DECLARE_TASKLET(name, func, data) struct tasklet_struct name = { NULL, 0, ATOMIC_INIT(0), func, data }#define DECLARE_TASKLET_DISABLED(name, func, data) struct tasklet_struct name = { NULL, 0, ATOMIC_INIT(1), func, data }
顯然,從上述原始碼可以看出,用DECLARE_TASKLET宏定義的tasklet在初始化時是被使能的(enabled),因為其count成員為0。而用DECLARE_TASKLET_DISABLED宏定義的tasklet在初始時是被禁止的(disabled),因為其count等於1。
在這裡,tasklet狀態指兩個方面:1. state成員所表示的運行狀態;2. count成員決定的使能/禁止狀態。
(1)改變一個tasklet的運行狀態state成員中的bit[0]表示一個tasklet是否已被調度去等待執行,bit[1]表示一個tasklet是否正在某個CPU上執行。對於state變數中某位的改變必須是一個原子操作,因此可以用定義在include/asm/bitops.h標頭檔中的位操作來進行。
由於bit[1]這一位(即TASKLET_STATE_RUN)僅僅對於SMP系統才有意義,因此Linux在Interrupt.h標頭檔中顯示地定義了對TASKLET_STATE_RUN位的操作。如下所示:
#ifdef CONFIG_SMP#define tasklet_trylock(t) (!test_and_set_bit(TASKLET_STATE_RUN, &(t)->state))#define tasklet_unlock_wait(t) while (test_bit(TASKLET_STATE_RUN, &(t)->state)) { /* NOTHING */ }#define tasklet_unlock(t) clear_bit(TASKLET_STATE_RUN, &(t)->state)#else#define tasklet_trylock(t) 1#define tasklet_unlock_wait(t) do { } while (0)#define tasklet_unlock(t) do { } while (0)#endif
顯然,在SMP系統同,tasklet_trylock()宏將把一個tasklet_struct結構變數中的state成員中的bit[1]位設定成1,同時還返回bit[1]位的非。因此,如果bit[1]位原有值為1(表示另外一個CPU正在執行這個tasklet代碼),那麼tasklet_trylock()宏將傳回值0,也就表示上鎖不成功。如果bit[1]位的原有值為0,那麼tasklet_trylock()宏將傳回值1,表示加鎖成功。而在單CPU系統中,tasklet_trylock()宏總是返回為1。
任何想要執行某個tasklet代碼的程式都必須首先調用宏tasklet_trylock()來試圖對這個tasklet進行上鎖(即設定TASKLET_STATE_RUN位),且只能在上鎖成功的情況下才能執行這個tasklet。建議!即使你的程式只在CPU系統上運行,你也要在執行tasklet之前調用tasklet_trylock()宏,以便使你的代碼獲得良好可移植性。
在SMP系統中,tasklet_unlock_wait()宏將一直不停地測試TASKLET_STATE_RUN位的值,直到該位的值變為0(即一直等待到解鎖),假如:CPU0正在執行tasklet A的代碼,在此期間,CPU1也想執行tasklet A的代碼,但CPU1發現tasklet A的TASKLET_STATE_RUN位為1,於是它就可以通過tasklet_unlock_wait()宏等待tasklet A被解鎖(也即TASKLET_STATE_RUN位被清零)。在單CPU系統中,這是一個空操作。
宏tasklet_unlock()用來對一個tasklet進行解鎖操作,也即將TASKLET_STATE_RUN位清零。在單CPU系統中,這是一個空操作。
(2)使能/禁止一個tasklet
使能與禁止操作往往總是成對地被調用的,tasklet_disable()函數如下
(interrupt.h):
static inline void tasklet_disable(struct tasklet_struct *t){ tasklet_disable_nosync(t); tasklet_unlock_wait(t);}
函數tasklet_disable_nosync()也是一個靜態inline函數,它簡單地通過原子操作將count成員變數的值減1。如下所示(interrupt.h):
static inline void tasklet_disable_nosync(struct tasklet_struct *t){ atomic_inc(&t->count);}
函數tasklet_enable()用於使能一個tasklet,如下所示(interrupt.h):
static inline void tasklet_enable(struct tasklet_struct *t){ atomic_dec(&t->count);}
函數tasklet_init()用來初始化一個指定的tasklet描述符,其源碼如下所示(kernel/softirq.c):
void tasklet_init(struct tasklet_struct *t, void (*func)(unsigned long), unsigned long data){ t->func = func; t->data = data; t->state = 0; atomic_set(&t->count, 0);}
函數tasklet_kill()用來將一個已經被調度了的tasklet殺死,即將其恢複到未調度的狀態。其源碼如下所示(kernel/softirq.c):
void tasklet_kill(struct tasklet_struct *t){ if (in_interrupt()) printk("Attempt to kill tasklet from interruptn"); while (test_and_set_bit(TASKLET_STATE_SCHED, &t->state)) { current->state = TASK_RUNNING; do { current->policy |= SCHED_YIELD; schedule(); } while (test_bit(TASKLET_STATE_SCHED, &t->state)); } tasklet_unlock_wait(t); clear_bit(TASKLET_STATE_SCHED, &t->state);}
多個tasklet可以通過tasklet描述符中的next成員指標連結成一個單向對列。為此,Linux專門在標頭檔include/linux/interrupt.h中定義了資料結構tasklet_head來描述一個tasklet對列的頭部指標。如下所示:
struct tasklet_head{ struct tasklet_struct *list;} __attribute__ ((__aligned__(SMP_CACHE_BYTES)));
儘管tasklet機制是特定於非強制中斷向量HI_SOFTIRQ和TASKLET_SOFTIRQ的一種實現,但是tasklet機制仍然屬於softirq機制的整體架構範圍內的,因此,它的設計與實現仍然必須堅持“誰觸發,誰執行”的思想。為此,Linux為系統中的每一個CPU都定義了一個tasklet對列頭部,來表示應該有各個CPU負責執行的tasklet對列。如下所示(kernel/softirq.c):
struct tasklet_head tasklet_vec[NR_CPUS] __cacheline_aligned;struct tasklet_head tasklet_hi_vec[NR_CPUS] __cacheline_aligned;
其中,tasklet_vec[]數組用於非強制中斷向量TASKLET_SOFTIRQ,而tasklet_hi_vec[]數組則用於非強制中斷向量HI_SOFTIRQ。也即,如果CPUi(0≤i≤NR_CPUS-1)觸發了非強制中斷向量TASKLET_SOFTIRQ,那麼對列tasklet_vec[i]中的每一個tasklet都將在CPUi服務於非強制中斷向量TASKLET_SOFTIRQ時被CPUi所執行。同樣地,如果CPUi(0≤i≤NR_CPUS-1)觸發了非強制中斷向量HI_SOFTIRQ,那麼隊列tasklet_vec[i]中的每一個tasklet都將CPUi在對非強制中斷向量HI_SOFTIRQ進行服務時被CPUi所執行。
隊列tasklet_vec[I]和tasklet_hi_vec[I]中的各個tasklet是怎樣被所CPUi所執行的呢?其關鍵就是非強制中斷向量TASKLET_SOFTIRQ和HI_SOFTIRQ的非強制中斷服務程式——tasklet_action()函數和tasklet_hi_action()函數。下面我們就來分析這兩個函數。
Linux為非強制中斷向量TASKLET_SOFTIRQ和HI_SOFTIRQ實現了專用的觸發函數和非強制中斷服務函數。其中,tasklet_schedule()函數和tasklet_hi_schedule()函數分別用來在當前CPU上觸發非強制中斷向量TASKLET_SOFTIRQ和HI_SOFTIRQ,並把指定的tasklet加入當前CPU所對應的tasklet隊列中去等待執行。而tasklet_action()函數和tasklet_hi_action()函數則分別是非強制中斷向量TASKLET_SOFTIRQ和HI_SOFTIRQ的非強制中斷服務函數。在初始化函數softirq_init()中,這兩個非強制中斷向量對應的描述符softirq_vec[0]和softirq_vec[3]中的action函數指標就被分別初始化成指向函數tasklet_hi_action()和函數tasklet_action()。
(1)非強制中斷向量TASKLET_SOFTIRQ的觸發函數tasklet_schedule()
該函數實現在include/linux/interrupt.h標頭檔中,是一個inline函數。其源碼如下所示:
static inline void tasklet_schedule(struct tasklet_struct *t){ if (!test_and_set_bit(TASKLET_STATE_SCHED, &t->state)) { int cpu = smp_processor_id(); unsigned long flags; local_irq_save(flags); t->next = tasklet_vec[cpu].list; tasklet_vec[cpu].list = t; __cpu_raise_softirq(cpu, TASKLET_SOFTIRQ); local_irq_restore(flags); }}
該函數的參數t指向要在當前CPU上被執行的tasklet。對該函數的NOTE如下:
①調用test_and_set_bit()函數將待調度的tasklet的state成員變數的bit[0]位(也即TASKLET_STATE_SCHED位)設定為1,該函數同時還返回TASKLET_STATE_SCHED位的原有值。因此如果bit[0]為的原有值已經為1,那就說明這個tasklet已經被調度到另一個CPU上去等待執行了。由於一個tasklet在某一個時刻只能由一個CPU來執行,因此tasklet_schedule()函數什麼也不做就直接返回了。否則,就繼續下面的調度操作。
②首先,調用local_irq_save()函數來關閉當前CPU的中斷,以保證下面的步驟在當前CPU上原子地被執行。
③然後,將待調度的tasklet添加到當前CPU對應的tasklet隊列的首部。
④接著,調用__cpu_raise_softirq()函數在當前CPU上觸發非強制中斷請求TASKLET_SOFTIRQ。
⑤最後,調用local_irq_restore()函數來開當前CPU的中斷。
(2)非強制中斷向量TASKLET_SOFTIRQ的服務程式tasklet_action()
函數tasklet_action()是tasklet機制與非強制中斷向量TASKLET_SOFTIRQ的聯絡紐帶。正是該函數將當前CPU的tasklet隊列中的各個tasklet放到當前CPU上來執行的。該函數實現在kernel/softirq.c檔案中,其原始碼如下:
static void tasklet_action(struct softirq_action *a){ int cpu = smp_processor_id(); struct tasklet_struct *list; local_irq_disable(); list = tasklet_vec[cpu].list; tasklet_vec[cpu].list = NULL; local_irq_enable(); while (list != NULL) { struct tasklet_struct *t = list; list = list->next; if (tasklet_trylock(t)) { if (atomic_read(&t->count) == 0) { clear_bit(TASKLET_STATE_SCHED, &t->state); t->func(t->data); /* * talklet_trylock() uses test_and_set_bit that imply * an mb when it returns zero, thus we need the explicit * mb only here: while closing the critical section. */ #ifdef CONFIG_SMP smp_mb__before_clear_bit(); #endif tasklet_unlock(t); continue; } tasklet_unlock(t); } local_irq_disable(); t->next = tasklet_vec[cpu].list; tasklet_vec[cpu].list = t; __cpu_raise_softirq(cpu, TASKLET_SOFTIRQ); local_irq_enable(); }}
注釋如下:
①首先,在當前CPU關中斷的情況下,“原子”地讀取當前CPU的tasklet隊列頭部指標,將其儲存到局部變數list指標中,然後將當前CPU的tasklet隊列頭部指標設定為NULL,以表示理論上當前CPU將不再有tasklet需要執行(但最後的實際結果卻並不一定如此,下面將會看到)。
②然後,用一個while{}迴圈來遍曆由list所指向的tasklet隊列,隊列中的各個元素就是將在當前CPU上執行的tasklet。迴圈體的執行步驟如下:
- 用指標t來表示當前隊列元素,即當前需要執行的tasklet。
- 更新list指標為list->next,使它指向下一個要執行的tasklet。
- 用tasklet_trylock()宏試圖對當前要執行的tasklet(由指標t所指向)進行加鎖,如果加鎖成功(當前沒有任何其他CPU正在執行這個tasklet),則用原子讀函數atomic_read()進一步判斷count成員的值。如果count為0,說明這個tasklet是允許執行的,於是:(1)先清除TASKLET_STATE_SCHED位;(2)然後,調用這個tasklet的可執行函數func;(3)執行barrier()操作;(4)調用宏tasklet_unlock()來清除TASKLET_STATE_RUN位。(5)最後,執行continue語句跳過下面的步驟,回到while迴圈繼續遍曆隊列中的下一個元素。如果count不為0,說明這個tasklet是禁止啟動並執行,於是調用tasklet_unlock()清除前面用tasklet_trylock()設定的TASKLET_STATE_RUN位。
- 如果tasklet_trylock()加鎖不成功,或者因為當前tasklet的count值非0而不允許執行時,我們必須將這個tasklet重新放回到當前CPU的tasklet隊列中,以留待這個CPU下次服務非強制中斷向量TASKLET_SOFTIRQ時再執行。為此進行這樣幾步操作:(1)先關CPU中斷,以保證下面操作的原子性。(2)把這個tasklet重新放回到當前CPU的tasklet隊列的首部;(3)調用__cpu_raise_softirq()函數在當前CPU上再觸發一次非強制中斷請求TASKLET_SOFTIRQ;(4)開中斷。
- 最後,回到while迴圈繼續遍曆隊列。
(3)非強制中斷向量HI_SOFTIRQ的觸發函數tasklet_hi_schedule()
該函數與tasklet_schedule()幾乎相同,其源碼如下(include/linux/interrupt.h):
static inline void tasklet_hi_schedule(struct tasklet_struct *t){ if (!test_and_set_bit(TASKLET_STATE_SCHED, &t->state)) { int cpu = smp_processor_id(); unsigned long flags; local_irq_save(flags); t->next = tasklet_hi_vec[cpu].list; tasklet_hi_vec[cpu].list = t; __cpu_raise_softirq(cpu, HI_SOFTIRQ); local_irq_restore(flags); }}
(4)非強制中斷向量HI_SOFTIRQ的服務函數tasklet_hi_action()
該函數與tasklet_action()函數幾乎相同,其源碼如下(kernel/softirq.c):
static void tasklet_hi_action(struct softirq_action *a){ int cpu = smp_processor_id(); struct tasklet_struct *list; local_irq_disable(); list = tasklet_hi_vec[cpu].list; tasklet_hi_vec[cpu].list = NULL; local_irq_enable(); while (list != NULL) { struct tasklet_struct *t = list; list = list->next; if (tasklet_trylock(t)) { if (atomic_read(&t->count) == 0) { clear_bit(TASKLET_STATE_SCHED, &t->state); t->func(t->data); tasklet_unlock(t); continue; } tasklet_unlock(t); } local_irq_disable(); t->next = tasklet_hi_vec[cpu].list; tasklet_hi_vec[cpu].list = t; __cpu_raise_softirq(cpu, HI_SOFTIRQ); local_irq_enable(); }}
Bottom Half機制在新的softirq機制中被保留下來,並作為softirq架構的一部分。其實現也似乎更為複雜些,因為它是通過tasklet機制這個中介橋樑來納入softirq架構中的。實際上,非強制中斷向量HI_SOFTIRQ是核心專用於執行BH函數的。原有的32個BH函數指標被保留,定義在kernel/softirq.c檔案中:
static void (*bh_base[32])(void);
但是,每個BH函數都對應有一個tasklet,並由tasklet的可執行函數func來負責調用相應的bh函數(func函數的參數指定調用哪一個BH函數)。與32個BH函數指標相對應的tasklet的定義如下所示(kernel/softirq.c):
struct tasklet_struct bh_task_vec[32];
上述tasklet數組使系統全域的,它對所有的CPU均可見。由於在某一個時刻只能有一個CPU在執行BH函數,因此定義一個全域的自旋鎖來保護BH函數,如下所示(kernel/softirq.c):
spinlock_t global_bh_lock = SPIN_LOCK_UNLOCKED;
在softirq機制的初始化函數softirq_init()中將bh_task_vec[32]數組中的每一個tasklet中的func函數指標都設定為指向同一個函數bh_action,而data成員(也即func函數的調用參數)則被設定成該tasklet在數組中的索引值,如下所示:
void __init softirq_init(){ …… for (i=0; i<32; i++) tasklet_init(bh_task_vec+i, bh_action, i); ……}
因此,bh_action()函數將負責相應地調用參數所指定的bh函數。該函數是串連tasklet機制與Bottom Half機制的關鍵所在。
該函數的源碼如下(kernel/softirq.c):
static void bh_action(unsigned long nr){ int cpu = smp_processor_id(); if (!spin_trylock(&global_bh_lock)) goto resched; if (!hardirq_trylock(cpu)) goto resched_unlock; if (bh_base[nr]) bh_base[nr](); hardirq_endlock(cpu); spin_unlock(&global_bh_lock); return;resched_unlock: spin_unlock(&global_bh_lock);resched: mark_bh(nr);}
對該函數的注釋如下:
①首先,調用spin_trylock()函數試圖對自旋鎖global_bh_lock進行加鎖,同時該函數還將返回自旋鎖global_bh_lock的原有值的非。因此,如果global_bh_lock已被某個CPU上鎖而為非0值(那個CPU肯定在執行某個BH函數),那麼spin_trylock()將返回為0表示上鎖失敗,在這種情況下,當前CPU是不能執行BH函數的,因為另一個CPU正在執行BH函數,於是執行goto語句跳轉到resched程式段,以便在當前CPU上再一次調度該BH函數。
②調用hardirq_trylock()函數鎖定當前CPU,確保當前CPU不是處於硬體插斷要求服務中,如果鎖定失敗,跳轉到resched_unlock程式段,以便先對global_bh_lock解鎖,在重新調度一次該BH函數。
③此時,我們已經可以放心地在當前CPU上執行BH函數了。當然,對應的BH函數指標bh_base[nr]必須有效才行。
④從BH函數返回後,先調用hardirq_endlock()函數(實際上它什麼也不幹,調用它只是為了保此加、解鎖的成對關係),然後解除自旋鎖global_bh_lock,最後函數就可以返回了。
⑤resched_unlock程式段:先解除自旋鎖global_bh_lock,然後執行reched程式段。
⑥resched程式段:當某個CPU正在執行BH函數時,當前CPU就不能通過bh_action()函數來調用執行任何BH函數,所以就通過調用mark_bh()函數在當前CPU上再重新調度一次,以便將這個BH函數留待下次非強制中斷服務時執行。
(1)init_bh()函數
該函數用來在bh_base[]數組登記一個指定的bh函數,如下所示(kernel/softirq.c):
void init_bh(int nr, void (*routine)(void)){ bh_base[nr] = routine; mb();}
(2)remove_bh()函數
該函數用來在bh_base[]數組中登出指定的函數指標,同時將相對應的tasklet殺掉。
如下所示(kernel/softirq.c):
void remove_bh(int nr){ tasklet_kill(bh_task_vec+nr); bh_base[nr] = NULL;}
(3)mark_bh()函數
該函數用來向當前CPU標記由一個BH函數等待去執行。它實際上通過調用tasklet_hi_schedule()函數將相應的tasklet加入到當前CPU的tasklet隊列tasklet_hi_vec[cpu]中,然後觸發非強制中斷請求HI_SOFTIRQ,如下所示(include/linux/interrupt.h):
static inline void mark_bh(int nr)
{
tasklet_hi_schedule(bh_task_vec+nr);
}
在32個BH函數指標中,大多數已經固定用於一些常見的外設,比如:第0個BH函數就固定地用於時鐘中斷。Linux在標頭檔include/linux/interrupt.h中定義了這些已經被使用的BH函數所引,如下所示:
enum { TIMER_BH = 0, TQUEUE_BH, DIGI_BH, SERIAL_BH, RISCOM8_BH, SPECIALIX_BH, AURORA_BH, ESP_BH, SCSI_BH, IMMEDIATE_BH, CYCLADES_BH, CM206_BH, JS_BH, MACSERIAL_BH, ISICOM_BH};