比如說你用C++開發了一個DLL庫,為了能夠讓C語言也能夠調用你的DLL輸出(Export)的函數,你需要用extern "C"來強制編譯器不要修改你的函數名。通常,在C語言的標頭檔中經常可以看到類似下面這種形式的代碼:
#ifdef __cplusplus
extern "C" {
#endif
/**** some declaration or so *****/
#ifdef __cplusplus
}
#endif /* end of __cplusplus */
那麼,這種寫法什麼用呢?實際上,這是為了讓CPP能夠與C介面而採用的一種文法形式。之所以採用這種方式,是因為兩種語言之間的一些差異所導致的。由於CPP支援多態性,也就是具有相同函數名的函數可以完成不同的功能,CPP通常是通過參數區分具體調用的是哪一個函數。在編譯的時候,CPP編譯器會將參數類型和函數名串連在一起,於是在程式編譯成為目標檔案以後,CPP編譯器可以直接根據目標檔案中的符號名將多個目標檔案串連成一個目標檔案或者可執行檔。但是在C語言中,由於完全沒有多態性的概念,C編譯器在編譯時間除了會在函數名前面添加一個底線之外,什麼也不會做(至少很多編譯器都是這樣乾的)。由於這種的原因,當採用CPP與C混合編程的時候,就可能會出問題。假設在某一個標頭檔中定義了這樣一個函數:
int foo(int a, int b);
而這個函數的實現位於一個.c檔案中,同時,在.cpp檔案中調用了這個函數。那麼,當CPP編譯器編譯這個函數的時候,就有可能會把這個函數名改成_fooii,這裡的ii表示函數的第一參數和第二參數都是整型。而C編譯器卻有可能將這個函數名編譯成_foo。也就是說,在CPP編譯器得到的目標檔案中,foo()函數是由_fooii符號來引用的,而在C編譯器產生的目標檔案中,foo()函數是由_foo指代的。但連接器工作的時候,它可不管上層採用的是什麼語言,它只認目標檔案中的符號。於是,連接器將會發現在.cpp中調用了foo()函數,但是在其它的目標檔案中卻找不到_fooii這個符號,於是提示串連過程出錯。extern "C" {}這種文法形式就是用來解決這個問題的。本文將以樣本對這個問題進行說明。
首先假設有下面這樣三個檔案:
/* file: test_extern_c.h */
#ifndef __TEST_EXTERN_C_H__
#define __TEST_EXTERN_C_H__
#ifdef __cplusplus
extern "C" {
#endif
/*
* this is a test function, which calculate
* the multiply of a and b.
*/
extern int ThisIsTest(int a, int b);
#ifdef __cplusplus
}
#endif /* end of __cplusplus */
#endif
在這個標頭檔中只定義了一個函數,ThisIsTest()。這個函數被定義為一個外部函數,可以被包括到其它程式檔案中。假設ThisIsTest()函數的實現位於test_extern_c.c檔案中:
/* test_extern_c.c */
#i nclude "test_extern_c.h"
int ThisIsTest(int a, int b)
{
return (a + b);
}
可以看到,ThisIsTest()函數的實現非常簡單,就是將兩個參數的相加結果返回而已。現在,假設要從CPP中調用ThisIsTest()函數:
/* main.cpp */
#i nclude "test_extern_c.h"
#i nclude <stdio.h>
#i nclude <stdlib.h>
class FOO {
public:
int bar(int a, int b)
{
printf("result=%i/n", ThisIsTest(a, b));
}
};
int main(int argc, char **argv)
{
int a = atoi(argv[1]);
int b = atoi(argv[2]);
FOO *foo = new FOO();
foo->bar(a, b);
return(0);
}
在這個CPP源檔案中,定義了一個簡單的類FOO,在其成員函數bar()中調用了ThisIsTest()函數。下面看一下如果採用gcc編譯test_extern_c.c,而採用g++編譯main.cpp並與test_extern_c.o串連會發生什麼情況:
[cyc@cyc src]$ gcc -c test_extern_c.c
[cyc@cyc src]$ g++ main.cpp test_extern_c.o
[cyc@cyc src]$ ./a.out 4 5
result=9
可以看到,程式沒有任何異常,完全按照預期的方式工作。那麼,如果將test_extern_c.h中的extern "C" {}所在的那幾行注釋掉會怎樣呢?注釋後的test_extern_c.h檔案內容如下:
/* test_extern_c.h */
#ifndef __TEST_EXTERN_C_H__
#define __TEST_EXTERN_C_H__
//#ifdef __cplusplus
//extern "C" {
//#endif
/*
/* this is a test function, which calculate
* the multiply of a and b.
*/
extern int ThisIsTest(int a, int b);
//#ifdef __cplusplus
// }
//#endif /* end of __cplusplus */
#endif
之外,其它檔案不做任何的改變,仍然採用同樣的方式編譯test_extern_c.c和main.cpp檔案:
[cyc@cyc src]$ gcc -c test_extern_c.c
[cyc@cyc src]$ g++ main.cpp test_extern_c.o
/tmp/cca4EtJJ.o(.gnu.linkonce.t._ZN3FOO3barEii+0x10): In function `FOO::bar(int, int)':
: undefined reference to `ThisIsTest(int, int)'
collect2: ld returned 1 exit status
在編譯main.cpp的時候就會出錯,連接器ld提示找不到對函數ThisIsTest()的引用。
為了更清楚地說明問題的原因,我們採用下面的方式先把目標檔案編譯出來,然後看目標檔案中到底都有些什麼符號:
[cyc@cyc src]$ gcc -c test_extern_c.c
[cyc@cyc src]$ objdump -t test_extern_c.o
test_extern_c.o: file format elf32-i386
SYMBOL TABLE:
00000000 l df *ABS* 00000000 test_extern_c.c
00000000 l d .text 00000000
00000000 l d .data 00000000
00000000 l d .bss 00000000
00000000 l d .comment 00000000
00000000 g F .text 0000000b ThisIsTest
[cyc@cyc src]$ g++ -c main.cpp
[cyc@cyc src]$ objdump -t main.o
main.o: file format elf32-i386
MYMBOL TABLE:
00000000 l df *ABS* 00000000 main.cpp
00000000 l d .text 00000000
00000000 l d .data 00000000
00000000 l d .bss 00000000
00000000 l d .rodata 00000000
00000000 l d .gnu.linkonce.t._ZN3FOO3barEii 00000000
00000000 l d .eh_frame 00000000
00000000 l d .comment 00000000
00000000 g F .text 00000081 main
00000000 *UND* 00000000 atoi
00000000 *UND* 00000000 _Znwj
00000000 *UND* 00000000 _ZdlPv
00000000 w F .gnu.linkonce.t._ZN3FOO3barEii 00000027 _ZN3FOO3barEii
00000000 *UND* 00000000 _Z10ThisIsTestii
00000000 *UND* 00000000 printf
00000000 *UND* 00000000 __gxx_personality_v0
可以看到,採用gcc編譯了test_extern_c.c之後,在其目標檔案test_extern_c.o中的有一個ThisIsTest符號,這個符號就是源檔案中定義的ThisIsTest()函數了。而在採用g++編譯了main.cpp之後,在其目標檔案main.o中有一個_Z10ThisIsTestii符號,這個就是經過g++編譯器“粉碎”過後的函數名。其最後的兩個字元i就表示第一參數和第二參數都是整型。而為什麼要加一個首碼_Z10我並不清楚,但這裡並不影響我們的討論,因此不去管它。顯然,這就是原因的所在,其原理在本文開頭已作了說明。
那麼,為什麼採用了extern "C" {}形式就不會有這個問題呢,我們就來看一下當test_extern_c.h採用extern "C" {}的形式時編譯出來的目標檔案中又有哪些符號:
[cyc@cyc src]$ gcc -c test_extern_c.c
[cyc@cyc src]$ objdump -t test_extern_c.o
test_extern_c.o: file format elf32-i386
SYMBOL TABLE:
00000000 l df *ABS* 00000000 test_extern_c.c
00000000 l d .text 00000000
00000000 l d .data 00000000
00000000 l d .bss 00000000
00000000 l d .comment 00000000
00000000 g F .text 0000000b ThisIsTest
[cyc@cyc src]$ g++ -c main.cpp
[cyc@cyc src]$ objdump -t main.o
main.o: file format elf32-i386
SYMBOL TABLE:
00000000 l df *ABS* 00000000 main.cpp
00000000 l d .text 00000000
00000000 l d .data 00000000
00000000 l d .bss 00000000
00000000 l d .rodata 00000000
00000000 l d .gnu.linkonce.t._ZN3FOO3barEii 00000000
00000000 l d .eh_frame 00000000
00000000 l d .comment 00000000
00000000 g F .text 00000081 main
00000000 *UND* 00000000 atoi
00000000 *UND* 00000000 _Znwj
00000000 *UND* 00000000 _ZdlPv
00000000 w F .gnu.linkonce.t._ZN3FOO3barEii 00000027 _ZN3FOO3barEii
00000000 *UND* 00000000 ThisIsTest
00000000 *UND* 00000000 printf
00000000 *UND* 00000000 __gxx_personality_v0
注意到這裡和前面有什麼不同沒有,可以看到,在兩個目標檔案中,都有一個符號ThisIsTest,這個符號引用的就是ThisIsTest()函數了。顯然,此時在兩個目標檔案中都存在同樣的ThisIsTest符號,因此認為它們引用的實際上同一個函數,於是就將兩個目標檔案串連在一起,凡是出現程式碼段中有ThisIsTest符號的地方都用ThisIsTest()函數的實際地址代替。另外,還可以看到,僅僅被extern "C" {}包圍起來的函數採用這樣的目標符號形式,對於main.cpp中的FOO類的成員函數,在兩種編譯方式後的符號名都是經過“粉碎”了的。
因此,綜合上面的分析,我們可以得出如下結論:採用extern "C" {} 這種形式的聲明,可以使得CPP與C之間的介面具有互連性,不會由於語言內部的機制導致串連目標檔案的時候出現錯誤。需要說明的是,上面只是根據我的實驗結果而得出的結論。由於對於CPP用得不是很多,瞭解得也很少,因此對其內部處理機制並不是很清楚,如果需要深入瞭解這個問題的細節請參考相關資料。