Linux環境處理序間通訊:共用記憶體

來源:互聯網
上載者:User

共用記憶體可以說是最有用的處理序間通訊方式,也是最快的IPC形式。兩個不同進程A、B共用記憶體的意思是,同一塊實體記憶體被映射到進程A、B各自的進程地址空間。進程A可以即時看到進程B對共用記憶體中資料的更新,反之亦然。由於多個進程共用同一塊記憶體地區,必然需要某種同步機制,互斥鎖和訊號量都可以。

採用共用記憶體通訊的一個顯而易見的好處是效率高,因為進程可以直接讀寫記憶體,而不需要任何資料的拷貝。對於像管道和訊息佇列等通訊方式,則需要在核心和使用者空間進行四次的資料拷貝,而共用記憶體則只拷貝兩次資料[1]:一次從輸入檔案到共用記憶體區,另一次從共用記憶體區到輸出檔案。實際上,進程之間在共用記憶體時,並不總是讀寫少量資料後就解除映射,有新的通訊時,再重建立立共用記憶體地區。而是保持共用地區,直到通訊完畢為止,這樣,資料內容一直儲存在共用記憶體中,並沒有寫迴文件。共用記憶體中的內容往往是在解除映射時才寫迴文件的。因此,採用共用記憶體的通訊方式效率是非常高的。

Linux的2.2.x核心支援多種共用記憶體方式,如mmap()系統調用,Posix共用記憶體,以及系統V共用記憶體。linux發行版本如Redhat 8.0支援mmap()系統調用及系統V共用記憶體,但還沒實現Posix共用記憶體,本文將主要介紹mmap()系統調用及系統V共用記憶體API的原理及應用。

一、核心怎樣保證各個進程定址到同一個共用記憶體地區的記憶體頁面

1、page cache及swap cache中頁面的區分:一個被訪問檔案的物理頁面都駐留在page cache或swap cache中,一個頁面的所有資訊由struct page來描述。struct page中有一個域為指標mapping ,它指向一個struct address_space類型結構。page cache或swap cache中的所有頁面就是根據address_space結構以及一個位移量來區分的。

2、檔案與address_space結構的對應:一個具體的檔案在開啟後,核心會在記憶體中為之建立一個struct inode結構,其中的i_mapping域指向一個address_space結構。這樣,一個檔案就對應一個address_space結構,一個address_space與一個位移量能夠確定一個page cache 或swap cache中的一個頁面。因此,當要定址某個資料時,很容易根據給定的檔案及資料在檔案內的位移量而找到相應的頁面。

3、進程調用mmap()時,只是在進程空間內新增了一塊相應大小的緩衝區,並設定了相應的訪問標識,但並沒有建立進程空間到物理頁面的映射。因此,第一次訪問該空間時,會引發一個缺頁異常。

4、對於共用記憶體映射情況,缺頁例外處理常式首先在swap cache中尋找目標頁(符合address_space以及位移量的物理頁),如果找到,則直接返回地址;如果沒有找到,則判斷該頁是否在交換區(swap area),如果在,則執行一個換入操作;如果上述兩種情況都不滿足,處理常式將分配新的物理頁面,並把它插入到page cache中。進程最終將更新進程頁表。
註:對於映射普通檔案情況(非共用映射),缺頁例外處理常式首先會在page cache中根據address_space以及資料位移量尋找相應的頁面。如果沒有找到,則說明檔案資料還沒有讀入記憶體,處理常式會從磁碟讀入相應的頁面,並返回相應地址,同時,進程頁表也會更新。

5、所有進程在映射同一個共用記憶體地區時,情況都一樣,在建立線性地址與物理地址之間的映射之後,不論進程各自的返回地址如何,實際訪問的必然是同一個共用記憶體地區對應的物理頁面。
註:一個共用記憶體地區可以看作是特殊檔案系統shm中的一個檔案,shm的安裝點在交換區上。

上面涉及到了一些資料結構,圍繞資料結構理解問題會容易一些。

二、mmap()及其相關係統調用

mmap()系統調用使得進程之間通過映射同一個普通檔案實現共用記憶體。普通檔案被映射到進程地址空間後,進程可以向訪問普通記憶體一樣對檔案進行訪問,不必再調用read(),write()等操作。

註:實際上,mmap()系統調用並不是完全為了用於共用記憶體而設計的。它本身提供了不同於一般對普通檔案的訪問方式,進程可以像讀寫記憶體一樣對普通檔案的操作。而Posix或系統V的共用記憶體IPC則純粹用於共用目的,當然mmap()實現共用記憶體也是其主要應用之一。

1、mmap()系統調用形式如下:

void* mmap ( void * addr , size_t len , int prot , int flags , int fd , off_t offset )
參數fd為即將映射到進程空間的檔案描述字,一般由open()返回,同時,fd可以指定為-1,此時須指定flags參數中的MAP_ANON,表明進行的是匿名映射(不涉及具體的檔案名稱,避免了檔案的建立及開啟,很顯然只能用於具有親緣關係的處理序間通訊)。len是映射到調用進程地址空間的位元組數,它從被對應檔開頭offset個位元組開始算起。prot 參數指定共用記憶體的存取權限。可取如下幾個值的或:PROT_READ(可讀) , PROT_WRITE (可寫), PROT_EXEC (可執行), PROT_NONE(不可訪問)。flags由以下幾個常值指定:MAP_SHARED , MAP_PRIVATE , MAP_FIXED,其中,MAP_SHARED , MAP_PRIVATE必選其一,而MAP_FIXED則不推薦使用。offset參數一般設為0,表示從檔案頭開始映射。參數addr指定檔案應被映射到進程空間的起始地址,一般被指定一個null 指標,此時選擇起始地址的任務留給核心來完成。函數的傳回值為最後檔案對應到進程空間的地址,進程可直接操作起始地址為該值的有效地址。這裡不再詳細介紹mmap()的參數,讀者可參考mmap()手冊頁獲得進一步的資訊。

2、系統調用mmap()用於共用記憶體的兩種方式:

(1)使用普通檔案提供的記憶體映射:適用於任何進程之間;此時,需要開啟或建立一個檔案,然後再調用mmap();典型調用代碼如下:

fd=open(name, flag, mode);
if(fd<0)
...

ptr=mmap(NULL, len , PROT_READ|PROT_WRITE, MAP_SHARED , fd , 0); 通過mmap()實現共用記憶體的通訊方式有許多特點和要注意的地方,我們將在範例中進行具體說明。

 

(2)使用特殊檔案提供匿名記憶體映射:適用於具有親緣關係的進程之間;由於父子進程特殊的親緣關係,在父進程中先調用mmap(),然後調用fork()。那麼在調用fork()之後,子進程繼承父進程匿名映射後的地址空間,同樣也繼承mmap()返回的地址,這樣,父子進程就可以通過映射地區進行通訊了。注意,這裡不是一般的繼承關係。一般來說,子進程單獨維護從父進程繼承下來的一些變數。而mmap()返回的地址,卻由父子進程共同維護。
對於具有親緣關係的進程實現共用記憶體最好的方式應該是採用匿名記憶體映射的方式。此時,不必指定具體的檔案,只要設定相應的標誌即可,參見範例2。

3、系統調用munmap()

int munmap( void * addr, size_t len )
該調用在進程地址空間中解除一個映射關係,addr是調用mmap()時返回的地址,len是映射區的大小。當映射關係解除後,對原來映射地址的訪問將導致段錯誤發生。

4、系統調用msync()

int msync ( void * addr , size_t len, int flags)
一般說來,進程在映射空間的對共用內容的改變並不直接寫回到磁碟檔案中,往往在調用munmap()後才執行該操作。可以通過調用msync()實現磁碟上檔案內容與共用記憶體區的內容一致。

三、mmap()範例

下面將給出使用mmap()的兩個範例:範例1給出兩個進程通過映射普通檔案實現共用記憶體通訊;範例2給出父子進程通過匿名映射實現共用記憶體。系統調用mmap()有許多有趣的地方,下面是通過mmap()映射普通檔案實現進程間的通訊的範例,我們通過該範例來說明mmap()實現共用記憶體的特點及注意事項。

範例1:兩個進程通過映射普通檔案實現共用記憶體通訊

範例1包含兩個子程式:map_normalfile1.c及map_normalfile2.c。編譯兩個程式,可執行檔分別為map_normalfile1及map_normalfile2。兩個程式通過命令列參數指定同一個檔案來實現共用記憶體方式的處理序間通訊。map_normalfile2試圖開啟命令列參數指定的一個普通檔案,把該檔案對應到進程的地址空間,並對映射後的地址空間進行寫操作。map_normalfile1把命令列參數指定的檔案對應到進程地址空間,然後對映射後的地址空間執行讀操作。這樣,兩個進程通過命令列參數指定同一個檔案來實現共用記憶體方式的處理序間通訊。

下面是兩個程式碼:

/*-------------map_normalfile1.c-----------*/
#include <sys/mman.h>
#include <sys/types.h>
#include <fcntl.h>
#include <unistd.h>
typedef struct{
char name[4];
int age;
}people;

main(int argc, char** argv) // map a normal file as shared mem:
{
int fd,i;
people *p_map;
char temp;

fd=open(argv[1],O_CREAT|O_RDWR|O_TRUNC,00777);
lseek(fd,sizeof(people)*5-1,SEEK_SET);
write(fd,"",1);

p_map = (people*) mmap( NULL,sizeof(people)*10,PROT_READ|PROT_WRITE,MAP_SHARED,fd,0 );
close( fd );
temp = 'a';
for(i=0; i<10; i++)
{
temp += 1;
memcpy( ( *(p_map+i) ).name, &temp,2 );
( *(p_map+i) ).age = 20+i;
}
printf(" initialize over /n ");
sleep(10);

munmap( p_map, sizeof(people)*10 );
printf( "umap ok /n" );
}

/*-------------map_normalfile2.c-----------*/
#include <sys/mman.h>
#include <sys/types.h>
#include <fcntl.h>
#include <unistd.h>
typedef struct{
char name[4];
int age;
}people;

main(int argc, char** argv)// map a normal file as shared mem:
{
int fd,i;
people *p_map;
fd=open( argv[1],O_CREAT|O_RDWR,00777 );
p_map = (people*)mmap(NULL,sizeof(people)*10,PROT_READ|PROT_WRITE,MAP_SHARED,fd,0);
for(i = 0;i<10;i++)
{
printf( "name: %s age %d;/n",(*(p_map+i)).name, (*(p_map+i)).age );

}
munmap( p_map,sizeof(people)*10 );
}

map_normalfile1.c首先定義了一個people資料結構,(在這裡採用資料結構的方式是因為,共用記憶體區的資料往往是有固定格式的,這由通訊的各個進程決定,採用結構的方式有普遍代表性)。map_normfile1首先開啟或建立一個檔案,並把檔案的長度設定為5個people結構大小。然後從mmap()的返回地址開始,設定了10個people結構。然後,進程睡眠10秒鐘,等待其他進程映射同一個檔案,最後解除映射。

map_normfile2.c只是簡單的映射一個檔案,並以people資料結構的格式從mmap()返回的地址處讀取10個people結構,並輸出讀取的值,然後解除映射。

分別把兩個程式編譯成可執行檔map_normalfile1和map_normalfile2後,在一個終端上先運行./map_normalfile2 /tmp/test_shm,程式輸出結果如下:

initialize over
umap ok

在map_normalfile1輸出initialize over 之後,輸出umap ok之前,在另一個終端上運行map_normalfile2 /tmp/test_shm,將會產生如下輸出(為了節省空間的,輸出結果為稍作整理後的結果):

name: bage 20;name: cage 21;name: dage 22;name: eage 23;name: fage 24;
name: gage 25;name: hage 26;name: Iage 27;name: jage 28;name: kage 29;

在map_normalfile1 輸出umap ok後,運行map_normalfile2則輸出如下結果:

name: bage 20;name: cage 21;name: dage 22;name: eage 23;name: fage 24;
name:age 0;name:age 0;name:age 0;name:age 0;name:age 0;

從程式的運行結果中可以得出的結論

1、 最終被對應檔的內容的長度不會超過檔案本身的初始大小,即映射不能改變檔案的大小;

2、 可以用於進程通訊的有效地址空間大小大體上受限於被對應檔的大小,但不完全受限於檔案大小。開啟檔案被截短為5個people結構大小,而在map_normalfile1中初始化了10個people資料結構,在恰當時候(map_normalfile1輸出initialize over 之後,輸出umap ok之前)調用map_normalfile2會發現map_normalfile2將輸出全部10個people結構的值,後面將給出詳細討論。
註:在linux中,記憶體的保護是以頁為基本單位的,即使被對應檔只有一個位元組大小,核心也會為映射分配一個頁面大小的記憶體。當被對應檔小於一個頁面大小時,進程可以對從mmap()返回地址開始的一個頁面大小進行訪問,而不會出錯;但是,如果對一個頁面以外的地址空間進行訪問,則導致錯誤發生,後面將進一步描述。因此,可用於處理序間通訊的有效地址空間大小不會超過檔案大小及一個頁面大小的和。

3、 檔案一旦被映射後,調用mmap()的進程對返回地址的訪問是對某一記憶體地區的訪問,暫時脫離了磁碟上檔案的影響。所有對mmap()返回地址空間的操作只在記憶體中有意義,只有在調用了munmap()後或者msync()時,才把記憶體中的相應內容寫回磁碟檔案,所寫內容仍然不能超過檔案的大小。

範例2:父子進程通過匿名映射實現共用記憶體

#include <sys/mman.h>
#include <sys/types.h>
#include <fcntl.h>
#include <unistd.h>
typedef struct{
char name[4];
int age;
}people;
main(int argc, char** argv)
{
int i;
people *p_map;
char temp;
p_map=(people*)mmap(NULL,sizeof(people)*10,PROT_READ|PROT_WRITE,MAP_SHARED|MAP_ANONYMOUS,-1,0);
if(fork() == 0)
{
sleep(2);
for(i = 0;i<5;i++)
printf("child read: the %d people's age is %d/n",i+1,(*(p_map+i)).age);
(*p_map).age = 100;
munmap(p_map,sizeof(people)*10); //實際上,進程終止時,會自動解除映射。
exit();
}
temp = 'a';
for(i = 0;i<5;i++)
{
temp += 1;
memcpy((*(p_map+i)).name, &temp,2);
(*(p_map+i)).age=20+i;
}

sleep(5);
printf( "parent read: the first people,s age is %d/n",(*p_map).age );
printf("umap/n");
munmap( p_map,sizeof(people)*10 );
printf( "umap ok/n" );
}

考察程式的輸出結果,體會父子進程匿名共用記憶體:

child read: the 1 people's age is 20
child read: the 2 people's age is 21
child read: the 3 people's age is 22
child read: the 4 people's age is 23
child read: the 5 people's age is 24

parent read: the first people,s age is 100
umap
umap ok

四、對mmap()返回地址的訪問

前面對範例運行結構的討論中已經提到,linux採用的是頁式管理機制。對於用mmap()映射普通檔案來說,進程會在自己的地址空間新增一塊空間,空間大小由mmap()的len參數指定,注意,進程並不一定能夠對全部新增空間都能進行有效訪問。進程能夠訪問的有效地址大小取決於檔案被映射部分的大小。簡單的說,能夠容納檔案被映射部分大小的最少頁面個數決定了進程從mmap()返回的地址開始,能夠有效訪問的地址空間大小。超過這個空間大小,核心會根據超過的嚴重程度返回傳送不同的訊號給進程。可用如示說明:

 

 

注意:檔案被映射部分而不是整個檔案決定了進程能夠訪問的空間大小,另外,如果指定檔案的位移部分,一定要注意為頁面大小的整數倍。下面是對進程映射地址空間的訪問範例:

#include <sys/mman.h>
#include <sys/types.h>
#include <fcntl.h>
#include <unistd.h>
typedef struct{
char name[4];
int age;
}people;

main(int argc, char** argv)
{
int fd,i;
int pagesize,offset;
people *p_map;

pagesize = sysconf(_SC_PAGESIZE);
printf("pagesize is %d/n",pagesize);
fd = open(argv[1],O_CREAT|O_RDWR|O_TRUNC,00777);
lseek(fd,pagesize*2-100,SEEK_SET);
write(fd,"",1);
offset = 0;//此處offset = 0編譯成版本1;offset = pagesize編譯成版本2
p_map = (people*)mmap(NULL,pagesize*3,PROT_READ|PROT_WRITE,MAP_SHARED,fd,offset);
close(fd);

for(i = 1; i<10; i++)
{
(*(p_map+pagesize/sizeof(people)*i-2)).age = 100;
printf("access page %d over/n",i);
(*(p_map+pagesize/sizeof(people)*i-1)).age = 100;
printf("access page %d edge over, now begin to access page %d/n",i, i+1);
(*(p_map+pagesize/sizeof(people)*i)).age = 100;
printf("access page %d over/n",i+1);
}
munmap(p_map,sizeof(people)*10);
}

如程式中所注釋的那樣,把程式編譯成兩個版本,兩個版本主要體現在檔案被映射部分的大小不同。檔案的大小介於一個頁面與兩個頁面之間(大小為:pagesize*2-99),版本1的被映射部分是整個檔案,版本2的檔案被映射部分是檔案大小減去一個頁面後的剩餘部分,不到一個頁面大小(大小為:pagesize-99)。程式中試圖訪問每一個頁面邊界,兩個版本都試圖在進程空間中映射pagesize*3的位元組數。

版本1的輸出結果如下:

pagesize is 4096
access page 1 over
access page 1 edge over, now begin to access page 2
access page 2 over
access page 2 over
access page 2 edge over, now begin to access page 3
Bus error//被對應檔在進程空間中覆蓋了兩個頁面,此時,進程試圖訪問第三個頁面

版本2的輸出結果如下:

pagesize is 4096
access page 1 over
access page 1 edge over, now begin to access page 2
Bus error//被對應檔在進程空間中覆蓋了一個頁面,此時,進程試圖訪問第二個頁面

結論:採用系統調用mmap()實現處理序間通訊是很方便的,在應用程式層上介面非常簡潔。內部實現機制區涉及到了linux儲存管理以及檔案系統等方面的內容,可以參考一下相關重要資料結構來加深理解。在本專題的後面部分,將介紹系統v共用記憶體的實現。

參考文獻:

[1] Understanding the linux Kernel, 2nd Edition, By Daniel P. Bovet, Marco Cesati , 對各主題闡述得重點突出,脈絡清晰。

[2] UNIX網路編程第二卷:處理序間通訊,作者:W.Richard Stevens,譯者:楊繼張,清華大學出版社。對mmap()有詳細闡述。

[3] Linux核心原始碼情景分析(上),毛德操、胡希明著,浙江大學出版社,給出了mmap()相關的原始碼分析。

[4]mmap()手冊 

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.