1、 引言
Linux的興起可以說是Internet創造的一個奇蹟。Linux作為一個完全開放其原代碼的免費的自由軟體,相容了各種UNIX標準(如POSIX、UNIX System V 和 BSD UNIX 等)的多使用者、多任務的具有複雜核心的作業系統。在中國,隨著Internet的普及,一批主要以高等院校的學生和ISP的技術人員組成的Linux愛好者隊伍已經蓬勃成長起來。越來越多的編程愛好者也逐漸酷愛上這個優秀的自由軟體。本文介紹了Linux下Socket的基本概念和函數調用。
2、 什麼是Socket
Socket(通訊端)是通過標準的UNIX檔案描述符和其它程式通訊的一個方法。每一個通訊端都用一個半相關描述:{協議,本地地址、本地連接埠}來表示;一個完整的通訊端則用一個相關描述:{協議,本地地址、本地連接埠、遠程地址、遠程連接埠},每一個通訊端都有一個本地的由作業系統分配的唯一的通訊端號。
3、 Socket的三種類型
(1) 流式Socket(SOCK_STREAM)
流式通訊端提供可靠的、連線導向的通訊流;它使用TCP協議,從而保證了資料轉送的正確性和順序的。
(2) 資料報Socket(SOCK_DGRAM)
資料通訊端定義了一種不需連線的服務,資料通過相互獨立的報文進行傳輸,是無序的,並且不保證可靠、無差錯。它使用資料報協議UDP
(3) 原始Socket
原始通訊端允許對底層協議如IP或ICMP直接存取,它功能強大但使用較為不便,主要用於一些協議的開發。
4、 利用通訊端發送資料
1、 對於流式通訊端用系統調用send()來發送資料。
2、 對於資料通訊端,則需要自己先加一個資訊頭,然後調用sendto()函數把資料發送出去。
5、 Linux中Socket的資料結構
(1) struct sockaddr { //用於儲存通訊端地址
unsigned short sa_family;//地址類型
char sa_data[14]; //14位元組的協議地址
};
(2) struct sockaddr_in{ //in 代表internet
short int sin_family; //internet協議族
unsigned short int sin_port;//連接埠號碼,必須是網路位元組順序
struct in_addr sin_addr;//internet地址,必須是網路位元組順序
unsigned char sin_zero;//添0(和struct sockaddr一樣大小
};
(3) struct in_addr{
unsigned long s_addr;
};
6、 網路位元組順序及其轉換函式
(1) 網路位元組順序
每一台機器內部對變數的位元組儲存順序不同,而網路傳輸的資料是一定要統一順序的。所以對內部位元組表示順序與網路位元組順序不同的機器,一定要對資料進行轉換,從程式的可移植性要求來講,就算原生內部位元組表示順序與網路位元組順序相同也應該在傳輸資料以前先調用資料轉換函式,以便程式移植到其它機器上後能正確執行。真正轉換還是不轉換是由系統函數自己來決定的。
(2) 有關的轉換函式
* unsigned short int htons(unsigned short int hostshort):
主機位元組順序轉換成網路位元組順序,對無符號短型進行操作4bytes
* unsigned long int htonl(unsigned long int hostlong):
主機位元組順序轉換成網路位元組順序,對無符號長型進行操作8bytes
* unsigned short int ntohs(unsigned short int netshort):
網路位元組順序轉換成主機位元組順序,對無符號短型進行操作4bytes
* unsigned long int ntohl(unsigned long int netlong):
網路位元組順序轉換成主機位元組順序,對無符號長型進行操作8bytes
註:以上函數原型定義在netinet/in.h裡
7、 IP地址轉換
有三個函數將數字點形式表示的字串IP地址與32位網路位元組順序的二進位形式的IP地址進行轉換
(1) unsigned long int inet_addr(const char * cp):該函數把一個用數字和點表示的IP地址的字串轉換成一個無符號長整型,如:struct sockaddr_in ina
ina.sin_addr.s_addr=inet_addr("202.206.17.101")
該函數成功時:返迴轉換結果;失敗時返回常量INADDR_NONE,該常量=-1,二進位的不帶正負號的整數-1相當於255.255.255.255,這是一個廣播位址,所以在程式中調用iner_addr()時,一定要人為地對調用失敗進行處理。由於該函數不能處理廣播位址,所以在程式中應該使用函數inet_aton()。
(2)int inet_aton(const char * cp,struct in_addr * inp):此函數將字串形式的IP地址轉換成二進位形式的IP地址;成功時返回1,否則返回0,轉換後的IP地址儲存在參數inp中。
(3) char * inet_ntoa(struct in-addr in):將32位二進位形式的IP地址轉換為數字點形式的IP地址,結果在函數傳回值中返回,返回的是一個指向字串的指標。
8、 位元組處理函數
Socket地址是多位元組資料,不是以Null 字元結尾的,這和C語言中的字串是不同的。Linux提供了兩組函數來處理多位元組資料,一組以b(byte)開頭,是和BSD系統相容的函數,另一組以mem(記憶體)開頭,是ANSI C提供的函數。
以b開頭的函數有:
(1) void bzero(void * s,int n):將參數s指定的記憶體的前n個位元組設定為0,通常它用來將通訊端地址清0。
(2) void bcopy(const void * src,void * dest,int n):從參數src指定的記憶體地區拷貝指定數目的位元組內容到參數dest指定的記憶體地區。
(3) int bcmp(const void * s1,const void * s2,int n):比較參數s1指定的記憶體地區和參數s2指定的記憶體地區的前n個位元組內容,如果相同則返回0,否則返回非0。
註:以上函數的原型定義在strings.h中。
以mem開頭的函數有:
(1) void * memset(void * s,int c,size_t n):將參數s指定的記憶體地區的前n個位元組設定為參數c的內容。
(2) void * memcpy(void * dest,const void * src,size_t n):功能同bcopy(),區別:函數bcopy()能處理參數src和參數dest所指定的地區有重疊的情況,memcpy()則不能。
(4) int memcmp(const void * s1,const void * s2,size_t n):比較參數s1和參數s2指定地區的前n個位元組內容,如果相同則返回0,否則返回非0。
註:以上函數的原型定義在string.h中。
9、 基本通訊端函數
(1) socket()
#include< sys/types.h>
#include< sys/socket.h>
int socket(int domain,int type,int protocol)
參數domain指定要建立的通訊端的協議族,可以是如下值:
AF_UNIX //UNIX域協議族,原生進程間通訊時使用
AF_INET //Internet協議族(TCP/IP)
AF_ISO //ISO協議族
參數type指定通訊端類型,可以是如下值:
SOCK_STREAM //流通訊端,連線導向的和可靠的通訊類型
SOCK_DGRAM //資料通訊端,非連線導向的和不可靠的通訊類型
SOCK_RAW //原始通訊端,只對Internet協議有效,可以用來直接存取IP協議
參數protocol通常設定成0,表示使用預設協議,如Internet協議族的流通訊端使用TCP協議,而資料通訊端使用UDP協議。當通訊端是原始通訊端類型時,需要指定參數protocol,因為原始通訊端對多種協議有效,如ICMP和IGMP等。
Linux系統中建立一個通訊端的操作主要是:在核心中建立一個通訊端資料結構,然後返回一個通訊端描述符標識這個通訊端資料結構。這個通訊端資料結構包含串連的各種資訊,如對方地址、TCP狀態以及發送和接收緩衝區等等,TCP協議根據這個通訊端資料結構的內容來控制這條串連。
(2) 函數connect()
#include< sys/types.h>
#include< sys/socket.h>
int connect(int sockfd,struct sockaddr * servaddr,int addrlen)
參數sockfd是函數socket返回的通訊端描述符;參數servaddr指定遠程伺服器的通訊端地址,包括伺服器的IP地址和連接埠號碼;參數addrlen指定這個通訊端地址的長度。成功時返回0,否則返回-1,並設定全域變數為以下任何一種錯誤類型:ETIMEOUT、ECONNREFUSED、EHOSTUNREACH或ENETUNREACH。
在調用函數connect之前,客戶機需要指定伺服器處理序的通訊端地址。客戶機一般不需要指定自己的通訊端地址(IP地址和連接埠號碼),系統會自動從1024至5000的連接埠號碼範圍內為它選擇一個未用的連接埠號碼,然後以這個連接埠號碼和原生IP地址填充這個通訊端地址。
客戶機調用函數connect來主動建立串連。這個函數將啟動TCP協議的3次握手過程。在建立串連之後或發生錯誤時函數返回。串連過程可能出現的錯誤情況有:
(1) 如果客戶機TCP協議沒有接收到對它的SYN資料區段的確認,函數以錯誤返回,錯誤類型為ETIMEOUT。通常TCP協議在發送SYN資料區段失敗之後,會多次發送SYN資料區段,在所有的發送都高中失敗之後,函數以錯誤返回。
註:SYN(synchronize)位:請求串連。TCP用這種資料區段向對方TCP協議請求建立串連。在這個資料區段中,TCP協議將它選擇的初始序號通知對方,並且與對方協議協商最大資料區段大小。SYN資料區段的序號為初始序號,這個SYN資料區段能夠被確認。當協議接收到對這個資料區段的確認之後,建立TCP串連。
(2) 如果遠程TCP協議返回一個RST資料區段,函數立即以錯誤返回,錯誤類型為ECONNREFUSED。當遠程機器在SYN資料區段指定的目的連接埠號碼處沒有服務進程在等待串連時,遠程機器的TCP協議將發送一個RST資料區段,向客戶機報告這個錯誤。客戶機的TCP協議在接收到RST資料區段後不再繼續發送SYN資料區段,函數立即以錯誤返回。
註:RST(reset)位:表示請求重設串連。當TCP協議接收到一個不能處理的資料區段時,向對方TCP協議發送這種資料區段,表示這個資料區段所標識的串連出現了某種錯誤,請求TCP協議將這個串連清除。有3種情況可能導致TCP協議發送RST資料區段:(1)SYN資料區段指定的目的連接埠處沒有接收進程在等待;(2)TCP協議想放棄一個已經存在的串連;(3)TCP接收到一個資料區段,但是這個資料區段所標識的串連不存在。接收到RST資料區段的TCP協議立即將這條串連非正常地斷開,並嚮應用程式報告錯誤。
(3) 如果客戶機的SYN資料區段導致某個路由器產生“目的地不可到達”類型的ICMP訊息,函數以錯誤返回,錯誤類型為EHOSTUNREACH或ENETUNREACH。通常TCP協議在接收到這個ICMP訊息之後,記錄這個訊息,然後繼續幾次發送SYN資料區段,在所有的發送都告失敗之後,TCP協議檢查這個ICMP訊息,函數以錯誤返回。
註:ICMP:Internet 訊息控制協議。Internet的運行主要是由Internet的路由器來控制,路由器完成IP資料包的發送和接收,如果發送資料包時發生錯誤,路由器使用ICMP協議來報告這些錯誤。ICMP資料包是封裝在IP資料包的資料部分中進行傳輸的,其格式如下:
類型
碼
校正和
資料
0 8 16 24 31
類型:指出ICMP資料包的類型。
代碼:提供ICMP資料包的進一步資訊。
校正和:提供了對整個ICMP資料包內容的校正和。
ICMP資料包主要有以下類型:
(1) 目的地不可到達:A、目的主機未運行;B、目的地址不存在;C、路由表中沒有目的地址對應的條目,因而路由器無法找到去往目的主機的路由。
(2) 逾時:路由器將接收到的IP資料包的存留時間(TTL)域減1,如果這個域的值變為0,路由器丟棄這個IP資料包,並且發送這種ICMP訊息。
(3) 參數出錯:當IP資料包中有無效域時發送。
(4) 重新導向:將一條新的路徑通知主機。
(5) ECHO請求、ECHO回答:這兩條訊息用語測試目的主機是否可以到達。要求者向目的主機發送ECHO請求ICMP資料包,目的主機在接收到這個ICMP資料包之後,返回ECHO回答ICMP資料包。
(6) 時戳請求、時戳回答:ICMP協議使用這兩種訊息從其他機器處獲得其時鐘的目前時間。
調用函數connect的過程中,當客戶機TCP協議發送了SYN資料區段的確認之後,TCP狀態由CLOSED狀態轉為SYN_SENT狀態,在接收到對SYN資料區段的確認之後,TCP狀態轉換成ESTABLISHED狀態,函數成功返回。如果調用函數connect失敗,應該用close關閉這個通訊端描述符,不能再次使用這個通訊端描述符來調用函數connect。
註:TCP協議狀態轉換圖:
被動OPEN CLOSE 主動OPEN
(建立TCB) (刪除TCB) (建立TCB,
發送SYN)
接收SYN SEND
(發送SYN,ACK) (發送SYN)
接收SYN的ACK(無動作)
接收SYN的ACK 接收SYN,ACK
(無動作) (發送ACK)
CLOSE
(發送FIN) CLOSE 接收FIN
(發送FIN) (發送FIN)
接收FIN
接收FIN的ACK(無動作) (發送ACK) CLOSE(發送FIN)
接收FIN 接收FIN的ACK 接收FIN的ACK
(發送ACK) (無動作) (無動作)
2MSL逾時(刪除TCB)
(3) 函數bind()
函數bind將本地地址與通訊端綁定在一起,其定義如下:
#include< sys/types.h>
#include< sys/socket.h>
int bind(int sockfd,struct sockaddr * myaddr,int addrlen);
參數sockfd是函數sockt返回的通訊端描述符;參數myaddr是本地地址;參數addrlen是通訊端地址結構的長度。執行成功時返回0,否則,返回-1,並設定全域變數errno為錯誤類型EADDRINUSER。
伺服器和客戶機都可以調用函數bind來綁定通訊端地址,但一般是伺服器調用函數bind來綁定自己的公認連接埠號碼。綁定操作一般有如下幾種組合方式:
表1
程式類型
IP地址
連接埠號碼
說明
伺服器
INADDR_ANY
非零值
指定伺服器的公認連接埠號碼
伺服器
本地IP地址
非零值
指定伺服器的IP地址和公認連接埠號碼
客戶機
INADDR_ANY
非零值
指定客戶機的串連連接埠號碼
客戶機
本地IP地址
非零值
指定客戶機的IP地址串連連接埠號碼
客戶機
本地IP地址
零
指定客戶機的IP地址
分別說明如下:
(1) 伺服器指定通訊端地址的公認連接埠號碼,不指定IP地址:即伺服器調用bind時,設定通訊端的IP地址為特殊的INADDE-ANY,表示它願意接收來自任何網路裝置介面的客戶機串連。這是伺服器最常用的綁定方式。
(2) 伺服器指定通訊端地址的公認連接埠號碼和IP地址:伺服器調用bind時,如果設定通訊端的IP地址為某個本地IP地址,這表示這台機器只接收來自對應於這個IP地址的特定網路裝置介面的客戶機串連。當伺服器有多塊網卡時,可以用這種方式來限制伺服器的接收範圍。
(3) 客戶機指定通訊端地址的串連連接埠號碼:一般情況下,客戶機調用connect函數時不用指定自己的通訊端地址的連接埠號碼。系統會自動為它選擇一個未用的連接埠號碼,並且用本地的IP地址來填充通訊端地址中的相應項。但有時客戶機需要使用一個特定的連接埠號碼(比如保留連接埠號碼),而系統不會未客戶機自動分配一個保留連接埠號碼,所以需要調用函數bind來和一個未用的保留連接埠號碼綁定。
(4) 指定客戶機的IP地址和串連連接埠號碼:表示客戶機使用指定的網路裝置介面和連接埠號碼進行通訊。
(5) 指定客戶機的IP地址:表示客戶機使用指定的網路裝置介面和連接埠號碼進行通訊,系統自動為客戶機選一個未用的連接埠號碼。一般只有在主機有多個網路裝置介面時使用。
我們一般不在客戶機上使用固定的客戶機連接埠號碼,除非是必須使用的情況。在客戶機上使用固定的連接埠號碼有以下不利:
(1) 伺服器執行主動關閉操作:伺服器最後進入TIME_WAIT狀態。當客戶機再次與這個伺服器進行串連時,仍使用相同的客戶機連接埠號碼,於是這個串連與前次串連的通訊端對完全一樣,但是一呢、為前次串連處於TIME_WAIT狀態,並未消失,所以這次串連請求被拒絕,函connect以錯誤返回,錯誤類型為ECONNREFUSED
(2) 客戶機執行主動關閉操作:客戶機最後進入TIME_WAIT狀態。當馬上再次執行這個客戶機程式時,客戶機將繼續與這個固定客戶機連接埠號碼綁定,但因為前次串連處於TIME_WAIT狀態,並未消失,系統會發現這個連接埠號碼仍被佔用,所以這次綁定操作失敗,函數bind以錯誤返回,錯誤類型為EADDRINUSE。
(4) 函數listen()
函數listen將一個通訊端轉換為征聽通訊端,定義如下;
#include< sys/socket,h>
int listen(int sockfd,int backlog)
參數sockfd指定要轉換的通訊端描述符;參數backlog佈建要求隊列的最大長度;執行成功時返回0, 否則返回-1。函數listen功能有兩個:
(1) 將一個尚未串連的主動通訊端(函數socket建立的可以用來進行主動串連但不能接受串連請求的通訊端)轉換成一個被動串連通訊端。執行listen之後,伺服器的TCP狀態由CLOSED轉為LISTEN狀態。
(2) TCP協議將到達的串連請求隊列,函數listen的第二個參數指定這個隊列的最大長度。
註:參數backlog的作用:
TCP協議為每一個征聽通訊端維護兩個隊列:
(1) 未完成串連隊列:每個尚未完成3次握手操作的TCP串連在這個隊列中佔有一項。TCP希望儀在接收到一個客戶機SYN資料區段之後,在這個隊列中建立一個新條目,然後發送對客戶機SYN資料區段的確認和自己的SYN資料區段(ACK+SYN資料區段),等待客戶機對自己的SYN資料區段的確認。此時,通訊端處於SYN_RCVD狀態。這個條目將儲存在這個隊列中,直到客戶機返回對SYN資料區段的確認或者連線逾時。
(2) 完成串連隊列:每個已經完成3次握手操作,但尚未被應用程式接收(調用函數accept)的TCP串連在這個隊列中佔有一項。當一個在未完成串連隊列中的串連接收到對SYN資料區段的確認之後,完成3次握手操作,TCP協議將它從未完成串連隊列移到完成串連隊列中。此時,通訊端處於ESTABLISHED狀態。這個條目將儲存在這個隊列中,直到應用程式調用函數accept來接收它。
參數backlog指定某個征聽通訊端的完成串連隊列的最大長度,表示這個通訊端能夠接收的最大數目的未接收串連。如果當一個客戶機的SYN資料區段到達時,征聽通訊端的完成隊列已經滿了,那麼TCP協議將忽略這個SYN資料區段。對於不能接收的SYN資料區段,TCP協議不發送RST資料區段,
(5) 函數accept()
函數accept從征聽通訊端的完成隊列中接收一個已經建立起來的TCP串連。如果完成串連隊列為空白,那麼這個進程睡眠。
#include< sys/socket.h>
int accept(int sockfd,struct sockaddr * addr,int * addrlen)
參數sockfd指定征聽通訊端描述符;參數addr為指向一個Internet通訊端地址結構的指標;參數addrlen為指向一個整型變數的指標。執行成功時,返回3個結果:函數傳回值為一個新的通訊端描述符,標識這個接收的串連;參數addr指向的結構變數中儲存客戶機地址;參數addrlen指向的整型變數中儲存客戶機地址的長度。失敗時返回-1。
征聽通訊端專為接收客戶機串連請求,完成3次握手操作而用的,所以TCP協議不能使用征聽通訊端描述符來標識這個串連,於是TCP協議建立一個新的通訊端來標識這個要接收的串連,並將它的描述符發揮給應用程式。現在有兩個通訊端,一個是調用函數accept時使用的征聽通訊端,另一個是函數accept返回的串連通訊端(connected socket)。一個伺服器通常只需建立一個征聽通訊端,在伺服器處理序的整個活動期間,用它來接收所有客戶機的串連請求,在伺服器處理序終止前關閉這個征聽通訊端;對於沒一個接收的(accepted)串連,TCP協議都建立一個新的串連通訊端來標識這個串連,伺服器使用這個串連通訊端與客戶機進行通訊操作,當伺服器處理完這個客戶機請求時,關閉這個串連通訊端。
當函數accept阻塞等待已經建立的串連時,如果進程捕獲到訊號,函數將以錯誤返回,錯誤類型為EINTR。對於這種錯誤,一般重新調用函數accept來接收串連。
(6) 函數close()
函數close關閉一個通訊端描述符。定義如下:
#include< unistd.h>
int close(int sockfd);
執行成功時返回0,否則返回-1。與操作檔案描述符的close一樣,函數close將通訊端描述符的引用計數器減1,如果描述符的引用計數大於0,則表示還有進程引用這個描述符,函數close正常返回;如果為0,則啟動清除通訊端描述符的操作,函數close立即正常返回。
調用close之後,進程將不再能夠訪問這個通訊端,但TCP協議將繼續使用這個通訊端,將尚未發送的資料傳遞到對方,然後發送FIN資料區段,執行關閉操作,一直等到這個TCP串連完全關閉之後,TCP協議才刪除該通訊端。
(7) 函數read()和write()
用於從通訊端讀寫資料。定義如下:
int read(int fd,char * buf,int len)
int write(int fd,char * buf,int len)
函數執行成功時,返回讀或寫的資料量的大小,失敗時返回-1。
每個TCP通訊端都有兩個緩衝區:通訊端發送緩衝區、通訊端接收緩衝區,分別處理髮送和接收任務。從網路讀、寫資料的操作是由TCP協議在核心中完成的:TCP協議將從網路上接收到的資料儲存在相應通訊端的接收緩衝區中,等待使用者調用函數將它們從接收緩衝區拷貝到使用者緩衝區;使用者將要發送的資料拷貝到相應通訊端的發送緩衝區中,然後由TCP協議按照一定的演算法處理這些資料。
讀寫串連通訊端的操作與讀寫檔案的操作類似,也可以使用函數read和write。函數read完成將資料從通訊端接收緩衝區拷貝到使用者緩衝區:當通訊端接收緩衝區有資料可讀時,1:可讀資料量大於函數read指定值,返回函數參數len指定的資料量;2:了度資料量小於函數read指定值,函數read不等待請求的所有資料都到達,而是立即返回實際讀到的資料量;當無資料可讀時,函數read將阻塞不返回,等待資料到達。
當TCP協議接收到FIN資料區段,相當於給讀操作一個檔案結束符,此時read函數返回0,並且以後所有在這個通訊端上的讀操作均返回0,這和普通檔案中遇到檔案結束符是一樣的。
當TCP協議接收到RST資料區段,表示串連出現了某種錯誤,函數read將以錯誤返回,錯誤類型為ECONNERESET。並且以後所有在這個通訊端上的讀操作均返回錯誤。錯誤返回時傳回值小於0。
函數write完成將資料從使用者緩衝區拷貝到通訊端發送緩衝區的任務:到通訊端發送緩衝區有足夠拷貝所有使用者資料的空間時,函數write將資料拷貝到這個緩衝區中,並返回老輩的數量大小,如果可用空間小於write參數len指定的大小時,函數write將阻塞不返回,等待緩衝區有足夠的空間。
當TCP協議接收到RST資料區段(當對方已經關閉了這條串連之後,繼續向這個通訊端發送資料將導致對方TCP協議返回RST資料區段),TCP協議接收到RST資料區段時,函數write將以錯誤返回,錯誤類型為EINTR。以後可以繼續在這個通訊端上寫資料。
(8) 函數getsockname()和getpeername()
函數getsockname返回通訊端的本地地址;函數getpeername返回通訊端對應的遠程地址。
10、 結束語
網路程式設計全靠通訊端接收和發送資訊。上文主要講述了Linux 下Socket的基本概念、Sockets API以及Socket所涉及到的TCP常識
本文來自CSDN部落格,轉載請標明出處:http://blog.csdn.net/hairetz/archive/2009/05/29/4223222.aspx