一、網路知識的一些介紹
socket 是網路連接端點。例如當你的Web瀏覽器請求www.jb51.net上的首頁時,你的Web瀏覽器建立一個socket並命令它去串連 www.jb51.net的Web伺服器主機,Web伺服器也對來自的請求在一個socket上進行監聽。兩端使用各自的socket來發送和 接收資訊。
在使用的時候,每個socket都被綁定到一個特定的IP地址和連接埠。IP地址是一個由4個數組成的序列,這4個數均是範圍 0~255中的值(例如,220,176,36,76);連接埠數值的取值範圍是0~65535。連接埠數小於1024的都是為眾所周知的網路服務所保留的 (例如Web服務使用的80連接埠);最大的保留數被儲存在socket模組的IPPORT_RESERVED變數中。你也可以為你的程式使用另外的連接埠數 值。
不是所有的IP地址都對世界的其它地方可見。實際上,一些是專門為那些非公用的地址所保留的(比如形如192.168.y.z或10.x.y.z)。地址127.0.0.1是本機地址;它始終指向當前的電腦。程式可以使用這個地址來串連運行在同一電腦上的其它程式。
IP地址不好記,你可以花點錢為特定的IP地址註冊一個主機名稱或網域名稱(比如使用www.jb51.net代替222.76.216.16)。網域名稱伺服器(DNS)處理名字到IP地址的映射。每個電腦都可以有一個主機名稱,即使它沒有在官方註冊。
多少資訊通過一個網路被傳送基於許多因素,其中之一就是使用的協議。許多的協議是基於簡單的、低級協議以形成一個協議棧。例如HTTP協議,它是用在Web瀏覽器與Web伺服器之間通訊的協議,它是基於TCP協議,而TCP協議又基於IP協議。
當 在你自己的兩個程式間傳送資訊的時候,你通常選擇TCP或UDP協議。TCP協議在兩端間建立一個持續的串連,並且你所發送的資訊有保證的按順序到達它們 的目的地。UDP不建立串連,它的速度快但不可靠。你發送的資訊也可能到不了另一端;或它們沒有按順序到達。有時候一個資訊的多個複製到達接收端,即使你 只發送了一次。
二、使用地址和主機名稱
socket模組提供了幾個函數用於使用主機名稱和地址來工作。
gethostname()返回運行程式所在的電腦的主機名稱:
>>> import socket
>>> socket.gethostname()
'lenovo'
gethostbyname(name) 嘗試將給定的主機名稱解釋為一個IP地址。首先將檢查當前電腦是否能夠解釋。如果不能,一個解釋請求將發送給一個遠端DNS伺服器(遠端DNS伺服器 還可能將解釋請求轉寄給另一個DNS伺服器,直到該請求可以被處理)。gethostbyname函數返回這個IP地址或在尋找失敗後引發一個異常。
>>> socket.gethostbyname('lenovo')
'192.168.1.4'
>>> socket.gethostbyname('www.jb51.net')
'222.76.216.16'
一個擴充的形式是gethostbyname_ex(name),它返回一個包含三個元素的元組,分別是給定地址的主要的主機名稱、同一IP地址的可選的主機名稱的一個列表、關於同一主機的同一介面的其它IP地址的一個列表(列表可能都是空的)。
>>> socket.gethostbyname('www.163.com')
'60.191.81.49'
>>> socket.gethostbyname_ex('www.163.com')
('www.cache.split.netease.com', ['www.163.com'], ['60.191.81.48', '60.191.81.49
, '60.191.81.50', '60.191.81.51', '60.191.81.52', '60.191.81.53', '60.191.81.54
, '220.181.28.50', '220.181.28.51', '220.181.28.52', '220.181.28.53', '220.181.
8.54', '220.181.31.182', '220.181.31.183', '220.181.31.184'])
gethostbyaddr(address)函數的作用與gethostbyname_ex相同,只是你提供給它的參數是一個IP地址字串:
>>> socket.gethostbyaddr('202.165.102.205')
('homepage.vip.cnb.yahoo.com', ['www.yahoo.com.cn'], ['202.165.102.205'])
getservbyname(service,protocol)函數要求一個服務名(如'telnet'或'ftp')和一個協議(如'tcp'或'udp'),返回服務所使用的連接埠號碼:
>>>socket.getservbyname('http','tcp')
80
>>>socket.getservbyname('telnet','tcp)
23
通常,非Python程式以32位位元組包的形式儲存和使用IP地址。inet_aton(ip_addr)和inet_ntoa(packed)函數在這個形式和IP地址間作轉換:
>>> socket.inet_aton('222.76.216.16')
'\xdeL\xd8\x10'
>>> socket.inet_ntoa('\xdeL\xd8\x10')
'222.76.216.16'
socket 也定義了一些變數來代表保留的IP地址。INADDR_ANY和INADDR_BROADCAST是被保留的IP地址分別代表任意IP地址和廣播地 址;INADDR_LOOPBACK代表loopback裝置,總是地址127.0.0.1。這些變數是32位位元組數字形式的。
getfqdn([name])函數返回關於給定主機名稱的全網域名稱(如果省略,則返回原生全網域名稱)。
三、使用低級的socket通訊
儘管Python提供了一些封裝,使得使用socket更容易,但是你也可以直接使用socket來工作。
1、建立和銷毀socket
socket 模組中的socket(family,type[,proto])函數建立一個新的socket對象。family的取值通常是AF_INET。type 的取值通常是SOCK_STREAM(用於定向的串連,可靠的TCP串連)或SOCK_DGRAM(用於UDP):
>>> from socket import *
>>> s=socket(AF_INET,SOCK_STREAM)
family和type參數暗指了一個協議,但是你可以使用socket的第三個可選的參數(proto的取值如IPPROTO_TCP或IPPROTO_RAW)來指定所使用的協議。代替使用IPPROTO_XX變數,你可以使用函數getprotobyname:
>>> getprotobyname('tcp')
6
>>> IPPROTO_TCP
6
fromfd(fd,type[,proto]) 是一個很少被使用的函數,它用來從開啟的一個檔案描述符建立一個socket對象(檔案描述符由檔案的fileno()方法返回)。檔案描述符與一個真實 的socket串連,而非一個檔案。socket對象的fileno()方法返回關於這個socket的檔案描述符。
當你使用完工 socket對象時,你應調用close()方法顯式的關閉socket以儘快釋放資源(儘管socket被記憶體回收行程回收時將自動被關閉)。另外,你也 可以使用shutdown(how)方法來關閉串連一邊或兩邊。參數0阻止socket接收資料,1阻止發送,2阻止接收和發送。
2、串連socket
當 兩個socket串連時(例如使用TCP),一端監聽和接收進來的串連,而另一端發起串連。臨聽端建立一個socket,調用bind(address) 函數去綁定一個特定的地址和連接埠,調用listen(backlog)來臨聽進來的串連,最後調用accept()來接收這個新的,進來的串連,下面是在 伺服器端的代碼:
>>> s=socket(AF_INET,SOCK_STREAM)
>>> s.bind(('127.0.0.1',44444))
>>> s.listen(1)
>>> q,v=s.accept() #返回socket q和地址v
注意:上面的代碼將一直處於等待直到串連被建立。下面我們再開啟另一個Python解譯器,用作用戶端;然後鍵入如下代碼:
>>> from socket import *
>>> s=socket(AF_INET,SOCK_STREAM)
>>> s.connect(('127.0.0.1',44444) #發起串連
好了,我們驗證一下串連是否建立了。我們在伺服器端鍵入以下代碼來發送一條資訊:
>>> q.send('hello,i come from pythontik.com') 註:有時可能出現send() argument 1 must be string or buffer,not str 錯誤,原因可能是您的機器不支援UTF-8字元集,臨時解決方案是q.send(b' hello...')
31 #發送的位元組數
在用戶端鍵入以下代碼來接收資訊:
>>> s.recv(1024)
'hello,i come from pythontik.com'
你 傳遞給bind和connect的地址是一個關於AF_INET的socket的元組(ipAddress,port)。代替connect,你也可以調 用connect_ex(address)方法。如果背後對C的connect的調用返回一個錯誤,那麼connect_ex也將返回一個錯誤(否則返回 0代表成功),代替引發一個異常。
當你調用listen時,你給了它一個參數,這個數值表示在等待隊列中允許放置的進來的串連總數。當等待隊列已滿時,如果有更多的串連到達,那麼遠程端將被告知串連被拒絕。在socket模組中的SOMAXCONN變數表明了等待隊列所能容納的最大量。
accept()方法返回形如bind和connect的一個地址,代表遠程socket的地址。下面顯示變數v的值:
>>> v
('127.0.0.1', 1334)
UDP是不定向的串連,但是你仍然可以使用給定的目的地址和連接埠來調用connect去關聯一個socket。
3、發送和接收資料
函 數send(string[,flags])發送給定的字串到遠程socket。sendto(string[,flags],address)發送給 定的字串到一個特定的地址。通常,send方法用於可靠串連的socket,sendto方法用於不可靠串連的socket,但是如果你在一個 UDP socket上調用connect來使它與一個特定的目標建立聯絡,那麼這時你也可以使用send方法來代替sendto。
send和sendto都返回實際發送的位元組數。當你快速發送大量的資料的時候,你可能想去確保全部資訊已被發送,那麼你可以使用如下的一個函數:
def safeSend(sock,msg):
sent=0
while msg:
i=sock.send(msg)
if i==-1: #發生了錯誤
return -1
sent+=i
msg=msg[i:]
time.sleep(25)
return sent
recv(bufsize[,flags]) 方法接收一個進來的訊息。如果有大量的資料在等待,它只返回前面的bufsize位元組數的資料。recvfrom(bufsize[,flags])做同 樣的事,除了它使用AF_INET socket的傳回值是(data,(ipAddress,port)),這便於你知道訊息來自哪兒(這對於非串連的 socket是有用的)。
send,sendto,recv和recvfrom方法都有一個可選的參數flags,預設值為0。你可以通過對socket.MSG_*變數進行組合(按位或)來建立flags的值。這些值因平台而有所不同,但是最通用的值如下所示:
MSG_OOB:處理帶外資料(既TCP緊急資料)。
MSG_DONTROUTE:不使用路由表;直接發送到介面。
MSG_PEEK:返回等待的資料且不把它們從隊列中刪除。
例如,如果你有一個開啟的socket,它有一個訊息等待被接收,你可以接收這個訊息後並不把它從進來的資料的隊列中刪除:
>>> q.recv(1024,MSG_PEEK)
'hello'
>>> q.recv(1024,MSG_PEEK) #因為沒有刪除,所以你可以再得到它。
'hello'
makefile([mode[,bufsize]]) 方法返回一個檔案類對象,其中封裝了socket,以便於你以後將它傳遞給要求參數為一個檔案的代碼(或許你喜歡使用檔案的方法來代替send和 recv)。這個可選的mode和bufsize參數的取值和內建的open函數一樣。
4、使用socket選項
socket對象的getpeername()和 getsockname()方法都返回包含一個IP地址和連接埠的二元組(這個二元組的形式就像你傳遞給connect和bind的)。 getpeername返回所串連的遠程socket的地址和連接埠,getsockname返回關於本地socket的相同資訊。
在預設 情況下,socket是阻塞式的,意思就是socket的方法的調用在任務完成之前是不會返回的。例如,如果儲存向外發送的資料的緩衝已滿,你又企圖發送 更多的資料,那麼你對send的調用將被阻塞直到它能夠將更多的資料放入緩衝。你可以通過調用setblocking(flag)方法(其中flag取值 是0,setblocking(0))來改變這個預設行為,以使socket為非阻塞式。當socket為非阻塞式的時候,如果所做的動作將導致阻塞,將 會引起error異常。下面一段代碼將試圖不斷地接受新的串連並使用函數processRequest來處理。如果一個新串連無效,它將間隔半秒再試。另 一方法是在你的監聽socket上調用select或poll來檢測一個新的串連的到達。
別的socket的選項可以使用 setsockopt(level,name,value)和getsockopt(level,name[,buflen])方法來設定和擷取。 socket代表了一個協議棧的不同層,level參數指定了選項應用於哪一層。level的取值以SOL_開頭(SOL_SOCKET,SOL_TCP 等等)。name表明你涉及的是哪個選項。對於value,如果該選項要求數值的值,value只能傳入數字值。你也可以傳遞入一個緩衝(一個字串), 但你必須使用正確的格式。對getsockopt,不指定buflen參數意味你要求一個數字值,並返回這個值。如果你提供了 buflen,getsockopt返回代表一個緩衝的字串,它的最大長度是buflen的位元組數。下面的例子設定了一個socket的用於發送的緩衝 尺寸為64KB:
>>> s=socket(AF_INET,SOCK_STREAM)
>>> s.setsockopt(SOL_SOCKET,SO_SNDBUF,65535)
要得到一個包在被路由丟棄前所能有的生命週期(TTL)和跳數,你可以使用如下代碼:
>>> s.getsockopt(SOL_IP,IP_TTL)
32
5、數值轉換
由於不同平台的位元組順序不一樣,所以當在網路中傳輸資料時我們使用標準的網路位元組順序。nthol(x)和ntohs(x)函數要求一個網路位元組順序的數值並把它轉換為當前主機位元組順序的相同數值,而htonl(x)和htons(x)則相反:
>>> import.socket
>>> socket.htons(20000) #轉換為一個16位的值
8270
>>> socket.htonl(20000) #轉換為一個32位的值
541982720
>>> socket.ntohl(541982720)
20000
使用SocketServers
SocketServers模組為一組socket服務類定義了一個基類,這組類壓縮和隱藏了監聽、接受和處理進入的socket串連的細節。
1、SocketServers家族
TCPServer和UDPServer都是SocketServer的子類,它們分別處理TCP和UDP資訊。
注意:SocketServer也提供UnixStreamServer(TCPServer的子類)和UNIXdatagramServer(UDPServer的子類),它們都如同其父類一樣除了在建立監聽socket時使用AF_UNIX代替了AF_INET。
默 認情況下,socket服務一次處理一個串連,但是你可以使用ThreadingMixIN和ForkingMixIn類來建立任一 SocketServer的線程和子進程。實際上,SocketServer模組提供了一些對些有用的類來解決你的麻煩,它們 是:ForkingUDPServer、ForkingTCPServer、ThreadingUDPServer、 ThreadingTCPServer、ThreadingUnixStreamServer和 ThreadingUnixDatagramServer。
SocketServer以通常的方法處理進入的串連;要使它更有用,你應該 提供你自己的要求處理常式類給它以便它傳遞一個socket去處理。SocketServer模組中的BaseRequestHandler類是所有請求處 理器的父類。假設,例如你需要寫一個多線程的電子郵件伺服器,首先你要建立一個MailRequestHandler,它是 BaseRequestHandler的子類,然後把它傳遞給一個新建立的SocketServer:
import SocketServer
...#建立你的MailRequestHandler
addr=('220.172.20.6',25) #監聽的地址和連接埠
server=SocketServer.ThreadingTCPServer(addr,MailRequestHandler)
server.serve_forever()
每 次一個新的串連到來時,這個server建立一個新的MailRequestHandler執行個體並調用它的handle()方法來處理這個新的請求。因為 server繼承自ThreadingTCPServer,對於每個新的請求它都啟動一個單獨的線程來處理這個請求,以便於多個請求能夠被同時處理。如果 用handle_request()代替server_forever,它將一個一個的處理串連請求。server_forever 只是反覆調用 handle_request而已。
一般來說,你只需使用socket服務之一,但是如果你需要建立你自己的子類的話,你可以覆蓋我們下面提到的方法來定製它。
當 服務被第一次建立的時候,__init__函數調用server_bind()方法來綁定監聽socket(self.socket)到正確的地址 (self.server_address)。然後調用server_activate()來啟用這個服務(預設情況下,調用socket的listen 方法)。
這個socket服務不做任何事情直到調用了handle_request或serve_forever方法。 handle_request調用get_request()去等待和接收一個新的socket串連,然後調用 verify_request(request,client_address)去看服務是否會處理這個串連(你可以在存取控制中使用這個,預設情況下 verify_request總是返回true)。如果會處理這個請求,handle_request然後調用 process_request(request,client_address),如果 process_request(request,client_address)導致一個異常的話,將調用 handle_error(request,client_address)。預設情況下,process_request簡單地調用 finish_request(request,client_address);子進程和線程類覆蓋了這個行為去開始一新的進程或線程,然後調用 finish_request。finish_request執行個體化一個新的要求處理常式,要求處理常式輪流調用它們的handle()方法。
當SocketServer建立一個新的要求處理常式時,它傳遞給這個處理器的__init__函數的self變數,以便於這個處理器能夠訪問關於這個服務的資訊。
SocketServer 的fileno()方法返回監聽socket的檔案描述符。address_family成員變數指定了監聽socket的socket族(如 AF_INET),server_address包含了監聽socket被綁定到的地址。socket變數包含監聽socket自身。
2、要求處理常式
請 求處理器有setup()、handle()和finish()方法,你可以覆蓋它們來定製你自己的行為。一般情況下,你只需要覆蓋handle方法。 BaseRequestHandler的__init__函數調用setup()方法來做初始化的工作,handle()服務於請求,finish()用 於執行清理工作,如果handle或setup導致一個異常,finish不會被調用。記住,你的要求處理常式會為每個請求建立一個新的執行個體。
request 成員變數有關於流(TCP)服務的最近接受的socket;對於資料報服務,它是一個包含進入訊息和監聽socket的元組。 client_address包含寄件者的地址,server有對SocketServer的一個引用(通過這你可以訪問它的成員,如 server_address)。
下面的例子實現了一個EchoRequestHandler,這作為一個服務端它將用戶端所發送的資料再發送回用戶端:
>>> import SocketServer
>>> class EchoRequestHandler(SocketServer.BaseRequestHandler):
... def handle(self):
... print 'Got new connection!'
... while 1:
... mesg=self.request.recv(1024)
... if not msg:
... break
... print 'Received:',msg
... self.request.send(msg)
... print 'Done with connection'
>>> server=SocketServer.ThreadingTCPServer(('127.0.0.1',12321),EchoReuestHandler)
>>> server.handle_request() #執行後將等待串連
Got new connection!
Received: Hello!
Received: I like Tuesdays!
Done with connection
開啟另一個Python解譯器作為用戶端,然後執行如下代碼:
>>> from socket import *
>>> s=socket(AF_INET,SOCK_STREAM)
>>> s.connect(('120.0.0.1',12321))
>>> s.send('Hello!')
6
>>> print s.recv(1024)
Hello!
>>> s.send('I like Tuesdays!')
16
>>> print s.recv(1024)
I like Tuesdays!
>>> s.close()
SocketServer 模組也定義了BaseRequestHandler的兩個子類:StreamRequestHandler和 DatagramRequestHandler。它們覆蓋了setup和finish方法並建立了兩個檔案對象rfile和wfile,你可以用這兩個文 件對象來向用戶端讀寫資料,從而代替使用socket方法。
socket的阻塞或同步編程
一、使用socket
網 絡編程中最基本的部分就是socket(通訊端)。socket有兩種:服務端socket和用戶端 socket。在你建立了一個服務端socket之 後,你告訴它去等待串連。然後它將監聽某個網路地址(形如:xxx.xxx.xxx.xxx:xxx) 直到用戶端串連。然後這兩端就可以通訊了。
處理用戶端socket通常比處理服務端socket要容易一點,因為服務端必須時刻準備處理來自用戶端的串連,並且它必須處理多個串連,而用戶端只需要簡單的串連,然後做點什麼,然後中斷連線。
實 例化一個socket時,可以指定三個參數:地址系列(預設為socket.AF_INET)、流socket(這是個預設 值: socket.SOCK_STREAM)或資料報socket(socket.SOCK_DGRAM)、協議(預設值是0)。對於簡單的 socket,你可以不指定任何參數而全部使用預設值。
服務端socket在使用bind方法之後調用listen方法去監聽一個給定的 地址。然後,用戶端socket就可以通過使用connect方法(connect方法所使用的地址參數與bind相同)去串連服務端。listen方法 要求一個參數,這個參數就是等待串連隊列中所能包含的串連數。
一旦服務端socket調用了listen方法,就進入了臨聽狀態,然後通 常使用一個無限的迴圈:1、開始接受客房端的串連,這通過調用accept方法來實現。調用了這個方法後將處於阻塞狀態(等待用戶端發起串連)直到一個客 戶端串連,串連後,accept返回形如(client,address)的一個元組,其中client是一個用於與用戶端通訊的 socket,address是用戶端的形如xxx.xxx.xxx.xxx:xxx的地址;2、然後服務端處理用戶端的請求;3、處理完成之後又調用 1。
關於傳輸資料,socket有兩個方法:send和recv。send使用字串參數發送資料;recv參數是位元組數,表示一次接受的資料量,如果你不確定一次該接受的資料量的話,最好使用1024。
下面給出一個最小的伺服器/客戶機的例子:
服務端:
import socket
s = socket.socket()
host = socket.gethostname()
port = 1234
s.bind((host, port))
s.listen(5)
while True:
c, addr = s.accept()
print 'Got connection from', addr
c.send('Thank you for connecting')
c.close()
用戶端:
import socket
s = socket.socket()
host = socket.gethostname()
port = 1234
s.connect((host, port))
print s.recv(1024)
注意:如果你使用Ctrl-C來停止服務端的話,如果再次使用相同的連接埠可能需要等待一會兒。
二、使用SocketServer
SocketServer模組簡單化了編寫網路伺服器的工作。
它提供了四個基本的服務類:TCPServer(使用TCP協議)、UDPServer(使用資料報)、UnixStreamServer、
UnixDatagramServer。UnixStreamServer和UnixDatagramServer用於類Unix平台。
這四個類處理請求都使用同步的方法,也就是說,在下一個請求處理開始之前當前的請求處理必須已完成
。
用SocketServer建立一個伺服器需要四步:
1、通過子類化BaseRequestHandler類和覆蓋它的handle()方法來建立一個要求處理常式類,用於處理進來
的請求;
2、執行個體化服務類如TCPServer,並傳遞給它參數:伺服器位址和要求處理常式類;
3、調用服務執行個體對象的handle_request()或serve_forever()方法去處理請求。
下面使用SocketServer用同步的方法寫一個最簡單的伺服器:
from SocketServer import TCPServer, StreamRequestHandler
#第一步。其中StreamRequestHandler類是BaseRequestHandler類的子類,它為流socket定義了
#rfile和wfile方法
class Handler(StreamRequestHandler):
def handle(self):
addr = self.request.getpeername()
print 'Got connection from', addr
self.wfile.write('Thank you for connecting')
#第二步。其中''代表運行伺服器的主機
server = TCPServer(('', 1234), Handler)
#第三步。serve_forever()導致進入迴圈狀態
server.serve_forever()
注意:使用阻塞或同步的方法一次只能串連一個用戶端,處理完成後才能串連下一個用戶端。
非阻塞或非同步編程