Python非同步IO --- 輕鬆管理10k+並發串連

來源:互聯網
上載者:User

標籤:

前言 非同步作業在電腦軟硬體體系中是一個普遍概念,根源在於參與協作的各實體處理速度上有明顯差異。軟體開發中遇到的多數情況是CPU與IO的速度不匹配,所以非同步IO存在於各種編程架構中,用戶端比如瀏覽器,服務端比如node.js。本文主要分析Python非同步IO。 Python 3.4標準庫有一個新模組asyncio,用來支援非同步IO,不過目前API狀態是provisional,意味著不保證向後相容性,甚至可能從標準庫中移除(可能性極低)。如果關注PEP和Python-Dev會發現該模組醞釀了很長時間,可能後續有API和實現上的調整,但毋庸置疑asyncio非常實用且功能強大,值得學習和深究。 樣本 asyncio主要應對TCP/UDP socket通訊,從容管理大量串連,而無需建立大量線程,提高系統運行效率。此處將官方文檔的一個樣本做簡單改造,實現一個HTTP長串連benchmark工具,用於診斷WEB伺服器長串連處理能力。 功能概述:每隔10毫秒建立10個串連,直到目標串連數(比如10k),同時每個串連都會規律性的向伺服器發送HEAD請求,以維持HTTP keepavlie。 代碼如下: 

點擊(此處)摺疊或開啟

  1. import argparse
  2. import asyncio
  3. import functools
  4. import logging
  5. import random
  6. import urllib.parse
  7. loop = asyncio.get_event_loop()
  8. @asyncio.coroutine
  9. def print_http_headers(no, url, keepalive):
  10.     url = urllib.parse.urlsplit(url)
  11.     wait_for = functools.partial(asyncio.wait_for, timeout=3, loop=loop)
  12.     query = (‘HEAD {url.path} HTTP/1.1\r\n‘
  13.              ‘Host: {url.hostname}\r\n‘
  14.              ‘\r\n‘).format(url=url).encode(‘utf-8‘)
  15.     rd, wr = yield from wait_for(asyncio.open_connection(url.hostname, 80))
  16.     while True:
  17.         wr.write(query)
  18.    
  19.         while True:
  20.             line = yield from wait_for(rd.readline())
  21.             if not line: # end of connection
  22.                 wr.close()
  23.                 return no
  24.             line = line.decode(‘utf-8‘).rstrip()
  25.             if not line: # end of header
  26.                 break
  27.             logging.debug(‘(%d) HTTP header> %s‘ % (no, line))
  28.         yield from asyncio.sleep(random.randint(1, keepalive//2))
  29. @asyncio.coroutine
  30. def do_requests(args):
  31.     conn_pool = set()
  32.     waiter = asyncio.Future()
  33.     def _on_complete(fut):
  34.         conn_pool.remove(fut)
  35.         exc, res = fut.exception(), fut.result()
  36.         if exc is not None:
  37.             logging.info(‘conn#{} exception‘.format(exc))
  38.         else:
  39.             logging.info(‘conn#{} result‘.format(res))
  40.         if not conn_pool:
  41.             waiter.set_result(‘event loop is done‘)
  42.     for i in range(args.connections):
  43.         fut = asyncio.async(print_http_headers(i, args.url, args.keepalive))
  44.         fut.add_done_callback(_on_complete)
  45.         conn_pool.add(fut)
  46.         if i % 10 == 0:
  47.             yield from asyncio.sleep(0.01)
  48.     logging.info((yield from waiter))
  49. def main():
  50.     parser = argparse.ArgumentParser(description=‘asyncli‘)
  51.     parser.add_argument(‘url‘, help=‘page address‘)
  52.     parser.add_argument(‘-c‘, ‘--connections‘, type=int, default=1,
  53.                         help=‘number of connections simultaneously‘)
  54.     parser.add_argument(‘-k‘, ‘--keepalive‘, type=int, default=60,
  55.                         help=‘HTTP keepalive timeout‘)
  56.     args = parser.parse_args()
  57.     logging.basicConfig(level=logging.INFO, format=‘%(asctime)s %(message)s‘)
  58.     loop.run_until_complete(do_requests(args))
  59.     loop.close()
  60. if __name__ == ‘__main__‘:
  61.     main()

測試與分析 硬體:CPU 2.3GHz / 2 cores,RAM 2GB軟體:CentOS 6.5(kernel 2.6.32), Python 3.3 (pip install asyncio), nginx 1.4.7參數設定:ulimit -n 10240;nginx worker的串連數改為10240 啟動WEB伺服器,只需一個worker進程:
  1. # ../sbin/nginx
  2. # ps ax | grep nginx
  3. 2007 ? Ss 0:00 nginx: master process ../sbin/nginx
  4. 2008 ? S 0:00 nginx: worker process
 啟動benchmark工具, 發起10k個串連,目標URL是nginx的預設測試頁面:
  1. $ python asyncli.py http://10.211.55.8/ -c 10000
 nginx日誌統計平均每秒請求數:
  1. # tail -1000000 access.log | awk ‘{ print $4 }‘ | sort | uniq -c | awk ‘{ cnt+=1; sum+=$1 } END { printf "avg = %d\n", sum/cnt }‘
  2. avg = 548
 top部分輸出:
  1. VIRT   RES   SHR  S %CPU  %MEM   TIME+  COMMAND
  2. 657m   115m  3860 R 60.2  6.2   4:30.02  python
  3. 54208  10m   848  R 7.0   0.6   0:30.79  nginx
 總結:1. Python實現簡潔明了。不到80行代碼,只用到標準庫,邏輯直觀,想象下C/C++標準庫實現這些功能,頓覺“人生苦短,我用Python”。 2. Python運行效率不理想。當串連建立後,用戶端和服務端的資料收發邏輯差不多,看上面top輸出,Python的CPU和RAM佔用基本都是nginx的10倍,意味著效率相差100倍(CPU x RAM),側面說明了Python與C的效率差距。這個對比雖然有些極端,畢竟nginx不僅用C且為CPU/RAM佔用做了深度最佳化,但相似任務效率相差兩個數量級,除非是BUG,說明架構設計的出發點就是不同的,Python優先可讀易用而效能次之,nginx就是一個高度最佳化的WEB伺服器,開發一個module都比較麻煩,要複用它的非同步架構,簡直難上加難。開發效率與運行效率的權衡,永遠都存在。 3. 單線程非同步IO v.s. 多線程同步IO。上面的例子是單線程非同步IO,其實不寫demo就知道多線程同步IO效率低得多,每個線程一個串連?10k個線程,僅線程棧就佔用600+MB(64KB * 10000)記憶體,加上線程環境切換和GIL,基本就是噩夢。 ayncio核心概念 以下是學習asyncio時需要理解的四個核心概念,更多細節請看<參考資料>1. event loop。單線程實現非同步關鍵就在於這個高層事件迴圈,它是同步執行的。2. future。非同步IO有很多非同步任務構成,而每個非同步任務都由一個future控制。3. coroutine。每個非同步任務具體的執行邏輯由一個coroutine來體現。4. generator(yield & yield from) 。在asyncio中大量使用,是不可忽視的文法細節。 參考資料 1. asyncio – Asynchronous I/O, event loop, coroutines and tasks, https://docs.python.org/3/library/asyncio.html2. PEP 3156, Asynchronous IO Support Rebooted: the "asyncio” Module, http://legacy.python.org/dev/peps/pep-3156/3. PEP 380, Syntax for Delegating to a Subgenerator, http://legacy.python.org/dev/peps/pep-0380/4. PEP 342, Coroutines via Enhanced Generators, http://legacy.python.org/dev/peps/pep-0342/5. PEP 255, Simple Generators, http://legacy.python.org/dev/peps/pep-0255/6. asyncio source code, http://hg.python.org/cpython/file/3.4/Lib/asyncio/

Python非同步IO --- 輕鬆管理10k+並發串連

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.