Protocol Buffers (類似XML的一種資料描述語言 (Data Description Language))最新版本2.3裡,protoc—py_out命令只產生原生的Python代碼。 儘管PB(Protocol Buffers)可以為C++語言產生快速解析和序列化代碼,但是這種方式對於Python不適用,並且手動產生的已封裝的代碼需要非常大的維護工作。在討論群組裡,這是一個常見的功能要求,由於一個必備的用戶端組件—AppEngine(根據團隊介紹名稱為AppEngine),產生原生的Python代碼有更高的優先順序。
幸運的是, PB 2.4版本中本地化代碼已被提名,在 svn的分支中已經可以下載,因此你能夠使用快速的 PB有一段時間了。 (我們使用 r352版本有一段時間了,還沒有遇到任何問題。) PB團隊一直不願輕易指定任何發布日期,在我的威脅下, Kenton Varda提到日期初步定在 2011年初。
我沒有在其它地方看見過這個文檔,希望它能對其他人有所協助.
如何做能讓它快起來
安裝好新的PB庫之後並使用 protoc --py_out=... 重新構建好你的PB之後,你需要在運行你的Python程式之前進行環境變數 PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION=cpp 的設定,以便於選擇C++的,或者PB預設使用的Python實現.
就這樣了!這至少就能在可以動態轉化/序列化訊息的PB執行階段程式庫用通用的C++代碼了. (注意我們還沒有產生任何C++代碼.)
它能有多快呢? 我編寫了一個簡單的程式來獲得效能在我們的應用程式中的提升感觀:
nruns = 1000nwarmups = 100xs = ... # your protobufsdef ser(): return [x.SerializeToString() for x in xs]def parse(ys): for y in ys: pb.Email().ParseFromString(y) t = timeit.Timer(lambda:None)t.timeit(nwarmups)print 'noop:', t.timeit(nruns) / nruns t = timeit.Timer(ser)t.timeit(nwarmups)print 'ser:', t.timeit(nruns) / nruns / len(xs) ys = ser()t = timeit.Timer(lambda: parse(ys))t.timeit(nwarmups)print 'parse:', t.timeit(nruns) / nruns / len(xs)print 'msg size:', sum(len(y) for y in ys) / len(ys)
以秒為單位,這段程式在我的案頭上給出了如下幾個時間結果:
$ python sandbox/pbbench.py out.iniser: 0.000434461673101parse: 0.000602062404156msg size: 10730 $ PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION=cpp \> python sandbox/pbbench.py out.iniser: 2.86788344383e-05parse: 7.63910810153e-05msg size: 10730
這顯示出在序列化和轉化方面分別有15和8被的速度提升。不壞!但還可以更快.
如何做讓它更快
現在我們實際上只是特地針對你的PB產生了一個C++實現,而我們從來沒有使用過運行時反射。首先,為你的Python項目添加一個C擴充,不如,通過修改如下的 setup.py:
setup( ... ext_modules=[Extension('podpb',sources=['cpp/podpb.c','cpp/main.pb.cc'], libraries=['protobuf'])], ... )
使用 protoc --cpp_out=cpp 產生main.pb.c, 並按如下所示建立 podpb.c 來設定一個空的 Python C 模組:
#include <Python.h> static PyMethodDef PodMethods[] = { {NULL, NULL, 0, NULL} /* Sentinel */}; PyMODINIT_FUNCinitpodpb(void){ PyObject *m; m = Py_InitModule("podpb", PodMethods); if (m == NULL) return;}
現在就運行 python setup.py build 命令會構建所有的東西. 只要將C模組(在這裡是podpb)匯入到你的項目中,PB 執行階段程式庫就將會自動使用 C++ 實現了.
現在我們就分別有了68倍x 和 13倍 的速度提升. 吼吼.
$ PYTHONPATH=build/lib.linux-x86_64-2.6/:$PYTHONPATH \> PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION=cpp \> python sandbox/pbbench.py out.iniser: 6.39575719833e-06parse: 4.55250144005e-05msg size: 10730
我這篇文章發布到很多地方,大事完全忘了它的存在。同時 connex.io 和 Greplin 發布了他們的原生的 Python實現,cypb和fast-python-pb。cypb在PB的郵件清單中公布過,可以運行,但仍需要提升到可用的狀態。fast-python-pb目前只支援string int32, int64 雙精確度浮點和子訊息成員。除了這些項目,其他的我都不瞭解。你也可以查看我的orginal thread PB郵列表來瞭解到這些。