Time of Update: 2016-06-06
最近正好在尋求一種Python的資料庫ORM (Object Relational Mapper),SQLAlchemy
Time of Update: 2016-06-06
本方法是基於文本密度的方法,最初的想法來源於哈工大的《基於行塊分布函數的通用網頁本文抽取演算法》,本文基於此進行一些小修改。約定: 本文基於網頁的不同行來進行統計,因此,假設網頁內容是沒有經過壓縮的,就是網頁有正常的換行的。 有些新聞網頁,可能新聞的常值內容比較短,但其中嵌入一個視頻檔案,因此,我會給予視頻較高的權重;這同樣適用於圖片,這裡有一個不足,應該是要根據圖片顯示的大小來決定權重的,但本文的方法未能實現這一點。
Time of Update: 2016-06-06
通常來說,Python的變數/資料類型非常多,但是它是不需要使用者指定的,因為有些是根據部份系統函數產生,另外一些是自動根據變數的值識別的,這些資料類型常量在class types定義,所以使用時需要 import types如: 代碼如下:import typesa = [1,2,3]if type(a) is types.ListType: print aelse: print 'not list'Python的具體變數/資料類型如下:NoneType None
Time of Update: 2016-06-06
Python語言功能非常強大,除了類之外,還有模組和包的概念,這有點像perl,此處簡單說說包和模組。一、Python中的模組模組——其實就是我們說的庫(lib)的概念,不過它不僅只是可以包含一系列函數,也可以包含類,python裡是沒有像C語言之類,直接include某檔案的,包正是這種類似的東西。Python 引入模組的方法有兩種:1、import 模組名(實際是對應的就是 檔案名稱.py )2、模組名 = __import__("模組檔案名稱(不帶副檔名)")也可以" import
Time of Update: 2016-06-06
在 python的lib目錄裡有一個:this.py,它其實是隱藏著一首詩,源碼如下: 代碼如下:s = """Gur Mra bs Clguba, ol Gvz CrgrefOrnhgvshy vf orggre guna htyl.Rkcyvpvg vf orggre guna vzcyvpvg.Fvzcyr vf orggre guna pbzcyrk.Pbzcyrk vf orggre guna pbzcyvpngrq.Syng vf orggre guna arfgrq.Fcnefr
Time of Update: 2016-06-06
Flask 依賴於兩個外部庫: Werkzeug 和 Jinja2 。 Werkzeug 是一個 WSGI (在 web 應用和多種伺服器之間開發和部署的標準 Python 介面) 的工具集,Jinja2
Time of Update: 2016-06-06
這個是python的一個內建函數,看書的時候發現了他,mark一下當我們既需要遍曆索引同時需要遍曆元素的時候,可以考慮使用enumerate函數,enumerate函數接受一個可遍曆的對象,如列表、字串比如我們有一個["one","two","there"]的列表,我們需要在列表的每個元素前面加上他的編號 代碼如下:i = 0seq = ["one","two","three"]for element in seq: seq[i] = '%d: %s' % (i, seq[i]) i +=
Time of Update: 2016-06-06
具體的 websocket 介紹可見 http://zh.wikipedia.org/wiki/WebSocket 這裡,介紹如何使用 Python 與前端 js 進行通訊。websocket 使用 HTTP 協議完成握手之後,不通過 HTTP 直接進行 websocket 通訊。於是,使用 websocket 大致兩個步驟:使用 HTTP 握手,通訊。js 處理 websocket 要使用 ws 模組; Python 處理則使用 socket 模組建立 TCP 串連即可,比一般的
Time of Update: 2016-06-06
在介紹yield前有必要先說明下Python中的迭代器(iterator)和產生器(constructor)。一、迭代器(iterator)在Python中,for迴圈可以用於Python中的任何類型,包括列表、元祖等等,實際上,for迴圈可用於任何“可迭代對象”,這其實就是迭代器迭代器是一個實現了迭代器協議的對象,Python中的迭代器協議就是有next方法的對象會前進到下一結果,而在一系列結果的末尾是,則會引發StopIteration。任何這類的對象在Python中都可以用for迴圈或其他
Time of Update: 2016-06-06
快速入門import repattern = 'this'text = 'Does this text match the pattern?'match = re.search(pattern, text)s = match.start()e = match.end()print('Found "{0}"\nin "{1}"'.format(match.re.pattern, match.string))print('from {0} to {1} ("{2}")'.format( s,
Time of Update: 2016-06-06
python中,遍曆dict的方法有四種。但這四種遍曆的效能如何呢?我做了如下的測試l = [(x,x) for x in xrange(10000)]d = dict(l)from time import clockt0=clock()for i in d: t = i + d[i]t1=clock()for k,v in d.items(): t = k + vt2=clock()for k,v in d.iteritems(): t = k + vt3=clock()for k,v in
Time of Update: 2016-06-06
1. 卡住是怎麼辦按照以下步驟, 前提是你需要懂點英文:儘可能自己想辦法解決仔細閱讀相關文檔, 確保不錯過任何相關內容在Google, 百度, mailing lists或StackOverFlow上查看是否有人遇到相同問題找不到? 在StackOverFlow上問問題, 需要使用小例子說明該問題, 並列出你的開發環境, 使用的軟體版本過了幾天都沒人回答? 到Django-users mailing list 或 django IRC中再提問2.
Time of Update: 2016-06-06
自己隨手寫了Python下 fork 進程的測試代碼(來說明這個問題不一定完全合適):def fork(a): def now(): import datetime return datetime.datetime.now().strftime("%S.%f") import os import time print now(), a if os.fork() == 0: print '子進程[%s]:%s' % (now(), os.getpid()) while 1: a-=10
Time of Update: 2016-06-06
1.背景項目需求,要求獲得github的repo的api,以便可以提取repo的資料進行分析。研究了一天,終於解決了這個問題,雖然效率還是比較低下。因為github的那個顯示repo的api,列出了每個repo的詳細資料,而且是json格式的。現在貌似還沒有找到可以分析多個json格式資料的方法,所以用的是比較蠢得splite加re的方法。如果大家有更好的方法,不發留言討論!2.代碼import reimport osdef GetUrl(num): str = os.popen("curl -
Time of Update: 2016-06-06
首先下載源tar包可利用linux內建下載工具wget下載,如下所示:wget http://www.python.org/ftp/python/2.7.3/Python-2.7.3.tgz下載完成後到下載目錄下,解壓tar -zxvf Python-2.7.3.tgz進入解壓縮後的檔案夾cd Python-2.7.3在編譯前先在/usr/local建一個檔案夾python27(作為python的安裝路徑,以免覆蓋老的版本)mkdir
Time of Update: 2016-06-06
推薦系統中經常需要處理類似user_id, item_id, rating這樣的資料,其實就是數學裡面的疏鬆陣列,scipy中提供了sparse模組來解決這個問題,但scipy.sparse有很多問題不太合用:1、不能很好的同時支援data[i, ...]、data[..., j]、data[i, j]快速切片;2、由於資料儲存在記憶體中,不能很好的支援海量資料處理。要支援data[i, ...]、data[...,
Time of Update: 2016-06-06
本文針對Python的全域變數實現方法簡述如下:先來看下面一段測試程式:count = 0def Fuc(count): print count count += 1for i in range(0, 10): Fuc(count)運行結果是:>>>0000000000很顯然,這並不是我們想要的結果。針對這一問題的解決方案就是採用全域變數:global aa = 3def Fuc(): global a print a a = a + 1if __name__ == "__main_
Time of Update: 2016-06-06
主流的web server 一個巴掌就能數出來,apache,lighttpd,nginx,iisapplication,中文名叫做應用服務,就是你基於某個web framework寫的應用代碼DB server 泛指儲存服務,web開發中用mysql比較多,最近幾年因為網站規模擴大,memcache,redis這種key-value等儲存也流行開來放在最前面的 web server 有3個功能高效率處理靜態檔案 ,web
Time of Update: 2016-06-06
本文簡單介紹了Python繪圖庫Matplotlib的安裝,簡介如下:matplotlib是python最著名的繪圖庫,它提供了一整套和matlab相似的命令API,十分適合互動式地進行製圖。Matplotlib的安裝可以參見:官網連結 http://matplotlib.org/users/installing.html安裝總結步驟如下:windows 平台上下載.exe格式 直接安裝。1.python下載安裝
Time of Update: 2016-06-06
本文詳述了Python的import機制,對於理解Python的運行機制很有協助!1.標準import:Python中所有載入到記憶體的模組都放在 sys.modules 。當 import 一個模組時首先會在這個列表中尋找是否已經載入了此模組,如果載入了則只是將模組的名字加入到正在調用 import 的模組的 Local 名字空間中。如果沒有載入則從 sys.path 目錄中按照模組名稱尋找模組檔案,模組可以是py、pyc、pyd,找到後將模組載入記憶體,並加到 sys.modules