標籤:一個 cat print iconv master argv 切換 解壓 網上
最近研究seo和python如何結合,參考網上的一些資料,寫的這個程式。
目的:分析某個行業(例如:圓柱模板)使用者最關心的一些詞,根據需求去自動調整TDK,以及欄目,內容頁的規劃
使用方法:
1、下載安裝cygwin:http://www.cygwin.com/2、cygwin安裝時別忘記安裝curl,wget,iconv,lynx,dos2unix,Python等常用工具,特別是Python,這次主要就是用它了。3、去下載jieba中文分片語件:首選:https://github.com/fxsjy/jieba/archive/master.zip備用:https://pypi.python.org/pypi/jieba/4、安裝jieba中文分片語件:全自動安裝: easy_install jieba 或者 pip install jieba / pip3 install jieba半自動安裝:先下載 https://pypi.python.org/pypi/jieba/ ,解壓後運行 python setup.py install手動安裝:將 jieba 目錄放置於目前的目錄或者 site-packages 目錄通過 import jieba 來引用5、複製以下代碼,另存新檔“jiebacmd.py”6、建立一個檔案夾,將你需要分詞的文本和jiebacmd.py拷進去,記住文本需要另存新檔utf-8編碼,然後在cygwin裡用cd命令把工作目錄切換進建立的檔案夾,再輸入以下命令:cat abc.txt|python jiebacmd.py|sort|uniq -c|sort -nr|head -100
代碼:
#encoding=utf-8#usage example (find top 100 words in abc.txt):#用途:找出abc.txt檔案中出現頻率最高的前100個詞#複製以下命令到cygwin裡運行,abc.txt是你文本的檔案名稱,head -100可以自己改成想要提取的前多少個詞#cat abc.txt | python jiebacmd.py | sort | uniq -c | sort -nr -k1 | head -100#以上都是注釋,不影響程式運行from __future__ import unicode_literalsimport syssys.path.append("../")reload(sys)sys.setdefaultencoding( "utf-8" )import jiebadefault_encoding=‘utf-8‘if len(sys.argv)>1: default_encoding = sys.argv[1]while True: line = sys.stdin.readline() if line=="": break line = line.strip() for word in jieba.cut(line): print(word)
seo與python大資料結合給文本分詞並提取高頻詞