seo與python大資料結合給文本分詞並提取高頻詞

來源:互聯網
上載者:User

標籤:一個   cat   print   iconv   master   argv   切換   解壓   網上   

  最近研究seo和python如何結合,參考網上的一些資料,寫的這個程式。

  目的:分析某個行業(例如:圓柱模板)使用者最關心的一些詞,根據需求去自動調整TDK,以及欄目,內容頁的規劃

  使用方法:

    

1、下載安裝cygwin:http://www.cygwin.com/2、cygwin安裝時別忘記安裝curl,wget,iconv,lynx,dos2unix,Python等常用工具,特別是Python,這次主要就是用它了。3、去下載jieba中文分片語件:首選:https://github.com/fxsjy/jieba/archive/master.zip備用:https://pypi.python.org/pypi/jieba/4、安裝jieba中文分片語件:全自動安裝: easy_install jieba 或者 pip install jieba / pip3 install jieba半自動安裝:先下載 https://pypi.python.org/pypi/jieba/ ,解壓後運行 python setup.py install手動安裝:將 jieba 目錄放置於目前的目錄或者 site-packages 目錄通過 import jieba 來引用5、複製以下代碼,另存新檔“jiebacmd.py”6、建立一個檔案夾,將你需要分詞的文本和jiebacmd.py拷進去,記住文本需要另存新檔utf-8編碼,然後在cygwin裡用cd命令把工作目錄切換進建立的檔案夾,再輸入以下命令:cat abc.txt|python jiebacmd.py|sort|uniq -c|sort -nr|head -100

  代碼:

   

#encoding=utf-8#usage example (find top 100 words in abc.txt):#用途:找出abc.txt檔案中出現頻率最高的前100個詞#複製以下命令到cygwin裡運行,abc.txt是你文本的檔案名稱,head -100可以自己改成想要提取的前多少個詞#cat abc.txt | python jiebacmd.py | sort | uniq -c | sort -nr -k1 | head -100#以上都是注釋,不影響程式運行from __future__ import unicode_literalsimport syssys.path.append("../")reload(sys)sys.setdefaultencoding( "utf-8" )import jiebadefault_encoding=‘utf-8‘if len(sys.argv)>1:    default_encoding = sys.argv[1]while True:    line = sys.stdin.readline()    if line=="":        break    line = line.strip()    for word in jieba.cut(line):        print(word)

  

seo與python大資料結合給文本分詞並提取高頻詞

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.