Time of Update: 2018-07-24
One of the first long-form articles I ever posted to this blog was a piece about Python’s Global Interpreter Lock (GIL) entitled “Python’s Hardest Problem”. Two weeks ago, it was posted to Hacker News and sat on the front page for a while, driving a
Time of Update: 2018-07-24
找完工作,又開始忙於做畢設,很久沒更新部落格了,不過部落格新上線的這個新介面太不好用了,分類下只有兩篇文章,每次點擊進去都出現很多篇其他類的,每次找一篇博文都要翻很久。體驗真是極差。 廢話不多說,先記幾個做畢設過程中發現的小坑 1、jieba分詞產生迭代器,在第二次for迴圈會失效 測試代碼: 用jieba分詞產生的word_list是個迭代器,第二個for裡面就已經失效了,所以什麼都列印不出來,所以為了讓它不失效,用word_list1 =
Time of Update: 2018-07-24
1、匯出函數範例 #include <python/Python.h>#include <iostream>using namespace std;int add(int arg1, int arg2){return arg1 + arg2;}int sub(int arg1, int arg2){return arg1 - arg2;}static PyObject* math_add(PyObject* self, PyObject* args){int arg1
Time of Update: 2018-07-24
最近在學習deeplearning, 把理論看了一遍後,準備開始用TensorFlow做開發。當然了,我們現在需要用到Python了。習慣了自動補全功能,還是想在Python下可以自動補全的,看了很多的文章,http://blog.csdn.net/robertsong2004/article/details/48165557,確實可以自動補全了。
Time of Update: 2018-07-24
# -*- coding:UTF-8 -*- ''' Created on 2010-4-20 @author: 憂裡修斯 ''' import xml.etree.ElementTree as ET import xml.dom.minidom as minidom from addrbook.domain import Person class Converter(object): ''' 實現Python對象與xml之間的相互轉換 ''' root = None#根節點 def
Time of Update: 2018-07-24
參考用WebCollector 2.x爬取新浪微博(無需手動擷取cookie) 從java 轉為python from selenium import webdriver import selenium from selenium.webdriver.common.desired_capabilities import DesiredCapabilities from bs4 import BeautifulSoup import requests
Time of Update: 2018-07-24
這次的項目 和檔案都放到了 github 上 https://github.com/poiu1235/weibo-catch: 有興趣的可以follow一下,或者點個贊咯 我這裡採用的深度挖掘的方式:沒有設定爬取的邊界(這個以後是要考慮的) 大致的思路是,用自己的 帳號登陸後,擷取自己的微博列表和朋友列表。 然後根據朋友列表然後在爬取對方的微博列表和朋友列表。這樣不斷的深度挖掘和遍曆的過程 過程中我採用了mysql 資料庫進行儲存,後面會加入mongodb
Time of Update: 2018-07-24
上學期參加了一個大資料比賽,需要抓取大量資料,於是我從新浪微博下手,本來準備使用新浪的API的,無奈新浪並沒有開放關鍵字搜尋的API,所以只能用爬蟲來擷取了。幸運的是,新浪提供了一個進階搜尋功能,為我們爬取資料提供了一個很好的切入點。 在查閱了一些資料,參考了一些爬蟲的例子後,得到大體思路:構造URL,爬取網頁,然後解析網頁 具體往下看~
Time of Update: 2018-07-24
從下面地址去下載python的微博SDK http://michaelliao.github.com/sinaweibopy/ 下載安裝檔案,自己通過python setup.py install 去安裝。 # -*- coding: utf-8 -*-import sysimport weiboimport webbrowserAPP_KEY = '2XXXX1' # app keyAPP_SECRET =
Time of Update: 2018-07-24
上一節中已經安裝了Python SDK,可以在程式中引入weibo模組編寫微博程式了。下面的程式的功能就是利用該模組發一條新微博,先開具體的代碼: #! /usr/bin/python"""引入Python SDK的包"""import
Time of Update: 2018-07-24
首先尊重原創:http://blog.justbilt.com/2014/07/02/setup_python_on_mac/ 在mac上搭建python環境 這兩天重新搞了下python的環境,發現好多地方還是容易忘記,因此有了這篇文章,以後方便查看。 一. 安裝python mac系統其實內建了一個python的執行執行環境,用來運行python還行,但是開發可能就不夠了,因此我們需要重新安裝python。這裡有兩種方案安裝:
Time of Update: 2018-07-24
buffer = 8192 來自網路,但不知道是怎麼實踐出來的。 from hashlib import md5import timeimport os def calMD5(str): m = md5() m.update(str) return m.hexdigest() def calMD5ForFile(file): statinfo = os.stat(file) if int(statinfo.st_size)/(1024*
Time of Update: 2018-07-24
1、條件陳述式 2、迴圈語句 3、迭代器 4、列表解析 5、產生器運算式 1、條件陳述式 最簡單的條件陳述式: if expression: expr_true_suite
Time of Update: 2018-07-24
python3x下,我們可以通過一下兩種方式擷取網頁內容 擷取地址: 國家地理中文網 url = 'http://www.ngchina.com.cn/travel/' urllib庫 1、匯入庫 from urllib import request 2、擷取網頁內容 with request.urlopen(url) as file: data = file.read() print(data) 運行發現報錯了:
Time of Update: 2018-07-24
在python基礎知識這個系列中,準備羅列出我學習python的一些基礎知識,包括: 基本文法 控制語句 內建資料結構 模組和函數 字串 檔案處理 物件導向 異常處理 以前寫機器學習演算法喜歡使用 Matlab 語言,接觸 python 後,覺得 python 有很多地方還是比 Matlab 方便點,各有各的優勢吧,在公司還是使用 python 較多,這裡會羅列出一些 python
Time of Update: 2018-07-24
1. 我們怎樣才能識別語言資料中能明顯用於對其分類的特徵?2. 我們怎樣才能構建語言模型,用於自動執行語言處理任務? 3. 從這些模型中我們可以學到哪些關於語言的知識? 6.1 有監督分類 性別評鑑 #建立一個分類器的第一步是決定輸入的什麼樣的特徵是相關的,以及如何為那些特徵編碼#以下特徵提取器 函數建立一個字典,包含有關給定名稱的相關資訊:def gender_features(word): return {'last_letter':
Time of Update: 2018-07-24
類型轉換 函數 描述 例子 int(x [,base]) 將x轉換為一個整數,base可選,進位,預設為十進位 float(x) 將x轉換到一個浮點數 complex(real [,imag]) 建立一個複數 complex(1, 2) -> (1 + 2j)
Time of Update: 2018-07-24
本章主要根據 “python manual”(在安裝python後附帶)中的Tutorial簡化整理而來。有時間可以查看官方原來的文檔。遇到模組或函數不清楚的也可以尋找Manual。 內建資料類型 和大多數動態語言一樣,python中的變數是動態變數,所以定義時不需要指定變數類型,只跟實際賦值時有關(python的所有變數都是對象)。 numbers(數字) 數位使用跟數學運算式一樣 >>> (50-5*6)/4 #
Time of Update: 2018-07-24
# -*- coding: gbk -*- import sys,string,os,shutil def RenameFiles(srcdir,prefix): try: srcfiles = os.listdir(srcdir) index = 1 for srcfile in srcfiles: print("檔案:" + srcfile)
Time of Update: 2018-07-24
Windows下的rename命令只能使用相同長度的字串替換檔案名稱中的特定字元。cygwin下的mv不支援批量更名。所以下自己寫一個。原來準備使用C的,感覺太麻煩;主要是想多用用python。 第一次使用python是做video encoder的時候,把它當成超級計算機。寫了一些小程式,來運算一些演算法,比如RGB to