Python:尋找硬碟上重複檔案

在下載了很多資料之後,由於分類不好,很多檔案夾下都放了重複的檔案,就想用python寫個尋找重複檔案的小工具。主要思路如下: 1. 尋找同命檔案2.  利用了crc32,先檢查出同樣尺寸的檔案,再計算crc32,得出相同的檔案名稱列表。下面是轉載的一個代碼,雖然可以滿足要求,但是在尋找大量檔案時候,速度很慢,我抽空把它調優。代碼Code highlighting produced by Actipro CodeHighlighter

Python之lxml庫學習筆記二

使用XPath尋找文本另一個抽取XML樹的常值內容是XPath,>>> print(html.xpath("string()")) # lxml.etree only!TEXTTAIL>>> print(html.xpath("//text()")) # lxml.etree only![’TEXT’, ’TAIL’]如果經常使用,可以封裝成一個方法:>>> build_text_list = etree.XPath("//text()"

Python模組之PAMIE基本方法

PAMIE的全稱是Python Automated Module For Internet Explorer,顧名思義,PAMIE是一個實現IE自動化的模組。PAMIE的官方網站提供了最新模組的下載,但由於是個人開發的緣故,其他文檔,常見問題集之類的基本沒有更新,在下載最新版本之後,首頁上提供的資料有好多是錯的,大家在用的時候要務必注意這一點,最明顯的一個例子是我上篇文章裡面說的,還有一些方法名字已經更換。使用的時候,要多查查PAM30.py!下面使用了PAMIE Test

Python 之lxml庫學習筆記三

序列化:序列化通常使用tostring()方法來返回一個字串,或者ElementTree.write()方法來寫入一個檔案,一個類檔案的對象,或者一個URL(通過FTP的PUT或者HTTP的POST)。二者都使用相同的關鍵字參數比如pretty_print來格式化輸出或者encoding來選擇一個特定的輸出編碼而不是簡單的ASCII。>>> root

Python獲得作業系統資訊

Python裡裡面有個platform模組,可以得到作業系統的相關資訊import platformplatform.machine()    # Returns the machine type, e.g. 'i386'platform.node()    # Returns the computer's network nameplatform.platform(aliased=0, terse=0)    # Returns a single string identifying the

Python之reload函數

reload()函數將以前置入過的模組再載入一次。重新載入(reload)包括最初匯入模組時應用的分析過程和初始化過程。這樣就允許在不退出解譯器的情況下重新載入已更改的Python模組。若干注意事項:1. 如果模組在文法上是正確的,但在初始化過程中失敗,則匯入處理程序不能正確地將模組的名字綁定到符號表中。這時,必須在模組能被重新載入之前使用import()函數載入該模組。2. 重新載入的模組不刪除最初舊版本模組在符號表中的登記項。3.

Python:Regex匹配任一字元(包括分行符號)的寫法

想使用Regex來擷取一段文本中的任一字元,寫出如下匹配規則: (.*) 結果運行之後才發現,無法獲得換行之後的文本。於是查了一下手冊,才發現Regex中,“.”(點符號)匹配的是除了分行符號“\n”以外的所有字元。以下為正確的Regex匹配規則: ([\s\S]*) 同時,也可以用 “([\d\D]*)”、“([\w\W]*)” 來表示。 Web技術之家_www.waweb.cn在文字檔裡, 這個運算式可以匹配所有的英文 /[ -~]/

Python之lxml庫學習筆記一

lxml takes all the pain out of XML. Stephan Richter     lxml是Python語言裡和XML以及HTML工作的功能最豐富和最容易使用的庫。lxml是為libxml2和libxslt庫的一個Python化的綁定。它與眾不同的地方是它兼顧了這些庫的速度和功能完整性,以及純Python API的簡潔性,大部分與熟知的ElementTree

Python中的apply,filter和map函數

apply函數:apply(func [, args [, kwargs ]])

Python之Web效能工具:Pylot

本文試圖以翻譯的形式對Pylot做介紹,讓大家熟悉一下Pylot以及它的基本。Pylot是什嗎?Pylot是一款開源的測試web service效能和擴充性的工具,它運行HTTP 負載測試,這對容量計劃,確定基準點,分析以及系統調優都很有用處。Pylot產生並發負載(HTTP Requests),檢驗伺服器響應,以及產生帶有metrics的報表。通過GUI或者shell/console來執行和監視test

Selenium RC For Python:教程2

為了全面測試一個Web系統,我們需要與系統UI相互動並做出相應的斷言。最常用的互動是通過selenium.py中以下方法來實現的:open(url): Opens an URL in the test frame. This accepts both relative and absolute URLs. click(locator): Clicks on a link, button, checkbox or radio button. If the click action causes

Selenium: Python用戶端配置

1.首先在這裡下載Selenium RC,解壓到C盤。2. 在C:\selenium-remote-control-1.0.1\selenium-python-client-driver-1.0.1下把selenium.py拷貝到C:\Python26\Lib\site-packages3. 現在錄製或者手寫的指令碼就可以與瀏覽器互動了。 Selenium 現在存在2個版本,一個叫 selenium-core, 一個叫Selenium RC

Python模組之遞迴處理檔案和檔案夾

這裡有兩個需求:刪除某個目錄以及子目錄下的所有.svn檔案刪除某個檔案夾下所有檔案在Python中,檔案操作主要來自os模組,主要方法如下:os.listdir(dirname):列出dirname下的目錄和檔案os.getcwd():獲得當前工作目錄os.curdir:返回目前的目錄('.')os.chdir(dirname):改變工作目錄到dirnameos.path.isdir(name):判斷name是不是一個目錄,name不是目錄就返回falseos.path.isfile(name)

Python之lxml庫學習筆記四

解析器對象:lxml.etree在預設情況下使用帶預設配置的標準解析器,如果想配置解析器,可以建立自己的執行個體。>>> parser = etree.XMLParser(remove_blank_text=True) # lxml.etree only!本例在解析的時候建立了一個移除tags之間的空的文本的解析器,這可以減少tree的大小以及避免不定的tail,如果你知道空白內容對你來說是沒有任何意義的話。>>> root =

Python:定義自己的ConfigParser

在Selenium項目實踐中,為處理頁面不同的link,button等頁面元素,最好把這些頁面元素和對應的Xpath寫入設定檔,本文試圖建立一個自訂的ConfigParser,處理設定檔的解析。雖然是很小的一個類,但也從中學習到很多東東。主要分三步:1. 得到設定檔的路徑一般來說檔案解析類會放在commonfunction目錄下,而設定檔會放在同級的configuration目錄下在Python 中獲得當前路徑,使用os.getcwd()或者os.path.abspath(os.curdir),

Selenium RC For Python:教程1

Selenium是thoughtworks公司的一個整合測試的強大工具,關於它的好處網路隨處可以搜到,我就不一一介紹,在之前見到一個系列是Selenium Remote Control For Java,在這裡模仿一下,主要以Python來實現。一是我比較喜歡用Python,二是剛好可以練手,熟悉熟悉Python開發Selenium RC指令碼。What is Selenium?Selenium is a testing tool for web applications that uses

Python訪問設定檔

在應用程式中,通常使用設定檔定義一些參數。例如,資料庫設定檔用於記錄資料庫的字串串連,主機名稱,使用者名稱,密碼等資訊。Windows的ini檔案就是典型的設定檔,ini檔案由多個塊組成,每個塊由多個配置項組成。代碼Code highlighting produced by Actipro CodeHighlighter

Python處理日誌之取得檔案清單(更新)

在這篇文章裡面講述了如何通過glob模組取得列表,但由於glob能使用的Regex有限,所以只能說是完成了部分任務,今天看《Python技術參考大全》受到啟發,我們可以使用Regex去檢查每個檔案名稱,這樣就可以找到所需的檔案清單。fileList = []pattern = r"seeUthere_errors.log(\.\d{4}-\d{2}-\d{2}-\d{2})"for eachfile in glob.glob(r"D:\Log\./*"):if

Python處理日誌

1. 從server上讀取log檔案(\\url\server_errors.log)我們需要的日誌的格式是:日期 時間 層級,比如2009-10-15 23:33:28,140 ERROR這裡有兩個方法:第一,利用readlines()方法迴圈一個文字檔第二,利用fileinput 模組迴圈一個文字檔2. 從log最後開始匹配Regex,得到合適的log資訊我們目前只需要記錄層級為ERROR的資訊,在兩個日期Regex之間的日誌都要讀取出來。3.

Python的國際化

Python提供了locale模組來實現國際化,這個模組提供了到C的本地化功能的一個介面,還提供了一些方法,基於當前的locale來轉換數字和字串。使用locale模組來格式化資料Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->#! /usr/bin/env python#coding=utf-8import localeprint "locale"

總頁數: 2974 1 .... 216 217 218 219 220 .... 2974 Go to: 前往

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.