python爬蟲問題！線上等解答！

最後更新：2016-06-06 來源：互聯網

上載者：User

關鍵字 python php mysql sql sqlserver

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

我已經爬取了coursera上所有課程的url，放在了all_url.txt 檔案中，大概2000多行。
然後我想用這些url爬取其他我想要的資訊，合成一個.csv以方便匯入資料庫。
在以下的代碼裡，我唯寫了幾項我想要爬取的內容來測試能否實現（如爬取課程時間表等五項我需要的資訊還沒有寫入代碼中），但是在sublime中control+b 之後，雖不報錯，但是無法抓取任何內容，只能建立csv檔案。

如果能找到漏洞，小弟還有一個問題，就是是不是迴圈次數太多了，第一層迴圈就2000層，裡面大概每個次級for迴圈還有10層吧，應該怎麼最佳化呢。。。

求大神指教！thx

***代碼如下***#!usr/bin/python# -*- coding:utf-8 -*-import sys;import osimport urllib import requestsimport csvfrom bs4 import BeautifulSoupreload(sys);sys.setdefaultencoding("utf8")f = open("all_url.txt","r")lines = f.readlines()for line in lines:    html = urllib.urlopen(line)    content = html.read()    html.close()    soup = BeautifulSoup(content)            all_coursename = soup.find_all('h2', class_="color-primary-text headline-1-text flex-1")    COURSENAME = []    for coursename in all_coursename:        COURSENAME.append(coursename)            all_courseins = soup.find_all(class_="text-light offering-partner-names")        COURSEINSTITUTION = []        for courseins in all_courseins:        COURSEINSTITUTION.append(courseins)                all_courseurl = soup.find_all('a', class_="rc-OfferingCard nostyle")        COURSEURL = []    for courseurl in all_courseurl:        COURSEURL.append(courseurl)        csvfile = file('all_info.csv', 'wb')    writer = csv.writer(csvfile)    writer.writerow(['COURSE_NAME', 'COURSE_INSTITUTION', 'COURSE_URL'])        for i in range (0,len(COURSENAME)):        data = [          (COURSENAME[i], COURSEINSTITUTION[i], COURSEURL[i])        ]                writer.writerows(data)        csvfile.close()

回複內容：

求大神指教！thx

***代碼如下***#!usr/bin/python# -*- coding:utf-8 -*-import sys;import osimport urllib import requestsimport csvfrom bs4 import BeautifulSoupreload(sys);sys.setdefaultencoding("utf8")f = open("all_url.txt","r")lines = f.readlines()for line in lines:    html = urllib.urlopen(line)    content = html.read()    html.close()    soup = BeautifulSoup(content)            all_coursename = soup.find_all('h2', class_="color-primary-text headline-1-text flex-1")    COURSENAME = []    for coursename in all_coursename:        COURSENAME.append(coursename)            all_courseins = soup.find_all(class_="text-light offering-partner-names")        COURSEINSTITUTION = []        for courseins in all_courseins:        COURSEINSTITUTION.append(courseins)                all_courseurl = soup.find_all('a', class_="rc-OfferingCard nostyle")        COURSEURL = []    for courseurl in all_courseurl:        COURSEURL.append(courseurl)        csvfile = file('all_info.csv', 'wb')    writer = csv.writer(csvfile)    writer.writerow(['COURSE_NAME', 'COURSE_INSTITUTION', 'COURSE_URL'])        for i in range (0,len(COURSENAME)):        data = [          (COURSENAME[i], COURSEINSTITUTION[i], COURSEURL[i])        ]                writer.writerows(data)        csvfile.close()

第一層擷取URL 頁面用thread 模組，後面第二層for的直接extend 列表就好了，最後不要頻繁開啟關閉檔案寫入先把結果存起來最後一次寫入檔案

檢查一下open mode =wb是怎麼定義的

使用'W'，檔案若存在，首先要清空，然後（重新）建立

一步步調試下，看問題出在哪裡，可能從html中篩選出你要的資訊出錯了或者篩選不出來，都有可能



本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More