js爬蟲心得

來源:互聯網
上載者:User

標籤:儲存   登陸   並且   模組   方法   stream   mis   安裝   下拉重新整理   

第一步:分析要爬的網站:包括是否需要登陸、點擊下一頁的網址變化、下拉重新整理的網址變化等等
第二步:根據第一步的分析,想好爬這個網站的思路
第三步:爬好所需的內容 儲存

爬蟲過程中用到的一些包:

(1)const request =  require(‘superagent‘); // 處理get post put delete head 請求  輕量接http請求庫,模仿瀏覽器登陸

(2)const cheerio = require(‘cheerio‘); // 載入html
(3)const fs = require(‘fs‘); // 負載檔案系統模組 將資料存到一個檔案中的時候會用到

fs.writeFile(‘saveFiles/zybl.txt‘, content, (error1) => { // 將檔案存起來 檔案路徑 要存的內容 錯誤
if (error1) throw error1;
// console.log(‘ text save ‘);
});

(4)const fs = require(‘graceful-fs‘); // 將檔案存為xlse

const writeStream = fs.createWriteStream(‘saveFiles/trader.xlsx‘); //建立xlsx檔案

writeStream.write(title);//像slsx裡面寫入內容

(5)const Promise = require(‘bluebird‘); //非同步處理

(6)const Nightmare = require(‘nightmare‘);//一個高層次的瀏覽器自動化圖書館 先要安裝phantomjs 然後在裝nightmare

(7)const co = require(‘co‘);

爬蟲的相關思路:

(1)擷取首頁面的所需內容
(2)在首頁面的所有內容裡面擷取所需內容的連結
(3)將(2)裡面的連結存到一個list裡面去
(3)新寫一個function,採用.pop()方法,用來取通過連結得到的新的內容
(4)判斷list.length是否大於0,
(5)如果不是,開始爬子頁面 並且調用該方法
(6)如果list的長度為0,就說明這一頁爬完了,開始下一頁,則將url改變
(7)重複(2)(3)(4)(5)(6)直至所有頁面爬完

js爬蟲心得

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.