| var node = { async: require('async'), cheerio: require('cheerio'), fs: require('fs'), mkdirp: require('mkdirp'), path: require('path'), request: require('request'), url: require('url'), xml2js: require('xml2js'), }; var Me2SexImages = { /** * 配置選項 */ options: { // 網站sitemap地址 sitemap: 'http://sexy.faceks.com/sitemap.xml', // 儲存到此檔案夾 saveTo: '/Users/Fay/Pictures/me2sex', // 圖片並行下載上限 downLimit: 5, }, posts: [], /** * 開始下載(程式入口函數) */ start: function() { var self = this; var async = node.async; async.waterfall([ self.wrapTask(self.sitemapXML), self.wrapTask(self.sitemapJSON), self.wrapTask(self.downAllImages), ], function(err, result) { if (err) { console.log('error: %s', err.message); } else { console.log('success: 下載成功'); } }); }, /** * 包裹任務,確保原任務的上下文指向某個特定對象 * @param {Function} task 符合asycs.js調用方式的任務函數 * @param {Any} context 上下文 * @param {Array} exArgs 額外的參數 * @return {Function} 符合asycs.js調用方式的任務函數 */ wrapTask: function(task, context, exArgs) { var self = this; return function() { var args = [].slice.call(arguments); args = exArgs ? exArgs.concat(args) : args; task.apply(context || self, args); }; }, /** * 擷取網站sitemap.xml */ sitemapXML: function(callback) { console.log('開始下載sitemap.xml'); node.request(this.options.sitemap, function(err, res, body) { if (!err) console.log('下載sitemap.xml成功'); callback(err, body); }); }, /** * 將sitemap.xml轉成json */ sitemapJSON: function(sitemapXML, callback) { var self = this; console.log('開始解析sitemap.xml'); node.xml2js.parseString(sitemapXML, {explicitArray: false}, function(err, json) { if (!err) { self.posts = json.urlset.url; self.posts.shift(); console.log('解析sitemap.xml成功,共有%d個頁面', self.posts.length); } callback(err, self.posts); }); }, /** * 下載整站圖片 */ downAllImages: function(callback) { var self = this; var async = node.async; console.log('開始批量下載'); async.eachSeries(self.posts, self.wrapTask(self.downPostImages), callback); }, /** * 下載單個post的圖片 * @param {Object} post 文章 */ downPostImages: function(post, callback) { var self = this; var async = node.async; async.waterfall([ self.wrapTask(self.mkdir, self, [post]), self.wrapTask(self.getPost), self.wrapTask(self.parsePost), self.wrapTask(self.downImages), ], callback); }, mkdir: function(post, callback) { var path = node.path; var url = node.url.parse(post.loc); post.dir = path.join(this.options.saveTo, path.basename(url.pathname)); console.log('準備建立目錄:%s', post.dir); if (node.fs.existsSync(post.dir)) { callback(null, post); console.log('目錄:%s 已經存在', post.dir); return; } node.mkdirp(post.dir, function(err) { callback(err, post); console.log('目錄:%s 建立成功', post.dir); }); }, /** * 擷取post內容 */ getPost: function(post, callback) { console.log('開始請求頁面:%s', post.loc); node.request(post.loc, function(err, res, body) { if (!err) post.html = body; callback(err, post); console.log('請求頁面成功:%s', post.loc); }); }, /** * 解析post,並擷取post中的圖片列表 */ parsePost: function(post, callback) { var $ = post.$ = node.cheerio.load(post.html); post.images = $('.img') .map(function() {return $(this).attr('bigimgsrc');}) .toArray(); callback(null, post); }, /** * 下載post圖片列表中的圖片 */ downImages: function(post, callback) { console.log('發現%d張妹子圖片,準備開始下載...', post.images.length); node.async.eachLimit( post.images, this.options.downLimit, this.wrapTask(this.downImage, this, [post]), callback ); }, /** * 下載單個圖片 */ downImage: function(post, imgsrc, callback) { var url = node.url.parse(imgsrc); var fileName = node.path.basename(url.pathname); var toPath = node.path.join(post.dir, fileName); console.log('開始下載圖片:%s,儲存到:%s,檔案名稱:%s', imgsrc, post.dir, fileName); node.request(imgsrc) .pipe(node.fs.createWriteStream(toPath)) .on('close', function() { console.log('圖片下載成功:%s', imgsrc); callback(); }) .on('error', callback); } }; Me2SexImages.start(); |