用Node.js通過sitemap.xml批量抓取美女圖片

來源:互聯網
上載者:User

用Node.js通過sitemap.xml批量抓取美女圖片

   這篇文章主要介紹了用Node.js通過sitemap.xml批量抓取美女圖片的方法和相關代碼,有需要的小夥伴可以參考下。

  之前看了很多個版本,自己也搞一個。

  1. 支援指定儲存到哪個目錄

  2. 按文章進行分目錄存放

  3. 支援設定並行下載上限

  下次有空再搞個整站下載的。

  package.json

  ?

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

{

"name": "me2sex-images",

"version": "0.0.1",

"description": "Batch download images from http://me2-sex.lofter.com",

"main": "index.js",

"author": "Fay",

"license": "MIT",

"dependencies": {

"async": "^0.9.0",

"cheerio": "^0.18.0",

"mkdirp": "^0.5.0",

"request": "^2.51.0",

"url": "^0.10.2",

"xml2js": "^0.4.4"

}

}

  index.js

  ?

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

var node = {

async: require('async'),

cheerio: require('cheerio'),

fs: require('fs'),

mkdirp: require('mkdirp'),

path: require('path'),

request: require('request'),

url: require('url'),

xml2js: require('xml2js'),

};

 

var Me2SexImages = {

 

/**

* 配置選項

*/

options: {

// 網站sitemap地址

sitemap: 'http://sexy.faceks.com/sitemap.xml',

// 儲存到此檔案夾

saveTo: '/Users/Fay/Pictures/me2sex',

// 圖片並行下載上限

downLimit: 5,

},

 

posts: [],

 

/**

* 開始下載(程式入口函數)

*/

start: function() {

var self = this;

var async = node.async;

 

async.waterfall([

self.wrapTask(self.sitemapXML),

self.wrapTask(self.sitemapJSON),

self.wrapTask(self.downAllImages),

], function(err, result) {

if (err) {

console.log('error: %s', err.message);

} else {

console.log('success: 下載成功');

}

});

},

 

/**

* 包裹任務,確保原任務的上下文指向某個特定對象

* @param {Function} task 符合asycs.js調用方式的任務函數

* @param {Any} context 上下文

* @param {Array} exArgs 額外的參數

* @return {Function} 符合asycs.js調用方式的任務函數

*/

wrapTask: function(task, context, exArgs) {

var self = this;

return function() {

var args = [].slice.call(arguments);

args = exArgs ? exArgs.concat(args) : args;

task.apply(context || self, args);

};

},

 

/**

* 擷取網站sitemap.xml

*/

sitemapXML: function(callback) {

console.log('開始下載sitemap.xml');

node.request(this.options.sitemap, function(err, res, body) {

if (!err) console.log('下載sitemap.xml成功');

callback(err, body);

});

},

 

/**

* 將sitemap.xml轉成json

*/

sitemapJSON: function(sitemapXML, callback) {

var self = this;

console.log('開始解析sitemap.xml');

node.xml2js.parseString(sitemapXML, {explicitArray: false}, function(err, json) {

if (!err) {

self.posts = json.urlset.url;

self.posts.shift();

console.log('解析sitemap.xml成功,共有%d個頁面', self.posts.length);

}

callback(err, self.posts);

});

},

 

 

 

/**

* 下載整站圖片

*/

downAllImages: function(callback) {

var self = this;

var async = node.async;

console.log('開始批量下載');

async.eachSeries(self.posts, self.wrapTask(self.downPostImages), callback);

},

 

 

/**

* 下載單個post的圖片

* @param {Object} post 文章

*/

downPostImages: function(post, callback) {

var self = this;

var async = node.async;

 

async.waterfall([

self.wrapTask(self.mkdir, self, [post]),

self.wrapTask(self.getPost),

self.wrapTask(self.parsePost),

self.wrapTask(self.downImages),

], callback);

},

 

mkdir: function(post, callback) {

var path = node.path;

var url = node.url.parse(post.loc);

post.dir = path.join(this.options.saveTo, path.basename(url.pathname));

 

console.log('準備建立目錄:%s', post.dir);

if (node.fs.existsSync(post.dir)) {

callback(null, post);

console.log('目錄:%s 已經存在', post.dir);

return;

}

node.mkdirp(post.dir, function(err) {

callback(err, post);

console.log('目錄:%s 建立成功', post.dir);

});

},

 

/**

* 擷取post內容

*/

getPost: function(post, callback) {

console.log('開始請求頁面:%s', post.loc);

node.request(post.loc, function(err, res, body) {

if (!err) post.html = body;

callback(err, post);

console.log('請求頁面成功:%s', post.loc);

});

},

 

/**

* 解析post,並擷取post中的圖片列表

*/

parsePost: function(post, callback) {

var $ = post.$ = node.cheerio.load(post.html);

post.images = $('.img')

.map(function() {return $(this).attr('bigimgsrc');})

.toArray();

callback(null, post);

},

 

/**

* 下載post圖片列表中的圖片

*/

downImages: function(post, callback) {

console.log('發現%d張妹子圖片,準備開始下載...', post.images.length);

node.async.eachLimit(

post.images,

this.options.downLimit,

this.wrapTask(this.downImage, this, [post]),

callback

);

},

 

/**

* 下載單個圖片

*/

downImage: function(post, imgsrc, callback) {

var url = node.url.parse(imgsrc);

var fileName = node.path.basename(url.pathname);

var toPath = node.path.join(post.dir, fileName);

console.log('開始下載圖片:%s,儲存到:%s,檔案名稱:%s', imgsrc, post.dir, fileName);

node.request(imgsrc)

.pipe(node.fs.createWriteStream(toPath))

.on('close', function() {

console.log('圖片下載成功:%s', imgsrc);

callback();

})

.on('error', callback);

}

};

 

Me2SexImages.start();

  以上所述就是本文的全部內容,希望大家能夠喜歡。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.