使用Python程式抓取新浪在國內的所有IP的教程

來源:互聯網
上載者:User
資料分析,特別是網站分析中需要對訪問者的IP進行分析,分析IP中主要是區分來訪者的省份+城市+行政區資料,考慮到目前純真IP資料庫並沒有把這些資料做很好的區分,於是尋找了另外一個可行的方案(當然不是花錢買哈)。解決方案就是抓取新浪的IP資料。

新浪的IP資料介面為:

http://int.dpool.sina.com.cn/iplookup/iplookup.php?format=json&ip=123.124.2.85

返回的資料為:

代碼如下:


{"ret":1,"start":"123.123.221.0","end":"123.124.158.29","country":"\u4e2d\u56fd","province":"\u5317\u4eac","city":"\u5317\u4eac","district":"","isp":"\u8054\u901a","type":"","desc":""}

其返回的內容中已經包含了省份+城市+行政區資訊了,這就是我們真實想要的。

下面就來說說如何來抓取這部分IP資料,要抓取這部分資料的主要工作就是枚舉,即將介面中的IP不斷的替換,要替換所有的IP地址肯定不太可能,所以我們縮小下範圍,只窮舉所有中國的IP段。考慮到新浪的IP介面返回的是IP段,所以要窮舉的部分又少了一部分。再考慮啊到IP段的最後一位及256個IP基本上都是在一個地區,所以我們要窮舉的資料有少了很多。對於窮舉最重要的是把IP地址換成INT型。

具體國內有多少IP位址區段,可以到APNIC官方網站去尋找或下面的文檔

http://ftp.apnic.net/apnic/dbase/data/country-ipv4.lst

下面就來看看窮舉程式如何寫:


import re def ipv3_to_int(s):  l = [int(i) for i in s.split('.')]  return (l[0] << 16) | (l[1] << 8) | l[2] def int_to_ipv3(s):  ip1 = s >> 16 & 0xFF  ip2 = s >> 8 & 0xFF  ip3 = s & 0xFF  return "%d.%d.%d" % (ip1, ip2, ip3) i = open('ChinaIPAddress.csv', 'r')list = i.readlines()for iplist in list:  pattern = re.compile('(\d{1,3}\.\d{1,3}\.\d{1,3})\.\d{1,3}')  ips = pattern.findall(iplist)  x = ips[0]  y = ips[1]  for ip in range (ipv3_to_int(x),ipv3_to_int(y)):    ipadress=str(ip)    #ip_address = int_to_ipv3(ip)    o = open('ChinaIPAddress.txt','a')    o.writelines(ipadress)    o.writelines('\n')  o.close()i.close()

當上面的不走完成後就可以對新浪IP介面進行抓取了,抓取代碼如下:

#!/usr/bin/python# -*- coding: utf-8 -*-import urllib,urllib2, simplejson, sqlite3, time def ipv3_to_int(s):  l = [int(i) for i in s.split('.')]  return (l[0] << 16) | (l[1] << 8) | l[2] def int_to_ipv4(s):  ip1 = s >> 16 & 0xFF  ip2 = s >> 8 & 0xFF  ip3 = s & 0xFF  return "%d.%d.%d.0" % (ip1, ip2, ip3) def fetch(ipv4, **kwargs):  kwargs.update({    'ip': ipv4,    'format': 'json',  })  DATA_BASE = "http://int.dpool.sina.com.cn/iplookup/iplookup.php"  url = DATA_BASE + '?' + urllib.urlencode(kwargs)  print url  fails = 0  try:    result = simplejson.load(urllib2.urlopen(url,timeout=20))  except (urllib2.URLError,IOError):    fails += 1    if fails < 10:      result = fetch(ipv4)    else:      sleep_download_time = 60*10      time.sleep(sleep_download_time)      result = fetch(ipv4)  return result def dbcreate():  c = conn.cursor()  c.execute('''create table ipdata(    ip integer primary key,    ret integer,    start text,    end text,    country text,    province text,    city text,    district text,    isp text,    type text,    desc text  )''')  conn.commit()  c.close() def dbinsert(ip,address):  c = conn.cursor()  c.execute('insert into ipdata values(?,?,?,?,?,?,?,?,?,?,?)',(ip,address['ret'],address['start'],address['end'],address['country'],address['province'],address['city'],address['district'],address['isp'],address['type'],address['desc']))  conn.commit()  c.close() conn = sqlite3.connect('ipaddress.sqlite3.db')dbcreate() i = open('ChinaIPAddress.txt','r')list = [s.strip() for s in i.readlines()]end = 0for ip in list:  ip = int(ip)  if ip > end :    ipaddress = int_to_ipv4(ip)    info = fetch(ipaddress)    if info['ret'] == -1:      pass    else:      dbinsert(ip,info)      end = ipv3_to_int(info['end'])      print ip,end  else :    passi.close()

到此就能把新浪所有的國內IP資料給抓取出來,然後在資料分析的工程中大派用場。~

  • 聯繫我們

    該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

    如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

    A Free Trial That Lets You Build Big!

    Start building with 50+ products and up to 12 months usage for Elastic Compute Service

    • Sales Support

      1 on 1 presale consultation

    • After-Sales Support

      24/7 Technical Support 6 Free Tickets per Quarter Faster Response

    • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.