仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
所謂說著無心,聽者有意。
前提是:一位網友發現了某中型電子商務網站的BBS的會員清單頁是打開的。
過程是:這位網友將此論壇當作不注重使用者隱私的反面教材而寫進了軟文裡。
巧合是:這個論壇的大部分帳號是用Email註冊的。
疼心是:論壇的管理員直到大概一個月後才解決這個漏洞。
雲飛的技術含量不是很高,所以用迅雷(xunlei)獲得了1萬個包含Email的網頁檔。 因為網頁用的是統一的範本,雲飛弱智的無限次使用Dreamweaver的查找和替換功能將多餘的html標籤刪除掉。
這個時候我接觸了「正則運算式」,從此開始崇拜正則式的偉大。 有了正則式這個利器,資料處理和資料統計變得異常輕鬆。
在對這近16萬Email位址進行統計分析 的過程中,發現一些趣事。
共提取到「*@163.com」4萬4千次;「 *@126.com」2萬次;
「*@sina.com」1萬次;「 *@sohu.com」4千次;
「*@qq.com」3萬9千次;「 *@yahoo.com系」1萬2千次。
以上資料說明QQ郵箱的勢力不可小視,幾乎就要撼動網易郵箱的霸主地位;也說明4大門戶裡,搜狐的郵箱並不大麼受人喜愛;還說明yahoo郵箱處於「瘦死的駱駝比馬大」的階段,儘管yahoo中國幾易其主, 但並不妨礙大家使用以前為求國際化而註冊的雅虎郵箱。
從資料還提取出9千個MSN號(hotmail郵箱),4千個Gtalk號(gmail郵箱),1千個電話號碼(139郵箱),當然,還有接近4萬個QQ號(QQ郵箱)。
如果採用’*196?’,’*197?’,’*198?’,’*199?’ 來分別匹配出生于60年代、70年代、80年代、90年代的使用者。 可以得到200個60後,900個70後,接近5000個80後,和700個90後。
另,可以提取到完整出生年月日的Email數量為2000個。 郵箱名中包含完整生日的,只能說明該使用者是個電腦菜鳥,因而其郵箱密碼也可能很簡單,比如可能就是他們家的電話號碼或車牌號。
當然還有很多郵箱名裡面包含如2003、2004、2008之類的年份,這說明的是該郵箱可能註冊于2003年或2004年,或是這一年對他由特別的含義(如2008,奧運)。
由於重名的關係,很多人的郵箱名中使用了連字號(_)或減號(-)。 約有1萬3千人使用的是連字號,而使用減號的只有3千5百人。 可能連字號更符合國際習慣,最可能的是有的註冊商只允許使用字母、數位和連字號來註冊。
甚至我們還可以從中找到200位老師,因為他們使用的是edu.cn結尾的郵箱;50位政府官員,他們用的是gov.cn結尾的郵箱,其中一位甚至還是我的水利同行,因為他來自水利部@mwr.gov.cn。
以上資料只具備統計學和人口學意義。