在近期內,相信大家在微博上或者朋友圈內都有被房租暴漲以及我愛我家副總裁在朋友圈發布辭職信宣布辭職、網曝鏈家自如哄抬樓價等等的相關事件刷屏過。對於房租上漲之後,受影響最大的當屬年輕人了。大部分年輕人或是剛畢業無存款,或是工作幾年卻因高樓價而繼續為租房奔波,如今連租房都成了一大難事。那麼身為PHP程式員,下面就此事件為大家介紹如何用PHP寫爬蟲來擷取真實的租房資料。
這裡針對北京租房市場來說,如果你想租房主要有這麼三種方式:1、找房屋中介公司目前市場佔有率最高的公司,名叫鏈家;2、找長租公寓目前市場佔有率最高的,名叫自如;3、上找房平台目前市場佔有率最高的,第一是安居客。而今年4月有一家新上線的公司,異軍突起極速竄到了前五位,名叫貝殼找房;這三種方式加起來幾乎決定著你我租房的價格而更讓人驚訝的是上述幾家公司,除了安居客以外鏈家、自如、貝殼找房他們的實際控制人是同一個人這就是這幾天頻繁出現在新聞中的鏈家集團的老闆左暉。
對於準備在北京打拚的人來說,房租暴漲是件相當氣憤的事。有些網友就用程式員的方式扒了扒房租上漲背後的事情。那麼什麼是程式員的方式呢?
其中的程式思路就是:用php寫一個爬蟲用它爬取了一下鏈家的資料。首先去控制台看載入資訊,找到相關資料api,按照要求標頭裡面的所需參數,發送https請求,分析完成後使用xpath或者Regex工具去匹配你想要的內容,然後插入資料庫中,即可完成抓取。最後PHP實現爬蟲爬取到了鏈家網上所有待租的房子。
接著繼續同樣用爬蟲的方式爬取自如、蛋殼、蘑菇公寓等長租公寓平台最後得出的資料詞雲圖是這樣的
根據資料總結,在北京租房行業的幾個主要方向上左老闆的產業要麼佔據了龍頭地位要麼正在飛速增長這也難怪前幾天有一條重量級的新聞說原來的我愛我家副總裁胡景暉因為受到了某些壓力辭職並炮轟自如、蛋殼等長租公寓以高出市場價20%-40%的價格爭搶房源完全不計成本地進行擴張。
商人逐利是無可厚非的而追求更大的市場佔有率也是正常的商業目標只是當某一個企業過於強大時會形成壟斷或者寡頭而一旦形成壟斷它們就可以利用資源和資本優勢進行囤積居奇、左右甚至操縱這個行業的走向而在北京的租房行業這樣的壟斷似乎正在形成。這裡也主要是想告訴大家PHP爬蟲能夠從網路上擷取網頁、圖片、指令碼、檔案資料等等的網路資源。