PHP 基於laravel架構擷取微博資料之二 使用者資料的使用

來源:互聯網
上載者:User

標籤:color   構架   好的   點贊   normal   挖掘   head   text   add   

開始抓取微博資料的時候,只是想獲得一條熱門微博下的所有評論,因為裡面有不少圖片廣告,所以想試試能不能分析出熱門微博評論裡的異常使用者。

使用PHP的Laravel架構後,通過隊列、命令等各種功能,最後構架了一套完整的微博使用者資料抓取平台,經過一段時間的運行積累了大量資料,那麼使用這些資料能做什麼呢?

微博資料分析很早就有人在做了,網上採集分析工具貌似有很多,搜尋一下想找一些微博資料分析的具體方案。世事變幻,發現很多幾年前的微博資料分析平台都不能用了,可能微博資料分析和微博一樣在商業上還是沒有什麼更好的盈利模式。。。

根據之前網上微博資料分析的方案,微博傳播力是資料分析的一個方向,熱門微博轉寄傳播可以用於廣告營銷分析,這個資料基礎是採集微博內容和傳播路徑,和我的資料擷取方式並不相同。

沒有找到使用者資料分析的解決方案,也沒有資料採礦相關知識的基礎,所以還是以一個程式員的角度說說微博使用者資料使用的設想吧。

使用Laravel架構搭建的平台是以微博使用者為基礎的資料抓模數式,可以獲得某條微博下的所有評論、轉寄和贊。進一步深入,獲得一個微博使用者的所有微博後,即可以獲得該使用者所發微博,包括其評論、轉寄和贊的所有資料。

 

微博使用者的完整資料中能夠得到什嗎?一、通過微博贊積累微博使用者

微博不能重複點贊,所以一條有百萬個贊的微博就能獲得百萬使用者基礎資訊,這是積累微博使用者池效率比較高的方式,不過隨著累積量增加,重複資料變多,效率會降低。同樣評論和轉寄也可以積累使用者資訊,不過重複性使得擷取資料效率不高。

二、通過資料建立關於使用者的數學模型

早就把數學模型還給大學老師了,當年這東西也沒好好學。不過還是明白一點,一個使用者,其粉絲量、微博數和轉寄、評論、贊應該有一定的數學模型關係。

具體來說,百萬級的微博使用者,其微博的平均轉寄、評論、贊,應該在一定的範圍內。以大量微博使用者資料為基礎可建立資料模型。新視覺影院這種模型可以用來評估一個微博使用者的健康性。

三、通過資料獲得使用者的活躍粉絲

一個微博使用者的完整資料,通過交叉對比可以獲得粉絲的活躍度。

當前微博除了使用者自己,其他人是不能查看該使用者所有粉絲資料的。但是通過“共同關注”關係,可以判斷出是否是使用者粉絲。
理論上說如果有全部幾十億微博使用者資料,逐個對比,是可以擷取某使用者所有粉絲的,但這隻是理論方案。
通過使用者微博下的轉寄、評論、贊可縮小對比範圍,雖然不能得到使用者的所有粉絲,但能分析出和微博使用者有過互動的所有粉絲,這些粉絲的佔比可以評估出微博使用者粉絲的品質。

 

以上就是通過微博使用者資料抓取平台獲得的資料後在使用方面的一些設想。

作為一個程式員,還是不適合寫這種理論性的東西,自己都看不懂,還是好好寫程式去吧。。。

PHP 基於laravel架構擷取微博資料之二 使用者資料的使用

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.