HP Social Computing Lab關於社會化媒體影響力和消極性的研究報告

來源:互聯網
上載者:User

鄭昀 20100806

話說惠普有一個研究社會化網路資料採礦的 Social Computing Lab(SCL) 實驗室,領頭的是 Bernardo Huberman 博士。

他們最近發布了一個研究報告《Influence and Passivity in Social Media》,基於250萬使用者的2200萬 Tweets 資料。它的一個結論是:the correlation between popularity and influence is weaker than it might be expected,名氣和影響力沒什麼關聯,比人們期望的弱得多,High numbers of followers does not equal influence because those followers do not re-Tweet,名氣和影響力是兩碼事,粉絲多不等於有影響力,重要的是有多少人願意轉寄你的訊息

最簡單測量你的名氣和影響力之間關係的是,發布一個能統計點擊次數的短網域名稱網址,看看到底有多少人從你的這條 Tweet 點擊,別管你有多少萬粉絲,你是否有足夠的影響力讓人點擊一個連結。

做PR或Ad的公司要注意這一點,想讓微部落格上的人幫你營銷,不要只看他的 Followers/粉絲/粉絲 數量,這數字沒啥用,要精確測量他的真正影響力

惠普的這個研究由於並不特定針對 Twitter ,所以它的結論也適用其他社會化網路。

 

加入了 Passivity 維度

大多數人都只是資訊的消極接收者,他們並不會把東西轉寄到自己的網路裡。為了讓一個人有影響力,不應該僅僅停留在吸引別人的注意(眼球)從而變得有名上,還需要讓使用者克服他們的消極性(passivity)。

SCL 利用人在 Social Network 裡的消極性,設計了一個影響力通用模型。它還開發了一個演算法來量化網路中所有人的影響力,有點類似於HITS演算法,綜合考慮了網路的結構屬性和使用者之間的傳播行為。

一個使用者的影響力不僅依賴於他影響到的聽眾的多少,而且依賴於他們的消極性。

以前的影響力測量方法則主要基於一些個體的統計屬性,比如粉絲的數量,比如銳推(retweets)的數量。

SCL的這個演算法有很好的預測能力,比如預測一個發布連結的點擊次數上限會是多少。

SCL還發現那些高消極性的節點(node),大多數都是垃圾製造者(spammers)或者機器人賬戶(robot users)。(註:不知道SCL如何評估@rtmeme這種機器人。)

 

實作

SCL 像銳推榜一樣也是從Twitter Search API進去,查詢包含 http 關鍵詞的 Tweets ,試圖收集齊提到連結的 Tweets(下稱“連結推”)。曆經300小時,獲得了2200萬條相關訊息,其中1500萬條的連結經過檢查是有效格式。據他們評估,這2200萬隻是那個時間段內 Twitter 全部訊息的十五分之一。

然後對這個集合中的使用者,逐一通過 Twitter API 查詢該使用者的中繼資料,尤其是 followers/followings 的數量。

這樣就得到了一個帶著時間戳記的 URL 集合,一個對應使用者的完整的 Social Graph 。

 

user retweeting rate=使用者A決定轉寄的URLs數量 / 使用者A從他的 followings(他所關注的人)接收到的 URL 數量 。

audience retweeting rate=使用者A發布的URLs中被 Followers(粉絲)所轉寄的數量 / 使用者A的一個 follower(粉絲)從A這裡所接收到的 URL 數量 。

 

很容易計算使用者之間的 pairwise influence 關係,比如在 Twitter 裡,要計算使用者A對使用者B的影響力,只需要統計B銳推A的次數即可。但你很難利用這種 pairwise influence 資訊去計算一個使用者(如@zhengyun)對整個網路的影響力。

SCL設計了 IP(Influence-Passivity) 演算法,每一個使用者都有一個 influence score 和 passivity score 。一個使用者的 passivity 得分用來評估其他人想要影響到他有多難。

該演算法有以下假設:

1、一個使用者的 influence score 依賴於她所能影響的人數以及這些人的 passivity 。

2、一個使用者的 influence score 還要考慮到,她所能影響的人專註程度(how dedicated)。

3、一個使用者的 passivity score 依賴於這樣一些人的影響力:她能接收到這些人的訊息但卻沒有被影響到。

4、一個使用者的 passivity score 還要考慮到,how much she rejects other user's influence compared to everyone else.

 

演算法迭代計算 passivity 和 influence 得分,有點像 HITS演算法 的尋找 Authority 頁面以及指向它們的 Hub 頁面。

給定一個加權有向圖(weighted directed graph,也叫帶權有向圖) G = (N,E,W),N是所有節點的集合(nodes),E是弧的集合,W是權值。某條弧 e = (i,j) 的權值 Wij ,代表一個比率:i 對 j 的影響力 / i 試圖施加在 j 上的全部影響力。

IP演算法將這個 graph 作為輸入。SCL 是這樣構圖的:

nodes是那些曾經發布過三條以上連結推的人。

如果使用者 j 曾經至少銳推過使用者 i 的連結推一條,那麼弧arc (i,j)就存在。這條弧的權值計算公式為:Wij=Sij/Qi,其中,Sij是使用者 i 發布的連結推中被使用者 j 銳推的數量,Qi 是使用者 i 發布的連結推數量。

最終計算時,SCL 的這個 graph 的節點數是 45萬個,1百萬條弧,平均權值是0.07。

在這個 graph 資料基礎上,SCL 計算了 PageRank、Influence和Passivity 得分、Hirsch Index.

(註:H-index ,是一種評價學術成就的方法。一名科研人員的h指數是指他至多有h篇論文分別被引用了至少h次。h指數能夠比較準確地反映一個人的學術成就。一個人的h指數越高,則表明他的論文影響力越大。例如,某人的h指數是20,這表示他已發表的論文中,每篇被引用了至少20次的論文總共有20篇。)

在 Twitter 裡,一個使用者的 H-index 是 h ,代表他的被人銳推了至少 h 次的連結推總共有 h 條。

(待續)

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.