鄭昀 20100806
話說惠普有一個研究社會化網路資料採礦的 Social Computing Lab(SCL) 實驗室,領頭的是 Bernardo Huberman 博士。
他們最近發布了一個研究報告《Influence and Passivity in Social Media》,基於250萬使用者的2200萬 Tweets 資料。它的一個結論是:the correlation between popularity and influence is weaker than it might be expected,名氣和影響力沒什麼關聯,比人們期望的弱得多,High numbers of followers does not equal influence because those followers do not re-Tweet,名氣和影響力是兩碼事,粉絲多不等於有影響力,重要的是有多少人願意轉寄你的訊息。
最簡單測量你的名氣和影響力之間關係的是,發布一個能統計點擊次數的短網域名稱網址,看看到底有多少人從你的這條 Tweet 點擊,別管你有多少萬粉絲,你是否有足夠的影響力讓人點擊一個連結。
做PR或Ad的公司要注意這一點,想讓微部落格上的人幫你營銷,不要只看他的 Followers/粉絲/粉絲 數量,這數字沒啥用,要精確測量他的真正影響力。
惠普的這個研究由於並不特定針對 Twitter ,所以它的結論也適用其他社會化網路。
加入了 Passivity 維度
大多數人都只是資訊的消極接收者,他們並不會把東西轉寄到自己的網路裡。為了讓一個人有影響力,不應該僅僅停留在吸引別人的注意(眼球)從而變得有名上,還需要讓使用者克服他們的消極性(passivity)。
SCL 利用人在 Social Network 裡的消極性,設計了一個影響力通用模型。它還開發了一個演算法來量化網路中所有人的影響力,有點類似於HITS演算法,綜合考慮了網路的結構屬性和使用者之間的傳播行為。
一個使用者的影響力不僅依賴於他影響到的聽眾的多少,而且依賴於他們的消極性。
以前的影響力測量方法則主要基於一些個體的統計屬性,比如粉絲的數量,比如銳推(retweets)的數量。
SCL的這個演算法有很好的預測能力,比如預測一個發布連結的點擊次數上限會是多少。
SCL還發現那些高消極性的節點(node),大多數都是垃圾製造者(spammers)或者機器人賬戶(robot users)。(註:不知道SCL如何評估@rtmeme這種機器人。)
實作
SCL 像銳推榜一樣也是從Twitter Search API進去,查詢包含 http 關鍵詞的 Tweets ,試圖收集齊提到連結的 Tweets(下稱“連結推”)。曆經300小時,獲得了2200萬條相關訊息,其中1500萬條的連結經過檢查是有效格式。據他們評估,這2200萬隻是那個時間段內 Twitter 全部訊息的十五分之一。
然後對這個集合中的使用者,逐一通過 Twitter API 查詢該使用者的中繼資料,尤其是 followers/followings 的數量。
這樣就得到了一個帶著時間戳記的 URL 集合,一個對應使用者的完整的 Social Graph 。
user retweeting rate=使用者A決定轉寄的URLs數量 / 使用者A從他的 followings(他所關注的人)接收到的 URL 數量 。
audience retweeting rate=使用者A發布的URLs中被 Followers(粉絲)所轉寄的數量 / 使用者A的一個 follower(粉絲)從A這裡所接收到的 URL 數量 。
很容易計算使用者之間的 pairwise influence 關係,比如在 Twitter 裡,要計算使用者A對使用者B的影響力,只需要統計B銳推A的次數即可。但你很難利用這種 pairwise influence 資訊去計算一個使用者(如@zhengyun)對整個網路的影響力。
SCL設計了 IP(Influence-Passivity) 演算法,每一個使用者都有一個 influence score 和 passivity score 。一個使用者的 passivity 得分用來評估其他人想要影響到他有多難。
該演算法有以下假設:
1、一個使用者的 influence score 依賴於她所能影響的人數以及這些人的 passivity 。
2、一個使用者的 influence score 還要考慮到,她所能影響的人專註程度(how dedicated)。
3、一個使用者的 passivity score 依賴於這樣一些人的影響力:她能接收到這些人的訊息但卻沒有被影響到。
4、一個使用者的 passivity score 還要考慮到,how much she rejects other user's influence compared to everyone else.
演算法迭代計算 passivity 和 influence 得分,有點像 HITS演算法 的尋找 Authority 頁面以及指向它們的 Hub 頁面。
給定一個加權有向圖(weighted directed graph,也叫帶權有向圖) G = (N,E,W),N是所有節點的集合(nodes),E是弧的集合,W是權值。某條弧 e = (i,j) 的權值 Wij ,代表一個比率:i 對 j 的影響力 / i 試圖施加在 j 上的全部影響力。
IP演算法將這個 graph 作為輸入。SCL 是這樣構圖的:
nodes是那些曾經發布過三條以上連結推的人。
如果使用者 j 曾經至少銳推過使用者 i 的連結推一條,那麼弧arc (i,j)就存在。這條弧的權值計算公式為:Wij=Sij/Qi,其中,Sij是使用者 i 發布的連結推中被使用者 j 銳推的數量,Qi 是使用者 i 發布的連結推數量。
最終計算時,SCL 的這個 graph 的節點數是 45萬個,1百萬條弧,平均權值是0.07。
在這個 graph 資料基礎上,SCL 計算了 PageRank、Influence和Passivity 得分、Hirsch Index.
(註:H-index ,是一種評價學術成就的方法。一名科研人員的h指數是指他至多有h篇論文分別被引用了至少h次。h指數能夠比較準確地反映一個人的學術成就。一個人的h指數越高,則表明他的論文影響力越大。例如,某人的h指數是20,這表示他已發表的論文中,每篇被引用了至少20次的論文總共有20篇。)
在 Twitter 裡,一個使用者的 H-index 是 h ,代表他的被人銳推了至少 h 次的連結推總共有 h 條。
(待續)