鄭昀 20090905
在Social Media領域,不管是搜尋結果,還是頁面展示,只要不是編輯挑選的,只要是機器智能決定的,都需要以某種順序排列。
那麼,除了按時間順序或按投票數排列外,還會有哪些有效展示模式呢?
下面羅列我所見:
模式一、Reddit模式
Reddit的排序演算法一文曾經介紹過 Reddit 會綜合考慮以下因素:
- 文章的新鮮程度;
- 支援票數和反對票數;
- Discoverers和Followers效應(削減Followers的投票權重)。
圖1 Reddit 排序樣本
從可以看出,讓新鮮且投票數還不足夠多的文章能快速突破進入榜單,是很重要的。
在從Social Media海量資料中尋找專家的五大手法中SPEAR模式認為:“專家應該是發現者,而不是趨勢的跟隨者。experts應該是第一批收藏和標記高品質文章的人,從而召喚起社區內其他使用者的圍觀。使用者發現優質內容越早,表明該使用者專業程度越高。所以,要區分“Discoverers”和“Followers”。”Reddit 正是通過log10 的使用,使得早期的投票(即Discoverers)獲得更大的權重。比如,前10票獲得的權重,與11到101票所獲得的權重是一樣的。
如你所知,玩聚SR 在給出熱門連結時也採用了同樣的定序,我曾經給出過簡化的演算法。
模式二、OneRiot PulseRank模式
即時搜尋引擎 OneRiot 的 PulseRank,能夠充分地把社會化因素考慮進來,做到搜尋結果排序的 Socially Relevant 。
PulseRank 所考慮的因素:
- 新鮮程度 Freshness ;
- 網域名稱的權威程度 Domain Authority :這個不同Team會有不同看法,到底是傳統門戶的網域名稱權重更大,還是獨立部落格的網域名稱更有價值。
- 推薦者的權重 People Authority :系統要能識別推薦者是否是spammer,要能發現某些推薦者總是推薦同一個連結或者同一個網域名稱下的連結(你總是日複一日地推薦某一個站的連結,應該降低你的權重),也要能發現某些人的推薦總能得到更大範圍的“二次傳播”。
- 傳播加速度 Acceleration :主要檢測推薦的速率,從而區分新出現的頁面和廣為人知的熱門頁面。
當然它還考慮來自Twitter、Digg以及OneRiot Share的推薦數量。
推薦越多,排在Pulse搜尋結果最前面的可能性越大;新鮮程度也影響非常大,其他因素的影響比較難以被注意到。所以這還是 Reddit模式的增強版,只不過彙總了不同Social網站的推薦數,並加了幾個因子。
參考資源:
1、Ranking Algorithm for the Realtime Web: OneRiot “Pulse Rank” Update
模式三、digg模式
Digg 有很多技巧:
1、投票的速度:比如一篇文章最開始的半小時內能迅速收集到40~50個投票,那麼是誰投的就無關緊要,這篇文章就會上首頁。
2、投票使用者的層級。不過Digg的《A couple updates》宣布了Top users總是伴隨著行為異常和可憎,所以本因素將不斷被降低。並且如果你擁有非常多的好友,那麼你提交的文章就需要更多的Digg才能上首頁,通常是新使用者的2~3倍。
3、評論的數量,以及評分的數量。如果一篇文章有40個評論,其中20個對它評級在-4分以下,那麼顯然這篇文章不會上首頁。
4、Bury的數量。還會考慮到Bury的類型,如重複的故事、Spam、錯誤的分類等。如果一篇文章在Upcoming隊列中,獲得了3個Bury,那麼它就永遠被Buried了。如果文章是在首頁並且擁有1000個Diggs,那麼需要大約10~15個Bury才能讓它消失(消失指只能訪問最終頁面,任何類別的導航頁都不會看到這篇文章了)。
5、投票使用者的 Popular Ratio。如果10~15個Popular Ratio在70%以上的使用者都投了一篇文章,那麼它上首頁會很容易。你可以 Digg使用者頁面上查到每個使用者的Popular Ratio。
Digg 的演算法久經考驗,不斷被修正,並且充分利用了它所能收集的一切資訊,值得借鑒。
和 Digg 一樣,Newsvine 也考慮得很全:
- 使用者的聲望;
- 使用者好友的聲望;
- 評論;
- 網域名稱權重;
- 瀏覽數和停留時間。
參考來源:
1、The Digg Algorithm - Unofficial FAQ
2、Newsvine Algorithm and potential ranking factors for exposure
模式四、Seeds模式
這是一種第三方應用深入某個Social Media的刺探式統計方法。事先選定一個key users集合(比如創始人以及其他核心使用者,被稱之為“seeds”),然後從這批使用者開始掃描建立Social Graph,通過統計inbound links和好友關係,得出被掃描的social media的不同指標的熱門排行榜,這就是Spinn3r rank所用到的手法。這種模式並不限於計算Top Users。
它所用到的兩個技巧倒是經常看到:
- 從 Approved Sources 開始掃描:一個好的演算法,當然要從好源開始,Techmeme 和 玩聚SR 都是這麼做的;
- 遍曆 friendship :spammers或水平不那麼高的使用者,要想從 seeds 這裡獲得串連顯然是不大可能的。
好了,這就是我觀察到的Social Media中經常出現的幾種定序演算法。如果你有補充,請留言或follow me。
鄭昀 北京報道 20090905
其他參考文章:
1、What is InfluenceRank?
2、ranking by semantic similarity
還推薦您閱讀我的以下文章:
1、Social Media附加價值開發的四大模式;
2、分析人的網路軌跡和片段之四大模式;
3、[語義]情感分析方向近況·0908;
4、從Social Media海量資料中尋找專家的五大手法。