網站內容評分模型

來源:互聯網
上載者:User
關鍵字 我們 可以 0.5 選擇

我們可以看到目前很多的網站都會有內容評分,無論是電子商務、HTTP://www.aliyun.com/zixun/aggregation/18542.html">資訊分享還是內容下載。 內容的評分主要分為兩類,一類是使用者對內容的評分,主要針對使用者的使用感受,如電子商務網站的商品評分,內容分享網站的內容評分等,這個也是目前最普遍的評分模式,而內容的綜合評分的計算也相對比較簡單,大多是取所有使用者評分的均值 ;另一種評分方式就是網站自身對內容的評分,主要針對使用者的歷史行為資料,如通過使用者對內容的訪問情況評價內容的熱門程度等。

這裡要介紹的網站內容評分模型主要針對第二類的評分方式,因為評分的分值是相對固定的,100分制、10分制還是5分制,而使用者相對於每個內容所產生的行為資料的數值卻千差萬別,可能是千數量級,也可能是萬數量級,甚至是百萬數量級, 如何將這些資料轉化成標準的評分體制,並讓最終的分值分佈更加合理化、有效化,從而讓真正優質的內容獲得較高的評分,並推薦給使用者,是這裡重點要解決的問題。

內容評分實例

介紹應用的案例前,先要說明下應用的環境和具體的需求:假設有一個內容分享網站,需要將網站中的內容進行評分,以5分制的形式展現,即每個內容的評分只可能出現1-5這5個分值,目的是展現出網站中每個內容的熱門程度, 為使用者的選擇和閱讀提供參考。

這是一個最簡單的內容評分的應用,上面已經非常明確的說明了評分的目的——區分內容的熱門度,以及最終的資料展現——以5分制的形式展現。 對於這樣一個明確了的資料需求,我們就可以選擇指標、搭建模型、並最終輸出結果。

1、選擇指標

評價內容的熱門度,貌似挺簡單的,直接用內容流覽量(PV)作為評定指標不就行了? 確實,PV是個不錯的選擇,也是最簡單的一種選擇,但其實還有更好的選擇,訪問數(Visits),訪問使用者數(UV),這兩個指標能剔除同一個使用者短時間內連續刷新同一內容的情況,所以我們不妨選擇訪問使用者數UV來作為評價指標。

2、構建評分模型

現在開始才是文章的關鍵內容,顯然,需要對內容的熱門程度進行評價首先要消除指標的度量單位,並把分值的分佈區間控制在要求的範圍內——1-5分。

消除度量單位? 也許你已經想到了,是的,還是資料的標準化,這篇文章中的方法已經在多處使用,可以說是很多資料分析和資料採礦的基礎步驟。

Min-Max歸一化評分

Min-Max是最常用的資料歸一化方法(詳見資料標準化這篇文章的描述),處理後的資料分佈在[0,1]的區間內,接下來只要把0-1的數值轉化1-5這5個分值就行。 很簡單,先乘以4使資料落在[0,4]的分佈區間,四捨五入,是不是只剩下0-4這5分分值了,再加1就可以得到我們想要的結果了。 我們來看看處理後的各分值內容分佈情況的示例:

根據上面各分值內容分布圖可以看出Min-Max的評分結果的每個分值的內容數量分佈是不可控的,一般會跟網站中熱門內容和冷門內容的比例直接相關,所以當某些網站的熱門內容只占網站所有內容的20%,並且這些內容的訪問量異常高, 佔據了所有網站訪問量的80%,也就是我們平常說的符合二八法則。 那麼可能出現的情況就是大部分的內容評分集中在1分,小部分集中在5分,而中間的2、3、4分的內容分佈非常少,其實上圖就有點偏向這個趨勢,但其實很多時候我們期望的內容分佈可以偏向正態,也就是大部分內容能分佈在中間分值, 兩端分值的內容資料相對較少,於是就有了下面的另一種評分模型:

Z標準化評分

如果你的網站的內容數量很多,那麼就可以使用Z標準化(詳細描述還是參見資料標準化那篇文章,這裡不重複了)。 Z標準化的好處是可以讓資料呈現正態分佈的趨勢(不是正是我們想要的嗎  ),標準化後的資料趨於N(0,1)的正態分佈,也就是整體的均值為0,標準差為1。 再想想辦法讓他們變成隻是1-5這5個分值,當標準化後的數值:

小於等於-1.5(即-1.5σ)時:1分

大於-1.5(即-1.5σ)小於等於-0.5(即-0.5σ)時:2分

大於-0.5(即-0.5σ)小於0.5(即0.5σ)時:3分

小於等於0.5(即0.5σ)小於1.5(即1.5σ)時:4分

大於等於1.5(即1.5σ)時:5分

如果資料符合標準正態分佈,那每個分值的比例大概是,1分和5分的內容分別占7%,2分和4分的內容分別占23%,3分的內容占40%。 我們再來看看用這個方法得到的評分結果的分佈情況:

是不是看到你想要的結果了?

3、輸出結果

當然內容評分的展現方式有很多,下面是幾個網站的評分截圖,其實都不錯。

上面介紹的主要是針對單一指標的內容評分體系,其實在很多情況下內容的評分是諸多指標共同影響的結果,那麼內容的評分應該考慮所有這些影響因數,應該構建相應的模型計算內容的綜合評分,這裡不展開,之後有機會再介紹。

» 本文采用 BY-NC-SA 協定,轉載請注明來源:網站資料分析 » 《網站內容評分模型》

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.