仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
既然是二,就是順著上一篇文章《TF-IDF:傳統IR的相關排序技術》寫下來的。 所以,有興趣的同學請先看完第一篇文章再來繼續。
好,我們繼續開始二。
關於詞頻,只要你的分詞工具夠牛逼,就很好理解和實現。 關於反文檔頻率,各位親們,看到時會不會初時感覺很牛叉,然後細想會很有疑惑?
逆文檔頻率(idf)=log(文檔總數/包含關鍵字的文檔數量)
對,疑惑就在怎麼獲得「文檔總數」與「包含關鍵字的文檔數量」上。
在搜尋引擎上,可以有一個不錯的替代方式,下面聽我細細道來。
每篇文章每個網頁幾乎都含有「的」這個字,嗯,你想到了吧。 在搜尋引擎中搜這個字,出來的結果數量可以理解為所有的文檔數量,然後再搜你的目標詞即為包含這個詞的文檔數量,這一資料也就得到了解決,下面是我弄的一個例子:
好了,有了這些資料,我們接下來看看能夠做些什麼出來。
將網站中每個網頁進行分詞,去掉語氣助詞停頓詞之後按照tf-idf值從大到小進行排序。
網頁A={a1,b1,c1,d1,e1......z1}
網頁B={a1,b2,c1,d5,e2......z6}
網頁C={a2,b1,c2,d1,e2......z2}
......
顯然從{a1,b1,c1,d1,e1......z1}中就可以瞭解到網頁A所表達的意思,B、C亦然。
如果通過一個方法將A、B、C中的詞進行比對,那豈不是就可以算出來......,你想對了,頁面之間的相似程度。
這個方法,就是余弦值。 具體操作,如下:
我們首先從A、B、C中選出前N個可以表達頁面主題的詞,組成一個集合。
{a1,c1,d1,e1,b2,d5,e2,a2,b1,c2}
然後計算A、B、C頁面針對這個集合中每個詞的詞頻(如有必要,請使用相對詞頻),組成對應的向量。
A=[2,1,3,5,0,0,0,0,1,0]
B=[......]
C=[......]
請記住這個高中時就學到的公式。
OK,經過此公式的計算,不但是頁面之間的相似度,同樣一個頁面最相關的推薦文章也即可由此產生。
有興趣的同學們,請試驗一下吧。
轉載請注明連結位址HTTP://www.seosos.cn/search-engine/tf-idf-application.html。