TF-IDF:傳統IR的相關排序技術(二)

來源:互聯網
上載者:User
關鍵字 傳統 文章 既然

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

既然是二,就是順著上一篇文章《TF-IDF:傳統IR的相關排序技術》寫下來的。 所以,有興趣的同學請先看完第一篇文章再來繼續。

好,我們繼續開始二。

關於詞頻,只要你的分詞工具夠牛逼,就很好理解和實現。 關於反文檔頻率,各位親們,看到時會不會初時感覺很牛叉,然後細想會很有疑惑?

逆文檔頻率(idf)=log(文檔總數/包含關鍵字的文檔數量)

對,疑惑就在怎麼獲得「文檔總數」與「包含關鍵字的文檔數量」上。

在搜尋引擎上,可以有一個不錯的替代方式,下面聽我細細道來。

每篇文章每個網頁幾乎都含有「的」這個字,嗯,你想到了吧。 在搜尋引擎中搜這個字,出來的結果數量可以理解為所有的文檔數量,然後再搜你的目標詞即為包含這個詞的文檔數量,這一資料也就得到了解決,下面是我弄的一個例子:

  

好了,有了這些資料,我們接下來看看能夠做些什麼出來。

將網站中每個網頁進行分詞,去掉語氣助詞停頓詞之後按照tf-idf值從大到小進行排序。

網頁A={a1,b1,c1,d1,e1......z1}

網頁B={a1,b2,c1,d5,e2......z6}

網頁C={a2,b1,c2,d1,e2......z2}

......

顯然從{a1,b1,c1,d1,e1......z1}中就可以瞭解到網頁A所表達的意思,B、C亦然。

如果通過一個方法將A、B、C中的詞進行比對,那豈不是就可以算出來......,你想對了,頁面之間的相似程度。

這個方法,就是余弦值。 具體操作,如下:

我們首先從A、B、C中選出前N個可以表達頁面主題的詞,組成一個集合。

{a1,c1,d1,e1,b2,d5,e2,a2,b1,c2}

然後計算A、B、C頁面針對這個集合中每個詞的詞頻(如有必要,請使用相對詞頻),組成對應的向量。

A=[2,1,3,5,0,0,0,0,1,0]

B=[......]

C=[......]

請記住這個高中時就學到的公式。

  

OK,經過此公式的計算,不但是頁面之間的相似度,同樣一個頁面最相關的推薦文章也即可由此產生。

有興趣的同學們,請試驗一下吧。

轉載請注明連結位址HTTP://www.seosos.cn/search-engine/tf-idf-application.html。

相關關鍵詞:
相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.