[IR課程筆記]機率檢索模型

來源:互聯網
上載者:User

標籤:

幾個符號意義:

     R:相關文檔集

       NR:不相關文檔集

       q:使用者查詢

       dj:文檔j

 

1/0風險情況

     PRP(probability ranking principle):機率排序原理,利用機率模型來估計每篇文檔和需求相關機率,然後對結果進行排序。

      貝葉斯最優決策原理,基於最小損失風險作出決策,返回相關的可能性大於不相關的可能性的文檔:

 

 

       基於檢索代價的機率排序原理:

 

 

    

       crrP(R|D) + crnP(NR|D) < cnrP(R|D) + cnnP(NR|D)

 

如何計算機率

       文檔d可以表示為向量(d1,d2,...,dn)

       pi = P(di=1|R)       1-pi =  P(di=0|R)

       qi = P(di=1|NR)     1-qi =  P(di=0|NR)

   

 

            對這個式子取對數:

 

 

如何得到初始的R和NR

 

        pi=c     ,        c通常取0.5

           qi=ni/N          ni表示有di出現的文檔的個數,N表示整個文檔集數量。

 

improve it:

          對一個查詢q,根據初始的R和NR,可以得到前k個返回結果。然後把這k個結果加入R集中。此時,機率計算方法為:

          

            pi = P(di | R) = si / t

         qi = P(di | NR) = (ni - si) / (N - t)

         si表示的是t個文檔中包含di的個數

 

平滑

          pi  =  (si+0.5)/(t+1)

          qi  =  ((ni - si+0.5) / (N - t+1))

 

加權

           

            將上式的di換成wi.di表示詞語di出現則為1,不出現則為0

             

           BM25加權方法

[IR課程筆記]機率檢索模型

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.