標籤:ext strong os 類 問題 line
是一篇綜述性質的ppt。
主要內容:
對搜尋中的廣告點選預測,總結學術界的研究成果。
搜尋廣告主要展示位為:1. 搜尋結果頁面最上側;2. 搜尋結果右側。
研究意義:廣告點選次數直接影響收入
問題抽象:對於某個query q,和某個廣告ad,預測使用者對它們的點擊率。
具體內容:
1. 最簡單的點擊模型:通過點擊次數來預測,計算公式為
P = #count of clicks / #count of impressions(展現)
缺點:點擊受到使用者瀏覽行為的影響;對於長尾query和ad,存在冷啟動問題。
2. 點擊模型:a unified framework——實際上是把各個因素羅列出來
u -- user
q -- query
a -- ad
r -- position of ad
c -- click, 1 if a is clicked by u
L -- the impression list
S -- the click sequence
點擊模型的任務就是通過使用者的點擊日誌來預測廣告的未來點擊,形式化的說,就是在未來的展現中,計算 P(c=1| q,a,u,r,L,S)的值
3. 點擊模型的不同層次的假設
(1)unbiased hypothesis: P(c | q,a,u,r,L,S) = P(c|q,a)
(2)position bias hypothesis: P(c | q,a,u,r,L,S) = P(c|q,a,r)
(3)depend on click pattern: P(c | q,a,u,r,L,S) = P(c|q,a,r,S)
(4)depend on ad externality: P(c | q,a,u,r,L,S) = P(c|q,a,r,L)
(5)depend on user intent: P(c | q,a,u,r,L,S) = P(c|q,a,u,r)
展開來說:
3 - 1:unbiased hypothesis
點擊只和query以及廣告自身有關,不考慮任何因素
3 - 2:position bias hypothesis
examination hypothesis:將使用者的examine的過程考慮進來,將“使用者點擊”這個事件分解為兩個事件,即“使用者examine”和“使用者點擊”。在此基礎上,機率分解:
P(c|q,a,r) = P(e=1|r) * P(c=1|q,a,e=1)
其中,P(e=1|r) 表示在位置r,使用者查看(examine)的機率。可以通過跟蹤人眼盯在螢幕上的位置(熱度)來獲得;也可以通過將相同的ad放在不同的位置,來計算點擊率獲得,不過這種方法貌似代價比較大。
3 - 3:depend on click pattern
看這個ppt的感覺就是,模型越用越複雜,懷疑在實際中真的有用嗎?
cascade hypothesis(wsdm08):是examination hypothesis的進一步深化,即在examination hypothesis的基礎上,進一步假設使用者是順序examine ad的,並把這種檢查順序放到了條件機率裡面
multiple-click model(wsdm09):在cascade hypothesis的基礎上融合了使用者的多次點擊,隱含假設是,在一個結果清單中,使用者通常要通過多次點擊來完成需求滿足。具體做法上,對於某個ad,將使用者點擊和非點擊的機率線性插值起來,整體做法上還是類似cascade hypothesis的。
DBN(wsdm09):套用DBN來對使用者examine和點擊進行建模
上面三種方法,實驗結果中,貌似DBN最好,不過,看到logistic作為baseline,也不差
3 - 4:depend on ad externality
這個假設,將ad列表中ad之間的關係也建模進去了,貌似更加脫離實際應用。
temporal click model(sigir09):關鍵假設是,一個ad如果和更高品質的ad放在一起展示,那麼這個ad的點擊率會下降。用graph model來描述這種關係。
relational click predication(wsdm12):關鍵假設,展示的ad列表,ad之間的相似程度會影響ad的點擊率。作法,將ad列表作為一個整體對待,而不是針對每個ad進行分別對待,用crf來描述。
3 - 5:depend on user intent
task centric click model(kdd11):關鍵假設,使用者逐漸精細化的表述他的需求(通過越來越精確的query),並且傾向於點擊不在從前query中出現的文檔(新文檔)。用graph model來做的。