大資料學習筆記4·社交運算中的大資料(2)

來源:互聯網
上載者:User

標籤:

本篇繼續討論對使用者移動規律的理解:結合地理建模和矩陣分解來做興趣點推薦。

位置推薦是一類非常受歡迎的應用。在位置推薦中,我們需要理解使用者的潛在興趣並熟悉使用者所處的環境。然後,我們就可以根據使用者的興趣和位置的屬性探索使用者可能感興趣的地點。與普通推薦任務相比,地理位置在位置推薦中是改進推薦效能的一個重要因素。

在前面一篇中,我們討論了如何恢複使用者行為資料用於移動規律的理解。我們發現,使用者移動行為通常集中在像家庭、工作場所和最喜歡的餐館這樣的重要地點。而且,兩個地點之間的距離通常很短。所以,我們想要利用這些資訊來做一個更好的位置推薦演算法。


為了向使用者提供好的位置推薦,我們使用使用者的位置記錄作為一類隱性的反饋資料。

  1. 我們把使用者去過的地方看成使用者對一個特定地點的偏好。而使用者去一個地點的次數則表示偏好的信賴度。如果你去一些地方的次數更多,那麼我們就更加確信你喜歡這些地方。但是,這並不意味著你喜歡這些地方勝於其他你去的不是那麼多的地方。對於沒有去過的地方,我們缺乏資訊,所以它們可能是正的或者負的。
  2. 你們可以看到這張表或者這個矩陣中的數字。如果這些地點與使用者的即時區域很接近,那麼我們假定它們更可能是負的。這是因為使用者可能非常熟悉那個地區,卻故意不去那些地方。但是對於遠離使用者即時區域而且使用者沒有去過的地方,我們還不知道使用者是不熟悉那個地區還是故意不去那個地方。所以,其中混合了正的偏好和負的偏好。
  3. 實際上,整個工作都是建立在這些重要的假設之上的。
矩陣分解模型

傳統上,在推薦任務中,研究人員總是會使用矩陣分解模型。

  1. 我們有一個包含使用者和興趣點這兩個維度矩陣。矩陣中的值表示使用者是否去過這個地方或者興趣點。矩陣中的值可能為0或者1。
  2. 矩陣可以被分解成兩個潛因子。一個是使用者潛因子,另一個是位置潛因子,兩個潛因子都有K這個低維度。
  3. 我們想要區分沒有去過的地方,即這些0值。所以,我們在使用者潛因子中增加即時區域向量,在地點潛因子中增加影響地區向量。
    這裡的即時區域,這兩個向量中都有表示地區數量的維度L。即時區域向量是指使用者是否去過這些地區。影響地區向量是指這個位置或者興趣點是否在這些地區中有影響力。
  4. 所以,我們把使用者潛因子、位置潛因子、即時區域和影響地區相乘,最終得到原始的使用者興趣點矩陣。
GeoMF

我們使用了一個加權矩陣分解的結構,稱之為GeoMF:

假設Cu,i表示使用者u訪問興趣點i的次數、我們使用一個以Cu,i作為自變數的單調遞增函數來計算權重。去的次數越多,則權重就越大。這裡,權重越大意味著我們需要對這個位置的值有更精確的近似。從這個函數中,你們可以看到R會被分解成P乘以Q和X乘以Y。我們增加了W,它是權重矩陣。我們還有一些P、Q和X的正則項。在這裡,為了簡化計算,我們假設Y在最佳化中是給定的。我們使用二維核密度估計來估算Y,Y是指興趣點的影響地區。我們假設興趣點的位置對每個網格的影響服從高斯分布。這意味著距離位置越近的網格就越容易被興趣點影響。


這裡我們使用迭代方法來進行最佳化:

首先,我們固定X,即使用者的即時區域,更新P和Q。這裡展示了我們更新P和Q的方法以及這些步驟的時間複雜度。

然後,我固定P和Q,更新X。這張投影片說明了我們更新X的方法以及這些步驟的時間複雜度。

這裡我們可以看到我們的方法是怎麼樣區分未被訪問的地點的。假設X不變。由於Y是給定的,我們可以估計(R-X*Y)。對於給定使用者,(R-X*Y)可以用這個方程來表示。對於一個位置,我們為使用者u圈定了一個即時區域。所以,ru,i的值很可能是負的。實際上,這個值取決於使用者u到這個地區去的次數。如果使用者經常去這個地區,那麼這個值很可能是負的。這意味著,這些沒有去過的地方在經常去的地方的周圍。所以,它們更有可能在最佳化中是負的。這表明使用者對這些地方不感興趣。但是,對於遠離使用者去過的地區的沒有去過的地方,這個值可能還是0,這意味著我們無法區分使用者是不喜歡這個地方,還是因為還不知道這個地方所以沒有去過這個地方。

效能比較

我們有上海、北京、廣州、天津和杭州這五個城市的資料。上海有40萬使用者,北京有16萬使用者。我們有上海使用者的2500萬條簽到記錄。我們把這些資料分成訓練集和測試集。約有70%的資料屬於訓練集,30%的資料屬於測試集。在實驗中,我們進行了五次獨立的測試。使用召回率和準確率作為測量項。我們比較加權矩陣分解和其他五種基準演算法。

基準演算法包括基於使用者的協同過濾(UCF)和貝葉斯矩陣分解(B-NMF)。
我們還比較了加權矩陣分解和規範的奇異值分解以及基於訪問頻率矩陣的矩陣分解。這兩種方法的區別在於在矩陣中是使用訪問次數還是0、1值來表示使用者訪問。我們還比較了加權矩陣分解和有偏的加權矩陣分解。下面是兩張分別表示召回率(左)和準確率(右)的圖。

這些演算法的效能相似,所以我們只能看看錶示準確率的這張圖。我們可以發現,加權矩陣分解和有偏加權矩陣分解的效能最好,但是它們的效能非常接近。基於訪問次數矩陣的矩陣分解效能最差。這意味著訪問次數不能直接在矩陣中使用。我們最好使用加權矩陣分解方法,這意味著使用次數作為信賴度,但是在矩陣中仍然使用0和1。加權矩陣分解的效能好於UCF和B-NMF。
最終,我們使用加權矩陣分解作為架構。


我們想研究空間聚類現象,文獻中已經有很多關於這個現象的研究。
為了研究這些現象,首先忽略使用者潛因子和條目潛因子。這意味著要去掉P和Q,而僅保留X和Y,即使用者即時區域和地點影響地區。我們比較加權版本和非加權版本。我們分別稱加權版本和非加權版本為GeoWLS和GeoLS。我們還比較不同的參數以及二維核密度估計這個基準方法。下面兩張圖表示召回率和準確率非常相似。可以看到,我們的方法好於二維核密度估計方法。在這裡,二維核密度估計方法的效能最差。此外,加權版本的效能好於非加權版本的效能。

最後,我們比較了加權MF、GeoWLS和結合了這兩種方法的GeoMF

可以看到,GeoWLS的效能最差。這意味著還需要利用使用者潛因子和位置潛因子,也就是P和Q。與WMF相比,考慮了地理約束的GeoMF的效能更好一些。這意味著地理建模能夠提高矩陣分解效能,這一點在實驗中得到了驗證。

總結
  • 使用二維核密度估計來進行地理建模。
  • 使用加權矩陣分解來基於位置訪問資料做推薦,在這裡將位置訪問資料作為一種很好的反饋。
  • 提出GeoMF模型,它結合了地理建模和矩陣分解,我們還提出了最佳化GeoMF的學習演算法並分析了其時間複雜度。實驗表明GeoMF的效能優於其他基準演算法。

大資料學習筆記4·社交運算中的大資料(2)

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.