天翼杯大資料演算法應用大賽感想

來源:互聯網
上載者:User

標籤:針對   根據   時間序列   一周   個數   未來   解決   時間   分布   

競賽過去很久了,早就想寫寫感想與經曆,可是一直拖著沒寫。今天終於有時間了,就寫寫吧。

競賽題目是視頻網站推薦,根據前七周每天使用者對10個視頻網站的訪問次數資料以及其他上網行為,預測使用者第八周對10個視頻網站的訪問量。

咋一看這是個時間序列預測問題,是啊,給出前49天使用者訪問資料,讓你預測未來七天使用者訪問資料。這確實應該是個時間序列預測問題。

但我用時間預測演算法模型Holt-Winter(3次指數平滑), ARIMA跑結果的時候,結果卻並不是很好。

我後來分析了下資料,統計了七周每一周七天內使用者對10個網站的點擊次數。我很震驚的發現它是均勻分布的。

本來我原以為對於某些網站來說周末訪問次數會高一點,或者說7周49天,每天的訪問次數會有一定規律。但是沒有發現。

唯一的發現是第五周會有一個資料突變,567周的訪問次數驟然減半,所有網站都是如此。

而且對於個人來說,網站的點擊更近似於隨機分布,我們抽樣了50個使用者,都是如此。

周內沒有規律,周間也沒有規律。而且雖然7周看起來很長,但對於某一天來說,比如周一,有效資料只有7個,所以有效資料少。

所以對於把握周期性特徵的時間序列預測演算法來說,這種場合并不適用。

 

不過推薦嘛,總是有辦法的。我想起了協同過濾。我把問題分成兩步,第一步, 預測每天使用者訪問與否,這是個01分類問題。第二步,就是預測使用者訪問次數,可以用協同過濾解決。

對於第一步分類問題,選取特徵最為重要。我選取了:相應每一天前七周訪問與否,最近兩周是否連續訪問,對於網站的訪問次數是否超過閾值,每周的訪問天數和是否超過某一閾值等作為特徵

以前六周作為資料集,第七周作為測試集,然後用神經網路跑出結果作為初步結果。

 

協同過濾我們採用針對使用者的協同過濾演算法。

待續

天翼杯大資料演算法應用大賽感想

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.