忘了《黃金時代》,理性看待大資料預測

來源:互聯網
上載者:User

 

在世界盃預測時準確率超高的百度大資料預測在穩步推進時遇到了一個小障礙,尚處於內測的票房預測對《黃金時代》的預測與實際結果出現了偏差,被媒體長篇報導引發業內高度關注,筆者一直在觀察大資料預測業務,對於百度預測《黃金時代》 失利一事有自己的一些觀點,不吐不快。

一、看待大資料預測失准要冷靜客觀

近年來,「大資料」一詞頻繁出現在各類媒體上,與大 資料相關的各種產業、產品也在蓬勃發展。 今年2月,中關村管委會在《加快培育大資料產業集群推動產業轉型升級的意見》發佈會上表示,到2016年,中關村 大資料帶動的產業規模將超過1萬億元,這還僅僅是中關村大資料產業的數位而已,放眼全球,大資料未來的「錢景」非常可觀。 儘管大資料概念被熱炒,但與大數 據相關的各種產品其實尚處在初期探索階段,比如利用大資料做預測,儘管百度預測此前在世界盃預測、黃金周旅遊預測等產品上表現出比較高的準確率,但對「預 測」本身來說,出現失准的現象其實很正常。

具體到《黃金時代》票房預測這件事上,我們先來看看 百度的官方解釋。 百度對媒體的回應並沒有將問題歸結到「工程師犯錯」,而是直接指出核心原因:因為我國電影市場上文藝片的歷史票房資料很少,所以在針對 《黃金時代》進行預測時採用了通用的模型而沒有針對文藝片單獨建模,導致最終結果出現偏差。

擁有蕭紅、民國、文藝這些標籤,《黃金時代》算得上 相對小眾的電影,面向的觀眾並非主流人群。 關於這類電影的任何資料都是少之又少,沒有對應類型片的預測模型可供參考。 百度在預測《黃金時代》時採取了通用 電影的模型,導致出現了較大偏差,未來如果要預測準確,最好的解決方式肯定是針對不同類型的電影單獨建模,而據我瞭解,尚處在內測階段的票房預測已經在進 行這方面的改進。

流覽百度預測平臺(trends.baidu.com),百度票房預測的圖示是灰色的,並沒有正式上線,相反,經濟指數、疾病、景點和賽事預測倒已全面上線投入使用。 百度票房預測模型還需進一步完善,更多參數需要加入模型,比如影片屬性、片長、排片量、場均票價等全方位維度都納入考慮。

不過,從另一個角度來看,我認為,就算是百度票房預測正式上線之後出現「預測失誤」,也非常正常,沒有誰真正擁有水晶球,大資料預測無法確定某件事情必然會發生,它更多是給出一個概率,人類只有不斷地去接近這一個概率。 預測的前提就是要承認不確定性的存在。 在不同領域不確定性大有不同。 票房、股市恰恰就是更容易受人為影響的存在大力不確定性的領域,預測的難度會大過天氣、旅遊、交通、物價等。

因為一部《黃金時代》預測失利便質疑大資料預測本身,或者票房預測本身,是不合理的。 百度此前在世界盃期間、在黃金週期間相對漂亮的預測結果,已經證明了大資料預測的價值,只不過面對票預測房這一全新的領域,需要更耐心地優化而已。 那麼,票房預測在中國真的沒效嗎?

二、預測的精髓在於沉澱和糾偏

《為什麼大資料在預測《黃金時代》票房時不靈了? 》一文的核心觀點列舉如下:1、中國票房資料沉澱太少;2、一些人為製造的資料對票房預測造成干擾;3、預測模型處於初級階段,變數遺漏和樣本偏差;4、影院經理預測靠譜,票房預測沒有意義,電影預測談大資料為之過早。

對於這些觀點,只有第3點我表示認同,這是客觀事 實,百度也承認處於內測階段的票房預測模型存在不足尚需完善。 但如果深思則會發現,世界上並無完美的預測模型,每個領域都是,下一秒要發生的事情會受到諸 多變數影響,有些變數是可提前納入考慮的,有些變數就算考慮到卻又是很難監控,變數遺漏和樣本偏差是永遠存在的預測問題, 預測者只有不斷地更新變數、糾偏 樣本、升級模型才可以不斷地保持預測足夠接近真實。

在《大資料預測將會改變哪些行業? 》 一文中,筆者總結大資料預測的邏輯基礎是,每一種非常規的變化事前一定有徵兆,每一件事情都有跡可循,如果找到了徵兆與變化之間的規律,就可以進行預測。 對於預測來說至關重要的兩點是:從過往資料和經驗中得到的規律,這映射到預測模型;可以即時監控的「變化」,映射到變數或者說即時資料。 大資料預測與傳統 預測的不同就在於:更具時效性、新型資料來源、動態性預測以及規律性依賴。

對票房預測持消極態度的首先將問題歸結為數據:電影資料沉澱太少、各家網路資料不通以及髒資料問題。

1、沉澱太少是杞人憂天。

中國票房資料沉澱太少可能是客觀事實。 但預測需要海量歷史資料的原因在於從中發現規律。 但倘若只有100年的票房資料,卻並沒有與影響這些票房資料的「變數」資料,對於挖掘規律其實並無説明。

一個例子是百度在做世界盃預測時便與協力廠商資料公司合作得到大量歷史資料進行挖掘,將球隊、隊員、場地等靜態因素考慮在內同時引入輿情、歐賠指數等動態變數,最終實現接近準確的預測。

對於票房預測而言,就算得到中國80、90年代的票 房資料,而不是「預測相關資料」,對於票房規律的獲取並無什麼説明,那時候並無互聯網,電影市場早已面目全非。 票房預測究竟需要什麼資料? 沒有人可以告訴 我們答案。 等到10年之後資料積累完全再來談大資料預測,並不現實。 因為今天不做,人們就不知道該收集、記錄什麼資料。 況且誰又能指出10年與2年在時間 上的差距會對資料積累造成什麼本質不同呢?

大資料預測的資料來源優勢正是在於它可以更全面及時地記錄資料,並且收集到過往完全無法收集的資料比如使用者的需求、輿情、情緒變化,或者說出行規律、電影票價、影院排期資料。 因此與其去擔憂「傳統資料沉澱不足」還不如思考票房預測究竟需要哪些資料,究竟如何才能提升規律?

2、資料不通和髒資料是永恆問題。

網路資料不通是整個互聯網都要面臨的資料鴻溝問題, 沒有哪一家擁有全網的資料,聚合全網資料進行預測幾乎是不可能完成的任務,況且這根本沒任何必要。 如果說社交網路資料對預測很重要,那麼中國只有騰訊才可 能做好預測——實際並沒有做。 阿裡淘寶指數已成為電商銷量風向標、百度搜索指數對於各行各業同樣具有重要的參考意義,因為它表徵興趣。 每家掌握資料的性質 不同,但確實可通過合作去得到更多維度的資料,最終提升預測可靠性,但要各家直接打通資料壁壘是不現實的。

同理,「髒資料」以及」噪音「是整個互聯網永遠存在 的現象,就算是傳統的採樣調研難免也會遇到雜訊樣本進而被干擾。 應對這個問題只有儘量過濾噪音資料,同時考慮到噪音對模型進行不斷地糾正,並且增大預測結 果的誤差範圍。 還有一個假設是,如果有髒資料對結果起到積極作用(比如讓票房成績更好),同樣會有髒資料對結果起到消極影響。

百度搜尋結果不排除有人為操作的資料,水軍評論、豆瓣評分大家心知肚明,但文中所提及的百度商業化結果卻根本算不上髒資料,因為百度要排除商業廣告的影響輕而易舉,況且這些資料對預測是十分有價值的, Google票房預測模型一部分便是基於廣告點選資料。

3、影院經理不是預測而是影響票房。

影院經理確實可預測對應影院某部電影的票房結果。 如果他們掌握拍期權甚至還可以直接影響、決定對應電影的局部票房。 所有影院經理最終會對整體票房造成莫大的影響。 這並不是一個因果關係,而是環環相扣:影院經理在預測票房的同時也影響著票房。

我們可以將影院經理對應到股市中的股民,股民對自己 所關注的股票價格有所預期,基於這個預期進行減倉或增持等操作。 所有股民的博弈最終決定了股價的波動。 但這並不意味著股民是最好的股票預測專家。 在旅遊、 交通、房價等領域均有類似的狀況,參與者基於個體的預測,或者協力廠商預測結果去做出行動,進而影響結果。

這裡想說明的是,將參與者與預測者放在一起本身就不 合適,參與者是十分重要的動態變數。 《黃金時代》出現如此慘澹的票房很大程度便是票房經理不斷降低預期進而減少排片所致。 不過,百度未來與影院或者票房經 理合作倒確實可以提升預測準確率,一方面線上下升級模型,另一方面將票房經理的排期計畫納入監控範圍,把百度資料+工程師的大資料預測升級為眾包式的票房 預測,倒有可能。

最後我想說的是,因為一部電影的預測失利否定大資料 票房預測確實有待商榷,天氣預報不斷地沉澱不斷地升級才能做到今天的準確率以及精細化,但仍有不准的時候,在影響我生活時我也曾憤怒地認為天氣預報不考 慮,但大家都知道事實並非如此。 票房預測剛剛開始,或許應該得到更多包容。 從長遠來看,通過不斷的優化,如果票房預測產品最終能夠達到一定的準確度,那麼 對於整個電影產業將會提供非常重要的參考價值,比如對投資方、拍攝方、推廣方提供更準確的資料參考,從而引導他們在宣傳推廣、劇情設置甚至是甄選演員等方 面做出更加準確、有利的判斷。

作者微博@互聯網阿超,微信SuperSofter

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.