摘要: 大資料已經成為互聯網上最熱門的概念之一,我看到許多創業者都開始談論大資料的商用價值,創業專案一定得和大資料掛鉤,有些人更是把《大資料時代》一書奉為聖經,仿佛只要買
「大資料」已經成為互聯網上最熱門的概念之一,我看到許多創業者都開始談論大資料的商用價值,創業專案一定得和「大資料」掛鉤,有些人更是把《大資料時代》一書奉為聖經,仿佛只要買一本祭在家裡的某個角落,自己就有資格高談論闊、 指點江山了。 但實際上,雖然書中洞見了資料分析的趨勢和隱憂,可由於作者Viktor Mayer Schönberger是一個典型的學術派,並沒有什麼值得稱耀的實踐經驗,導致此書缺乏落地感, 大資料商業應用在沒有可靠技術支撐的狀況下也只能是一紙空談。
不可否認的是,「大資料」確實擁有十分重要的價值,如今從傳統行業到互聯網行業的很多產品也需要依靠「大資料」來作為功能支撐和核心競爭力,借用阿裡巴巴資料平臺與產品部資料倉儲架構師占超群(花名離哲)的概括,目前階段, 大資料解決的主要問題分為3類:
1. 拓展傳統的商業智慧(BI)領域。 以前針對大資料量的統計、關聯分析、趨勢預測由抽樣變成全量分析、將資料回流到各種報表。
2. 業務流程改。 對各種資料進行聚合分析,用來做業務流程改進和考核的依據。
3. 資料商品和商業應用。 通過對已有資料或資料處理能力進行服務化或產品化包裝,形成資料產品或資料服務。
其中,我們在互聯網行業最常見的就是通過已有的資料來形成資料產品和資料服務,最典型的應用場景就是「個人化推薦」,但這並非是人人都可以染指的概念——我們知道,行業內依靠四個特徵界定「大資料」:
第一,Volume,體量巨大,PB級別;
第二,Variety,資料類型繁多;
第三,Veracity,價值密度低;
第四,Velocity,處理速度快。 簡而言之,需要從不同維度抓取海量資料並將其快速轉變為有序的可用資訊。
實際上,在中國互聯網,完全具備以上四點特徵也只有騰訊、阿裡巴巴、百度等較大型公司,對於一般公司而言,根本就不可能擁有PB級別的資料,也無法支撐高昂的資料存儲成本,而且大資料方面的技術人才十分稀缺。 最近就有不少創業團隊告訴我他們產品的願景,很多想法都十分新穎,但迫于資料處理能力,只好選擇「慢慢來」或者將產品功能閹割。 那麼,這類公司該如何在「大資料」浪潮中崛起呢?
我首先想到的就是利用協力廠商的資料處理服務平臺,這是一項在海外已經比較成熟的業務,從字面不難理解,這些公司為那些沒有大資料和大資料處理能力的公司提供「資料」或「服務」。
服務可以分為兩大類:基礎服務和個人化服務。
基礎服務即説明公司解決資料存儲、框架搭建和管理等大資料處理的基礎能力,這類公司的代表有Hadoop(分散式軟體框架)管理軟體與服務提供者Cloudera、非關聯式資料庫MongoDB開發商 10gen等。
另一類則直接説明企業直接打造個人化解決方案,我認為這類公司更適合大部分從整體上就缺乏資料能力的中國的小型互聯網公司和希望互聯網化的傳統企業,譬如説明電商提供個人化網上購物體驗的RichRelevance、 個人化和數位市場行銷優化服務提供者Baynote、為廣告商提供資料和分析的eXelate,以及資料拍賣平臺BlueKai等。 在國內,也有一些不錯的平臺開始湧現,例如個人化推薦引擎服務商百分點。 利用這些協力廠商的服務和資料,可以讓小公司的產品也兼具優秀的個人化能力,融入大資料時代。
但我認為,還有另一種應對大資料浪潮的做法——逆勢而為。 我並不認為大資料是解決個人化的唯一方案,同是它還帶有相當強的局限性——基於資料意為著用資料建立模型,從某種意義上說,它也像是一個牢籠:設想一下,如果你所有的資訊全部來自個人化推薦, 那麼你很可能錯失那些你從未接觸過的全新領域,而這些開放的、全新的資訊不正是互聯網最迷人之處麼?
事實上,已經有些產品這麼做了,唐茶計畫的李如一就曾表示,不會受資料干擾去決定出售/推薦哪一本電子書,而是完全基於他們的個人對內容的判斷,還有進來比較受關注的電臺Fuzz,完全由人工DJ來推送音樂。 反過來想,如果同一類型的產品都具有精准的大資料處理能力,那麼它們為使用者提供的內容也很可能是千篇一律的,而這些逆勢而為的產品,反而更像是真正的「個人化」服務。