真假大資料(一)

來源:互聯網
上載者:User

10月24日,中國TMT國際商會在北京華彬中心舉辦了一場主題為「大資料  大影響」的論壇,會上知名IT評論人謝文就當前熱炒的大資料話題,做了精彩演講,引起全場熱烈反應。 中國寬頻產業基金董事長對此現場點評到,「這是我半年來聽到最好的關於大資料的演講」。 中雲網特將演講整理,全文如下:

知名IT評論人謝文

我從大概過去半年左右時間寫了十篇關於大資料的文章,雜誌上也發表了,這只是出於我的嗜好,關於互聯網,關於大資料的發展,沒想到這次的反響遠遠高於以往的經歷。 應該說大資料這個概念剛開始出來,但是從我最近這一段常常被各種機構、各種部門、企業叫去參會,做演講,最重要的困惑就是大家對大資料都有興趣。 一張嘴,南轅北轍,完全不在一個興趣點上。 所以我想站在互聯網發展的歷史,和投資的角度向各位介紹一下我想理解的真的大資料,或者半真半假,或者是大資料的環節,或者是假的大資料。

在互聯網在中國開始初期,1999年到2010年我管它叫做互聯網爭論,1999年參加券商和投資領域的會,當時有人能一口數出中國有80個是互聯網概念股,非常嚇人,其結果不言自明。 2003年到2005年是互聯網真正見真錢的時候,靠電信公司的寬大政策,我們大家都活下來了。 但是當時ISP這個概念下,魚龍混雜,最終混亂了這個行當,也是概念上的混亂。 2007年到2009年是WEB2.0,最後塵埃落定,中國竟然沒有一家像Facebook的公司能夠脫穎而出,我早期做的校內,現在流量排第12。 其實後面還有關于真假新媒體,真假團購,現在餘震未平,大概上萬個團購投了前後二三十億,現在一地雞毛,所以我覺得今年,包括下面兩三年大資料會捲入一種混戰。

因為我們無論從投資者、創業者、經營者還是媒體推波助瀾,大家喜歡看宏觀、微觀、局部,這是好事,怕的是你摸著石頭過河,一路摸下去,越摸越慘。 討論大資料用的「時態」還是不一樣的,易觀的朋友用的是現代時、更在進行時。 過去時,大資料古已有之,在物理學、生物學、醫藥業等領域已經搞了幾十年了。 這個概念本身聽著就懸乎,大資料,形容詞,不是嚴格的定義,喜歡說過去時的多數是學術界的人,知識界、學術界,他們有純粹的討論資料大的怎麼辦?

完成時的,「我們能夠提供從硬體到軟體再到方法的完整大資料解決方案」他說隨便來,我早準備好了,你提供錢就是,我不是說這個路就錯了。 或者我討論問題也是這麼討論,我從來不把創新和技術障礙作為前提放在前面,我假定技術條件是具備的,我們回想幾次互聯網大創新,技術條件都在那。 那麼多互聯網公司只有你有好主意,他們一定能跟上。

進行時:我們正在加大投入,在資料獲取、存儲、整合、挖掘等方面發奮努力。 說這種話的都是互聯網公司,或者電信公司,他的意思是這點事盡在囊中。 這些都是互聯網公司的,但是這三種我個人都是不同意的,我使用的是將來時,大資料不僅是網路業的未來,而且是整個社會和經濟發展的未來,現在應該開始討論、研究、嘗試這個方向的問題了。

我就把它作為未知,作為努力的方向,作為未來來討論的。 我不敢絕對的說我是對的其他三種是錯的,但是相互之間有關系,我個人認為至少過去是完成時肯定是錯的。 我們TMT商會不會以考古為興趣,不是以研究歷史為興趣,我們是研究未來的。 還有一個觀察點是討論大資料的時點,這是我們在第三篇文章裡面講過的,非常巧合,1996年雅虎上市,2004年谷歌上市,2012年Facebook上市,間隔都是八年。 雅虎在我看來解決的網頁聚合問題,漫山遍野的網頁,他想到了一個辦法,門戶解決方案可以分門別類,你就不用去找了,靠我們的專家隊伍把它編輯成為一種分門別類的,無所不包的門戶,這個時代回過頭去, 我把它叫做Weo1.0時代,到谷歌,他說我管你什麼網頁,我把它細分一個層次,直接抓主題詞,把主題詞按照一種演算法,聚合起來,讓人們高效的獲取,這個比網頁聚合的方式高效得多,但是從本質上是和網頁是一樣,從內容方面找路子。 所以叫做WEB1.5。 FaceBook就換了一個角度,叫消費者聚合,從獲取者角度搞聯繫,搞關係,按照資訊真實的傳播管道找出路,這是就是我稱之為WEB2.0,它又代表了一個時代。 再過八年,我現在基本肯定,我們將進入下一個階段:資料聚合,我從資料入手就可以把已經在網上的東西,包括比如物質的東西,世界上的萬事萬物都可以資料化,我們把它弄起來,我認為下一個大創新應該是這樣。 另外,2008年的經濟大危機,現在回想起來正好是FackBook創造了平臺分離,應用平臺。 是不是預示著現在大家做常規性的小動作肯定不是好時機了? 而想辦法參與目前一次大創新才是生路,所以我覺得最近討論大資料很熱,各行各業的人都來了,甚至政府高官都很關注。

1996年雅虎上市的時候,谷歌還沒成立,谷歌上市的時候FaceBook還沒有成立,所以我們可以推測FaceBook今年上市了,帶領大資料創新的公司還沒有成立。

演講PPT大資料的創新難點

什麼不是大資料? 我可以斬釘截鐵的說,資料大不等於大資料,大多數人把資料大稱之為大資料,過去多少K,後來多少兆,現在用T了。 人家早等著呢,後面還有20多個名字呢,這種簡單的數量的增長真的是量變和質變嗎? 量本身有差距嗎? 現有的設備、技術方法所能處理的多數是資料大,不是大資料。 資料採礦、精細化運營、精准廣告、個人化服務、推廣這些不是未來大資料服務商業模式的主要部分。 你可以想像他做的精細化運營的成本,大概能夠抵消精細化行銷的收入,基本上是零。 不會產生推倒重來,重新玩的效果。 這是現在最常見的大資料定義,三V定義,多樣性、體量、速度。 我按照那個邏輯先給一個操作化定義,比如說多樣性,什麼叫做多樣性,姓名、身高,這是不斷描述一個人的精細化而已,「多」不是多樣,所以我說第一個資料來源多樣,剛才我們領導也專門講過這個問題。 大資料必然是開放式的,必然是公共的。 一家公司不管多大,我們騰訊算中國最大的,你還得知道,他的資料有相當的同質性。 有相當的局限性,有相當一個角度下的介入,如果跨出去會好很多,比如說騰訊和百度,現在兩大公司,你們兩家公司資料百分之百兌換、共用,那就有意思了。

現在美國政府搞的資料開放政策,40幾個國家了,美國和英國非常有意思,都反映了僅自己們在現實世界打不破的界限,在資料層面我們打破了。 大的資料來源才可能多樣性,我後面會仔細講這件事情,資料種類的多樣性,資料形式在變,有文字、語音、圖表、圖片、視頻,資訊和資料是有差別的,有定義的資訊是資料,但是有相當我們現在不可解的東西,不能稱之為資料,只是資訊而已。 資料物件的多樣性,個人資訊、個人資料,商務服務資料,社會公共資料,還有自然界的,物質世界的資料,只有考察多樣性是從這個意義上理解,而不是自己一家一戶的事越搗越細,這個資料才有生命性。 大資料的多樣性越高,潛在的價值就越大。

體量很簡單,我們現在討論大資料,起碼是以TB為基本計量單位,我在美國上學的時候,打工、吃飯做資料分析,那個時候基本上一個G就束手無策了,現在TB是一個可以做的,成本也不是那麼高,現有很多廠商都有解決方案了, 是不是再過一段要PB,說不定。 現在你看FaceBook一張嘴就說每天500T的資料,谷歌說我是三個P的資料,就是體量的概念。 還有一個概念我是很看重的,資料之間的關係和複雜性,這種極其複雜的做建模的,做資料採礦的應該有體會,有一陣子谷歌找我希望我去,當時2008年底,他們的模型是模型群了,大模型矩陣,62000個,之間可以任意聯繫,張三、 李四建無數的模,這個概念應該放在體量的概念上,關係複雜性這個也放在體量之下。 大資料體量越大,潛在的價值越大。

還有一個速度,我寫的兩篇都用到摩爾定律,其實摩爾定律在大資料上仍然有效,一個方向是資料種類每年翻番,資料體量每年翻番。 後面基本上就是摩爾定律的變種了,單位資料獲取的成本每年減半,單位資料每年存儲的成本每年減半,單位資料利用的成本每年減半,如果那邊也翻番,成本也翻番,那個是不可能的。 大資料增長速度越高,潛在價值就越大。

大資料認識有幾個誤區,第一個只是從量上說,你看資料增長了,這樣說你是沒法劃線的,沒法說清楚普通資料和大資料的區別哪,一個T和一個P資料本質有什麼差別? 僅僅因為大? 惠普說沒有問題,我這出了一個P和一個T一樣,解決了。

脫離產業發展和社會進步的大背景,討論大資料無法說明其重要性。 只要你幹這件事,技術可以作為已知,總有人給你找到辦法,隱私權啊,演算法啊,一定有辦法。 把大資料這個事情作為技術問題來探討,很難證明它有投資價值。 我們互聯網歷史上第一波的明星,即使現在活著的公司,也比不上真正挖金子的。 所以不能脫離產業發展,不能脫離社會進步,尤其是這次大資料有點像互聯網剛開始,互聯網很多年了,互聯真正啟動是美國戈爾帶頭。 去年美國政府出了大資料國家戰略,美國政府帶頭先搞,凡是用了聯邦政府一分錢的,單位必須公佈資料,推廣到所有的發達國家,現在推廣到相當一部分不發達國家,肯雅、菲律賓這樣的國家都開始搞這一套, 所以我們必須開始考慮大資料背後的社會、經濟、更加廣泛的利益。

(責任編輯:施柏鵬)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.