「大資料100分」首場交流:資料處理 「去貴族化」+機器可讀新聞

來源:互聯網
上載者:User

[大資料100分]

主講人:白碩

主持人:趙國棟

承辦:中關村大資料產業聯盟

中關村大資料產業聯盟特別邀請白老師擔綱首期「大資料100分」論壇主講嘉賓!

白碩老師是上海證交所總工程師,北大電腦博士、數學系博士後。 兼任中科院計算所、資訊工程研究所、中國科學院大學博士生導師。 還擔任中國中文資訊學會常務理事,全國金融標準化委員會證券分委員會副主任委員。 白老師研究和工作領域橫跨學術、產業、資本,對大資料方面的研究既處在實踐前沿又具備理論高度。

以下為交流實況全文,中間穿插部分專家與白老師的互動:

很榮幸同大家進行「大資料100分」首場交流。 我作為一個曾經的學者和現任的金融機構技術主管,從我們行業的需求角度,結合我個人的專業背景,談一點個人對大資料的粗淺體會。

一、大資料不等於資料大,誰也沒有資格壟斷大資料概念的定義權

有的人會說,你有多少資料? 如果沒有P量級的資料,甭跟我談大資料。 這種觀點很有代表性,不僅自己有P量級資料的互聯網公司、運營商這樣說,一些學者也這樣說。

(我們還沒混進P階層)

我的觀點是,大資料不等於資料大。 資料大,但沒有與這個體量相稱的處理手段、應用需求乃至商業模式,資料的價值得不到充分的發揮,那是空有其大。 資料大,就算你也有相應的自我實現資料價值的手段,但這手段如果不能輻射到資料不算太大(比如,規模在1T到1P之間)的領域,那也只是孤芳自賞。 我們人類社會在進步中,固然需要不斷挑戰資料處理極限,在挑戰極限中發展新技術為自己所用,做這些事情的人和機構值得我們敬佩,這是肯定的。 但他們的價值遠不限於此。 他們被挑戰極限逼出來的成果,可以輻射得更遠。

如果既能不斷衝擊極限(「頂天」),也能普遍降低非極限情況下資料處理的性價比(「立地」),這才是真正有價值的大資料技術。 所以現在,大資料不僅是P量級的巨頭們在談,更廣大的IT應用群體也在談。 誰也沒有資格壟斷大資料概念的定義權。

二、資料處理領域的「貴族化」與「去貴族化」

我在自身工作當中感觸最深的,就是資料處理領域的「貴族化」。 我從大資料熱潮中獲益最多的,就是資料處理領域的「去貴族化」。 大資料的「普遍降低非極限情況下資料處理的性價比」這一特點,就是我們去貴族化的利器。

什麼是「去貴族化」? 這是一個籠統的說法。 IT圈裡很多人指名道姓地去XXX化,這雖然可以理解,但要看到具體的公司也會變化、也會進步。 我們揚棄的實際上是一類貴族化的解決方案,所以我比較偏愛「去貴族化」的說法。

那,什麼是「貴族化」呢? 依我看,貴族化的解決方案有三個最主要的特點:重、滯、貴。

先看「重」,這裡「重」不是指物理重量,而是指一種笨重的堆砌。 給你10000個功能,你可能用不了100個,但這10000個功能卻逼迫你走上一條不歸路:你的軟體和硬體無法分離;存儲功能和計算功能無法分離,即時處理功能和歷史分析功能無法分離, 非結構化資料處理功能只能削足適履地轉換成結構化資料、再用結構化資料處理引擎處理。

互動:@顏陽:普恵金融,普惠資料。 降維處理

再看「滯」,這裡主要指這類解決方案在架構上的巨大惰性。 面對多變的業務需求和日新月異的服務模式,它難以快速掉頭,快速跟進。 一方面,使用者之間被License彼此隔絕,很多共性的東西無法共同積累和共用;另一方面,由於平臺的封閉性,解決平臺相關的缺陷和問題的回應速度因缺乏競爭激勵而顯得緩慢低效。

互動:@趙國棟:就像笨重的word

最後看「貴」,顧名思義,採購成本昂貴、維護成本昂貴、平臺遷移成本更加昂貴。 這還不算,當解決方案從License模式向雲模式演進時,還會遇到既得利益者的頑固抵制。 這些昂貴的成本,當然最後都要落在使用者身上。 但是在過去,使用者在安全運行的巨大壓力下,只能在「這種」貴族化和「那種」貴族化中間選擇,只能用貴族化的解決方案來彰顯程式正義。

互動:@顏陽:Ios 榜樣,windows另一榜樣

一個單個的使用者單位,要想做出去貴族化的技術決策,所面臨的政治壓力可想而知。

現在,大資料來了。 在資料體量上衝擊極限的先驅者們,首先意識到了「貴族化」解決方案的無法忍受性,開創了去貴族化的資料處理解決方案的先河。

互動: @顏陽:08年我們首嘗green plum,走出了資料倉儲的低價路,好累

他們用輕型化的通用硬體平臺,開源化的作業系統和草根化的平臺架構一起,構成了去貴族化解決方案的核心內容,為我們樹立了去貴族化的典範。

隨之而來的是,對於包括我們在內的更廣大的使用者來說,多了「去貴族化」這個選項,多了用追隨大資料先驅者們的實踐來彰顯程式正義這個選項。 這是一個了不起的進步,這個進步在過去「貴族化」解決方案密集的金融證券行業中引起的變革,意義將是深遠的。

提問:劉東華:白老師,交易所對大資料的作用主要有哪些典型案例?

去貴族化的過程,對於很多已經上了貴族化道兒的單位來說,是一個痛苦而漫長的過程。 不僅要面對技術上的認識分歧,甚至也要面臨組織架構的重新調整。

互動:@志剛:需要名族品牌的興起,在模仿中創新,在創新中發展

我們的大資料應用,主要在監管這一塊。 簡單說就是抓壞人。

當然我們當初建設企業級資料倉儲和資料採礦平臺的時候,提的是服務監管,服務創新,服務投資者教育,服務資訊經營。 著名的TopView就是資料倉儲的應用成果。

互動:@劉東華:哈哈,給我們講講怎麼抓壞人

哈哈,抓老鼠倉肯定是其中很重要的一個應用了。 不過我真的不是很瞭解。 也沒有被授權講這一塊。 可以在一項業務創新推出之前,類比各種極端場景進行測算。 可以說,把資料倉儲這樣的資料基礎設施用於業務,我們走的還是比較早的,但也是不得不貴族化的。 是大資料給了我們去貴族化的希望和信心。

提問:@趙國棟:白老師,跨領域關聯如何理解?

我覺得,從技術架構上去貴族化,只是大資料潮流的一個很小的側面,更大的影響在業務模式上。

以我們證券行業為例。 證券行業是一個密切依賴資訊技術和資訊服務的行業。 行情資料中斷幾分鐘,那是天大的事兒了。 賣方和買方資訊不對稱的消除,主要靠依法進行強制性資訊披露。 宏觀經濟的資訊,與資本市場有直接或間接關聯的基本面資訊,都如空氣和水一樣,是資本市場的玩家們須臾不能離開的。 還有更高級的,資訊本身也成了博弈的道具。

因此,行情和資訊,是證券行業資訊服務的兩大核心領域。 當然,交易所和監管機構還需要從非公開的交易資訊中尋找違規線索,這是面向監管的資訊服務。 總而言之,證券行業對資訊技術和資訊服務的依賴,比許多其他行業要深得多,也重得多。

我們使用TD超過10年,目前正面臨一個選擇點。 輕型化是必然的,但如何輕型化有不同的選項。 經常有搞資料採礦、機器學習、商業智慧學術研究的朋友問我,你那能不能弄點資料啊,我這有啥啥啥技術,指標有多麼多麼牛。 我很敬佩能把技術指標搞得很牛的人,但是把一項通用(領域無關)技術引入一個陌生的領域,似乎不是這個玩法,不是說你有了技術,就萬事俱備、只欠資料了。

實際上,從全球視角看,任何一個成熟的應用領域,作為整體,都不會對通用技術麻木不仁到這個程度,在你提出這個要求之前,人家早就會過不知多少撥提出類似要求的人了。 在人家自己的資料上,能嘗試的新鮮花樣都不知道嘗試過多少遍了。 你要證明你的價值,必須建立在這個基礎上,才有對話和合作的可能。 實際上,不要說不懂領域只懂技術。 如今只懂領域,也已經不夠了。 在當前形勢下,只有跨界,才能走得更遠。 大資料的價值,很大一部分產生在資料跨界關聯所引發的「化學反應」之中。

什麼叫跨界關聯呢? 我理解,就是人們在兩個相對獨立的活動空間產生的資料,通過某種媒介,關聯在了一起。 假如沒有這個媒介,兩套資料是各自獨立的,但是有了這個媒介,兩套資料就形成了新的結構,新的語義,新的價值。 比如殺毒。 如果僅僅局限于殺毒,這個花樣已經被玩得差不多窮盡了,連雲查殺都出來了。 但是如果把雲查殺的資料當做網路訪問日誌,和網路流量變現結合起來,就賦予了殺毒以全新的涵義。

互動:@趙國棟:多維!

再比如電子商務,如果僅僅是為電子商務提供支付手段,那還停留在電子商務的附屬品階段。 但是如果把電子商務的支付資料轉而用作互聯網金融的信用手段,這就實現了跨界的質變,不再是拆東牆補西牆,而是東牆西牆全活了,形成了互補、互頂的生態,形成了所謂的「降維攻擊」。

所以,那些尋求資本市場大資料挑戰的技術專家們,我們的合作點不在我出資料你出技術,而在你幫我找到讓兩個領域的資料之間能產生化學反應、產生全新生態的跨界關聯模式。 我們翹首以待這樣的專家橫空出世。 當然我說的兩個領域,不限於兩個傳統領域。 可以一個是傳統領域,另一個是全新打造的新潮領域。

我一直在想,如果有哪一項服務能彙聚全資本市場的流量,如果有哪一項服務能沉澱全資本市場玩家的行為資料,如果有哪一項服務能在傳統的行情和資訊服務之外另闢蹊徑並且與傳統服務產生跨界關聯的「化學反應」, 我們這個行業的業態將會隨之發生顛覆性的變化。

三、「機器可讀新聞」

在諸多面向資本市場的新興服務形態中,我最關注的,是糅合了文本挖掘、情感分析技術的「機器可讀新聞」。 我想就這個問題與大家展開來分享一下。

去年年中,美國股市出現了一個奇葩的事情:當駭客黑掉美聯社網站,發佈白宮被炸、奧巴馬受傷的消息後,美國股市瞬間跳水,反應時間在秒級。

使我感到驚奇的不是駭客的手法有多高明,而是這反應時間怎麼會這麼短。 很難想像人肉對這個消息能有如此迅速的反應。 在這個反應鏈條中起關鍵作用的就是這個「機器可讀新聞」。

所謂機器可讀新聞,其原理是,對原始新聞文本進行自動化的分析,在一定條件滿足時,就形成一條攜帶預先定義好與這種條件相匹配的電子標籤資料。 自動化程式交易系統可以自動識別這樣的電子標籤資料,並在資本市場上做出回應動作。 這意味著,機器不僅讀得懂行情資料,也在一定程度上讀得懂插入了電子標籤的(基本面)文本資訊資料。 當然,他們的系統大多是針對英文的,而且判斷的邏輯目前還稍嫌簡單粗暴,否則也不會有這樣的烏龍了。

但是公平地說,這是一個巨大的機會,特別是,針對中文還沒有這樣的東西,中國的資本市場還處在新興加轉軌的階段,資訊不對稱還很普遍地存在,用機器代替人肉來扒皮有很高的價值,所以機器可讀新聞這玩意兒,誰先搞出來, 誰就徹徹底底佔有了先機。

特別是,以互聯網金融為代表的普惠金融,必然地會涉及更加草根化的公司的直接融資需求,在這個領域資訊不對稱十分嚴重。 用機器可讀新聞來打破資訊不對稱,説明投資者更好地掌握自己所投資的公司的全面資訊,那可是如虎添翼了。

提問:@柚子:那和爬蟲技術有什麼區別?

爬蟲不看內容,但屬於基礎設施。 爬回來的東西在瞬間精選,不僅判斷跟啥相關,還判斷對相關投資決策而言是正面還是負面,這才是機器可讀新聞。

其實,標籤的潛在啟示作用比其字面啟示作用更大。 今天大家盛傳東莞掃黃的資訊意味著什麼股看多什麼股看空,這就是標籤沿價值鏈的傳播。 有了好的傳播模型,標籤的價值會更加超出預期。

機器可讀新聞作為資訊服務,單獨看已經有了這樣的機會,與資本市場傳統的資訊服務結合起來看就更加不同了。 誰訂閱了什麼標籤,誰看了哪檔股票的行情,誰在什麼產品的什麼價位上發表了哪些實質性的評價和建議...... 如果借助一定的媒介實現了這些跨界資料的集成,這種互聯網打法一定會顛覆我們這個行業資訊服務的既有業態。

互動:@趙國棟:爬蟲先爬,然後「智蟲」解讀! 標籤鏈!!

我注意到,今天傳播的段子中,既有掃黃影響到桑拿,也有桑拿影響到供水。 這是典型的標籤沿價值鏈傳播。

提問:@雨醉天堂:請問白老師,行為金融學和大資料收集分析算不算這個領域

算,過去量化投資決策的很多事情,不是都由電腦來做了嗎? 國內已經有一些IT公司試圖進入這一領域(畫外音:具體是哪家,大家自己發動個人智慧去吧,蘊含了股市中的機會哦)

兩個方向:結構化資料->新聞文本 vs. 新聞文本->結構化資料。 前者是資料新聞,後者是機器可讀新聞。 資料新聞是新聞的撰寫流程自動化、表現的資料化,機器可讀新聞是實現文章這種非結構化資料的結構化。

互動:@徐琪:「機器可讀新聞」無疑是人類努力開發的一個方向,但是白老師所提到的股市瞬間下跌還是和這沒有關聯。

@白碩:

三種可能的情況:(1)有人值守在美聯社的twitter帳號上;(2)有自動化的watchdog一頭盯在包括美聯社twitter帳號在內的一批資訊源上,一頭連在自動化程式交易軟體上 ;(3)有協力廠商服務的watchdog一頭盯在一批資訊源上,一頭把轉換成的機器可讀新聞喂給其客戶的自動化程式交易軟體。 不排除(1)和(2)同時作出了反應, (3)這種服務形態,搭架子容易,有好的品質難, 但是絕對是方向。

@徐琪

美國的交易系統至今還是有「Specialist」或者「Maket Maker」人為操作,所以瞬間的「Stop」是一切的根源。 大資料對於證券市場的核心價值在於瞬間的參與者行為可以瞬間視覺化判斷

提問:@郝鵬洲:白老師,目前華爾街基於社交網路所做的模型是否屬於機器可讀新聞?

@白碩:

是這個大範疇裡的,文本挖掘、情感分析是技術點,機器可讀新聞是服務形態。

四、我對大資料聯盟的使命的看法

最後針對我們大資料產業聯盟的mission,談點個人的想法。 資料互通有無,乃至形成公平計價的資料共同市場的基本前提是,資料的使用和傳播是受控的,資料使用和傳播的基本環境是可信的。 我們也有很多資料,有些資料對市場開展服務很有價值,比如市場重播環境,是驗證演算法和量化交易策略的試驗床。 世界上做這個服務的交易所很多,我們也可以提供。 但是,在我們考慮提供這個服務的時候,就遇到一個兩難困境。 我們不希望我們的專屬資料被使用者擴散出去,使用者也不希望他們的核心策略留在我們的環境裡。

如何提供一個既能照顧到各個參與方之間「合理地互不信任」的關切,又能有效共用資料的可信機制,確實是我們面臨的一個共同的挑戰。

我沒有成熟解決方案,但個人覺得可以做一個不一定恰當的類比:比特幣的出發點也是建立在每一個個體都「合理地互不信任」的前提之上,但整體上卻能讓大多數參與者信任。 所以比特幣的做法可能是我們放心實現共用的重要借鑒。

原始資料只能加密送入這個P2P網路且只能在這個P2P網路內部流動,流動的痕跡全部可追蹤。 只有被授權的匯總資料才能以解密方式流出這個P2P網路...... 等等,這些設想如能實現,可望給資料共用打開一扇大門,當然電子資料防擴散沒那麼簡單,難度肯定不小。

希望有志之士能大力促成這件事情。

整理:@柚子 @小草

(責任編輯:蒙遺善)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.