我認為資料倉儲能夠通過三種方式來説明企業處理好資料問題:第一、在一個企業資料倉儲中,你按照主題領域來劃分組織你的資料,而這些主題領域往往是比較穩定的。
那些想要弄清楚「大資料」概念的組織需要做出一個選擇,是要採用傳統的資料倉儲概念和現有的資料倉儲架構,還是不熟越來越流行的開源Hadoop分散式處理平臺,或者使用這二者的結合。
那些想要從簡單的BI報表轉向深度資料採礦與預測分析的企業,第三種選項看上去是最靠譜的。 最近採訪了Forrester機構的高級資料管理分析師James Kobielus,他向我們分析了企業如何從快速變化的海量資料中獲取有價值的洞察力。 在本文中,您將瞭解到如何將現有資料倉儲架構的功能發揮到最大,Hadoop的優勢與劣勢,以及大資料時代中每一個資料倉儲廠商的發展等。
我看到了對大資料幾個不同的定義,請問Forrester是如何理解時下這一流行概念的?
James Kobielus:大資料事實上是引用極限可擴展分析的概念,「極限可擴展分析」這個詞在我看來是人們所說大資料的核心。 在某種程度上,是可以用三個V來概括的:Volume,資料量,可以使TB可以是PB甚至更大;Velocity,資料流程動速度,即時的獲取、轉換、查詢與訪問資料;Variety,資料的種類,包括各種結構化資料、 非結構化資料以及半結構化資料。 在分析方面,它是指所有能夠挖掘並獲取意義的資料集。
企業對資料倉儲概念應如何理解,才能夠搞清大資料的意義?
Kobielus:我認為資料倉儲能夠通過三種方式來説明企業處理好資料問題:第一、在一個企業資料倉儲中,你按照主題領域來劃分組織你的資料,而這些主題領域往往是比較穩定的,很長一段時間內都不會有任何改變, 比如資料倉儲架構中的OLAP cube,無論是物理上實現還是邏輯上的劃分。 換句話說,你的客戶資料在一個分區裡,財務資料在另一個,HR資料在第三個,以此類推。 這樣做的好處就是有利於你根據資料的關聯性來匹配下游的應用和使用者。 這就是資料倉儲資料庫管理的核心所在,也是通過資料倉儲來處理大資料的最重要的方式。
那麼第二種方式是什麼?
Kobielus:第二種方式是資料庫內分析的概念以及利用資料倉儲執行資料剖析、資料清洗以及資料採礦或者迴歸分析。 換句話說,就是做全套的資料採礦,但是是在資料倉儲內部執行。 這能夠説明你處理好資料,因為你使用資料採礦或者迴歸分析來從根本上瞭解資料集模式。 然後使用資料庫內挖掘(in-database data mining)來填充下游的分析資料集市,資料採礦和統計模型專業人士可以利用它將複雜的模式實現視覺化。 舉例來說,他們使用那些模式來辨別潛在的大客戶,這樣可以有限將他們設定為銷售的目標。 使用資料庫內分析以及像MapReduce這樣的技術,可以在一個高併發高擴展的資料庫架構內將資料採礦自動化。
資料庫內分析目前的應用狀況如何? 是不是每個企業都會用到它?
Kobielus:雖然不是所有人都會用到資料庫內分析技術,但是我們可以看到越來越多的企業已經對它產生了濃厚的興趣。 如果你的資料採礦規模很大,資料庫內分析已經被視為是最佳實踐。 眾所周知,目前大量實際生產中的資料倉儲都是面向操作型商業智慧的,它們更多的是在生產報表、執行即席查詢(ad hoc query)等,很少進行資料採礦。 但隨著資料量的增長,資料採礦的必要性也就凸現出來,而資料庫內分析的價值也將體現。 利用這一技術的目標就是加速並擴展你的資料採礦專案,同時根據一組通用的參考資料使所有的挖掘在資料倉儲中保持一致。
第三種最佳實踐是什麼?
Kobielus:第三就是將資料倉儲作為資料治理的核心,主資料可以合理地在資料倉儲中進行維護。 當你的資料倉儲作為資料治理與資料清洗的核心時,它能夠説明你搞清楚所有的資訊。 在整個企業架構中,也許會有成百上千個應用在向資料倉儲中添加資料。 資料就像洪水一般即時地流動,資料倉儲就是其中的樞紐,確保大資料集可靠恰當地用在下游的消費當中。
在大資料蔓延的今天,傳統的資料倉儲廠商都為客戶做了哪些努力?
Kobielus:Teradata、Oracle-Exadata、IBM-Netezza、HP-Vertica等等都在做大資料。 絕大一部分資料倉儲廠商能夠利用網格或者雲架構將他們的產品擴展到PB級別,而且也有絕大一部分能夠完成資料庫內分析,即在大規模並行資料倉儲網格或者雲環境中實現。 他們還可以在企業資料倉儲之內來支援資料轉化和資料清洗功能。
從現在大多數的媒體報導來看,處理大資料挑戰,Hadoop似乎是最好的辦法,您怎麼認為?
Kobielus:如果你想要處理好大資料,你需要企業資料倉儲和Hadoop的組合來完成。 我不同意人們把Hadoop看作是處理大資料問題唯一的救命稻草。 其實現在的企業資料倉儲基本上已經能夠做到Hadoop可以實現的任何功能。 Hadoop同傳統的企業資料倉儲系統相比,優勢就是開源,它是免費的,但是需要提醒企業使用者不要忽視開源Hadoop的許多無形維護費用。 可以說Hadoop是未來五到十年內下一代企業資料倉儲發展的最大動力。