--Sybase VLDS(Very Large Data Store)解決方案及成功案例
海量資料是當今商業面對的一個現實
隨著資訊化程度的提高,資料已超出它原始的範疇,它包含各種業務操作資料、報表統計資料、辦公文檔、電子郵件、超文本、表格、報告以及圖片、音視頻等各種資料資訊。人們用海量資料來形容巨大的、空前浩瀚的、還在不斷增長的資料。
海量資料是當今商業面對的一個現實。任何一個企業都在面對其企業資料庫由於規模擴大產生的沉重負擔,提高海量資料訪問能力和業務分析能力的要求也變得越來越迫切。
· 資料爆炸。如今,需要企業進行管理的資料正在以指數級速度增長。分析人員發現,公司收集、儲存和分析的有關客戶、財務、產品和運營的資料,其增長率達125% 之多。各個方面的因素導致了資料的爆炸,如:網路應用增加了資料的增長速度;監控點擊流需要儲存與以往相比越來越多的不同的資料類型;多媒體資料也增加了對儲存的要求;我們儲存並管理的不僅僅是數字和文字,還有視頻、音頻、映像、臨時資料以及更多內容,這些資料的增長速度也在不斷地上升;資料倉儲和資料採礦應用鼓勵企業儲存區越來越長的時間段內越來越多的資料。這些實際情況導致的結果就是資料大量增加。
· 法規方面的要求。在會計醜聞的喚醒下,立法者和決策人施加了嚴格的新要求,幾乎影響到全球各家大型企業。法案要求公用公司遵守嚴格的金融記錄保持與報告法規。如果公司不能及時、可靠地訪問準確的財務資訊,那麼它們將面臨罰款、調查、起訴、甚至更嚴厲的股東信心下降的威脅。這要求公司能提供對更多資料的不間斷訪問能力並進行更多的分析,這必然會延長資料的維護周期,增加資料容量。
· 非結構化資料應用的需要。結構化資料是指諸如企業財務賬目、客戶資訊、業務操作資料等具有明顯結構化特性的資料。非結構化資料包括掃描文檔映像、傳真、照片、電腦組建報告、文書處理文檔、試算表、簡報、語音和視頻片段等。根據業界分析報告,非結構化資料佔有整個資訊量的85%以上,資料量及其龐大,是資訊資源管理的核心。同樣,企業需要對非結構化資料進行儲存、檢索、過濾、提取、挖掘、分析等各方面應用。
· 曆史資料歸檔與訪問的需要。一般來說業務系統是用來處理業務交易的,為了使這些關鍵業務系統的效能不會受到嚴重影響,往往業務系統只存放短周期內的業務交易資料,大量的曆史資料都被備份到磁帶上,或者被轉移到其他存放裝置上靜態儲存,當對它們運行SQL 查詢時再把它們從檔案環境中恢複出來。但是隨著企業對資料的重要性越來越重視,以及資料分析、資料採礦的應用逐漸普及,曆史資料的訪問將變得重要、頻繁和直接。曆史資料的不斷積累,也對海量資料的儲存、管理和訪問提出了新的需求。
· 資料整合與資料分析的需要。當前,公司資訊的存放具有資料結構多元化、儲存異構化的特點,企業的資料可能儲存在傳統系統、大型資料倉儲或具有計費、訂購、製造、分銷或其他功能的資料運營孤島上,因此會給訪問帶來極大的困難。資料整合與資料分析已經成為資訊管理技術的應用熱點。只有在有效資料整合基礎上,才能消除資訊孤島,降低有效資訊擷取的難度,通過對整合資料的分析和加工來獲得制定策略所必需的資訊依據。
傳統的關係型資料庫面臨更大的挑戰
傳統的關係型資料庫在電腦資料管理的發展史上是一個重要的裡程碑,這種資料庫具有資料結構化、最低冗餘度、較高的程式與資料獨立性、易於擴充、易於編製應用程式等優點,目前較大的資訊系統都是建立在結構化資料庫設計之上的。
然而,隨著越來越多企業海量資料的產生,特別是Internet和Intranet技術的發展,使得非結構化資料的應用日趨擴大,以及對海量資料快速存取、有效備份恢複機制、即時資料分析等等的需求,傳統的關聯式資料庫從1970年發展至今,雖功能日趨完善,但在應對海量資料處理上仍有許多不足。
缺乏對海量資料的快速存取能力
當你的競爭者在周五下午宣布了新的價格體系,你所在機構的總裁在周一早晨之前想要一份對你公司有何影響的分析報告,業務分析員想做的最後一件事情是花費20分鐘等待整個表掃描和多表串連來獲得“如果……會怎麼樣”的查詢。因為沒有經過最佳化的查詢會耗費很長的時間;進行查詢的使用者,其需求需要按計劃執行;多個查詢會競爭CPU資源;並且業務需求經常被改變。所有這些都要求不斷調整最佳化資料庫或甚至重新設計資料庫。
缺乏海量資料訪問靈活性
在現實情況中,使用者在查詢時希望具有極大的靈活性。使用者可以提任何問題,可以針對任何資料提問題,可以在任何時間提問題。無論提的是什麼問題,都能快速得到回答。傳統的資料庫不能夠提供靈活的解決方案,不能對隨機性的查詢做出快速響應,因為它需要等待系統管理人員對特殊查詢進行調優,這導致很多公司不具備這種快速反應能力。
對非結構化資料處理能力薄弱
傳統的關係型資料庫對資料類型的處理只局限於數字、字元等,對多媒體資訊的處理只是停留在簡單的二進位代碼檔案的儲存。然而,隨著使用者應用需求的提高、硬體技術的發展和Intranet/Internet提供的多彩的多媒體交流方式,使用者對多媒體處理的要求從簡單的儲存上升為識別、檢索和深入加工,因此如何處理占資訊總量85%的聲音、映像、時間序列訊號和視頻、E-mail等複雜資料類型,是很多資料庫廠家正面臨的問題。
海量資料導致儲存成本、維護管理成本不斷增加
大型企業都面臨著業務和IT投入的壓力,與以往相比,系統的效能/價格比更加受關注。GIGA研究表明,ROI(投資報酬率)越來越受到重視。海量資料使得企業因為儲存大量線上資料以及資料膨脹而需要在儲存硬體上大量投資,雖然存放裝置的成本在下降,但儲存的總體成本卻在不斷增加,並且正在成為最大的一筆IT開支之一。另一方面,海量資料使DBA陷入持續的資料庫管理維護工作當中。