接下來,中國科學院資訊工程研究所副研究員王樹鵬為我們分享了「新型NoSQL大資料管理系統(BDMS)開發和使用交流」。 王樹鵬介紹說他接觸的專案多數是非互聯網的應用,比如安全、交通行業。 這些行業目前也面臨著大資料的考驗,但是當前很多流行的NoSQL資料庫對於他們來說並不適用,所以他們自主研發了一個NoSQL資料庫管理系統。
設計目標
系統具有高可擴充性:可通過增加節點線性
支援複雜資料類型統一存儲管理:結構化資料、半結構化資料及非結構化資料;文本資料、多媒體資料;針對多種類型業務資料進行統一組織管理和處理
支援多樣化的訪問類型,訪問介面標準化:檢索、統計分析、關聯處理及深入挖掘;需要對多種業務資料進行關聯綜合分析;提供標準的DDL、DML操作語法,支援JDBC、ODBC等操作介面;對資料檢索、統計、分析處理的即時性要求很高 ;檢索要求秒級回應;跨域檢索訪問
上圖是整個系統的框架,其中資料庫管理平臺的結構如下:
其中,可以通過管理引擎實現跨越資料管理。 對外可以提供相應的DDL介面、DML的介面以及開發介面。
系統主要特色
Share-Nothing的分散式存儲和計算架構
異構多來源資料的組織管理:實現了結構化資料、非結構化文本及非結構化多媒體的統一存儲管理
支援異構資料的統一SQL查詢:支援對於結構化資料、非結構化文本的檢索和分析,該檢索和分析操作都可以通過SQL進行實現
豐富的資料訪問和處理模式
高效的檢索機制
異構多副本存儲和恢復機制
跨域資料管理和檢索:支援跨域部署,可以在多個物理地點建立多個資料中心,在此之上可以支援資料在資料中心之間進行移動,並且可以支援對於位於不同地域的資料進行全域檢索和訪問
應用場景
海量結構化記錄管理
處理海量小文件管理和處理
面向異構資料的智慧搜尋和挖掘系統
成功案例
王樹鵬介紹說這個系統已經有了成功的應用案例,是國家某部委大資料管理專案。 這個系統的主要需求是:
大量資訊記錄,每天產生約40億條(約4TB);
資料保留備份副本,記錄資料保留半年;
可對資料進行精確、模糊查詢及統計,結果秒級回應;
可大量匯入結構化、非結構化資料;
最終達到的實施效果是:
採用分散式存儲架構(3個中繼資料節點+115個存儲節點);
資料規模超過5000億 ,查詢回應時間為秒級;
資料保留2個副本,保證資料安全;
系統可用容量約2PB。