Greenplum是一種基於postgresql的分散式資料庫。其採用shared nothing架構(MPP),主機,作業系統,記憶體,儲存都是自我控制的,不存在共用。也就是每個節點都是一個單獨的資料庫。節點之間的資訊互動是通過 節點互連網絡實現。通過將資料分布到多個節點上來實現規模資料的儲存,通過並行查詢處理來提高查詢效能。
這個怎麼感覺就像是把小資料庫組織起來,聯合成一個大型資料庫。將資料分區,儲存在每個節點上。每個節點僅查詢自己的資料。所得到的結果再經過主節點處理得到最終結果。通過增加節點數目達到系統線性擴充。
總結—新型MPP資料庫的價值
技術:基於列儲存+MPP架構的新型資料庫在核心技術上跟傳統資料庫有巨大差別,是為面向結構化資料分析設計開發的,能夠有效處理PB層級的資料量。在技術上為很多行業使用者解決了資料處理效能問題。
使用者價值:新型資料庫是運行在x-86 PC伺服器之上的,可以大大降低資料處理的成本(1個數量級)。
未來趨勢:新型資料庫將逐步與Hadoop生態系統結合混搭使用,用MPP處理PB層級的、高品質的結構化資料,同時為應用提供豐富的SQL和事務支援能力;用Hadoop實現半結構化、非結構化資料處理。這樣可同時滿足結構化、半結構化和非結構化資料的處理需求。
"大資料"關注的更多是使用者行為、群體趨勢、事件之間的相關性等,而不僅僅是過去的KPI,。這就對資料分析平台對資料的分析能力和效能提出了新的要求和挑戰。
MPP (Massively Parallel Processing),大規模平行處理系統,這樣的系統是由許多松耦合的處理單元組成的,要注意的是這裡指的是處理單元而不是處理器。每個單元內的 CPU都有自己私人的資源,如匯流排,記憶體,硬碟等。在每個單元內都有作業系統和管理資料庫的執行個體複本。這種結構最大的特點在於不共用資源。
MPP架構資料庫應具有的特徵:
● 任務並存執行;
● 資料分布式儲存(本地化);
● 分散式運算;
● 私人資源;
● 橫向擴充;
● Shared Nothing架構。