資料倉儲中資料粒度

來源:互聯網
上載者:User

    粒度問題是設計資料倉儲的一個最重要方面。粒度是指資料倉儲的資料單位中儲存資料的細化或綜合程度的層級。細化程度越高,粒度級就越小;相反,細化程度越低,粒度級就越大。確定粒度是資料倉儲開發人員需要面對的一個重要的設計問題。如果資料倉儲的粒度確定合理,設計和實現中的其餘方面就可以非常順暢地進行;反之,如果粒度確定的不合理就會是其他所有方面都很難進行。粒度對於資料倉儲體繫結構設計人員來說,非常重要,因為粒度會影響到那些依賴於從中擷取資料的資料倉儲的所有環境。

    粒度的主要問題是使其處於一個合適的層級,粒度的層級既不能太高也不能太低。低的粒度層級能提供詳盡的資料,但要佔用較多的儲存空間和需要較長的查詢時間。高的粒度層級能快速方便的進行查詢,但不能提供過細的資料。在選擇合適粒度層級的過程中,要結合業務的特點,分析的類型、依據的總的儲存空間的等因素綜合考慮。

資料倉儲中的粒度模型    所謂粒度,指的是資料倉儲中資料單元的細節程度或綜合程度的層級,在資料倉儲中記錄資料或對資料進行綜合時所使用的時間段參數(《資料倉儲和資料採礦》)。它決定了資料倉儲中所儲存的資料單元在時間上的詳細程度和層級。    粒度可分為兩種形式,第一種形式的粒度是對資料倉儲中資料綜合程度高低的一個度量,它及影響到資料倉儲中資料量的多少,也能影響到資料倉儲所能回答的訊問的種類。粒度越小,則詳細程度越高,綜合程度就越低,回答訊問的種類越多;相反,粒度越大,則向此程度越低,綜合程度越高,回答訊問的種類也就越少。另一種形式的粒度是樣本資料庫粒度,與同城意義下的粒度不同。樣本資料庫粒度界別不是根據綜合層序的不同來劃分的,而是根據採樣率的高低來劃分的。採樣粒度不同的樣本資料庫可以具有相同的綜合層級。樣本資料庫一般是以一定的樣本率從細節檔案資料或輕度綜合資料中抽取的一個自己。它是根據一定需求從資料來源中獲得一個樣本,因而也就不能回答一些細節性的問題。樣本資料庫的抽取可以按照資料的重要程度不同來進行。                                                                          文章整理於網路,如有錯誤,歡迎指出。

相關文章

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.