資料倉儲:資料倉儲是一個支援管理決策的資料集合。資料是面向主題的、整合的、不易丟失的並且是時間變數。資料倉儲是所有作業環境和外部資料源的快照集合。它並不需要非常精確,因為它必須在特定的時間基礎上從作業環境中提取出來。
資料集市:資料倉儲只限於單個主題的地區,例如顧客、部門、地點等。資料集市在從資料倉儲擷取資料時可以依賴於資料倉儲,或者當它們從作業系統中擷取資料時就不依賴於資料倉儲。
事實:事實是資料倉儲中的資訊單元,也是多維空間中的一個單元,受分析單元的限制。事實儲存於一張表中(當使用關聯式資料庫時)或者是多維資料庫中的一個單元。每個事實包括關於事實(銷售額,銷售量,成本,毛利,毛利率等)的基本資料,並且與維度相關。在某些情況下,當所有的必要資訊都儲存於維度中時,單純的事實出現就是對於資料倉儲足夠的資訊。我們稍後討論有關缺無事實的情況。
維度:維度是用來反映業務的一類屬性,這類屬性的集合構成一個維度。例如,某個地理維度可能包括國家、地區、省以及城市的層級。一個時間維度可能包括年、季、月、周、日的層級。
層級:維度階層的一個元素。層級描述了資料的階層,從資料的最高(匯總程度最大)層級直到最低(最詳細)層級(如大分類-中分類-小分類-細分類)。層級僅存在於維度內。層級基於維度資料表中的列或維度中的成員屬性。
資料清洗:對資料倉儲系統無用的或者不符合資料格式規範的資料稱之為髒資料。清洗的過程就是清除髒資料的過程。
資料擷取:資料倉儲系統中後端處理的一部分。資料擷取過程是指從業務系統中收集與資料倉儲各指標有關的資料。
資料轉換:解釋業務資料並修改其內容,使之符合資料倉儲資料格式規範,並放入資料倉儲的資料存放區介質中。資料轉換包括資料存放區格式的轉換以及資料表示符的轉換(如產品代碼到產品名稱的轉換)。
線上分析處理(OLAP Online Analytical Processing ):OLAP是一種多維分析技術,用來滿足決策使用者在大量的業務資料中,從多角度探索商務活動的規律性、市場的運作趨勢的分析需求,並輔助他們進行戰略發展決策的制定。按照資料的儲存方式分OLAP又分為ROLAP、MOLAP和HOLAP。在客戶資訊資料倉儲CCDW的資料環境下,OLAP提供上鑽、下鑽、切片、旋轉等線上分析機制。完成的功能包括多角度即時查詢、簡單的資料分析,並輔之於各種圖形展示分析結果。
資料採礦:在資料倉儲的資料中發現新資訊的過程被稱為資料採礦,這些新資訊不會從作業系統中獲得。
切片:一種用來在資料倉儲中將一個維度中的分析空間限制為資料子集的技術。
切塊:一種用來在資料倉儲中將多個維度中的分析空間限制為資料子集的技術。
星型模式:是資料倉儲應用程式的最佳設計模式。它的命名是因其在物理上表現為中心實體,典型內容包括指標資料、輻射資料,通常是有助於瀏覽和聚集指標資料的維度。星形圖模型得到的結果常常是查詢式資料結構,能夠為快速響應使用者的查詢要求提供最優的資料結構。星形圖還常常產生一種包含維度資料和指標資料的兩層模型。
雪花模式:指一種擴充的星形圖。星形圖通常產生一個兩層結構,即只有維度和指標,雪花圖產生了附加層。實際資料倉儲系統建設過程中,通常只擴充三層:維度(維度實體)、指標(指標實體)和相關的描述資料(類目細節實體)超過三層的雪花圖模型在資料倉儲系統中應該避免。因為它們開始像更傾向於支援OLTP 應用程式的規格化結構,而不是為資料倉儲和OLAP應用程式而最佳化的非格式化結構。
粒度:粒度將直接決定所構建倉庫系統能夠提供決策支援的細節層級。粒度越高表示倉庫中的資料較粗,反之,較細。粒度是與具體指標相關的,具體表現在描述此指標的某些可分層次維的維值上。例如,時間維度,時間可以分成年、季、月、周、日等。
資料倉儲模型中所儲存的資料的粒度將對資訊系統的多方面產生影響。事實表中以各種維度什麼層次作為最細粒度,將決定儲存的資料能否滿足資訊分析的功能需求,而粒度的層次劃分、以及彙總表中粒度的選擇將直接影響查詢的回應時間。
度量值:在Cube中,度量值是一組值,這些值基於Cube的事實資料表中的一 列,而且通常為數字。此外,度量值是所分析的Cube的中心值。即,度量值是終端使用者瀏覽Cube時重點查看的數字資料(如銷售、毛利、成本)。所選擇的度量值取決於終端使用者所請求的資訊類型。