標籤:瞭解 測試環境 延遲 包含 png orm 進程 ado for
大資料是一個大的資料集合,通過傳統的計算技術無法進行處理。這些資料集的測試需要使用各種工具、技術和架構進行處理。大資料涉及資料建立、儲存、檢索、分析,而且它在數量、多樣性、速度方法都很出色。
什麼是大資料?
大資料是一個大的資料集合,通過傳統的計算技術無法進行處理。這些資料集的測試需要使用各種工具、技術和架構進行處理。大資料涉及資料建立、儲存、檢索、分析,而且它在數量、多樣性、速度方法都很出色。
大資料測試類型
測試大資料應用程式更多的是驗證其資料處理,而不是測試軟體產品的個別功能。當涉及到大資料測試時,效能和功能測試是關鍵。
在大資料測試中,QA工程師使用叢集和其他組件來驗證對TB級資料的成功處理。因為處理非常快,所以它需要高水平的測試技能。處理可以是三種類型:批量、即時、互動。
與此同時,資料品質也是大資料測試的一個重要因素。在測試應用程式之前,有必要檢查資料的品質,並將其視為資料庫測試的一部分。它涉及檢查各種欄位,如一致性,準確性,重複,一致性,有效性,資料完整性等。
大資料測試步驟
給出了測試大資料應用程式階段的進階概述:
大資料測試實現被分成三個步。
Step 1:資料階段驗證
大資料測試的第一步,也稱作pre-hadoop階段該過程包括如下驗證:
? 來自各方面的資料資源應該被驗證,來確保正確的資料被載入進系統
? 將來源資料與推送到Hadoop系統中的資料進行比較,以確保它們匹配
? 驗證正確的資料被提取並被載入到HDFS正確的位置
該階段可以使用工具Talend或Datameer,進行資料階段驗證。
Step 2:"MapReduce"驗證
大資料測試的第二步是MapReduce的驗證。在這個階段,測試者在每個節點上進行商務邏輯驗證,然後在運行多個節點後驗證它們,確保如下操作的正確性:
? Map與Reduce進程正常工作
? 在資料上實施資料彙總或隔離規則
? 產生索引值對
? 在執行Map和Reduce進程後驗證資料
Step 3:輸出階段驗證
大資料測試的最後或第三階段是輸出驗證過程。產生輸出資料檔案,同時把檔案移到一個EDW(Enterprise Data Warehouse:企業資料倉儲)中或著把檔案移動到任何其他基於需求的系統中。在第三階段的活動包括:
? 檢查轉換(Transformation)規則被正確應用
? 檢查資料完整性和成功的資料載入到目標系統中
? 通過將目標資料與HDFS檔案系統資料進行比較來檢查沒有資料損毀
架構測試
Hadoop處理大量的資料,並且是非常耗費資源的。因此,架構測試對於確保您的大資料項目的成功至關重要。系統設計不當或設計不當可能導致效能下降,系統不能滿足要求。至少,效能和容錯移轉測試服務應該在Hadoop環境中完成。
效能測試包括測試作業完成時間,記憶體使用量率,資料輸送量和類似的系統指標。而容錯移轉測試服務的動機是為了驗證在資料節點發生故障的情況下資料處理是否無縫地發生
效能測試
大資料效能測試包括兩個主要的行動
資料擷取??和整個過程:在這個階段,測試人員驗證快速系統如何消耗來自各種資料來源的資料。測試涉及識別隊列在給定時間架構內可以處理的不同訊息。它還包括如何快速將資料插入到底層資料存放區中,例如插入到Mongo和Cassandra資料庫中。
資料處理:它涉及驗證執行查詢或映射縮減作業的速度。它還包括在底層資料存放區填充到資料集中時獨立測試資料處理。例如,在底層HDFS上運行Map Reduce作業
子組件效能:這些系統由多個組件組成,而且必須單獨測試每個組件。例如,訊息的索引和消費速度有多快,mapreduce作業,查詢效能,搜尋等
效能測試方法
大資料應用效能測試涉及大量結構化和非結構化資料的測試,並且需要特定的測試方法來測試這些海量資料。
效能測試按此順序執行
? 過程從設定要測試效能的大資料群集開始
? 確定和設計相應的工作量
? 準備個人客戶(自訂指令碼建立)
? 執行測試並分析結果(如果不滿足目標,則調整組件並重新執行)
? 最佳配置
效能測試的參數
效能測試需要驗證的各種參數
? 資料存放區:資料如何儲存在不同的節點中
? 提交日誌:允許增長的提交日誌有多大
? 並發性:有多少個線程可以執行寫入和讀取操作
? 緩衝:調整緩衝設定“行緩衝”和“金鑰快取”。
? 逾時:連線逾時值,查詢逾時值等
? JVM參數:堆大小,GC收集演算法等
? 地圖降低效能:排序,合并等
? 訊息佇列:訊息速率,大小等
測試環境需求
測試環境需求取決於您正在測試的應用程式的類型。對於大資料測試,測試環境應該包含
? 它應該有足夠的空間來儲存和處理大量的資料
? 它應該有分布式節點和資料的叢集
? 它應該有最低的CPU和記憶體利用率,以保持高效能
大資料測試面臨的挑戰
自動化
大資料的自動化測試需要具有技術專長的人員。另外,自動化工具不具備處理測試過程中出現的意外問題的能力
虛擬化
這是測試的一個不可缺少的階段。虛擬機器延遲會在即時大資料測試中造成計時問題。在大資料中管理映像也是一件麻煩事。
大資料集
? 需要驗證更多的資料,並需要更快地完成
? 需要自動化測試工作
? 需要能夠跨不同的平台進行測試
效能測試挑戰
? 多種技術組合:每個子組件屬於不同的技術,需要單獨測試
? 停用特定工具:沒有一個工具可以執行端到端的測試。例如,NoSQL可能不適合訊息佇列
? 測試指令碼:需要高度的指令碼來設計測試情境和測試案例
? 測試環境:資料量大,需要特殊的測試環境
? 監控解決方案:存在有限的解決方案,可以監控整個環境
? 診斷解決方案:需要定製解決方案來深入瞭解效能瓶頸地區
概要
? 隨著資料工程和資料分析技術的不斷進步,大資料測試是不可避免的。
? 大資料處理可以是批處理,即時或互動式處理
? 測試大資料應用程式的3個階段是
資料分級驗證
“MapReduce”驗證
輸出驗證階段
? 架構測試是大資料測試的重要階段,因為設計不佳的系統可能會導致前所未有的錯誤和效能下降
? 大資料的效能測試包括驗證
資料輸送量
資料處理
子組件效能
? 大資料測試與傳統資料測試在資料,基礎架構和驗證工具方面有很大的不同
? 大資料測試挑戰包括虛擬化,測試自動化和處理大型資料集。大資料應用程式的效能測試也是一個問題。
大資料測試類型&大資料測試步驟