標籤:style blog http io ar 使用 for sp 資料
應用情境:
本周在進行SIT,我協助僅有的一個測試妹妹對部分表進行資料品質驗證,第一步需要做的就是比對source與stage表的table definition 與 資料內容的一致性。
本項目使用的是oracle作為DW,source是oracle,sqlserver和xls.
沒有許可權建立database link, 測試們常用的方法是比對總行數,然後如果資料集太大的話,則抽樣比對,匯出資料到xls,然後使用beyondcompare進行比對。
如果值出現不同,則需要尋找出哪些行的值不同,最少要找出一條具體的值。
我測試的時候發現,手動去做這一些事也是挺費力的。就寫了以下的小工具進行輔助測試。
功能:
1.支援從oracle,sqlserver,xls中取資料進行比對。
2.對oracle與sqlserver,可採用傳統的比對,各自擷取一個readonly ,forward 胡datareader,逐行比對。點擊CompareData按鈕。
3.對於oracle與oracle的query比對,可以使用GetDiffRange按鈕,即二分尋找法進行比對。
測試資料如下:
在oracle的資料庫中執行以下代碼,產生測試資料。
declare i integer :=1;beginwhile i<110000 loopinsert into mytest(ID,RID,NAME) VALUES(mysequence.nextval,i,‘dataitem‘||i);i:=i+1;end loop;end ; insert into mytest2 SELECT * FROM mytest order by id; update mytest2 set rid=100 where id=100000; commit;select * from mytest minus select * from mytest2; select count(*) as totalcount, to_char(avg(ora_hash(id||rid ||name))) as avghash from (select id as rn, t.* from mytest t)select count(*) as totalcount, to_char(avg(ora_hash(id||rid ||name))) as avghash from (select id as rn, t.* from mytest2 t) update mytest2 set name=‘EvanTEst‘ where id=1000;commit;
Range:可以自己設定,如果是1的話,則直接定位到第一條不同的記錄,如果是大於1 則是一個區間值。
表示不同的資料行就是在他們之間。
為了同時支援oracle和sqlserver,我使用庫中內建的介面IDbConnection和IDataReader進行開發,可以同時支援oracle和sqlserver.暫時沒有實現讀取xls.
sql要求:
二分尋找需要樣本有序,所以需要寫成
select count(*) as totalcount, to_char(avg(ora_hash(id||rid ||name))) as avghash from (select id as rn, t.* from mytest t)
的樣式,第一個是總行數,第二個要求是裡面需要有一個固定列名叫rn。
我使用ora_hash函數對每行的值進行hash,然後求平均值的方式來計算表區間內行的內容是否相同,這是oracle提供的函數。
類似的有函數checksum,但是計算速度要比這個慢許多,尤其是表資料量大的時候。
sqlserver中有hashbyte函數類似。 注意如果不使用to_char函數,則算出的值會溢出,如果放到.net中來承接,會報oci資料溢出的錯誤,所以to_char也是必須的。
歡迎大家分享BI測試的一些經驗心得。
軟體: files.cnblogs.com/huaxiaoyao/datacompare.rar
BI測試載入器之跨資料庫資料對比,支援oracle,sqlserver