基於SQL Server中如何比較兩個表的各組資料 圖解說明

來源:互聯網
上載者:User

開始

前一陣子,在項目中碰到這樣一個SQL查詢需求,有兩個相同結構的表(table_left & table_right),如下:

圖1.

檢查表table_left的各組(groupId),是否在表table_right中存在有一組(groupId)資料(data)與它的資料(data)完全相等.

1. 可以看出表table_left和table_right存在兩組資料完整相等:

圖2.

分析

從上面的兩個表,可以知道它們存放的是一組一組的資料;那麼,接下來我藉助數學集合的列舉法和運算進行分析。

先通過集合的列舉法描述兩個表的各組資料:

圖3.

這裡只有兩種情況,相等和不相等。對於不相等,可再分為部分相等、包含、和完全不相等。使用集合描述,可使用交集,子集,並集。如下面圖4.,我列舉出這幾種常見的情況:

圖4.

實現

在資料庫中,要找出表table_left和表table_right存在相同資料的組,方法很多,這裡我列出兩種常用的方法。

(下面的SQL指令碼,是以圖4.的資料為基礎參考)

方法1:

通過"Select … From …Order by … xml for path('') "把各組的data列資料連串起來(如,圖4.把table_left的組#11的列data連串起來成"data1-data2-data3"),其他分組(包含表table_right)以此方法實現data列資料連串起來;然後通過比較兩表的連串後欄位是否存在相等,若是相等就說明這比較多兩組資料相等,由此可以判斷出表table_left的哪組資料在表table_right存在與它資料完全相等的組。

針對方法1,需要對原表增加一個欄位dataPath,用於儲存data列資料連串的結果,如:

複製代碼 代碼如下:alter table table_left add dataPath nvarchar(200)
alter table table_right add dataPath nvarchar(200)

分組連串data列資料並update至剛新增的列dataPath,如:

複製代碼 代碼如下:update a
set dataPath=b.dataPath
from table_left a
cross apply(select (select '-'+x.data from table_left x where x.groupId=a.groupId order by x.data for xml path('')) as dataPath)b

update a
set dataPath=b.dataPath
from table_right a
cross apply(select (select '-'+x.data from table_right x where x.groupId=a.groupId order by x.data for xml path('')) as dataPath)b

接下來就是查詢了,如:

複製代碼 代碼如下:select distinct a.groupId
from table_left a
where exists(select 1 from table_right x where x.dataPath=a.dataPath)

完整代碼:

複製代碼 代碼如下:View Code
use tempdb
go
if object_id('table_left') is not null drop table table_left
if object_id('table_right') is not null drop table table_right
go
create table table_left(groupId nvarchar(5),data nvarchar(10))
create table table_right(groupId nvarchar(5),data nvarchar(10))
go
alter table table_left add dataPath nvarchar(200)
alter table table_right add dataPath nvarchar(200)
go
create nonclustered index ix_left on table_left(dataPath)
create nonclustered index ix_right on table_right(dataPath)
go
set nocount on
go
insert into table_right(groupId,data)
select '#1','data1' union all
select '#1','data2' union all
select '#1','data3' union all
select '#2','data55' union all
select '#2','data55' union all
select '#3','data91' union all
select '#3','data92' union all
select '#4','data65' union all
select '#4','data66' union all
select '#4','data67' union all
select '#4','data68' union all
select '#4','data69' union all
select '#5','data77' union all
select '#5','data79'
insert into table_left(groupId,data)
select '#11','data1' union all
select '#11','data2' union all
select '#11','data3' union all
select '#22','data55' union all
select '#22','data57' union all
select '#33','data99' union all
select '#33','data99' union all
select '#44','data66' union all
select '#44','data68' union all
select '#55','data77' union all
select '#55','data78' union all
select '#55','data79'
go
update a
set dataPath=b.dataPath
from table_left a
cross apply(select (select '-'+x.data from table_left x where x.groupId=a.groupId order by x.data for xml path('')) as dataPath)b
update a
set dataPath=b.dataPath
from table_right a
cross apply(select (select '-'+x.data from table_right x where x.groupId=a.groupId order by x.data for xml path('')) as dataPath)b
--
select distinct a.groupId
from table_left a
where exists(select 1 from table_right x where x.dataPath=a.dataPath)

方法2:

通過SQL Sever提供的集運算子"Except",判斷兩組非重複的資料。如果兩組針對對方都不存在非重複的資料,就說明這兩組資料完全相等。如,表table_left中的組#11和表 table_right中的組#1,對列data進行"Except"集運算,無任是(#11 à #1)進行Except集運算,還是(#1 à #11 )進行Except集合運算,都返回空結果,這就說明組#1 和#11的data資料完全相等,如:

複製代碼 代碼如下:select data from table_left where groupId='#11' except select data from table_right where groupId='#1'
select data from table_right where groupId='#1' except select data from table_left where groupId='#11'

同樣道理,我們把表table_left中的組#11和表 table_right中的組#2,對列data進行"Except"集運算,如:

複製代碼 代碼如下:select data from table_left where groupId='#11' except select data from table_right where groupId='#2'
select data from table_right where groupId='#2' except select data from table_left where groupId='#11'

只要(#11 à #2 )或 (#2 à #11 )的"Except"集運算結果有記錄,就說明兩組的資料不相等。

兩張表的所有組都進行比較,我們需要通過以下SQL指令碼實現,如:

複製代碼 代碼如下:select distinct a.groupId
from table_left a
inner join table_right b on b.data=a.data
where not exists(select x.data from table_left x where x.groupId=a.groupId except select y.data from table_right y where y.groupId=b.groupId )
and not exists(select x.data from table_right x where x.groupId=b.groupId except select y.data from table_left y where y.groupId=a.groupId )

完整代碼:

複製代碼 代碼如下:View Code
use tempdb
go
if object_id('table_left') is not null drop table table_left
if object_id('table_right') is not null drop table table_right
go
create table table_left(groupId nvarchar(5),data nvarchar(10))
create table table_right(groupId nvarchar(5),data nvarchar(10))
go
create nonclustered index ix_left on table_left(data)
create nonclustered index ix_right on table_right(data)
go
set nocount on
go
insert into table_right(groupId,data)
select '#1','data1' union all
select '#1','data2' union all
select '#1','data3' union all
select '#2','data55' union all
select '#2','data55' union all
select '#3','data91' union all
select '#3','data92' union all
select '#4','data65' union all
select '#4','data66' union all
select '#4','data67' union all
select '#4','data68' union all
select '#4','data69' union all
select '#5','data77' union all
select '#5','data79'
insert into table_left(groupId,data)
select '#11','data1' union all
select '#11','data2' union all
select '#11','data3' union all
select '#22','data55' union all
select '#22','data57' union all
select '#33','data99' union all
select '#33','data99' union all
select '#44','data66' union all
select '#44','data68' union all
select '#55','data77' union all
select '#55','data78' union all
select '#55','data79'
go
--select
select distinct a.groupId
from table_left a
inner join table_right b on b.data=a.data
where not exists(select x.data from table_left x where x.groupId=a.groupId except select y.data from table_right y where y.groupId=b.groupId )
and not exists(select x.data from table_right x where x.groupId=b.groupId except select y.data from table_left y where y.groupId=a.groupId )

方法1 Vs. 方法2 :

方法1和方法2都能找出表table_left在table_right存在資料完全相等的組#11。但效能角度上,方法2比方法1略勝一籌,可以看它們執行過程的統計資訊:

方法1:

圖5.

方法2:

圖6.

如果,資料量大情況下,那麼方法2比方法1更具有明顯的優點。因為方法1,多兩個更新dataPath的部分,資料量隨著增加,這裡位置的更新就耗很多的資源;如果dataPath列資料大小超過900位元組,會導致無法在dataPath建立索引,影響後面的Select查詢效能。

擴充

這裡說擴充,主要是針對上面的方法2來說。在當列data的資料大小超過900位元組,或者含有多個資料列要進行比較,看是否存在兩組(groupId)的各對應列資料一一相等。

圖7.

這樣的情況,可對欄位dataSub1 & dataSub2 建立一個雜湊索引,如:

複製代碼 代碼如下:alter table table_left add dataChecksum as checksum(dataSub1,dataSub2)
alter table table_right add dataChecksum as checksum(dataSub1,dataSub2)
go
create nonclustered index ix_table_left_cs on table_right(dataChecksum)
create nonclustered index table_right_cs on table_right(dataChecksum)

後面的select查詢語句,在Inner Join 部分稍改動下即可,如:

複製代碼 代碼如下:select distinct a.groupId
from table_left a
inner join table_right b on b.dataChecksum=a.dataChecksum
and b.dataSub1=a.dataSub1
and b.dataSub2=a.dataSub2
where not exists(select x.dataSub1,x.dataSub2 from table_left x where x.groupId=a.groupId except select y.dataSub1,y.dataSub2 from table_right y where y.groupId=b.groupId )
and not exists(select x.dataSub1,x.dataSub2 from table_right x where x.groupId=b.groupId except select y.dataSub1,y.dataSub2 from table_left y where y.groupId=a.groupId )

完整代碼:

複製代碼 代碼如下:View Code
use tempdb
go
if object_id('table_left') is not null drop table table_left
if object_id('table_right') is not null drop table table_right
go
create table table_left(groupId nvarchar(5),dataSub1 nvarchar(10),dataSub2 nvarchar(10))
create table table_right(groupId nvarchar(5),dataSub1 nvarchar(10),dataSub2 nvarchar(10))
go
alter table table_left add dataChecksum as checksum(dataSub1,dataSub2)
alter table table_right add dataChecksum as checksum(dataSub1,dataSub2)
go
create nonclustered index ix_table_left_cs on table_left(dataChecksum)
create nonclustered index table_right_cs on table_right(dataChecksum)
go
set nocount on
go
insert into table_right(groupId,dataSub1,dataSub2)
select '#1','data1','data7' union all
select '#1','data2','data8' union all
select '#1','data3','data9' union all
select '#2','data55','data4' union all
select '#2','data55','data5'
insert into table_left(groupId,dataSub1,dataSub2)
select '#11','data1','data7' union all
select '#11','data2','data8' union all
select '#11','data3','data9' union all
select '#22','data55','data0' union all
select '#22','data57','data2' union all
select '#33','data99','data4' union all
select '#33','data99','data6'
go
--select
select distinct a.groupId
from table_left a
inner join table_right b on b.dataChecksum=a.dataChecksum
and b.dataSub1=a.dataSub1
and b.dataSub2=a.dataSub2
where not exists(select x.dataSub1,x.dataSub2 from table_left x where x.groupId=a.groupId except select y.dataSub1,y.dataSub2 from table_right y where y.groupId=b.groupId )
and not exists(select x.dataSub1,x.dataSub2 from table_right x where x.groupId=b.groupId except select y.dataSub1,y.dataSub2 from table_left y where y.groupId=a.groupId )

小結

對於這個問題,可能還有其他的或更優的解決方案.而且在實際的生產環境中,可能碰到的情況會有所不同,無論如何,需要多分析,多動手多實驗,找到最優的解決方案。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.