SQL Server資料匯入匯出技術概述與比較
當我們建立一個資料庫時,並且想將分散在各處的不同類型的資料庫分類匯總在這個建立的資料庫中時,尤其是在進行資料檢驗、淨化和轉換時,將會面臨很大的挑戰。幸好SQL Server為我們提供了強大、豐富的資料匯入匯出功能,並且在匯入匯出的同時可以對資料進行靈活的處理。
在SQL Server中主要有三種方式匯入匯出資料:使用Transact-SQL對資料進行處理;調用命令列工具bcp處理資料;使用資料轉換服務(DTS)對資料進行處理。這三種方法各有其特點,下面就它們的主要特點進行比較。
一、使用方式的比較
1. 使用Transact-SQL進行資料匯入匯出
我們很容易看出,Transact-SQL方法就是通過SQL語句方式將相同或不同類型的資料庫中的資料互相匯入匯出或者彙集在一處的方法。如果是在不同的SQL Server資料庫之間進行資料匯入匯出,那將是非常容易做到的。一般可使用SELECT INTO FROM和INSERT INTO。使用 SELECT INTO FROM時INTO後跟的表必須存在,也就是說它的功能是在導資料之前先建立一個空表,然後再將源表中的資料匯入到建立的空表中,這就相當於表的複製(並不會複製表的索引等資訊)。而INSERT INTO的功能是將來源資料插入到已經存在的表中,可以使用它進行資料合併,如果要更新已經存在的記錄,可以使用UPDATE。
SELECT * INTO table2 FROM table1 --table1和table2的表結構相同
INSERT INTO table2 SELECT * FROM table3 --table2和table3的表結構相同
當在異構資料庫之間的進行資料匯入匯出時,情況會變得複雜得多。首先要解決的是如何開啟非SQL Server資料庫的問題。
在SQL Server中提供了兩個函數可以根據各種類型資料庫的OLE DB Provider開啟並操作這些資料庫,這兩個函數是OPENDATASOURCE和OPENROWSET。它們的功能基本上相同,不同之處主要有兩點。
(1) 調用方式不同。
OPENDATASOURCE的參數有兩個,分別是OLE DB Provider和連接字串。使用OPENDATASOURCE只相當於引用資料庫或者是服務(對於SQL Server、Oracle等資料庫來說)。要想引用其中的資料表或視圖,必須在OPENDATASOURCE(...)後進行引用。
在SQL Server中通過OPENDATASOURCE查詢Access資料庫abc.mdb中的table1表
SELECT * FROM OPENDATASOURCE('Microsoft.Jet.OLEDB.4.0',
'Provider=Microsoft.Jet.OLEDB.4.0;Data Source=abc.mdb;Persist Security
Info=False')...
table1
OPENROWSET相當於一個記錄集,可以將直接當成一個表或視圖使用。
在SQL Server中通過OPENROWSETE查詢Access資料庫abc.mdb中的table1表
SELECT * FROM OPENROWSET('Microsoft.Jet.OLEDB.4.0', 'abc.mdb';
'admin';'','SELECT * FROM table1')
(2) 靈活度不同。
OPENDATASOURCE只能開啟相應資料庫中的表或視圖,如果需要過濾的話,只能在SQL Server中進行處理。而OPENROWSET可以在開啟資料庫的同時對其進行過濾,如上面的例子,在OPENROWSET中可以使用SELECT * FROM table1對abc.mdb中的資料表進行查詢,而OPENDATASOURCE只能引用table1,而無法查詢table1。因此,OPENROWSET比較OPENDATASOURCE更加靈活。
2. 使用命令列bcp匯入匯出資料
很多大型的系統不僅僅提供了友好的圖形使用者介面,同時也提供了命令列方式對系統進行控制。在SQL Server中除了可以使用SQL語句對資料進行操作外,還可以使用一個命令列工具bcp對資料進行同樣的操作。
bcp是基於DB-Library 用戶端庫的工具。它的功能十分強大,bcp能夠以並行方式將資料從多個用戶端大量複製到單個表中,從而大大提高了裝載效率。但在執行並行操作時要注意的是只有使用基於 ODBC 或 SQL OLE DB 的 API 的應用程式才可以執行將資料並行裝載到單個表中的操作。
bcp可以將SQL Server中的資料匯出到任何OLE DB所支援的資料庫的,如下面的語句是將authors表匯出到excel檔案中
bcp pubs.dbo.authors out c:/temp1.xls -c -q -S"GNETDATA/GNETDATA" -U"sa" -P"password"
bcp不僅能夠通過命令列執行,同時也可以通過SQL執行,這需要一個系統預存程序xp_cmdshell來實現,如上面的命令可改寫為如下形式。
EXEC master..xp_cmdshell 'bcp pubs.dbo.authors out
c:/temp1.xls -c -q -S"GNETDATA/GNETDATA" -U"sa" -P"password"'
3. 使用資料轉換服務(DTS)匯入匯出資料
DTS是SQL Server中匯入匯出資料的核心,它除有具有SQL和命令列工具bcp相應的功能外,還可以靈活地通過VBScript、JScript等指令碼語言對資料進行檢驗、淨化和轉換。
SQL Server為DTS提供了圖形使用者介面,使用者可以使用圖形介面匯入匯出資料,並對資料進行相應的處理。同時,DTS還以com組件的形式提供編程介面,也就是說任何支援com組件的開發工具都可以利用com組件使用DTS所提供的功能。DTS在SQL Server中可以儲存為不同的形式,可以是包的形式,也可以儲存成Visual Basic來源程式檔案,這樣只要在VB中編譯便可以使用DTS com組件了。
DTS和其它資料匯入匯出方式最大的不同就是它可以在處理資料的過程中對每一行資料進行深度處理。以下是一段VBScript代碼,這段代碼在處DTS理每一條記錄時執行,DTSDestination表示目標記錄,DTSSource表示源記錄,在處理“婚姻狀況”時,將源記錄中的“婚姻狀況”中的0或1轉換成目標記錄中“已婚”或“未婚”。
Function Main()
DTSDestination("姓名") = DTSSource("姓名")
DTSDestination("年齡") = DTSSource("年齡")
If DTSDestination("婚姻狀況") = 1 Then
DTSDestination("婚姻狀況") = "已婚"
Else
DTSDestination("婚姻狀況") = "未婚"
End If
Main = DTSTransformStat_OK
End Function
上述的三種資料匯入匯出方法各有其利弊,它們之間的相互比較1如示。
二、效能的比較
使用Transact-SQL方式。如果是SQL Server資料庫之間的匯入匯出,速度將非常快,但是使用OPENDATASOURCE和OPENROWSET方法利用OLE DB Provider開啟並操作資料庫時速度會慢一些。
使用bcp命令方式。如果不需要對資料進行驗證等操作的話,使用它還是非常快的,這是因為它的內部使用c介面的DB-library,所以在操作資料庫時速度有很大的提升。
使用DTS方式導資料應該是最好的方式了。由於它整合了Microsoft Universal Data Access技術與Microsoft ActiveX技術,因此不僅可以靈活地處理資料,而且在資料匯入匯出的效率是非常高的。
總結
SQL Server提供了豐富的資料匯入匯出方法,這給我們提供了更多的選擇,但是這又會給我們帶來一個新問題:如何根據具體情況選擇合適的資料匯入匯出方法呢?我在這裡提供一些個人的建議,希望能對讀者起到一定的指導作用。
如果是在SQL Server資料庫之間進行資料匯入匯出時,並且不需要對資料進行複雜的檢驗,最好使用Transact-SQL方法進行處理,因為在SQL Server資料庫之間進行資料操作時,SQL是非常快的。當然,如果要進行複雜的操作,如資料檢驗、轉換等操作時,最好還是使用DTS進行處理,因為DTS不光導資料效率高,而且能夠對資料進行深度控制。但是DTS的編程介面是基於com的,並且這個介面十分複雜,因此,使用程式調用DTS將變也會變得很複雜,因此, 當資料量不是很大,並且想將資料匯入匯出功能加入到程式中,而且沒有複雜的資料處理功能時,可以使用OPENDATASOURCE或OPENROWSET進行處理。
bcp命令並不太適合通過程式來調用,如果需要使用批量的方式導資料,可以通過批次檔調用bcp命令,這樣做即不需要編寫大量的程式,也無需在企業管理器中通過各種操作介面的切換來進行資料匯入匯出。因此,它比較適合在用戶端未安企業管理器或使用SQL Server Express時對資料進行快速匯入匯出的場合。