在基於關係型資料庫設計時候,通常要為每張表指定一個主鍵,所謂主鍵就是能夠唯一標識表中某一行記錄的屬性或屬性群組,一個表只能有一個主鍵,但可以有多個候選索引。因為主鍵可以唯一標識某一行記錄,所以可以確保執行資料更新、刪除、修改時不出現錯誤。當然,其它欄位可以輔助我們在執行這些操作時消除共用衝突,不是本文討論的重點,不再贅述。主鍵除了上述作用外,常常與外鍵構成參照完整性條件約束,防止出現資料不一致。所以資料庫在設計時,主鍵起到了很重要的作用。常見的資料庫主鍵選取方式有: 自動成長式、手動增長式 、UniqueIdentifier、聯合式(複合式)、時間序列+隨機數式、“COMB(Combine)”類型。
一、自動成長式
很多資料庫設計者喜歡使用自動成長型欄位,因為它使用簡單。自動成長式允許我們在向資料庫添加資料時,不考慮主鍵的取值,記錄插入後,資料庫系統會自動為其分配一個值,確保絕對不會出現重複。如果使用SQL Server資料庫的話,我們還可以在記錄插入後使用@@IDENTITY全域變數擷取系統分配的主索引值。
儘管自動成長式欄位會省掉我們很多繁瑣的工作,但使用它也存在潛在的問題,那就是在資料緩衝模式下,很難預先填寫主鍵與外鍵的值。假設有主輔兩張表:
Order(OrderID, OrderDate) 訂單表
OrderDetial(OrderID, LineNum, ProductID, Price) 訂單明細表
Order 表中的OrderID是自動成長型的欄位。假設現在需要我們錄入一張訂單,包括在Order表中插入一條記錄以及在OrderDetail表中插入若干條記錄。因為Order表中的OrderID是自動成長型的欄位,那麼我們在記錄正式插入到資料庫之前無法事先得知它的取值,只有在更新後才能知道資料庫為它分配的是什麼值。這會造成以下矛盾發生:
首先,為了能在OrderDetail的OrderID欄位中添入正確的值,必須先更新 Order表以擷取到系統為其分配的OrderID值,然後再用這個OrderID填充OrderDetail表的OrderID列。最後更新OderDetail表。但是,為了確保資料的一致性,Order與OrderDetail在更新時必須在事務模式下進行的,即要麼兩張表同時同時更新成功、要麼全部失敗,顯然它們是相互矛盾的。
其次,當我們需要在多個資料庫間進行資料的複製時(SQL Server的資料分發、訂閱機制允許我們進行庫間的資料複製操作),自動成長式欄位可能造成資料合併時的主鍵衝突及表關聯關係的丟失。設想一個資料庫中的Order表向另一個庫中的Order表複製資料庫時,OrderID到底該不該自動成長呢?如果自動成長,其子表OrderDetial的關聯關係會丟失,如果不增長就會和現有資料主鍵重複,是不是很矛盾呢?
再次,自增量的值都是需要在系統中維護一個全域的資料值,每次插入資料時即對此次值進行增量取值。當在產生唯一標識的並發環境中,每次的增量取值都必須為此全域值加鎖解鎖以保證增量的唯一性。造成並發瓶頸,降低查詢效能。
還有當資料表足夠大或頻繁的更改和插入操作導致主鍵類型值超出範圍,這種情況一般很少碰到,但也是我們進行資料表設計時必須考慮的一個問題
二、手動增長型欄位
既然自動成長型欄位會帶來如此的麻煩,我們不妨考慮使用手動增長型的欄位,也就是說主鍵的值需要自己維護,通常情況下需要建立一張單獨的表格儲存體當前主鍵索引值。為了敘述上的方便仍然利用上面的例子進行闡述,建立一張表叫IntKey,包含兩個欄位,KeyName以及KeyValue。就像一個HashTable,給一個KeyName,就可以知道目前的KeyValue是什麼,然後手工實現索引值資料遞增。在SQL Server中可以編寫這樣一個預存程序,讓取索引值的過程自動進行。代碼如下:
CREATE PROCEDURE [GetKey]
@KeyName char(10),
@KeyValue int OUTPUT
AS
UPDATE IntKey SET @KeyValue = KeyValue = KeyValue + 1 WHERE KeyName = @KeyName
GO
這樣,通過調用預存程序,我們可以獲得最新索引值,確保不會出現重複。若將OrderID欄位設定為手動增長式欄位,我們的程式可以由以下幾步來實現:首先調用預存程序,獲得一個OrderID,然後使用這個OrderID填充Order表與OrderDetail表,最後在事務機制下對兩表進行更新。
使用手動增長式欄位作為主鍵在進行資料庫間資料複製時,可以確保資料合併過程中不會出現索引值衝突,只要為不同的資料表分配不同的主鍵取值段就行了。但是,使用手動增長型欄位會增加網路的負擔,必須通過增加一次資料庫訪問來擷取當前主鍵索引值,這會增加網路和資料庫的負載,當處於一個低速或斷開的網路環境中時,這種做法會有很大的弊端。同時,手工維護主鍵還要考慮並發衝突等種種因素,這更會增加系統的複雜程度。
三、使用UniqueIdentifier
SQL Server為我們提供了UniqueIdentifier資料類型,並提供了一個產生函數NEWID( ),使用NEWID( )可以產生一個唯一的UniqueIdentifier。UniqueIdentifier在資料庫中佔用16個位元組,出現重複的機率幾乎為0,號稱全球唯一標識。我們經常從註冊表或WINDOWS程式出現錯誤需要調試時看到類似 768427bf-9b37-4776-97ca-000365e160d5或{45F0EB02-0727-4F2E-AAB5-E8AEDEE0CEC5} 的東西實際上就是一個UniqueIdentifier,Windows用它來做COM組件以及介面的標識,防止出現重複。在.NET中 UniqueIdentifier稱之為GUID(Global Unique Identifier)。在C#中可以使用如下命令產生一個GUID:
Guid u = System.Guid.NewGuid();
對於上面提到的Order與OrderDetail的程式,如果選用UniqueIdentifier作為主鍵的話,我們完全可以避免上面提到的增加網路RoundTrip的問題。通過程式直接產生GUID填充主鍵,不用考慮是否會出現重複。 但是UniqueIdentifier 欄位也存在嚴重的缺陷:首先,它的長度是16位元組,是整數的4倍長,會佔用大量儲存空間。更為嚴重的是,UniqueIdentifier的產生毫無規律可言,也就是說是無序的,要想在上面建立索引(絕大多數資料庫在主鍵上都有索引)是一個非常耗時的操作。有人做過實驗,當資料表記錄比較大的時,在不同的資料量層級上插入同樣的資料量,使用 UniqueIdentifier型資料做主鍵要比使用Integer型資料慢,且還沒有考慮到表關聯的情況,出於效率考慮,儘可能避免使用UniqueIdentifier型資料庫作為主索引值,但隨著現代電腦計算速度越來越快,在中小型項目中使用UniqueIdentifier式主鍵也是一個選項。
四、使用業務欄位聯合主鍵
基於DEPHI和POWERBUILDER等資料庫工具開發C/S系統的資料庫設計人員,習慣上用有業務意義的欄位組合成複合主鍵做資料表主鍵。使用業務主鍵當然有其與生俱來的好處,一般情況下資料庫系統會在預設條件下建立聚簇索引,而且這個聚簇索引基於主鍵升序排列,當資料量比較小時,我們感覺不到這種差別,當資料量比較大時,這種基於主鍵定義的聚簇索引的優勢就顯現出來,這就使得資料表在每次存取資料時按照索引準確確認資料插入或更新的磁碟物理位置,減少磁頭定址時間,從而提高資料庫效能,而且能夠從業務意義上保證資料的完整性,增加程式的可靠性。但是基於業務欄位的聯合索引,當業務欄位選用比較多時會佔用比較多的磁碟空間,而且索引頁會佔用更多的記憶體頁面,從而導致查詢命中率降低;另外使用業務主鍵,當涉及到主鍵資料的修改時,要在編程過程中記錄新值和原值的關係表,在更新時又要進行新值和原值的比對,增加編寫程式的複雜度。
五、時間序列+隨機數主鍵
採用精確到毫秒甚至鈉秒級的時間和一個隨機產生的兩位元做主鍵,如200911282311528+兩位隨機數,不失為解決主鍵問題的一個有效辦法。這樣產生的主鍵既避免了UniqueIdentifier型欄位做主鍵時的無序,又能有效避免自動成長型主鍵帶來的諸如複製和資料匯入的麻煩。但在使用使用者眾多的網路即時系統中,在時間和空間上仍然不能保證唯一性的問題。
六、使用“COMB(Combine)”類型
既然上面五種主鍵類型選取策略都存在各自的缺點,那麼到底有沒有好的辦法加以解決呢?答案是肯定的。通過使用COMB類型(資料庫中沒有COMB類型,它是Jimmy Nilsson在他的“The Cost of GUIDs as Primary Keys”一文中設計出來的),可以在以上眾多的主鍵策略之間採用中庸之道,找到一個很好的平衡點。
COMB資料類型的基本設計思路是這樣的:既然UniqueIdentifier資料因毫無規律可言造成索引效率低下,影響了系統的效能,那麼我們能不能通過組合的方式,保留UniqueIdentifier的前10個位元組,用後6個位元組表示GUID產生的時間(DateTime),這樣我們將時間資訊與 UniqueIdentifier組合起來,在保留UniqueIdentifier的唯一性的同時增加了有序性,以此來提高索引效率。也許有人會擔心 UniqueIdentifier減少到10位元組會造成資料出現重複,其實不用擔心,後6位元組的時間精度可以達到1/300秒,兩個COMB類型資料完全相同的可能性是在這1/300秒內產生的兩個GUID前10個位元組完全相同,這幾乎是不可能的!在SQL Server中用SQL命令將這一思路實現出來便是:
DECLARE @aGuid UNIQUEIDENTIFIER
SET @aGuid = CAST(CAST(NEWID() AS BINARY(10))
+ CAST(GETDATE() AS BINARY(6)) AS UNIQUEIDENTIFIER)
經過測試,使用COMB做主鍵比使用INT做主鍵,在檢索、插入、更新、刪除等操作上仍然顯慢,但比Unidentifier類型要快上一些。除了使用預存程序實現COMB資料外,我們也可以使用C#產生COMB資料,這樣所有主鍵產生工作可以在用戶端完成。
C#代碼如下:
複製代碼 代碼如下:
//================================================
/**////<summary>
/// 返回 GUID 用於資料庫操作,特定的時間代碼可以提高檢索效率
/// </summary>
/// <returns>COMB (GUID 與時間混合型) 類型 GUID 資料</returns>
public static Guid NewComb()
{
byte[] guidArray = System.Guid.NewGuid().ToByteArray();
DateTime baseDate = new DateTime(1900,1,1);
DateTime now = DateTime.Now;
// Get the days and milliseconds which will be used to build the byte string
TimeSpan days = new TimeSpan(now.Ticks - baseDate.Ticks);
TimeSpan msecs = new TimeSpan(now.Ticks - (new DateTime(now.Year, now.Month, now.Day).Ticks));
// Convert to a byte array
// Note that SQL Server is accurate to 1/300th of a millisecond so we divide by 3.333333
byte[] daysArray = BitConverter.GetBytes(days.Days);
byte[] msecsArray = BitConverter.GetBytes((long)(msecs.TotalMilliseconds/3.333333));
// Reverse the bytes to match SQL Servers ordering
Array.Reverse(daysArray);
Array.Reverse(msecsArray);
// Copy the bytes into the guid
Array.Copy(daysArray, daysArray.Length - 2, guidArray, guidArray.Length - 6, 2);
Array.Copy(msecsArray, msecsArray.Length - 4, guidArray, guidArray.Length - 4, 4);
return new System.Guid(guidArray);
}
//================================================
/**//// <summary>
/// 從 SQL SERVER 返回的 GUID 中產生時間資訊
/// </summary>
/// <param name="guid">包含時間資訊的 COMB </param>
/// <returns>時間</returns>
public static DateTime GetDateFromComb(System.Guid guid)
{
DateTime baseDate = new DateTime(1900,1,1);
byte[] daysArray = new byte[4];
byte[] msecsArray = new byte[4];
byte[] guidArray = guid.ToByteArray();
// Copy the date parts of the guid to the respective byte arrays.
Array.Copy(guidArray, guidArray.Length - 6, daysArray, 2, 2);
Array.Copy(guidArray, guidArray.Length - 4, msecsArray, 0, 4);
// Reverse the arrays to put them into the appropriate order
Array.Reverse(daysArray);
Array.Reverse(msecsArray);
// Convert the bytes to ints
int days = BitConverter.ToInt32(daysArray, 0);
int msecs = BitConverter.ToInt32(msecsArray, 0);
DateTime date = baseDate.AddDays(days);
date = date.AddMilliseconds(msecs * 3.333333);
return date;
}
綜上述六種主鍵選取策略,筆者認為使用“COMB(Combine)”類型做主鍵是比較恰當的主鍵應用策略,但在實際使用過程中要根據客觀實踐、因時因事選取適當的主鍵,切不可生搬硬套、弄巧成拙。
參考文獻:
1、《系統分析師教程》 張友生 主編
2、《中文版SQL Server 2000開發與管理應用執行個體》 鄒建 主編
3、《資料庫中使用自增量欄位與Guid欄位主鍵的效能對比》作者 不詳
4、《小議資料庫主鍵選取策略》 作者 不詳