MySql避免重複插入記錄發佈於: December 15, 2011, 6:02 pm 分類: MySQL 作者: Cyrec 閱讀: [308]
今天用python抓取資料入庫需要避免重複資料插入,在網上找了一些方法:
方案一:使用ignore關鍵字
如果是用主鍵primary或者唯一索引unique區分了記錄的唯一性,避免重複插入記錄可以使用:
insert ignore into table_name(email,phone,user_id) values('test9@163.com','99999','9999'),這樣當有重複記
錄就會忽略,執行後返回數字0,還有個應用就是複製表,避免重複記錄:
insert ignore into table(name) select name from table2
方案二:使用Replace
replace的文法格式為:
1. replace into table_name(col_name, ...) values(...)
2. replace into table_name(col_name, ...) select ...
3. replace into table_name set col_name=value, ...
演算法說明:
REPLACE的運行與INSERT很相像,但是如果舊記錄與新記錄有相同的值,則在新記錄被插入之前,舊記錄被刪除,即:
1. 嘗試把新行插入到表中
2. 當因為對於主鍵或唯一關鍵字出現重複關鍵字錯誤而造成插入失敗時:
從表中刪除含有重複關鍵字值的衝突行
再次嘗試把新行插入到表中
舊記錄與新記錄有相同的值的判斷標準就是:表有一個PRIMARY KEY或UNIQUE索引,否則,使用一個REPLACE語句沒有意義
。該語句會與INSERT相同,因為沒有索引被用於確定是否新行複製了其它的行。
傳回值:
REPLACE語句會返回一個數,來指示受影響的行的數目。該數是被刪除和被插入的行數的和。
受影響的行數可以容易地確定是否REPLACE只添加了一行,或者是否REPLACE也替換了其它行:檢查該數是否為1(添加)或
更大(替換)。
樣本:
eg:(phone欄位為唯一索引)
replace into table_name(email,phone,user_id) values('test569','99999','123')
另外:在 SQL Server 中可以這樣處理:
if not exists (select phone from t where phone= '1')
insert into t(phone, update_time) values('1', getdate())
else
update t set update_time = getdate() where phone= '1'
更多資訊請看:http://dev.mysql.com/doc/refman/5.1/zh/sql-syntax.html#replace
方案三:ON DUPLICATE KEY UPDATE
如上所寫,你也可以在INSERT INTO.....後面加上 ON DUPLICATE KEY UPDATE方法來實現。
如果您指定了ON DUPLICATE KEY UPDATE,並且插入行後會導致在一個UNIQUE索引
或PRIMARY KEY中出現重複值,
則執行舊行UPDATE。例如,如果列a被定義為UNIQUE,並且包含值1,則以下兩個語句具有相
同的效果:
mysql>INSERT INTO table (a,b,c) VALUES (1,2,3)
->ON DUPLICATE KEY UPDATE c=c+1;
mysql>UPDATE table SET c=c+1 WHERE a=1;
如果行作為新記錄被插入,則受影響行的值為1;如果原有的記錄被更新,則受影響行的值為2。
注釋:如果列b也是唯一列,則INSERT與此UPDATE語句相當:
mysql> UPDATE table SET c=c+1 WHERE a=1 OR b=2 LIMIT 1;
如果a=1 OR b=2與多個行向匹配,則只有一個行被更新。通常,您應該盡量避免對帶有多個唯一關鍵字的表使用ON DUPLICATE KEY子句。
您可以在UPDATE子句中使用VALUES(col_name)函數從INSERT...UPDATE語句的INSERT部分引用列值。
換句話說,如果沒有發生重複關鍵字衝突,則UPDATE子句中的VALUES(col_name)可以引用被插入的
col_name的值。本函數特別適用於多行插入。VALUES()函數只在INSERT...UPDATE語句中有意義,其它時候
會返回NULL。
mysql> INSERT INTO table (a,b,c) VALUES (1,2,3),(4,5,6)
-> ON DUPLICATE KEY UPDATE c=VALUES(a)+VALUES(b);
本語句與以下兩個語句作用相同:
mysql> INSERT INTO table (a,b,c) VALUES (1,2,3)
-> ON DUPLICATE KEY UPDATE c=3;
mysql> INSERT INTO table (a,b,c) VALUES (4,5,6)
-> ON DUPLICATE KEY UPDATE c=9;
當您使用ON DUPLICATE KEY UPDATE時,DELAYED選項被忽略。
樣本: 這個例子是我在實際項目中用到的:是將一個表的資料匯入到另外一個表中,資料的重複性就得考慮(如下)。
唯一索引為:email
INSERT INTO table_name1(title,first_name,last_name,email,phone,user_id,role_id,status,campaign_id)
SELECT '','','',table_name2.email,table_name2.phone,NULL,NULL,'pending',29
FROM table_name2
WHERE table_name2.status = 1
ON DUPLICATE KEY UPDATE table_name1.status = 'pending'
語句的關鍵地方,都已高亮出來~
再貼一個例子:
insert into class select * from class1
ON DUPLICATE KEY UPDATE class.course = class1.course
其它關鍵:DELAYED 做為快速插入,並不是很關心失效性,提高插入效能。
IGNORE 只關注主鍵對應記錄是不存在,無則添加,有則忽略。
更多資訊請看: http://dev.mysql.com/doc/refman/5.1/zh/sql-syntax.html#insert
特別說明:在MYSQL中UNIQUE 索引將會對null欄位失效,也就是說(a欄位上建立唯一索引):
insert into test(a) values(null)
insert into test(a) values(null)
是可以重複插入的(聯合唯一索引也一樣)。