mysql表中記錄重複處理方案

來源:互聯網
上載者:User


今天寫了一個airport表,主要有這麼幾個欄位

//主鍵id,機場英文名稱,機場中文名稱,機場三字碼,機場所在城市名子
id, name, c_name, code,city_name
由於機場三字碼是不重複的,所以一開始我為airport表添加唯一索引


ALTER  TABLE  `airport`  ADD  UNIQUE (`code` );

但在寫的過程中發現我爬蟲爬到的資訊有重複的情況,所以先暫時去掉唯一索引。


show index from airport;//查看索引情況
DROP INDEX code ON airport
上下爬蟲程式碼

 

<?php
require('phpQuery.php');
phpQuery::newDocumentFile("http://******************因為某些原因***********");
$res = pq('tbody')->find('tr')->text();

根據自己的商務邏輯插入到表中

很快完成了工作,完成之後,還是要理解三字碼重複的問題。

我的做法是採用了把所有重複的最小的三字碼記錄進行刪除處理,最早寫的代碼如下:

DELETE FROM airport WHERE
id IN (SELECT id FROM airport GROUP BY code HAVING COUNT(code) > 1)
AND id NOT IN ( SELECT max(id) FROM airport GROUP BY code HAVING COUNT(code ) >1);

但運行這條sql的時候出錯,原因是在選擇的時候,不能同步進行刪除或更新操作。這時候引用一個暫存資料表吧


create TEMPORARY table tmp  select id from airport WHERE
id IN (SELECT id FROM airport GROUP BY code HAVING COUNT(code) > 1)
AND id NOT IN (SELECT max(id) FROM airport GROUP BY code HAVING COUNT(code ) >1);
 
delete from airport where id in (select id from tmp)
ok,操作完成,再看看有沒有重複的情況:


SELECT id FROM airport GROUP BY code HAVING COUNT(code) > 1

如果有再進行刪除。表的三字碼已經不重複了,再為三字碼添加唯一索引了。。。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.