mysql 如何插入隨機字串資料的實現方法_Mysql

來源:互聯網
上載者:User

應用情境:
有時需要測試插入資料庫的記錄來測試,所以就非常需要用到這些指令碼。

建立表:

CREATE TABLE `tables_a` (  `id` int(10) NOT NULL DEFAULT '0',  `name` char(50) DEFAULT NULL,  PRIMARY KEY (`id`)) ENGINE=InnoDB DEFAULT CHARSET=utf8;

建立產生隨機字串的函數:

set global log_bin_trust_function_creators = 1;DROP FUNCTION IF EXISTS rand_string;DELIMITER //CREATE FUNCTION rand_string(n INT)RETURNS VARCHAR(255)BEGIN        DECLARE chars_str varchar(100) DEFAULT 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789';        DECLARE return_str varchar(255) DEFAULT '';        DECLARE i INT DEFAULT 0;        WHILE i < n DO                SET return_str = concat(return_str,substring(chars_str , FLOOR(1 + RAND()*62 ),1));                SET i = i +1;        END WHILE;        RETURN return_str;END //delimiter ; 

建立插入表的procedure,x是從多少開始。y是多少結束,z是產生多少位隨機數

delimiter // create procedure test(x int(10),y int(10),z int(10))begin  DECLARE i INT DEFAULT x;  while i<y do insert into tables_a values(i,rand_string(z)); set i=i+1; end whi

mysql隨機資料產生並插入

dblp資料庫中引用資訊很少,平均一篇論文引用0.2篇。使用dblp做實驗資料集的某篇論文提到,可以隨機添加引用資訊。受此啟發,我打算為每一篇論文都添加20篇隨機引用,於是就寫出了如下的sql語句:

String sql = "insert into citation(pId1,pId2) values( (select pId from papers limit ?,1),(select pId from papers limit ?,1))";

使用preparedstatement,以batch方式提交資料庫。

第一個參數是paper的rowid資訊,從0~N(N為papers的total row)。第二個參數是Java產生的20個不重複的隨機數,範圍是0-N。然後嵌套在for迴圈裡,每1w條資料提交給資料庫一次。

這段代碼巧妙運用limit的特性完成隨機選tuple,本來是暗暗得意的。自以為把所有的select都交給資料庫去做了,省去了通過jdbc的多次串連,應該是很快就可以運行完成的。哪知,插了不過10w條(10000*10)資料,就耗時22分鐘之多。最終的實驗需要插入400w條資料,也就是說要花14h左右。

於是開始反思,不斷做寫類似的程式尋找時間瓶頸,最終鎖定在select limit,這個操作極耗時間。當初選用limit,原因在於:隨機產生的是數字,要把數字映射到tuple,也就是對應到rowid;由於papers表的主鍵並非遞增int,所以預設的rowid不存在。後來一想,可以在papers表上先增加一個auto_increment的temp列,完成citation插入後再刪除。這樣sql語句就改成了:

String sql = "insert into citation(pId1,pId2) values((select pId from papers where temp=?), (select pId from papers where temp=?))";

再一次插入10w條資料,耗時38s。效率大幅提高,但不知道還可不可以進一步最佳化。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.