一個題目提高外排序效率的方法想到的

來源:互聯網
上載者:User

今天看了一個題目“提高外排序效率的方法”。

(1)通過置換-選擇方法減少初始歸併段的個數,可以降低一半。

        例如:若一組排序碼K1>K2>...Kn,緩衝區可容納M個排序碼,如果用內排序,則可以產生n/M個歸併段。

       若採用置換-選擇方法,可以產生n/2M個歸併段。

(2)通過敗者數進行多路歸併減少歸併趟數,即降低歸併樹高度。

(3)利用緩衝提高IO和CPU的並行性

 

 特別想提一下其中置換-選擇方法中,如果緩衝可容納M個排序碼,則可以得到2M的歸併段,書中給出了掃雪機的一個類比證明,其實可以這樣看:

由於在置換-選擇中,當提取一個排序碼ki1(第i段提取的第一個關鍵詞)時,將會從檔案中讀取一個ki2,如果ki2<ki1(低於ki1這個門檻值),則ki2放在下一個歸併段中,否則放在當前歸併段中,因此可以看做兩者機率均為1/2,則第i段可以選拔出的記錄期望是:

 

1 + 1/2 + 1/4 + 1/8 +... = 1/(1-1/2) = 2

 

如果有M個段(緩衝可容納M個排序碼,因此可以看做是M個段),則最終可以選拔出的記錄數為2*M個。

 

證明方法比掃雪機的證明方法更加直觀,今天想來,寫下來,供大家看看。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.