【轉】Java學習---Java核心資料結構(List,Map,Set)提示與最佳化

來源:互聯網
上載者:User

標籤:equals   after   串連   高效   atl   理解   default   分享   過多   

【原文】https://www.toutiao.com/i6594587397101453827/

Java核心資料結構(List,Map,Set)提示與最佳化

JDK提供了一組主要的資料結構實現,如List、Map、Set等常用資料結構。這些資料都繼承自 java.util.Collection 介面,並位於 java.util 包內。

1、List介面

最重要的三種List介面實現:ArrayList、Vector、LinkedList。它們的類圖如下:

可以看到,3種List均來自 AbstratList 的實現。而 AbstratList 直接實現了List介面,並擴充自 AbstratCollection。

ArrayList 和 Vector 使用了數組實現,可以認為,ArrayList 封裝了對內部數組的操作。比如向數組中添加、刪除、插入新的元素或數組的擴充和重定義。對ArrayList或者Vector的操作,等價於對內部對象數組的操作。

ArrayList 和 Vector 幾乎使用了相同的演算法,它們的唯一區別可以認為是對多線程的支援。ArrayList 沒有對一個方法做線程同步,因此不是安全執行緒的。Vector 中絕大多數方法都做了線程同步,是一種安全執行緒的實現。因此ArrayList 和 Vector 的效能特性相差無幾。

LinkedList 使用了迴圈雙向鏈表資料結構。LinkedList 由一系清單項目串連而成。一個表項總是包含3個部分:元素內容、前驅表項和後驅表項。:

LinkedList的表項源碼:

無論LinkedList是否為空白,鏈表都有一個header表項,它既是鏈表的開始,也表示鏈表的結尾。它的後驅表項便是鏈表的第一個元素,前驅表項便是鏈表的最後一個元素。:

下面比較下ArrayList 和 LinkedList的不同。

1. 增加元素到列表尾端

對於ArrayList來說,只要當前容量足夠大,add()操作的效率是非常高的。

只有當ArrayList對容量的需求超過當前數組的大小時,才需要進行擴容。擴容會進行大量的數組複製操作。而複製時最終調用的是System.arraycopy()方法,因此,add()效率還是相當高的。

LinkedList由於使用了鏈表的結構,因此不需要維護容量的大小。這點比ArrayList有優勢,不過,由於每次元素增加都需要建立Node對象,並進行更多的賦值操作。在頻繁的系統調用中,對效能會產生一定影響。

2. 插入元素到列表任意位置

ArrayList是基於數組實現的,而數組是一塊連續的記憶體空間,每次插入操作,都會進行一次數組賦值。大量的數組複製會導致系統效能低下。

LinkedList是基於鏈表實現的,在任意位置插入和在尾端增加是一樣的。所以,如果系統應用需要對List對象在任意位置進行頻繁的插入操作,可以考慮用LinkedList替代ArrayList。

3. 刪除任意位置元素

對ArrayList來說,每次remove()移除元素都需要進行數組重組。並且元素位置越靠前開銷越大,要刪除的元素越靠後,開銷越小。

在LinkedList的實現中,首先需要通過迴圈找到要刪除的元素。如果要刪除的元素位置處於List的前半段,則從前往後找;若處於後半段,則從後往前找。如果要移除中間位置的元素,則需要遍曆完半個List,效率很低。

4. 容量參數

容量參數是ArrayList 和 Vector等基於數組的List的特有績效參數,它表示初始數組的大小。

合理的設定容量參數,可以減少數組擴容,提升系統效能。

預設ArrayList的數組初始大小為10。

private static final int DEFAULT_CAPACITY = 10;

5. 遍曆列表

常用的三種列表遍曆方式:ForEach操作、迭代器 和 for迴圈。

對於ForEach操作,反編譯可知實際上是將ForEach迴圈體作為迭代器處理。不過ForEach比自訂的迭代器多了一步賦值操作,效能不如直接使用迭代器的方式。

使用For迴圈通過隨機訪問遍曆列表,ArrayList表現很好,速度最快;但是LinkedList的表現非常差,應避免使用,這是因為對LinkedList的隨機訪問時,總會進行一次列表的遍曆操作。

2、Map介面

Map是一種非常常用的資料結構。圍繞著Map介面,最主要的實作類別有Hashtable, HashMap, LinkedHashMap 和 TreeMap,在Hashtable中,還有Properties 類的實現。

Hashtable和hashMap的區別在於Hashtable的大部分方法都做了線程同步,而HashMap沒有,因此,Hashtable是安全執行緒的,HashMap不是。其次,Hashtable 不允許key 或 value使用null值,而HashMap可以。第三,它們在內部對key的hash演算法和hash值到記憶體索引的映射演算法不同。

由於HashMap使用廣泛,本文以HashMap為例,闡述它的實現原理。

1. HashMap的實現原理

簡單來說,HashMap就是將key做hash演算法,然後將hash值對應到記憶體位址,直接取得key所對應的資料。在HashMap中,底層資料結構使用的是數組。所謂的記憶體位址,就是數組的下標索引。

用代碼簡單表示如下:

object[key_hash] = value;

2. Hash衝突

當需要存放的兩個元素1和2經hash計算後,發現對應在記憶體中的同一個地址。此時HashMap又會如何處理以保證資料的完整存放?

在HashMap的底層使用數組,但數組內的元素不是簡單的值,而是一個Entity類的對象。每一個Entity表項包括key,value,next,hash幾項。注意這裡的next部分,它指向另外一個Entity。當put()操作有衝突時,新的Entity會替換原有的值,為了保證舊值不丟失,會將next指向舊值。這便實現了在一個數組空間記憶體放多個值項。因此,HashMap實際上是一個鏈表的數組。而在進行get()操作時,如果定位到的數組元素不含鏈表(當前entry的next指向null),則直接返回;如果定位到的數組元素包含鏈表,則需要遍曆鏈表,通過key對象的equals方法逐一比對尋找。

3. 容量參數

和ArrayList一樣,基於數組的結構,不可避免的需要在數組空間不足時,進行擴充。而數組的重組比較耗時,因此對其做一定的最佳化很有必要了。

HashMap提供了兩個可以指定初始化大小的建構函式:

HashMap(int initialCapacity)

構造一個帶指定初始容量和預設負載因子 (0.75) 的空 HashMap。

HashMap(int initialCapacity, float loadFactor)

構造一個帶指定初始容量和負載因子的空 HashMap。

其中,HashMap會使用大於等於initialCapacity並且是2的指數次冪的最小的整數作為內建數組的大小。

負載因子又叫做填充比,它是介於0和1之間的浮點數。

負載因子 = 實際元素個數 / 內部數組總大小

負載因子的作用就是決定HashMap的閾值(threshold)。

閾值 = 數組總容量 × 負載因子

當HashMap的實際容量超過閾值便會進行擴容,每次擴容將新的數組大小設定為原大小的1.5倍。

預設情況下,HashMap的初始大小是16,負載因子為0.75。

static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16

static final float DEFAULT_LOAD_FACTOR = 0.75f;

4. LinkedHashMap

LinkedHashMap繼承自HashMap,因此,它具備了HashMap的優良特性,並在此基礎上,LinkedHashMap又在內部增加了一個鏈表,用以存放元素的順序。因此,LinkedHashMap 可以簡單理解為一個維護了元素次序表的HashMap.

LinkedHashMap 提供兩種類型的順序:一是元素插入時的順序;二是最近訪問的順序。

LinkedHashMap(int initialCapacity, float loadFactor, boolean accessOrder)

構造一個帶指定初始容量、負載因子和排序模式的空 LinkedHashMap 執行個體

其中 accessOrder 為 true 時,按照元素最後訪問時間排序;當 accessOrder 為 false 時,按照插入順序排序。預設為 false 。

在內部實現中,LinkedHashMap 通過繼承 HashMap.Entity 類,實現 LinkedHashMap.Entity,為 HashMap.Entity 增加了 before 和 after屬性用以記錄某一表項的前驅和後繼,並構成迴圈鏈表。

5. TreeMap

TreeMap可以簡單理解為一種可以進行排序的Map實現。與 LinkedHashMap 不同,LinkedHashMap 是根據元素增加或者訪問的先後順序進行排序,而TreeMap則根據元素的Key進行排序。為了確定Key的排序演算法,可以使用兩種方式指定:

(1)在TreeMap的建構函式中注入一個Comparator:

TreeMap(Comparator<? super K> comparator)

(2)使用一個實現了 Comparable 介面的 Key。

TreeMap的內部實現是基於紅/黑樹狀結構的。紅/黑樹狀結構是一種平衡尋找樹,這裡不做過多介紹。

TreeMap 其它排序介面如下:

subMap(K fromKey, K toKey)

返回此映射的部分視圖,其索引值的範圍從 fromKey(包括)到 toKey(不包括)。

tailMap(K fromKey)

返回此映射的部分視圖,其鍵大於等於 fromKey。

firstKey()

返回此映射中當前第一個(最低)鍵。

headMap(K toKey)

返回此映射的部分視圖,其索引值嚴格小於 toKey。

一個簡單樣本如下:

3、Set介面

Set並沒有在Collection介面之上增加額外的操作,Set集合中的元素是不能重複的

其中最為重要的是HashSet、LinkedHashSet、TreeSet 的實現。這裡不再一一贅述,因為所有的這些Set實現都只是對應的Map的一種封裝而已。

4、最佳化集合存取碼

1. 分離迴圈中被重複調用的代碼

舉個例子,當我們要使用for迴圈遍曆集合時

for (int i =0;i<collection.size();i++){

//.....

}

很明顯,每次迴圈都會調用size()方法,並且每次都會返回相同的數值。分離所有類似的代碼對提升迴圈效能有著積極地意義。因此,可以將上段代碼改造成

int size= collection.size();

for (int i =0;i<size;i++){

//.....

}

當元素的數量越多時,這樣的處理就越有意義。

2. 省略相同的操作

假設我們有一段類似的操作如下

int size= collection.size();

for (int i =0;i<size;i++){

if (list.get(i)==1||list.get(i)==2||list.get(i)==3){

//...

}

}

雖然每次迴圈調用get(i)的傳回值不同,但在同一次調用中,結果是相同的,因此可以提取這些相同的操作。

int size= collection.size();

int k=0;

for (int i =0;i<size;i++){

if ((k = list.get(i))==1||k==2||k==3){

//...

}

}

3. 減少方法調用

方法調用是需要消耗系統堆棧的,如果可以,則盡量訪問內部元素,而不要調用對應的介面,函數調用是需要消耗系統資源的,直接存取元素會更高效。

假設上面的代碼是Vector.class的子類的部分代碼,那麼可以這麼改寫

int size = this.elementCount;

Object k=null;

for (int i =0;i<size;i++){

if ((k = elementData[i])=="1"||k=="2"||k=="3"){

//...

}

}

可以看到,原本的 size() 和 get() 方法被直接替代為訪問原始變數,這對系統效能的提升是非常有用的。

5、RandomAccess介面

RandomAccess介面是一個標誌介面,本身並沒有提供任何方法,任何實現RandomAccess介面的對象都可以認為是支援快速隨機訪問的對象。此介面的主要目的是標識那些可以支援快速隨機訪問的List實現

在JDK中,任何一個基於數組的List實現都實現了 RandomAccess介面,而基於鏈表的實現則沒有。這很好理解,只有數組能夠快速隨機訪問,(比如:通過 object[5],object[6]可以直接尋找並返回對象),而對鏈表的隨機訪問需要進行鏈表的遍曆。

在實際操作中,可以根據list instanceof RandomAccess來判斷對象是否實現 RandomAccess 介面,從而選擇是使用隨機訪問還是iterator迭代器進行訪問。

在應用程式中,如果需要通過索引下標對 List 做隨機訪問,盡量不要使用 LinkedList,ArrayList和Vector都是不錯的選擇。

參考

《Java程式效能最佳化》葛一鳴著

【轉】Java學習---Java核心資料結構(List,Map,Set)提示與最佳化

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.