Java TreeMap 源碼解析
繼上篇文章介紹完了HashMap,這篇文章開始介紹Map系列另一個比較重要的類TreeMap。 大家也許能感覺到,網絡上介紹HashMap的文章比較多,但是介紹TreeMap反而不那么多,這里面是有原因:一方面HashMap的使用場景比較多;二是相對于HashMap來說,TreeMap所用到的數據結構更為復雜。 廢話不多說,進入正題。
簽名(signature)
public class TreeMap<K,V>
extends AbstractMap<K,V>
implements NavigableMap<K,V>, Cloneable, java.io.Serializable
可以看到,相比HashMap來說,TreeMap多繼承了一個接口NavigableMap,也就是這個接口,決定了TreeMap與HashMap的不同:
HashMap的key是無序的,TreeMap的key是有序的
接口NavigableMap
首先看下NavigableMap的簽名
public interface NavigableMap<K,V> extends SortedMap<K,V>
發(fā)現NavigableMap繼承了SortedMap,再看SortedMap的簽名
SortedMap
public interface SortedMap<K,V> extends Map<K,V>
SortedMap
就像其名字那樣,說明這個Map是有序的。這個順序一般是指由Comparable接口提供的keys的自然序(natural ordering),或者也可以在創(chuàng)建SortedMap實例時,指定一個Comparator來 決定。 當我們在用集合視角(collection views,與HashMap一樣,也是由entrySet、keySet與values方法提供)來迭代(iterate)一個SortedMap實例 時會體現出key的順序。 這里引申下關于Comparable與Comparator的區(qū)別(參考這里):
-
Comparable一般表示類的自然序,比如定義一個Student類,學號為默認排序
-
Comparator一般表示類在某種場合下的特殊分類,需要定制化排序。比如現在想按照Student類的age來排序
插入SortedMap中的key的類類都必須繼承Comparable類(或指定一個comparator),這樣才能確定如何比較(通過k1.compareTo(k2)
或comparator.compare(k1, k2)
)兩個key,否則,在插入時,會報ClassCastException
的異常。 此為,SortedMap中key的順序性應該與equals
方法保持一致。也就是說k1.compareTo(k2)
或comparator.compare(k1, k2)
為true時,k1.equals(k2)
也 應該為true。 介紹完了SortedMap,再來回到我們的NavigableMap上面來。 NavigableMap是JDK1.6新增的,在SortedMap的基礎上,增加了一些“導航方法”(navigation methods)來返回與搜索目標最近的元素。例如下面這些方法:
-
lowerEntry,返回所有比給定Map.Entry小的元素
-
floorEntry,返回所有比給定Map.Entry小或相等的元素
-
ceilingEntry,返回所有比給定Map.Entry大或相等的元素
-
higherEntry,返回所有比給定Map.Entry大的元素
設計理念(design concept)
TreeMap是用紅黑樹作為基礎實現的,紅黑樹是一種二叉搜索樹,讓我們在一起回憶下二叉搜索樹的一些性質
二叉搜索樹
先看看二叉搜索樹(binary search tree,BST)長什么樣呢?

相信大家對這個圖都不陌生,關鍵點是:
左子樹的值小于根節(jié)點,右子樹的值大于根節(jié)點。
二叉搜索樹的優(yōu)勢在于每進行一次判斷就是能將問題的規(guī)模減少一半,所以如果二叉搜索樹是平衡的話,查找元素的時間復雜度為log(n)
,也就是樹的高度。 我這里想到一個比較嚴肅的問題,如果說二叉搜索樹將問題規(guī)模減少了一半,那么三叉搜索樹不就將問題規(guī)模減少了三分之二,這不是更好嘛,以此類推,我們還可以有四叉搜索樹,五叉搜索樹……對于更一般的情況:
n個元素,K叉樹搜索樹的K為多少時效率是***的?K=2時嗎?
K 叉搜索樹
如果大家按照我上面分析,很可能也陷入一個誤區(qū),就是
三叉搜索樹在將問題規(guī)模減少三分之二時,所需比較操作的次數是兩次(二叉搜索樹再將問題規(guī)模減少一半時,只需要一次比較操作)
我們不能把這兩次給忽略了,對于更一般的情況:
n個元素,K叉樹搜索樹需要的平均比較次數為
k*log(n/k)
。
對于極端情況k=n時,K叉樹就轉化為了線性表了,復雜度也就是O(n)
了,如果用數學角度來解這個問題,相當于:
n為固定值時,k取何值時,
k*log(n/k)
的取值最小?
k*log(n/k)
根據對數的運算規(guī)則可以轉化為ln(n)*k/ln(k)
,ln(n)
為常數,所以相當于取k/ln(k)
的極小值。這個問題對于大一剛學高數的人來說再簡單不過了,我們這里直接看結果
當k=e時,
k/ln(k)
取最小值。
自然數e的取值大約為2.718左右,可以看到二叉樹基本上就是這樣***解了。在Nodejs的REPL中進行下面的操作
- function foo(k) {return k/Math.log(k);}
- > foo(2)
- 2.8853900817779268
- > foo(3)
- 2.730717679880512
- > foo(4)
- 2.8853900817779268
- > foo(5)
- 3.1066746727980594
貌似k=3時比k=2時得到的結果還要小,那也就是說三叉搜索樹應該比二叉搜索樹更好些呀,但是為什么二叉樹更流行呢?后來在***的stackoverflow上找到了答案,主旨如下:
現在的CPU可以針對二重邏輯(binary logic)的代碼做優(yōu)化,三重邏輯會被分解為多個二重邏輯。
這樣也就大概能理解為什么二叉樹這么流行了,就是因為進行一次比較操作,我們最多可以將問題規(guī)模減少一半。 好了這里扯的有點遠了,我們再回到紅黑樹上來。
紅黑樹性質
先看看紅黑樹的樣子:

上圖是從wiki截來的,需要說明的一點是:
葉子節(jié)點為上圖中的NIL節(jié)點,國內一些教材中沒有這個NIL節(jié)點,我們在畫圖時有時也會省略這些NIL節(jié)點,但是我們需要明確,當我們說葉子節(jié)點時,指的就是這些NIL節(jié)點。
紅黑樹通過下面5條規(guī)則,保證了樹是平衡的:
-
樹的節(jié)點只有紅與黑兩種顏色
-
根節(jié)點為黑色的
-
葉子節(jié)點為黑色的
-
紅色節(jié)點的字節(jié)點必定是黑色的
-
從任意一節(jié)點出發(fā),到其后繼的葉子節(jié)點的路徑中,黑色節(jié)點的數目相同
滿足了上面5個條件后,就能夠保證:根節(jié)點到葉子節(jié)點的最長路徑不會大于根節(jié)點到葉子最短路徑的2倍
。 其實這個很好理解,主要是用了性質4與5,這里簡單說下:
假設根節(jié)點到葉子節(jié)點最短的路徑中,黑色節(jié)點數目為B,那么根據性質5,根節(jié)點到葉子節(jié)點的最長路徑中,黑色節(jié)點數目也是B,最長的情況就是每兩個黑色節(jié)點中間有個紅色節(jié)點(也就是紅黑相間的情況),所以紅色節(jié)點最多為B-1個。這樣就能證明上面的結論了。
紅黑樹操作

關于紅黑樹的插入、刪除、左旋、右旋這些操作,我覺得***可以做到可視化,文字表達比較繁瑣,我這里就不在獻丑了,網上能找到的也比較多,像v_July_v的《教你透徹了解紅黑樹》。我這里推薦個swf教學視頻(視頻為英文,大家不要害怕,重點是看圖??),7分鐘左右,大家可以參考。 這里還有個交互式紅黑樹的可視化網頁,大家可以上去自己操作操作,插入幾個節(jié)點,刪除幾個節(jié)點玩玩,看看左旋右旋是怎么玩的。
源碼剖析
由于紅黑樹的操作我這里不說了,所以這里基本上也就沒什么源碼可以講了,因為這里面重要的算法都是From CLR
,這里的CLR是指Cormen, Leiserson, Rivest,他們是算法導論的作者,也就是說TreeMap里面算法都是參照算法導論的偽代碼。 因為紅黑樹是平衡的二叉搜索樹,所以其put(包含update操作)、get、remove的時間復雜度都為log(n)
。
總結
到目前為止,TreeMap與HashMap的的實現算是都介紹完了,可以看到它們實現的不同,決定了它們應用場景的不同:
- TreeMap的key是有序的,增刪改查操作的時間復雜度為
O(log(n))
,為了保證紅黑樹平衡,在必要時會進行旋轉 - HashMap的key是無序的,增刪改查操作的時間復雜度為
O(1)
,為了做到動態(tài)擴容,在必要時會進行resize。
另外,我這里沒有解釋具體代碼,難免有些標題黨了,請大家見諒,后面理解的更深刻了再來填坑。