死結是指,兩個或多個動作一直在等待其他動作完成而使得所有動作都始終處在阻塞的狀態。想要在開發階段檢測到死結是非常困難的,而想要解除死結往往需要重新啟動程式。更糟的是,死結通常發生在負載最重的生產過程中,而想要在測試中發現它,十分不易。之所以這麼說,是因為測試線程之間所有可能的交叉是不現實的。儘管出現了一些靜態分析庫可以協助我們發現可能出現的死結,我們還是有必要在運行時檢測到死結,並且得到有用的資訊,以便我們解決這個問題或者重啟程式,或者做些其他的事情。
在編程中使用ThreadMXBean類來檢測死結
Java 5引入了ThreadMXBean介面,它提供了多種監視線程的方法。我建議您瞭解所有這些方法,因為當您沒使用外部工具時,它們會為您提供很多有用的操作以便您監測程式效能。這裡,我們感興趣的方法是findMonitorDeadlockedThreads,如過您使用的是Java 6,對應的方法是findDeadlockedThreads。二者的區別的是,findDeadlockedThreads還可以檢測到owner locks(java.util.concurrent)引起的死結,而findMonitorDeadlockedThreads只能檢測monitor locks(例如,同步塊)。由於保留老版本的方法只是出於相容性的考慮,所以我將使用新版本的方法。在這裡,編程的思想是把對死結的周期性檢測封裝到一個可重用組件裡,之後我們只需啟動它、隨它去。
一種實現調度的方法是通過執行器架構,即一組良好抽象並便於使用的多線程類。
代碼如下 |
複製代碼 |
ScheduledExecutorService scheduler = Executors.newScheduledThreadPool(1); this.scheduler.scheduleAtFixedRate(deadlockCheck, period, period, unit); |
就是那麼簡單,在我們通過選擇周期和時間單位而設定了一個特定時間後,就得到了一個周期性調用的線程。接著,我們想使功用得以拓展從而允許使用者提供在程式檢測到死結時所觸發的行為。最後,我們需要一個方法來接收用於描述死結中所有線程的一系列對象。
代碼如下 |
複製代碼 |
void handleDeadlock(final ThreadInfo[] deadlockedThreads); |
現在,實現死結檢測類已經萬事俱備了。
代碼如下 |
複製代碼 |
public interface DeadlockHandler { void handleDeadlock(final ThreadInfo[] deadlockedThreads); } public class DeadlockDetector { private final DeadlockHandler deadlockHandler; private final long period; private final TimeUnit unit; private final ThreadMXBean mbean = ManagementFactory.getThreadMXBean(); private final ScheduledExecutorService scheduler = Executors.newScheduledThreadPool(1); final Runnable deadlockCheck = new Runnable() { @Override public void run() { long[] deadlockedThreadIds = DeadlockDetector.this.mbean.findDeadlockedThreads(); if (deadlockedThreadIds != null) { ThreadInfo[] threadInfos = DeadlockDetector.this.mbean.getThreadInfo(deadlockedThreadIds); DeadlockDetector.this.deadlockHandler.handleDeadlock(threadInfos); } } }; public DeadlockDetector(final DeadlockHandler deadlockHandler, final long period, final TimeUnit unit) { this.deadlockHandler = deadlockHandler; this.period = period; this.unit = unit; } public void start() { this.scheduler.scheduleAtFixedRate( this.deadlockCheck, this.period, this.period, this.unit); } }
|
讓我們動手試試。首先,我們要建立一個handler用來向System.err輸出死結線程的資訊。在現實情境中,我們可以用它發送郵件,比如:
代碼如下 |
複製代碼 |
public class DeadlockConsoleHandler implements DeadlockHandler { @Override public void handleDeadlock(final ThreadInfo[] deadlockedThreads) { if (deadlockedThreads != null) { System.err.println("Deadlock detected!"); Map<Thread, StackTraceElement[]> stackTraceMap = Thread.getAllStackTraces(); for (ThreadInfo threadInfo : deadlockedThreads) { if (threadInfo != null) { for (Thread thread : Thread.getAllStackTraces().keySet()) { if (thread.getId() == threadInfo.getThreadId()) { System.err.println(threadInfo.toString().trim()); for (StackTraceElement ste : thread.getStackTrace()) { System.err.println("t" + ste.toString().trim()); } } } } } } } } |
這一過程在所有的堆棧追蹤中反覆進行並為每個線程資訊列印對應的堆棧蹤跡。通過這種方式,我們可以準確知道每個線程等待的位置和對象。但這個方法有一個缺陷——當一個線程只是暫時等待時,可能會被當作一個暫時的死結,從而引發錯誤的警報。出於此,當我們處理死結時,原始線程不能繼續存在而findDeadlockedThreads方法會返回沒有此類線程。為了避免可能出現的NullPointerException,我們需要警惕這種情況。最後,讓我們促成一個死結來看看系統是如何啟動並執行。
代碼如下 |
複製代碼 |
DeadlockDetector deadlockDetector = new DeadlockDetector(new DeadlockConsoleHandler(), 5, TimeUnit.SECONDS); deadlockDetector.start(); final Object lock1 = new Object(); final Object lock2 = new Object(); Thread thread1 = new Thread(new Runnable() { @Override public void run() { synchronized (lock1) { System.out.println("Thread1 acquired lock1"); try { TimeUnit.MILLISECONDS.sleep(500); } catch (InterruptedException ignore) { } synchronized (lock2) { System.out.println("Thread1 acquired lock2"); } } } }); thread1.start(); Thread thread2 = new Thread(new Runnable() { @Override public void run() { synchronized (lock2) { System.out.println("Thread2 acquired lock2"); synchronized (lock1) { System.out.println("Thread2 acquired lock1"); } } } }); thread2.start(); |
輸出:
代碼如下 |
複製代碼 |
Thread1 acquired lock1 Thread2 acquired lock2 Deadlock detected! “Thread-1” Id=11 BLOCKED on java.lang.Object@68ab95e6 owned by “Thread-0” Id=10 deadlock.DeadlockTester$2.run(DeadlockTester.java:42) java.lang.Thread.run(Thread.java:662) “Thread-0” Id=10 BLOCKED on java.lang.Object@58fe64b9 owned by “Thread-1” Id=11 deadlock.DeadlockTester$1.run(DeadlockTester.java:28) java.lang.Thread.run(Thread.java:662) |
記住,死結檢測的開銷可能會很大,你需要用你的程式來測試一下你是否真的需要死結檢測以及多久檢測一次。我建議死結檢測的時間間隔至少為幾分鐘,因為更加頻繁的檢測並沒有太大的意義,原因是我們並沒有一個複原計劃,我們能做的只是調試和處理錯誤或者重啟程式並祈禱不會再次發生死結。