上周在生產環境上遇到一個問題,不敢獨享,拿出來給小夥伴們做個簡單的分享。
起因 :由於IDC機房斷電(估計又是哪裡被挖掘機碰了下吧),導致所有伺服器重啟,影響到了其中的MySQL資料庫。來看下這時資料庫遇到的問題:
資料庫版本 :MySQL 5.7.10
問題表現
:從機複製報如下錯誤:Slave SQL for channel ”: Slave failed to initialize relay log info structure from the repository, Error_code: 1872
用了Inside君的MySQL標準設定檔範本,怎麼沒有實現crash safe呢?其實,這主要是因為多線程複製(MTS)所引起。不知MySQL 5.7,即使MySQL 5.6也同樣會遇到問題。
在MTS情境下,可能會出現以下兩個問題:
gap事務:後執行的事務先回放(apply)了
Exec_Master_Log_Pos位置不準確:可能存在已經事務已經提交,但是位置還沒更新(單線程複製不存在此問題)
gap事務比較好理解,因為不論是基於database層級的MTS,還是基於logical_clock的MTS,都可能存在下面的這種情境:
由於MTS的原因,後面的事務可能比前面的事務早執行,如上圖終可能事務tx2和tx4都已經提交了,但是事務tx1和tx3還未提交。這時就稱為存在gap事務。在基於logical_clock的MTS情境下,使用者可以通過配置 參數slave_preserve_commit_order=1
來保證提交的順序性。
另一方面,這時Exec_Master_Log_Pos也是不準確的,當發生crash時,master info中依然記錄的是tx1事務開始執行的位置(見上圖右邊的部分)。切記,即使將參數slave_preserve_commit_order設定為1,MTS情境下依然不能保證Exec_Master_Log_Pos是準確的,其稱之為 gap-free low-watermark 。因為MTS情境下對於表slave_realy_info_log的更新並不是事務的(這個需要好好體會下)。
然而,MTS情境下引入了新的事務表slave_worker_info,用以表示發生宕機時每個線程更新到的位置,其與Worker線程的回放是事務的。因此,MySQL在恢複的時候可以通過通過Exec_Master_Log_Pos與表slave_worker_info的列Master_log_pos做對比,判斷是否需要回放當前事務。
在MySQL 5.7.13版本之前,當發生宕機後需要手動執行如下操作,若直接執行CHANGE MASTER TO操作,則可能會觸發上述1872錯誤:
START SLAVE UNTIL SQL_AFTER_MTS_GAPS;START SLAVE SQL_THREAD;
由於伺服器上的MySQL版本為5.7.10,而DBA試圖通過命令CHANGE MASTER TO來修複復制問題,因此導致了上述問題。而在MySQL 5.7.13版本後,上述問題將有MySQL自動修複。簡單來說,即使發生了宕機,也能準確並自動地恢複復制的運行狀態。
不過,當Inside升級到MySQL 5.7.15過程時,又遇到了一個不大不小的坑,這個就留著等下回分享吧。