營運故障:假如下次注意,可能不會這麼幸運

來源:互聯網
上載者:User

最近開始做營運,連著2天發生過意外,雖然都有驚無險,但我認為是僥倖!故障記錄如下:1. 2014-4-1 新項目上線,在執行DDL時忘了確認字元集,導致開發同學那邊查出來是亂碼。2. 2014-4-3 部署Oracle DG,自以為主庫不是線上庫,初始化後重啟了主庫
發生事情是我們都喜歡事後諸葛亮,然後捫心自謂:"我下次注意",不要忘了,生產環境是隨機行走的,你無法意料它的走向。我的意思是不可控的風險很多,甚至有些是無法避免。
針對這2天的故障,做了些反思:1. 備份:任何操作前都必須備份2. 刪除:該操作能不做就最好不做,要做的話,最好先各方溝通協調,確認無誤再執行,執行前也必須先備份3. 重啟:重啟前必須知會相關業務方、程式方以及你的部門老大4. 評估:你必須很清楚你所執行命令的用途、會有哪些風險、變更是否可復原....等等5. 環境:伺服器資源(CPU,IO,MEM)、資料庫執行個體個數以及各自狀態、所服務的業務是什麼......這些是你管理的DB,你關心過他們嗎?6. 方案:上線前或執行重大操作,必須先整出一份方案,細化到每一份可能帶來的風險
如果有興趣的朋友,也可看下之前寫的文章逃離故障的十條營運工作經驗總結
請尊重而且敬畏你的線上環境!
假如下次注意,也許會很幸運。
Good Luck!

相關文章

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.