Contents ...
udn網路城邦
SRE: Google 運維解密
2020/12/02 08:33
瀏覽87
迴響0
推薦1
引用0
最初是在研究 Hadoop 時接觸到 Google 論文,接著到 Kubernets 時代,還是和 Google 相關,由 Google 離職工程師所創立,看起來我們所使用的分散式系統和 Google 脫不了關係。其實要維運分散式系統比集中式系統難上好幾十倍,還是要靠 Google 當救星。DevOps 觀念在 1980 年代提出,到現在還沒有像 ITIL 一樣形成業界標準,倒是 Google 提出自己的標準 SRE (Site Reliability Engineering) 給業界參考。

軟體開發部門和系統維護部門一直存在一道巨大隔閡,系統維護部門只管硬體運作正常,而且通常軟體開發人員完成系統開發後就自動成為系統管理者,缺乏自動化維運觀念和能力,從事開發工作比例越來越低。

在 Google 內部,SRE 部門已經從 7 人成長到 1000 人,涵蓋 Google 所有產品線,成效頗佳。SRE 創造者高級副總裁 Ben Treynor Sloss 解釋如何建構出 SRE 團隊:

1. 招募一半的標準軟體工程師,而另外一半是具備一些軟體工程師能力,外加系統管理能力

2. 維運工作的上限是 50%,所以主要工作還是在軟體開發,當然不是在開發產品,而是將維運工作自動化

3. 在 8 - 12 小時的 on call 輪值期間最多處理兩個緊急事件,確保事後總結報告是完善的

4. 引進"錯誤預算"觀念,研發部門和運維部門可以共同合作提高可靠度

5. 監控系統應當具備自動分析能力,只有需要人員處理才會通知人員

6. SRE 將大部分工作重心方在維護"維護手冊"上面

7. 70% 生產事故是由某項部暑的變更而觸發,所以變更盡量自動化執行

8. 建立需求預測模型,同時定期做壓力測試
有誰推薦more
全站分類:創作 散文
自訂分類:書評
上一則: 後真相時代 - Hector Macdonald
下一則: 拉瑪任務 - Arthur Charles Clarke
發表迴響

會員登入