8月1日、SRE Weekly Issue #281が公開された。
SRE Weeklyは、SRE(Site Reliability Engineering)に関する注目情報を紹介するメールマガジン。
インシデントから学ぶ - Formula 1
Learning from incidents – Formula 1
レース開始の20分前に、F1マシンがサイドバリアに衝突。
チームは、信じられないほど冷静に、整然と、そしてスピーディーに事故対応を行い、破損した部品をこれまでにない速さで交換した。
素晴らしい分析と、8分間の素晴らしいビデオもあってお勧めだと述べている。
「みんなの冷静なコミュニケーションの仕方に耳を傾けてください」
「このような本番のインシデントの動画はめったにありません」
サーバーではなく、サービスを観察する
Observe a Service; Not a Server
サーバーにEtsy、Betsy、Momoという名前をつけて、魚を食べさせ、ウンチを掃除していた昔の時代は終わりました。サーバーは私たちのペットでした。
基盤となるコンポーネントは牛となり、サービスが新しいペットになって、大切に育てていくのです
AWSインシデント・レスポンス・プレイブックのサンプル
aws-samples/aws-incident-response-playbooks
AWSは、顧客がインシデント対応プロセスで使用するためのサンプル/テンプレートをGitHubに公開した。
他には以下の記事が紹介されている。
- (全ての)DNSリソースレコード ((All) DNS Resource Records)
- 重大インシデントとは? (What’s a Major Incident Anyway?)
- 共により良くなるには (How to be better, together)
- マイクロサービスに求められる独自の信頼性エンジニアリング要件 (The Unique Reliability Engineering Requirements of Microservices)
- 障害報告書を見直す時がきた (It’s Time to Rethink Outage Reports)
- 文化と行動リスク: 逸脱行為の常態化 (Culture & Conduct Risk: The Normalization of Deviance)
- Lorin Hochstein (Netflix) [StaffEng Podcast]
その他、Let’s Encryptなどの障害に関するリストも掲載している。