ITILの要点をまとめていつでも見れるようにした。
■SRE
目的:システムの安定稼働、ユーザ満足度
活動領域:定型タスク自動化、モニタリング、インシデント対応、変更管理(デプロイや設定変更の安全化)、キャパシティ計画
インシデント管理
アラート自動化
役割、体制
ポストモーテム
インシデントコマンドシステム
指揮系統の明確化、コミュニケーション手法の標準化
組織間で共通用語を持たない課題の解消
部下が多すぎる状態の回避
役割
インシデントコマンダ
コミュニケーションリード
実作業リード
書記役
インシデント対応
[準備] オンコール体制・アラート設定
↓
[Detect] 検知
↓
[Triage] 影響度・優先度判定
↓
[Mitigate] 影響軽減
↓
[Resolve] 根本解決
↓
[Learn] ポストモーテム
↓
[Prevent] 再発防止策実施
(オペレーション側の専門チームでの対応、軽減策と再発防止策が特徴)
ITILでのインシデント対応:
識別>記録>カテゴリ>優先付け>初期診断>エスカレ>調査と診断>解決と復旧>クローズ
(サービスデスクでの一次対応、エスカレ先の開発/専門チームがある感じ、SREが事前に障害が起こらないようにする1.5次+改善責任)
識別>記録>カテゴリ>優先付け>初期診断>エスカレ>調査と診断>解決と復旧>クローズ
(サービスデスクでの一次対応、エスカレ先の開発/専門チームがある感じ、SREが事前に障害が起こらないようにする1.5次+改善責任)