『入門 監視』を読み終わったので、感想を簡単に書きます
動機
新しいシステムをリリースするにあたって、モニタリングやアラート周りの設定が必要となったが、ベストプラクティスや周辺知識が少ない状態だった。特に、false positive なアラートを最初に設定してしまい、システム運用とともに徐々に改善してきた。こういった自分の場当たり的な対応ではなく、体型的に監視の知識を得たいと思い、今回はこの本を手に取った。
印象に残ったところ
- 有名企業は彼らが作ったツールによって成功したのではなく、彼らが成功したことによってツールが作られるのである。こうしたツールが作られるに至った長年の試行錯誤は我々から見ることは難しく、他のチームが採用しているツールが必ずしも自分たちを成功に導くとは限らない
- 監視とは役割ではなくスキルであり、チーム内の全員がある程度のレベルに至っておくべき。全員が本番環境全体に責任を持つ必要がある
- アラートに対する手順書(runbook)を書く。良い手順書とは、次の項目が書かれているものである
- これは何のサービスで、何をするものか
- 誰が責任者か
- どんな依存性を持っているか
- インフラの構成はどのようなものか
- どんなメトリクスやログを送っていて、それらはどういう意味なのか
- どんなアラートが設定されていて、その理由は何なのか
- ログを埋め込むためには、アプリケーションの振る舞いから考えると良い。何かがおかしくなった時に、一番最初にする質問とは何なのか。トラブルシューティングや仕組みの説明時にあると便利な情報とは何か
感想
オンコーラーのローテーションやその際の手順については今のチームで実現できている部分も多く、今のやり方に自信を持ててよかった。
監視周りの設定には、自身が管理しているアプリケーションに対する深い理解が必要。他のチームやシステムが導入しているから、というだけの理由で同じアラートやログを真似して導入することは避けていかねばと感じた。
ネットワークやセキュリティ周りの監視は馴染みが薄くて実感が湧きづらいところもあったため、また少し経った後に戻ってきたいと思う。
次に読みたいもの
ツールとしては Datadog を使用することが多いため、具体的な Datadog におけるノウハウを調べてみたいと思った。