yuitaso / sunrise

1 stars 0 forks source link

モニタリングツール #18

Closed ghost closed 8 years ago

ghost commented 8 years ago

監視するためにどういう構成にするか

参考: http://qiita.com/koudaiii/items/bc89368e1279649f2498

  1. Application Metrics(Work Metrics)
  2. System Metrics(Resource Metrics)
  3. Events
  4. Log の4つに分類して、Metricsを取得し傾向を掴む。

それぞれの分類の詳細

Application Metrics(Work Metrics)

RailsのThroughput やNginx Requestなど、システムの状態をトップレベルであわらすMetrics

System Metrics(Resource Metrics)

ServerのCPU使用率やContainerのMemory使用量などインフラレイヤーのMetrics

Event

コードチェンジ、AWS 側の障害、スケール、デプロイ、エラーシステムのEventを集約

Log

アプリケーション及びシステムのログを集約

実際に使うツール候補

ツールを分けて監視をするとして、一箇所でモニタリングできるようにするには

Datadogのdashboard機能を使うと、各種メトリクスを一目で見れる画面を作成できる

ghost commented 8 years ago

問題を突き止める手順

  1. アプリケーションメトリクス(Workメトリクス)から見る 例: nginx のレスポンスタイム
  2. その Work メトリクスが依存するシステム(Resource)メトリクスを見る 例: DB のレスポンスタイム 例: Containerの CPU, Mem, Disk, Network
  3. Work メトリクスと相関していそうな Resource メトリクスを見つける
  4. Resource メトリクスに当たりをつけたら、障害が起きてる時間帯のイベントとログを見る
  5. 原因を突き止め、解決する
ghost commented 8 years ago

どのサーバのメトリクスを見るのか

ghost commented 8 years ago

https://logentries.com/

http://www.atmarkit.co.jp/ait/articles/0907/27/news103_2.html