kirin-ri / memo

0 stars 0 forks source link

test #35

Open kirin-ri opened 1 week ago

kirin-ri commented 1 week ago

ビジネスメトリクス領域 このシステムの価値が発揮できているかを見るための指標を表示する領域

主要アラーム領域 直接サービスや UX に影響があるメトリクスをベースに作成したアラームを定義する領域

主要システムメトリクス領域 UX に直接影響が出るシステムのメトリクスや、 ビジネスメトリクスに準ずるメトリクスを定義する領域

主要ログ領域 アプリケーションの状況やエラーの状況を確認するために、アプリケーションやシステムのログを表示する領域

コスト領域 インフラコストも常に意識すべき項目

セキュリティ領域 インフラのセキュリティ状況も意識すべき項目

セキュリティ領域 インフラのセキュリティ状況も意識すべき項目

システムメトリクス領域 ここまでの領域において問題が発生したときに、 調査をするための各種メトリクスを定義

その他サンプル領域 カスタムウィジェットを使ったサンプルの領域

kirin-ri commented 1 week ago
AWSサービス名    リソース監視単位    リソース        メトリクス名  名前空間    ディメンション 数式  説明          統計  期間  閾値の種類   アラーム条件  閾値  アラームを実行するデータポイント    欠落データの処理    サンプル数が少ないパーセンタイル        

1 Amazon Elastic Container Service (ECS) サービス "ツアー予約WebAP ホテル管理WebAP マスタ管理バッチAP" リソース監視 "CPUUtilization " AWS/ECS ClusterName, ServiceName - クラスターで使用されている CPU ユニットのパーセンテージ、または サービス 翌営中 オートスケーリングの閾値がメモリ使用率の場合、CPU使用率のみ伸びると処理時間が伸びるため。またオートスケーリングのタスク数上限に達している可能性がある。 平均値 5分 静的 以上(>=) 80 3/3 見つかりませんとして処理 - - Teams通知 2 Amazon Elastic Container Service (ECS) サービス "ツアー予約WebAP ホテル管理WebAP マスタ管理バッチAP" リソース監視 MemoryUtilization AWS/ECS ClusterName, ServiceName - クラスターまたはサービスで使用されているメモリの割合 翌営中 オートスケーリングの閾値がCPU使用率の場合、メモリ使用率のみ伸びると処理時間が伸びるため。またオートスケーリングのタスク数上限に達している可能性がある。 平均値 5分 静的 以上(>=) 80 3/3 見つかりませんとして処理 - - Teams通知 3 Amazon Elastic Container Service (ECS) クラスター "ツアー予約WebAP ホテル管理WebAP マスタ管理バッチAP" リソース監視 "RunningTaskCount / DesiredTaskCount" ECS/ContainerInsights ClusterName, ServiceName IF(DesiredTaskCount == RunningTaskCount, 0, 1) Desiredタスク数とRunningタスク数の監視 翌営中 長時間Desiredタスク数とRunningタスク数が一致しない場合、何らかの異常が発生していると考えられる。 平均値 5分 静的 より大きい(>) 0 3/3 見つかりませんとして処理 - - Teams通知 4 Elastic Load Balancing(ALB) ALB "Public ALB Internal ALB" リソース監視 HTTPCode_ELB_4XX_Count AWS/ApplicationELB LoadBalancer - ロードバランサーから送信された HTTP 4XX リダイレクトコードの数 緊急対応 クライアントエラーが多数起きている 合計値 1分 静的 より大きい(>) 350 1/1 見つかりませんとして処理 - - Teams通知 5 Elastic Load Balancing(ALB) ALB "Public ALB Internal ALB" リソース監視 HTTPCode_ELB_5XX_Count AWS/ApplicationELB LoadBalancer - ロードバランサーから送信された HTTP5XX リダイレクトコードの数 緊急対応 サーバーエラーが多数起きている 合計値 1分 静的 より大きい(>) 350 1/1 見つかりませんとして処理 - - Teams通知 6 Elastic Load Balancing(ALB) ALB "Public ALB Internal ALB" リソース監視 HTTPCode_ELB_500_Count AWS/ApplicationELB LoadBalancer - ロードバランサーから送信される HTTP500 クライアントエラーコードの数 緊急対応 Internall Server Error(CGI等) 合計値 1分 静的 より大きい(>) 350 1/1 見つかりませんとして処理 - - Teams通知 7 Elastic Load Balancing(ALB) ALB "Public ALB Internal ALB" リソース監視 HTTPCode_ELB_502_Count AWS/ApplicationELB LoadBalancer - ロードバランサーから送信される HTTP502 クライアントエラーコードの数 緊急対応 Bad Gateway 合計値 1分 静的 より大きい(>) 350 1/1 見つかりませんとして処理 - - Teams通知 8 Elastic Load Balancing(ALB) ALB "Public ALB Internal ALB" リソース監視 HTTPCode_ELB_503_Count AWS/ApplicationELB LoadBalancer - ロードバランサーから送信される HTTP503 クライアントエラーコードの数 緊急対応 サーバーエラーが多数起きている 合計値 1分 静的 より大きい(>) 350 1/1 見つかりませんとして処理 - - Teams通知 9 Elastic Load Balancing(ALB) ALB "Public ALB Internal ALB" リソース監視 HTTPCode_ELB_504_Count AWS/ApplicationELB LoadBalancer - ロードバランサーから送信される HTTP504 クライアントエラーコードの数 緊急対応 Gateway Time-out 合計値 1分 静的 より大きい(>) 350 1/1 見つかりませんとして処理 - - Teams通知 10 Elastic Load Balancing(ALB) ALB "Public ALB Internal ALB" リソース監視 RejectedConnectionCount AWS/ApplicationELB LoadBalancer - ロードバランサーが接続の最大数に達したため、拒否された接続の数 緊急対応 ロードバランサーへの過接続の検出(攻撃にあっている可能性あり) 合計値 1分 静的 より大きい(>) 10 1/1 見つかりませんとして処理 - - Teams通知 11 Elastic Load Balancing(ALB) ALB, TargetGroup "Public ALB └ ツアー予約WebAP用TG1 └ ツアー予約WebAP用TG2 Internal ALB └ ホテル管理WebAP用TG1 └ ホテル管理WebAP用TG2" 死活監視 "HealthyHostCount / DisiredTaskCount" "AWS/ApplicationELB, ECS/ContainerInsights" "TargetGroup, LoadBalancer / ClusterName, ServiceName" IF(HealthyHostCount < DisiredTaskCount, 1, 0) 正常と見なされるターゲットの数 予防・警告 Healthyなコンテナが閾値を下回った場合、サービス継続に支障が出ている可能性が高い 平均値 1分 静的 より大きい(>) 0 1/1 適正(閾値を超えていない)として処理 - "ターゲットグループ1用アラーム AND ターゲットグループ2用アラーム" Teams通知 12 Elastic Load Balancing(ALB) ALB, TargetGroup "Public ALB └ ツアー予約WebAP用TG1 └ ツアー予約WebAP用TG2 Internal ALB └ ホテル管理WebAP用TG1 └ ホテル管理WebAP用TG2" リソース監視 HTTPCode_Target_2XX_Count AWS/ApplicationELB TargetGroup, LoadBalancer - ターゲットによって生成された HTTP 応答コードの数 予防・警告 ターゲットへ異常な数の成功レスポンスを返していないか監視する 合計値 1分 静的 以上(>=) 800 1/1 見つかりませんとして処理 - - Teams通知 13 Elastic Load Balancing(ALB) ALB, TargetGroup "Public ALB └ ツアー予約WebAP用TG1 └ ツアー予約WebAP用TG2 Internal ALB └ ホテル管理WebAP用TG1 └ ホテル管理WebAP用TG2" リソース監視 HTTPCode_Target_3XX_Count AWS/ApplicationELB TargetGroup, LoadBalancer - ターゲットによって生成された HTTP 応答コードの数 予防・警告 ターゲットへ異常な数のリダイレクトメッセージを返していないか監視する 合計値 1分 静的 以上(>=) 250(Apach子プロ最大数) 1/1 見つかりませんとして処理 - - Teams通知 14 Elastic Load Balancing(ALB) ALB, TargetGroup "Public ALB └ ツアー予約WebAP用TG1 └ ツアー予約WebAP用TG2 Internal ALB └ ホテル管理WebAP用TG1 └ ホテル管理WebAP用TG2" リソース監視 HTTPCode_Target_4XX_Count AWS/ApplicationELB TargetGroup, LoadBalancer - ターゲットによって生成された HTTP 応答コードの数 予防・警告 ターゲットへ異常な数のクライアントエラーレスポンスを返していないか監視する 合計値 1分 静的 以上(>=) 250(Apach子プロ最大数) 1/1 見つかりませんとして処理 - - Teams通知 15 Elastic Load Balancing(ALB) ALB, TargetGroup "Public ALB └ ツアー予約WebAP用TG1 └ ツアー予約WebAP用TG2 Internal ALB └ ホテル管理WebAP用TG1 └ ホテル管理WebAP用TG2" リソース監視 HTTPCode_Target_5XX_Count AWS/ApplicationELB TargetGroup, LoadBalancer - ターゲットによって生成された HTTP 応答コードの数 予防・警告 ターゲットへ異常な数のサーバーエラーレスポンスを返していないか監視する 合計値 1分 静的 以上(>=) 250(Apach子プロ最大数) 1/1 見つかりませんとして処理 - - Teams通知 16 Elastic Load Balancing(ALB) ALB, TargetGroup "Public ALB └ ツアー予約WebAP用TG1 └ ツアー予約WebAP用TG2 Internal ALB └ ホテル管理WebAP用TG1 └ ホテル管理WebAP用TG2" リソース監視 TargetConnectionErrorCount AWS/ApplicationELB TargetGroup, LoadBalancer - ロードバランサーとターゲット間で正常に確立されなかった接続数 緊急対応 ELB-ターゲット間に不具合発生(スケーリング等) 合計値 1分 静的 以上(>=) 1 1/1 見つかりませんとして処理 - - Teams通知 17 Elastic Load Balancing(ALB) ALB, TargetGroup "Public ALB └ ツアー予約WebAP用TG1 └ ツアー予約WebAP用TG2 Internal ALB └ ホテル管理WebAP用TG1 └ ホテル管理WebAP用TG2" リソース監視 TargetResponseTime AWS/ApplicationELB TargetGroup, LoadBalancer - リクエストがロードバランサーから送信され、ターゲットからの応答を受信するまでの経過時間 (秒) 予防・警告 許容値を超える時間がかかっている場合、ダウンストリームのどこかで異常が起きていると考えられる。 平均値 1分 静的 以上(>=) 60(ALBのタイムアウト値) 1/1 見つかりませんとして処理 - - Teams通知 18 Elastic Load Balancing(ALB) ALB, TargetGroup "Public ALB └ ツアー予約WebAP用TG1 └ ツアー予約WebAP用TG2 Internal ALB └ ホテル管理WebAP用TG1 └ ホテル管理WebAP用TG2" 死活監視 UnhealthyHostCount AWS/ApplicationELB TargetGroup, LoadBalancer - 異常と見なされるターゲットの数 緊急対応 Unhealthyなコンテナが出た場合、原因究明をし改善につなげる。 合計値 10分 静的 より大きい(>) 0 1/1 見つかりませんとして処理 - - Teams通知 19 Elastic Load Balancing(ALB) ALB, TargetGroup "Public ALB └ ツアー予約WebAP用TG1 └ ツアー予約WebAP用TG2 Internal ALB └ ホテル管理WebAP用TG1 └ ホテル管理WebAP用TG2" 死活監視 UnhealthyStateDNS AWS/ApplicationELB TargetGroup, LoadBalancer - DNS により障害があるとマークされたAZの数 緊急対応 ゾーンシフト時にDNSにて以上と判断されたAZの検知 最小値 10分 静的 より大きい(>) 0 1/1 適正(閾値を超えていない)として処理 - - Teams通知 20 Amazon Aurora PostgreSQL リードレプリカインスタンス MainAuroraリーダーインスタンス リソース監視 AuroraReplicaLag AWS/RDS DBInstanceIdentifier - Aurora レプリカについて、プライマリインスタンスからアップデートをレプリケートする際の遅延時間 緊急対応 遅延により業務に支障が出る可能性がある。 平均値 5分 静的 より大きい(>) 100 1/1 見つかりませんとして処理 - - Teams通知 21 Amazon Aurora PostgreSQL インスタンス "MainAuroraリーダーインスタンス MainAuroraライターインスタンス" リソース監視 CPUUtilization AWS/RDS DBInstanceIdentifier - Aurora DB インスタンスによって使用される CPU のパーセント 翌営中 CPU使用率が一定を上回った場合、パフォーマンスに影響が出る 平均値 5分 静的 以上(>=) 80 1/1 見つかりませんとして処理 - - Teams通知 22 Amazon Aurora PostgreSQL クラスター "MainAuroraリーダーインスタンス MainAuroraライターインスタンス" リソース監視 VolumeBytesUsed AWS/RDS DBInstanceIdentifier - Auroraインスタンスによって利用されたストレージ量。 翌営中 APバグなどによる想定以上のディスク消費防止のため 平均値 5分 静的 より大きい(>) 325600000000(325.6G) 1/1 見つかりませんとして処理 - - Teams通知 23 Amazon Aurora PostgreSQL インスタンス "MainAuroraリーダーインスタンス MainAuroraライターインスタンス" リソース監視 Deadlocks AWS/RDS DBInstanceIdentifier - データベースのデッドロック平均回数(秒間) 緊急対応 デッドロックにより、パフォーマンスに影響が出るため 平均値 5分 静的 以上(>=) 1 1/1 見つかりませんとして処理 - - Teams通知 24 Amazon Aurora PostgreSQL インスタンス "MainAuroraリーダーインスタンス MainAuroraライターインスタンス" リソース監視 DatabaseConnections AWS/RDS DBInstanceIdentifier - データベースインスタンスへのクライアントネットワーク接続の数 緊急対応 接続数の監視 平均値 5分 静的 以上(>=) 108(ACU4の場合の最大80%) 1/1 見つかりませんとして処理 - - Teams通知 25 Amazon DynamoDB テーブル Hotel Table リソース監視 AccountProvisionedReadCapacityUtilization AWS/DynamoDB -(Account Metrics) - 割り当てられたアカウントで利用されるプロビジョニング済み読み込み容量ユニットの割合 予防・警告 アカウントレベルのプロビジョニング済み読み込み容量ユニットの使用状況を監視 最大値 5分 静的 より大きい(>) 80 1/1 見つかりませんとして処理 - - Teams通知 26 Amazon DynamoDB テーブル Hotel Table リソース監視 AccountProvisionedWriteCapacityUtilization AWS/DynamoDB -(Account Metrics) - 割り当てられたアカウントで利用されるプロビジョニング済み書き込み容量ユニットの割合。 予防・警告 アカウントレベルのプロビジョニング済み書き込み容量ユニットの使用状況を監視 最大値 5分 静的 より大きい(>) 80 1/1 見つかりませんとして処理 - - Teams通知 27 Amazon DynamoDB テーブル Hotel Table リソース監視 ConditionalCheckFailedRequests AWS/DynamoDB TableName - 条件付き書き込みの実行に失敗した回数。 緊急対応 テーブルへの書き込みエラーを監視 最大値 5分 静的 より大きい(>) 0 1/1 見つかりませんとして処理 - - Teams通知 28 Amazon DynamoDB テーブル Hotel Table リソース監視 "ConsumedReadCapacityUnits (プロビジョニングモード)" AWS/DynamoDB TableName - 指定された期間に消費された読み込み容量ユニットの数 翌営中 テーブルへのリクエストに待ちが発生していないか監視 合計値 5分 静的 より大きい(>) 40,000 1/1 見つかりませんとして処理 - - Teams通知 29 Amazon DynamoDB テーブル Hotel Table リソース監視 "ConsumedWriteCapacityUnits (プロビジョニングモード)" AWS/DynamoDB TableName - 指定された期間に消費された書き込み容量ユニットの数 翌営中 テーブルへのリクエストに待ちが発生していないか監視 平均値 5分 静的 より大きい(>) 40,000 1/1 見つかりませんとして処理 - - Teams通知 30 Amazon DynamoDB テーブル Hotel Table リソース監視 MaxProvisionedTableReadCapacityUtilization AWS/DynamoDB -(Account Metrics) - "プロビジョニング済み読み込み容量ユニットのうち、アカウントの最も高いプロビジョニング済み読み込みテーブル。 またはグローバルセカンダリインデックスが使用している割合。" 予防・警告 アカウントの最も高いプロビジョニング済み読み込みテーブルの使用状況を監視 最大値 5分 静的 より大きい(>) 80 1/1 見つかりませんとして処理 - - Teams通知 31 Amazon DynamoDB テーブル Hotel Table リソース監視 MaxProvisionedTableWriteCapacityUtilization AWS/DynamoDB -(Account Metrics) - "プロビジョニング済み書き込み容量ユニットのうち、アカウントの最も高いプロビジョニング済み書き込みテーブル。 またはグローバルセカンダリインデックスが使用している割合。" 予防・警告 アカウントの最も高いプロビジョニング済み書き込みテーブルの使用状況を監視 最大値 5分 静的 より大きい(>) 80 1/1 見つかりませんとして処理 - - Teams通知 32 Amazon DynamoDB テーブル Hotel Table リソース監視 "ReadThrottleEvents (プロビジョニングモード)" AWS/DynamoDB TableName - テーブルまたはグローバルセカンダリインデックス用にプロビジョニングされた読み込み容量ユニットを超える DynamoDB へのリクエスト 翌営中 どのイベントがリクエストをスロットリングしているかについてのインサイトを取得する 最大値 5分 静的 より大きい(>) 0 3/3 見つかりませんとして処理 - - Teams通知 33 Amazon DynamoDB テーブル Hotel Table リソース監視 "WriteThrottleEvents (プロビジョニングモード)" AWS/DynamoDB TableName, DelegatedOperation - テーブルまたはグローバルセカンダリインデックス用にプロビジョニングされた書き込み容量ユニットを超える DynamoDB へのリクエスト 翌営中 どのイベントがリクエストをスロットリングしているかについてのインサイトを取得する 最大値 5分 静的 より大きい(>) 0 3/3 見つかりませんとして処理 - - Teams通知 34 Amazon DynamoDB テーブル Hotel Table リソース監視 SuccessfulRequestLatency AWS/DynamoDB TableName, Operation - 指定した期間中に成功した DynamoDB または Amazon DynamoDB Streams へのリクエストのレイテンシー 予防・警告 性能目標を満たしているか監視 平均値 5分 静的 より大きい(>) 100 1/1 見つかりませんとして処理 - - Teams通知 35 Amazon DynamoDB テーブル Hotel Table リソース監視 SystemErrors AWS/DynamoDB TableName, Operation - 指定された期間に HTTP 500 ステータスコードを生成する DynamoDB または Amazon DynamoDB Streams へのリクエスト 予防・警告 エラー数の把握 合計値 5分 静的 より大きい(>) 0 3/3 見つかりませんとして処理 - - Teams通知 36 Amazon DynamoDB テーブル Hotel Table リソース監視 "ThrottledRequests (プロビジョニングモード)" AWS/DynamoDB TableName, DelegatedOperation - リソース (テーブルやインデックスなど) のプロビジョニング済みスループット制限を超える DynamoDB へのリクエスト 翌営中 どのイベントがリクエストをスロットリングしているかについてのインサイトを取得する 最大値 5分 静的 より大きい(>) 0 3/3 見つかりませんとして処理 - - Teams通知 37 Amazon DynamoDB テーブル Hotel Table リソース監視 UserErrors AWS/DynamoDB -(Account Metrics) - 指定された期間に HTTP 400 ステータスコードを生成する DynamoDB または Amazon DynamoDB Streams へのリクエスト 緊急対応 発生しているエラー数の監視 合計値 1分 静的 より大きい(>) 0 1/1 見つかりませんとして処理 - - Teams通知 38 "Amazon ElastiCache (ホストレベル)" ノード "Redisプライマリノード Redisレプリカノード " リソース監視 CPUUtilization AWS/ElastiCache "CacheClusterId, CacheNodeId" - ホスト全体の CPU 使用率の割合 緊急対応 CPU使用率の上昇によるパフォーマンス低下の防止 平均値 5分 静的 以上(>=) 90 1/1 見つかりませんとして処理 - - Teams通知 39 "Amazon ElastiCache (ホストレベル)" ノード "Redisプライマリノード Redisレプリカノード " リソース監視 FreeableMemory AWS/ElastiCache "CacheClusterId, CacheNodeId" - ホストで使用可能な空きメモリの量。OS によって解放できる可能性があるとレポートされる RAM、バッファ、およびキャッシュから算出される。 緊急対応 メモリー不足によるパフォーマンス低下の防止 平均値 5分 静的 より低い(<) 80 3/3 見つかりませんとして処理 - - Teams通知 40 "Amazon ElastiCache (ホストレベル)" クラスター "Redisプライマリノード Redisレプリカノード " リソース監視 NetworkBandwidthInAllowanceExceeded AWS/ElastiCache "CacheClusterId, CacheNodeId" - インバウンド集計帯域幅がインスタンスの最大値を超えたためにキューまたはドロップされたパケットの数 緊急対応 ネットワークトラフィックの制限が発生している原因の特定 最大値 5分 静的 より大きい(>) 0 3/3 見つかりませんとして処理 - - Teams通知 41 "Amazon ElastiCache (ホストレベル)" クラスター "Redisプライマリノード Redisレプリカノード " リソース監視 NetworkConntrackAllowanceExceeded AWS/ElastiCache "CacheClusterId, CacheNodeId" - 接続トラッキングがインスタンスの最大数を超え、新しい接続を確立できなかったためにドロップされたパケットの数 緊急対応 ネットワークトラフィックの制限が発生している原因の特定 最大値 5分 静的 より大きい(>) 0 3/3 見つかりませんとして処理 - - Teams通知 42 "Amazon ElastiCache (ホストレベル)" クラスター "Redisプライマリノード Redisレプリカノード " リソース監視 NetworkBandwidthOutAllowanceExceeded AWS/ElastiCache "CacheClusterId, CacheNodeId" - アウトバウンド集計帯域幅がインスタンスの最大値を超えたためにキューまたはドロップされたパケットの数 緊急対応 ネットワークトラフィックの制限が発生している原因の特定 最大値 5分 静的 より大きい(>) 0 3/3 見つかりませんとして処理 - - Teams通知 43 "Amazon ElastiCache (ホストレベル)" クラスター "Redisプライマリノード Redisレプリカノード " リソース監視 "NetworkPacketsPerSecondAllowanceExceeded " AWS/ElastiCache "CacheClusterId, CacheNodeId" - 1 秒あたりの双方向パケットがインスタンスの最大値を超えたためにキューまたはドロップされたパケットの数 緊急対応 ネットワークトラフィックの制限が発生している原因の特定 最大値 5分 静的 より大きい(>) 0 3/3 見つかりませんとして処理 - - Teams通知 44 "Amazon ElastiCache (ホストレベル)" ノード "Redisプライマリノード Redisレプリカノード " リソース監視 SwapUsage AWS/ElastiCache "CacheClusterId, CacheNodeId" - ホストで使用されるスワップの量 緊急対応 メモリ不足によりスワッピングが発生しているか監視 最大値 5分 静的 より大きい(>) 300000000(300MB) 1/1 見つかりませんとして処理 - - Teams通知 45 "Amazon ElastiCache Redis" ノード "Redisプライマリノード Redisレプリカノード " リソース監視 ChannelAuthorizationFailures AWS/ElastiCache "CacheClusterId, CacheNodeId" - ユーザーがアクセス許可を持たないチャネルへのアクセスに失敗した試行の合計数 緊急対応 不正アクセスが試行されている可能性がある。 合計値 1分 静的 より大きい(>) 0 1/1 見つかりませんとして処理 - - Teams通知 46 "Amazon ElastiCache Redis" ノード "Redisプライマリノード Redisレプリカノード " リソース監視 CurrConnections AWS/ElastiCache "CacheClusterId, CacheNodeId" - リードレプリカからの接続を除く、クライアント接続の数 予防・警告 接続数増加によるパフォーマンス低下の防止 最大値 5分 静的 以上(>=) 55000 1/1 見つかりませんとして処理 - - Teams通知 47 "Amazon ElastiCache Redis" クラスター "Redisプライマリノード Redisレプリカノード " リソース監視 "DatabaseMemoryUsagePercentage (クラスターモード無効)" AWS/ElastiCache "CacheClusterId, CacheNodeId" - 使用中のクラスターのメモリの割合 緊急対応 メモリー不足によるパフォーマンス低下の防止 平均値 5分 静的 以上(>=) 95 1/1 見つかりませんとして処理 - - Teams通知 48 "Amazon ElastiCache Redis" ノード "Redisプライマリノード Redisレプリカノード " リソース監視 Evictions AWS/ElastiCache "CacheClusterId, CacheNodeId" - maxmemory の制限のため排除されたキーの数 緊急対応 メモリが制限に達している可能性 合計値 5分 静的 以上(>=) 1 3/3 見つかりませんとして処理 - - Teams通知 49 "Amazon ElastiCache Redis" ノード "Redisプライマリノード Redisレプリカノード " リソース監視 KeyAuthorizationFailures AWS/ElastiCache "CacheClusterId, CacheNodeId" - ユーザーがアクセス許可を持たないキーへのアクセスに失敗した試行の合計数 翌営中 不正アクセスが試行されている可能性がある。 合計値 1分 静的 より大きい(>) 0 1/1 見つかりませんとして処理 - - Teams通知 50 "Amazon ElastiCache Redis" ノード "Redisプライマリノード Redisレプリカノード " リソース監視 "MemoryFragmentationRatio " AWS/ElastiCache "CacheClusterId、 CacheNodeId" - Redis エンジンのメモリ割り当ての効率数 翌営中 フラグメンテーションによるアクセス効率の低下の可能性 平均値 5分 静的 より大きい(>) 2.5 1/1 見つかりませんとして処理 - - Teams通知 51 "Amazon ElastiCache Redis" ノード "Redisプライマリノード Redisレプリカノード " リソース監視 MasterLinkHealthStatus AWS/ElastiCache "CacheClusterId、 CacheNodeId" - このステータスの値は、0 または 1 のいずれかになる。値 0 は、ElastiCache プライマリノードのデータが、EC2 の Redis と同期されていないことを示す。値 1 は、データが同期されていることを示す。 予防・警告 セッション情報が取得されない可能性 最大値 5分 静的 より小さい(<) 1 1/1 見つかりませんとして処理 - "ターゲットグループ1用アラーム AND ターゲットグループ2用アラーム" Teams通知 52 "Amazon ElastiCache Redis" クラスター "Redisプライマリノード Redisレプリカノード " リソース監視 ReplicationBytes AWS/ElastiCache "CacheClusterId、 CacheNodeId" - プライマリがすべてのレプリカに対して送信するバイト数 翌営中 レプリケーションされるデータの量を監視 最大値 5分 異常検知 バンドより大きい(>) 10 1/1 見つかりませんとして処理 - - Teams通知 53 "Amazon ElastiCache Redis" クラスター "Redisプライマリノード Redisレプリカノード " リソース監視 ReplicationLag AWS/ElastiCache "CacheClusterId、 CacheNodeId" - レプリカのプライマリノードからの変更適用の進行状況を秒で表す。(リードレプリカとして実行中のノードにのみ適用可能) 翌営中 レプリカがプライマリノードからどれだけ遅れているかを監視 最大値 5分 静的 より大きい(>) 0.1 1/1 見つかりませんとして処理 - - Teams通知 54 "Amazon ElastiCache Redis" クラスター "Redisプライマリノード Redisレプリカノード " リソース監視 StringBasedCmdsLatency AWS/ElastiCache "CacheClusterId、 CacheNodeId" - 文字列ベースのコマンドのレイテンシー 緊急対応 Redis が操作を処理する平均時間を監視 平均値 5分 異常検知 バンドより大きい(>) 10 1/1 見つかりませんとして処理 - - Teams通知 55 Amazon Simple Storage Service (S3) バケット "業務データ用バケット GCログ格納用バケット ログアーカイブ用バケット AWS WAFログ格納バケット VPCフローログ格納バケット 内部用ALB用バケット パブリック用ALBバケット S3アクセスログ用バケット" リソース監視 AllRequests AWS/S3 BacketName, FilterID - Amazon S3 バケットに対して行われた HTTP リクエストの総数 翌営中 S3への異常な数のアクセスが発生していなかの確認 平均値 1分 異常検知 バンドより大きい(>) 2 1/1 見つかりませんとして処理 - - Teams通知 56 Amazon Simple Storage Service (S3) バケット "業務データ用バケット GCログ格納用バケット ログアーカイブ用バケット AWS WAFログ格納バケット VPCフローログ格納バケット 内部用ALB用バケット パブリック用ALBバケット S3アクセスログ用バケット" リソース監視 4xxErrors AWS/S3 BacketName, FilterID - amazon S3 バケットに対して行われた、値が 0 または 1 の HTTP 4xx クライアントエラーステータスコードリクエストの数 翌営中 S3への不正なアクセスが発生してるか検出する 平均値 1分 静的 以上(>=) 60 1/1 見つかりませんとして処理 - - Teams通知 57 Amazon Simple Storage Service (S3) バケット "業務データ用バケット GCログ格納用バケット ログアーカイブ用バケット AWS WAFログ格納バケット VPCフローログ格納バケット 内部用ALB用バケット パブリック用ALBバケット S3アクセスログ用バケット" リソース監視 5xxErrors AWS/S3 BacketName, FilterID - Amazon S3 バケットに対して行われた、値が 0 または 1 の HTTP 5xx サーバーエラーステータスコードリクエストの数 緊急対応 S3に異常が発生して、レスポンスを返せていない可能性がある 平均値 1分 静的 以上(>=) 60 1/1 見つかりませんとして処理 - - Teams通知 58 Amazon Simple Queue Service (SQS) キュー マスタ管理SQSメインキュー リソース監視 ApproximateNumberOfMessagesVisible AWS/SQS Queue Metrics - キューから取得可能なメッセージの数 緊急対応 キューにメッセージが溜まっている場合、処理する側のリソースが不足していたり、異常が起きている可能性がある。 平均値 5分 静的 より大きい(>) 50 1/1 見つかりませんとして処理 - - Teams通知 59 Amazon Simple Queue Service (SQS) キュー マスタ管理SQSデッドレターキュー リソース監視 ApproximateNumberOfMessagesVisible AWS/SQS Queue Metrics - キューから取得可能なメッセージの数 緊急対応 キューにメッセージが溜まっている場合、処理する側のリソースが不足していたり、異常が起きている可能性がある。 合計値 1分 静的 より大きい(>) 0 1/1 見つかりませんとして処理 - - Teams通知 60 Amazon EventBridge イベント スケジュール起動用AP起動Rule リソース監視 DeadLetterInvocations AWS/Events Rule Name - イベントに反応してルールのターゲットが呼び出されなかった回数。呼び出しによって同じルールが再度実行され、無限ループが発生したものが含まれる。 緊急対応 呼び出しによって同じルールが再度実行され、無限ループが発生する可能性 最大値 5分 静的 以上(>=) 10 1/1 見つかりませんとして処理 - - Teams通知 61 Amazon EventBridge イベント スケジュール起動用AP起動Rule リソース監視 FailedInvocations AWS/Events Rule Name - 完全に失敗した呼び出しの回数 緊急対応 関数が正常に呼び出されていない問題の監視 合計値 5分 静的 より大きい(>) 0 1/1 見つかりませんとして処理 - - Teams通知 62 Amazon EventBridge イベント スケジュール起動用AP起動Rule リソース監視 InvocationsFailedToBeSentToDlq AWS/Events Rule Name - デッドレターキューに移動できなかった呼び出しの数 緊急対応 イベントがデッドレターキューに送信されず再試行されない問題の監視 合計値 5分 静的 より大きい(>) 0 1/1 見つかりませんとして処理 - - Teams通知 63 Amazon EventBridge イベント スケジュール起動用AP起動Rule リソース監視 ThrottledRules AWS/Events RuleName - 実行を試行されたが、スロットルされているルールの数 緊急対応 スロットリングしているルールの検出・警告 合計値 5分 静的 より大きい(>) 0 3/3 見つかりませんとして処理 - - Teams通知 64 Amazon EventBridge イベント SecurityHubイベント通知Rule リソース監視 DeadLetterInvocations AWS/Events Rule Name - イベントに反応してルールのターゲットが呼び出されなかった回数。呼び出しによって同じルールが再度実行され、無限ループが発生したものが含まれる。 緊急対応 呼び出しによって同じルールが再度実行され、無限ループが発生する可能性 最大値 5分 静的 以上(>=) 10 1/1 見つかりませんとして処理 - - メール通知 65 Amazon EventBridge イベント SecurityHubイベント通知Rule リソース監視 FailedInvocations AWS/Events Rule Name - 完全に失敗した呼び出しの回数 緊急対応 関数が正常に呼び出されていない問題の監視 合計値 5分 静的 より大きい(>) 0 1/1 見つかりませんとして処理 - - メール通知 66 Amazon EventBridge イベント SecurityHubイベント通知Rule リソース監視 InvocationsFailedToBeSentToDlq AWS/Events Rule Name - デッドレターキューに移動できなかった呼び出しの数 緊急対応 イベントがデッドレターキューに送信されず再試行されない問題の監視 合計値 5分 静的 より大きい(>) 0 1/1 見つかりませんとして処理 - - メール通知 67 Amazon EventBridge イベント SecurityHubイベント通知Rule リソース監視 ThrottledRules AWS/Events RuleName - 実行を試行されたが、スロットルされているルールの数 緊急対応 スロットリングしているルールの検出・警告 合計値 5分 静的 より大きい(>) 0 3/3 見つかりませんとして処理 - - メール通知 68 AWS Lambda API ログアーカイブ用Lambda関数 バッチ処理監視 Errors AWS/Lambda Function Name - 関数エラーが発生した呼び出しの数 緊急対応 エラー発生によりサービスの継続が困難になる可能性 合計値 5分 静的 より大きい(>) 0 1/1 見つかりませんとして処理 - - Teams通知 69 AWS Lambda API ログアーカイブ用Lambda関数 バッチ処理監視 DeadLetterErrors AWS/Lambda Function Name - 非同期呼び出しの場合、Lambdaがイベントをデッドレターキュー(DLQ)に送信しようとしたが、失敗した回数 緊急対応 関数実行のエラーを監視できない問題 合計値 5分 静的 より大きい(>) 0 1/1 見つかりませんとして処理 - - Teams通知 70 AWS Lambda API ログアーカイブ用Lambda関数 バッチ処理監視 DestinationDeliveryFailures AWS/Lambda Function Name - 非同期呼び出しおよびサポートされているイベントソースマッピングの場合、Lambdaがイベントを送信先に送信しようとして失敗した回数。イベントソースマッピングの場合、Lambdaはストリームソース(DynamoDBおよびKinesis)の送信先をサポートする。 緊急対応 正常に関数が呼び出されない問題の監視 合計値 5分 静的 より大きい(>) 0 1/1 見つかりませんとして処理 - - Teams通知 71 AWS Lambda API ログアーカイブ用Lambda関数 バッチ処理監視 Throttles AWS/Lambda Function Name - スロットリングされた呼び出しリクエストの数 緊急対応 スロットリングによるシステムのパフォーマンス低下の防止 合計値 5分 静的 より大きい(>) 0 1/1 見つかりませんとして処理 - - Teams通知 72 AWS Lambda API ログアーカイブ用Lambda関数 バッチ処理監視 Duration AWS/Lambda Function Name - 関数コードがイベントの処理に費やす時間 緊急対応 性能劣化や15分のタイムアウトに抵触するリスクを防止 平均値 5分 静的 より大きい(>) 10 1/1 見つかりませんとして処理 - - Teams通知 73 AWS Lambda API ログアーカイブ用Lambda関数 バッチ処理監視 AsyncEventsDropped AWS/Lambda Function Name - 関数を正常に実行せずにドロップされたイベントの数 緊急対応 Lambdaの自動リトライ(3回)でも正常終了しなかったイベントの発生を検知 合計値 5分 静的 より大きい(>) 0 1/1 見つかりませんとして処理 - - Teams通知 74 AWS Lambda API Teams通知用Lambda関数 バッチ処理監視 Errors AWS/Lambda Function Name - 関数エラーが発生した呼び出しの数 緊急対応 エラー発生によりサービスの継続が困難になる可能性 合計値 5分 静的 より大きい(>) 0 1/1 見つかりませんとして処理 - - メール通知 75 AWS Lambda API Teams通知用Lambda関数 バッチ処理監視 DeadLetterErrors AWS/Lambda Function Name - 非同期呼び出しの場合、Lambdaがイベントをデッドレターキュー(DLQ)に送信しようとしたが、失敗した回数 緊急対応 関数実行のエラーを監視できない問題 合計値 5分 静的 より大きい(>) 0 1/1 見つかりませんとして処理 - - メール通知 76 AWS Lambda API Teams通知用Lambda関数 バッチ処理監視 DestinationDeliveryFailures AWS/Lambda Function Name - 非同期呼び出しおよびサポートされているイベントソースマッピングの場合、Lambdaがイベントを送信先に送信しようとして失敗した回数。イベントソースマッピングの場合、Lambdaはストリームソース(DynamoDBおよびKinesis)の送信先をサポートする。 緊急対応 正常に関数が呼び出されない問題の監視 合計値 5分 静的 より大きい(>) 0 1/1 見つかりませんとして処理 - - メール通知 77 AWS Lambda API Teams通知用Lambda関数 バッチ処理監視 Throttles AWS/Lambda Function Name - スロットリングされた呼び出しリクエストの数 緊急対応 スロットリングによるシステムのパフォーマンス低下の防止 合計値 5分 静的 より大きい(>) 0 1/1 見つかりませんとして処理 - - メール通知 78 AWS Lambda API Teams通知用Lambda関数 バッチ処理監視 Duration AWS/Lambda Function Name - 関数コードがイベントの処理に費やす時間 緊急対応 性能劣化や15分のタイムアウトに抵触するリスクを防止 平均値 5分 静的 より大きい(>) 10 1/1 見つかりませんとして処理 - - メール通知 79 AWS Lambda API Teams通知用Lambda関数 バッチ処理監視 AsyncEventsDropped AWS/Lambda Function Name - 関数を正常に実行せずにドロップされたイベントの数 緊急対応 Lambdaの自動リトライ(3回)でも正常終了しなかったイベントの発生を検知 合計値 5分 静的 より大きい(>) 0 1/1 見つかりませんとして処理 - - メール通知 80 AWS Sinple Notification Service トピック アラーム通知用SNSトピック リソース監視 NumberOfNotificationsFailed AWS/SNS TopicName - Amazon SNS が配信に失敗したメッセージの数。 緊急対応 メッセージ送信に失敗したことを検出する。 合計値 1分 静的 より大きい(>) 0 1/1 見つかりませんとして処理 - - メール通知 81 AWS Sinple Notification Service トピック アラーム通知用SNSトピック リソース監視 NumberOfNotificationsFailedToRedriveToDlq AWS/SNS TopicName - デッドレターキューに移動できなかったメッセージの数。 翌営中 運用上のミスでDLQが削除されたり、配信ポリシー?の権限が変更されたりすることを検出する。 合計値 5分 静的 より大きい(>) 0 1/1 見つかりませんとして処理 - - メール通知

kirin-ri commented 1 week ago
AWSサービス名    リソース監視単位    リソース        メトリクス名  名前空間    ディメンション

1 Amazon Elastic Container Service (ECS) サービス "ツアー予約WebAP ホテル管理WebAP マスタ管理バッチAP" リソース監視 "CPUUtilization " AWS/ECS ClusterName, ServiceName 2 Amazon Elastic Container Service (ECS) サービス "ツアー予約WebAP ホテル管理WebAP マスタ管理バッチAP" リソース監視 MemoryUtilization AWS/ECS ClusterName, ServiceName 3 Amazon Elastic Container Service (ECS) クラスター "ツアー予約WebAP ホテル管理WebAP マスタ管理バッチAP" リソース監視 "RunningTaskCount / DesiredTaskCount" ECS/ContainerInsights ClusterName, ServiceName 4 Elastic Load Balancing(ALB) ALB "Public ALB Internal ALB" リソース監視 HTTPCode_ELB_4XX_Count AWS/ApplicationELB LoadBalancer 5 Elastic Load Balancing(ALB) ALB "Public ALB Internal ALB" リソース監視 HTTPCode_ELB_5XX_Count AWS/ApplicationELB LoadBalancer 6 Elastic Load Balancing(ALB) ALB "Public ALB Internal ALB" リソース監視 HTTPCode_ELB_500_Count AWS/ApplicationELB LoadBalancer 7 Elastic Load Balancing(ALB) ALB "Public ALB Internal ALB" リソース監視 HTTPCode_ELB_502_Count AWS/ApplicationELB LoadBalancer 8 Elastic Load Balancing(ALB) ALB "Public ALB Internal ALB" リソース監視 HTTPCode_ELB_503_Count AWS/ApplicationELB LoadBalancer 9 Elastic Load Balancing(ALB) ALB "Public ALB Internal ALB" リソース監視 HTTPCode_ELB_504_Count AWS/ApplicationELB LoadBalancer 10 Elastic Load Balancing(ALB) ALB "Public ALB Internal ALB" リソース監視 RejectedConnectionCount AWS/ApplicationELB LoadBalancer

kirin-ri commented 1 week ago

素晴らしい基準です!これらの基準に基づいて、AWSダッシュボードを構成すると、業務運用における重要な領域を網羅し、効果的に監視・管理できるダッシュボードを構築できます。それぞれの領域について、具体的なアイディアや工夫点を以下にまとめました。

1. ビジネスメトリクス領域
目的: システムがビジネス上の価値を発揮しているかを測定。
具体例:
売上、トランザクション数、ユーザーアクティビティ数。
KPI(例えば、月間アクティブユーザー数、カート放棄率)。
工夫:
グラフウィジェットでトレンドを表示。
異常検知(例: 売上の急激な減少)のためのアラームラインを追加。
2. 主要アラーム領域
目的: サービスやUXに直接影響する問題を即座に通知。
具体例:
レイテンシ(応答時間)やエラーレートの監視。
ヘルスチェックの失敗数。
工夫:
アラームウィジェットを利用し、クリティカルなアラームを色分け表示。
アラームが発動中の場合にダッシュボード上で目立つデザイン。
3. 主要システムメトリクス領域
目的: UXに影響するシステムパフォーマンスを把握。
具体例:
CPU使用率、メモリ使用率、ディスクI/O。
キャッシュヒット率やデータベース接続数。
工夫:
複数のメトリクスを一つのグラフウィジェットにまとめて表示。
「正常値」と「閾値」の明確な線を引く。
4. 主要ログ領域
目的: アプリケーションの状況やエラーの特定。
具体例:
ログレベルごとの件数(INFO、WARN、ERROR)。
特定のエラーメッセージ頻度。
工夫:
CloudWatch Logs Insightsクエリでフィルタリングした結果を表示。
タイムライン形式で重要なログを確認。
5. コスト領域
目的: インフラコストの意識と最適化。
具体例:
サービス別の月次コスト。
コスト増加のトレンドアラート。
工夫:
AWS Cost Explorerデータを可視化。
月別のコスト比較グラフを追加。
6. セキュリティ領域
目的: インフラのセキュリティ状況を把握。
具体例:
セキュリティグループ変更履歴。
異常ログイン試行数、IAMポリシー変更。
工夫:
Security HubやGuardDutyの結果を統合表示。
アラート発生時の即時通知エリア。
7. システムメトリクス領域
目的: 調査時に必要な詳細メトリクスを定義。
具体例:
ネットワークスループットやパケットドロップ率。
ラムダ関数の実行時間やエラーレート。
工夫:
詳細メトリクスを折りたたみ可能なセクションに配置。
時系列グラフで問題の発生日を追跡可能に。
8. その他サンプル領域
目的: カスタムウィジェットのサンプル表示や実験的な領域。
具体例:
API Gatewayリクエストの成功率。
DynamoDBのスループット使用率。
工夫:
ユーザーや管理者がカスタマイズを試せるスペースとして確保。
新機能や新しいモニタリングツールのテスト表示。
kirin-ri commented 1 week ago

11 Elastic Load Balancing(ALB) ALB, TargetGroup "Public ALB └ ツアー予約WebAP用TG1 └ ツアー予約WebAP用TG2 Internal ALB └ ホテル管理WebAP用TG1 └ ホテル管理WebAP用TG2" 死活監視 "HealthyHostCount / DisiredTaskCount" "AWS/ApplicationELB, ECS/ContainerInsights" "TargetGroup, LoadBalancer / ClusterName, ServiceName" 12 Elastic Load Balancing(ALB) ALB, TargetGroup "Public ALB └ ツアー予約WebAP用TG1 └ ツアー予約WebAP用TG2 Internal ALB └ ホテル管理WebAP用TG1 └ ホテル管理WebAP用TG2" リソース監視 HTTPCode_Target_2XX_Count AWS/ApplicationELB TargetGroup, LoadBalancer 13 Elastic Load Balancing(ALB) ALB, TargetGroup "Public ALB └ ツアー予約WebAP用TG1 └ ツアー予約WebAP用TG2 Internal ALB └ ホテル管理WebAP用TG1 └ ホテル管理WebAP用TG2" リソース監視 HTTPCode_Target_3XX_Count AWS/ApplicationELB TargetGroup, LoadBalancer 14 Elastic Load Balancing(ALB) ALB, TargetGroup "Public ALB └ ツアー予約WebAP用TG1 └ ツアー予約WebAP用TG2 Internal ALB └ ホテル管理WebAP用TG1 └ ホテル管理WebAP用TG2" リソース監視 HTTPCode_Target_4XX_Count AWS/ApplicationELB TargetGroup, LoadBalancer 15 Elastic Load Balancing(ALB) ALB, TargetGroup "Public ALB └ ツアー予約WebAP用TG1 └ ツアー予約WebAP用TG2 Internal ALB └ ホテル管理WebAP用TG1 └ ホテル管理WebAP用TG2" リソース監視 HTTPCode_Target_5XX_Count AWS/ApplicationELB TargetGroup, LoadBalancer 16 Elastic Load Balancing(ALB) ALB, TargetGroup "Public ALB └ ツアー予約WebAP用TG1 └ ツアー予約WebAP用TG2 Internal ALB └ ホテル管理WebAP用TG1 └ ホテル管理WebAP用TG2" リソース監視 TargetConnectionErrorCount AWS/ApplicationELB TargetGroup, LoadBalancer 17 Elastic Load Balancing(ALB) ALB, TargetGroup "Public ALB └ ツアー予約WebAP用TG1 └ ツアー予約WebAP用TG2 Internal ALB └ ホテル管理WebAP用TG1 └ ホテル管理WebAP用TG2" リソース監視 TargetResponseTime AWS/ApplicationELB TargetGroup, LoadBalancer 18 Elastic Load Balancing(ALB) ALB, TargetGroup "Public ALB └ ツアー予約WebAP用TG1 └ ツアー予約WebAP用TG2 Internal ALB └ ホテル管理WebAP用TG1 └ ホテル管理WebAP用TG2" 死活監視 UnhealthyHostCount AWS/ApplicationELB TargetGroup, LoadBalancer 19 Elastic Load Balancing(ALB) ALB, TargetGroup "Public ALB └ ツアー予約WebAP用TG1 └ ツアー予約WebAP用TG2 Internal ALB └ ホテル管理WebAP用TG1 └ ホテル管理WebAP用TG2" 死活監視 UnhealthyStateDNS AWS/ApplicationELB TargetGroup, LoadBalancer

kirin-ri commented 1 week ago

20 Amazon Aurora PostgreSQL リードレプリカインスタンス MainAuroraリーダーインスタンス リソース監視 AuroraReplicaLag AWS/RDS DBInstanceIdentifier 21 Amazon Aurora PostgreSQL インスタンス "MainAuroraリーダーインスタンス MainAuroraライターインスタンス" リソース監視 CPUUtilization AWS/RDS DBInstanceIdentifier 22 Amazon Aurora PostgreSQL クラスター "MainAuroraリーダーインスタンス MainAuroraライターインスタンス" リソース監視 VolumeBytesUsed AWS/RDS DBInstanceIdentifier 23 Amazon Aurora PostgreSQL インスタンス "MainAuroraリーダーインスタンス MainAuroraライターインスタンス" リソース監視 Deadlocks AWS/RDS DBInstanceIdentifier 24 Amazon Aurora PostgreSQL インスタンス "MainAuroraリーダーインスタンス MainAuroraライターインスタンス" リソース監視 DatabaseConnections AWS/RDS DBInstanceIdentifier

kirin-ri commented 1 week ago

25 Amazon DynamoDB テーブル Hotel Table リソース監視 AccountProvisionedReadCapacityUtilization AWS/DynamoDB -(Account Metrics) 26 Amazon DynamoDB テーブル Hotel Table リソース監視 AccountProvisionedWriteCapacityUtilization AWS/DynamoDB -(Account Metrics) 27 Amazon DynamoDB テーブル Hotel Table リソース監視 ConditionalCheckFailedRequests AWS/DynamoDB TableName 28 Amazon DynamoDB テーブル Hotel Table リソース監視 "ConsumedReadCapacityUnits (プロビジョニングモード)" AWS/DynamoDB TableName 29 Amazon DynamoDB テーブル Hotel Table リソース監視 "ConsumedWriteCapacityUnits (プロビジョニングモード)" AWS/DynamoDB TableName 30 Amazon DynamoDB テーブル Hotel Table リソース監視 MaxProvisionedTableReadCapacityUtilization AWS/DynamoDB -(Account Metrics) 31 Amazon DynamoDB テーブル Hotel Table リソース監視 MaxProvisionedTableWriteCapacityUtilization AWS/DynamoDB -(Account Metrics) 32 Amazon DynamoDB テーブル Hotel Table リソース監視 "ReadThrottleEvents (プロビジョニングモード)" AWS/DynamoDB TableName 33 Amazon DynamoDB テーブル Hotel Table リソース監視 "WriteThrottleEvents (プロビジョニングモード)" AWS/DynamoDB TableName, DelegatedOperation 34 Amazon DynamoDB テーブル Hotel Table リソース監視 SuccessfulRequestLatency AWS/DynamoDB TableName, Operation 35 Amazon DynamoDB テーブル Hotel Table リソース監視 SystemErrors AWS/DynamoDB TableName, Operation 36 Amazon DynamoDB テーブル Hotel Table リソース監視 "ThrottledRequests (プロビジョニングモード)" AWS/DynamoDB TableName, DelegatedOperation 37 Amazon DynamoDB テーブル Hotel Table リソース監視 UserErrors AWS/DynamoDB -(Account Metrics)

kirin-ri commented 1 week ago

55 Amazon Simple Storage Service (S3) バケット "業務データ用バケット GCログ格納用バケット ログアーカイブ用バケット AWS WAFログ格納バケット VPCフローログ格納バケット 内部用ALB用バケット パブリック用ALBバケット S3アクセスログ用バケット" リソース監視 AllRequests AWS/S3 BacketName, FilterID 56 Amazon Simple Storage Service (S3) バケット "業務データ用バケット GCログ格納用バケット ログアーカイブ用バケット AWS WAFログ格納バケット VPCフローログ格納バケット 内部用ALB用バケット パブリック用ALBバケット S3アクセスログ用バケット" リソース監視 4xxErrors AWS/S3 BacketName, FilterID 57 Amazon Simple Storage Service (S3) バケット "業務データ用バケット GCログ格納用バケット ログアーカイブ用バケット AWS WAFログ格納バケット VPCフローログ格納バケット 内部用ALB用バケット パブリック用ALBバケット S3アクセスログ用バケット" リソース監視 5xxErrors AWS/S3 BacketName, FilterID 58 Amazon Simple Queue Service (SQS) キュー マスタ管理SQSメインキュー リソース監視 ApproximateNumberOfMessagesVisible AWS/SQS Queue Metrics 59 Amazon Simple Queue Service (SQS) キュー マスタ管理SQSデッドレターキュー リソース監視 ApproximateNumberOfMessagesVisible AWS/SQS Queue Metrics

kirin-ri commented 1 week ago

38 "Amazon ElastiCache (ホストレベル)" ノード "Redisプライマリノード Redisレプリカノード " リソース監視 CPUUtilization AWS/ElastiCache "CacheClusterId, CacheNodeId" 39 "Amazon ElastiCache (ホストレベル)" ノード "Redisプライマリノード Redisレプリカノード " リソース監視 FreeableMemory AWS/ElastiCache "CacheClusterId, CacheNodeId" 40 "Amazon ElastiCache (ホストレベル)" クラスター "Redisプライマリノード Redisレプリカノード " リソース監視 NetworkBandwidthInAllowanceExceeded AWS/ElastiCache "CacheClusterId, CacheNodeId" 41 "Amazon ElastiCache (ホストレベル)" クラスター "Redisプライマリノード Redisレプリカノード " リソース監視 NetworkConntrackAllowanceExceeded AWS/ElastiCache "CacheClusterId, CacheNodeId" 42 "Amazon ElastiCache (ホストレベル)" クラスター "Redisプライマリノード Redisレプリカノード " リソース監視 NetworkBandwidthOutAllowanceExceeded AWS/ElastiCache "CacheClusterId, CacheNodeId" 43 "Amazon ElastiCache (ホストレベル)" クラスター "Redisプライマリノード Redisレプリカノード " リソース監視 "NetworkPacketsPerSecondAllowanceExceeded " AWS/ElastiCache "CacheClusterId, CacheNodeId" 44 "Amazon ElastiCache (ホストレベル)" ノード "Redisプライマリノード Redisレプリカノード " リソース監視 SwapUsage AWS/ElastiCache "CacheClusterId, CacheNodeId" 45 "Amazon ElastiCache Redis" ノード "Redisプライマリノード Redisレプリカノード " リソース監視 ChannelAuthorizationFailures AWS/ElastiCache "CacheClusterId, CacheNodeId" 46 "Amazon ElastiCache Redis" ノード "Redisプライマリノード Redisレプリカノード " リソース監視 CurrConnections AWS/ElastiCache "CacheClusterId, CacheNodeId" 47 "Amazon ElastiCache Redis" クラスター "Redisプライマリノード Redisレプリカノード " リソース監視 "DatabaseMemoryUsagePercentage (クラスターモード無効)" AWS/ElastiCache "CacheClusterId, CacheNodeId" 48 "Amazon ElastiCache Redis" ノード "Redisプライマリノード Redisレプリカノード " リソース監視 Evictions AWS/ElastiCache "CacheClusterId, CacheNodeId" 49 "Amazon ElastiCache Redis" ノード "Redisプライマリノード Redisレプリカノード " リソース監視 KeyAuthorizationFailures AWS/ElastiCache "CacheClusterId, CacheNodeId" 50 "Amazon ElastiCache Redis" ノード "Redisプライマリノード Redisレプリカノード " リソース監視 "MemoryFragmentationRatio " AWS/ElastiCache "CacheClusterId、 CacheNodeId" 51 "Amazon ElastiCache Redis" ノード "Redisプライマリノード Redisレプリカノード " リソース監視 MasterLinkHealthStatus AWS/ElastiCache "CacheClusterId、 CacheNodeId" 52 "Amazon ElastiCache Redis" クラスター "Redisプライマリノード Redisレプリカノード " リソース監視 ReplicationBytes AWS/ElastiCache "CacheClusterId、 CacheNodeId" 53 "Amazon ElastiCache Redis" クラスター "Redisプライマリノード Redisレプリカノード " リソース監視 ReplicationLag AWS/ElastiCache "CacheClusterId、 CacheNodeId" 54 "Amazon ElastiCache Redis" クラスター "Redisプライマリノード Redisレプリカノード " リソース監視 StringBasedCmdsLatency AWS/ElastiCache "CacheClusterId、 CacheNodeId"

kirin-ri commented 1 week ago

60 Amazon EventBridge イベント スケジュール起動用AP起動Rule リソース監視 DeadLetterInvocations AWS/Events Rule Name 61 Amazon EventBridge イベント スケジュール起動用AP起動Rule リソース監視 FailedInvocations AWS/Events Rule Name 62 Amazon EventBridge イベント スケジュール起動用AP起動Rule リソース監視 InvocationsFailedToBeSentToDlq AWS/Events Rule Name 63 Amazon EventBridge イベント スケジュール起動用AP起動Rule リソース監視 ThrottledRules AWS/Events RuleName 64 Amazon EventBridge イベント SecurityHubイベント通知Rule リソース監視 DeadLetterInvocations AWS/Events Rule Name 65 Amazon EventBridge イベント SecurityHubイベント通知Rule リソース監視 FailedInvocations AWS/Events Rule Name 66 Amazon EventBridge イベント SecurityHubイベント通知Rule リソース監視 InvocationsFailedToBeSentToDlq AWS/Events Rule Name 67 Amazon EventBridge イベント SecurityHubイベント通知Rule リソース監視 ThrottledRules AWS/Events RuleName 68 AWS Lambda API ログアーカイブ用Lambda関数 バッチ処理監視 Errors AWS/Lambda Function Name 69 AWS Lambda API ログアーカイブ用Lambda関数 バッチ処理監視 DeadLetterErrors AWS/Lambda Function Name 70 AWS Lambda API ログアーカイブ用Lambda関数 バッチ処理監視 DestinationDeliveryFailures AWS/Lambda Function Name 71 AWS Lambda API ログアーカイブ用Lambda関数 バッチ処理監視 Throttles AWS/Lambda Function Name 72 AWS Lambda API ログアーカイブ用Lambda関数 バッチ処理監視 Duration AWS/Lambda Function Name 73 AWS Lambda API ログアーカイブ用Lambda関数 バッチ処理監視 AsyncEventsDropped AWS/Lambda Function Name 74 AWS Lambda API Teams通知用Lambda関数 バッチ処理監視 Errors AWS/Lambda Function Name 75 AWS Lambda API Teams通知用Lambda関数 バッチ処理監視 DeadLetterErrors AWS/Lambda Function Name 76 AWS Lambda API Teams通知用Lambda関数 バッチ処理監視 DestinationDeliveryFailures AWS/Lambda Function Name 77 AWS Lambda API Teams通知用Lambda関数 バッチ処理監視 Throttles AWS/Lambda Function Name 78 AWS Lambda API Teams通知用Lambda関数 バッチ処理監視 Duration AWS/Lambda Function Name 79 AWS Lambda API Teams通知用Lambda関数 バッチ処理監視 AsyncEventsDropped AWS/Lambda Function Name 80 AWS Sinple Notification Service トピック アラーム通知用SNSトピック リソース監視 NumberOfNotificationsFailed AWS/SNS TopicName 81 AWS Sinple Notification Service トピック アラーム通知用SNSトピック リソース監視 NumberOfNotificationsFailedToRedriveToDlq AWS/SNS TopicName

kirin-ri commented 6 days ago

どこに何を配置するか、配置しないものはあるか、なぜそれを選定したか、どういう考えでその案に至ったか等が説明できる資料になっているとよいかと思います

kirin-ri commented 5 days ago

繝€繝・す繝・繝懊・繝芽ゥウ邏ー隱ソ譟サ.xlsx

kirin-ri commented 5 days ago

逶」隕悶い繝ゥ繝シ繝荳€隕ァ.xlsx

kirin-ri commented 5 days ago
1. ビジネスメトリクス領域
目的:サービスの価値や利用状況を示す重要な指標を表示。
選定したメトリクス(合計:12個)

12 (HTTPCode_Target_2XX_Count)
理由:成功レスポンス数は、システムのビジネス価値を直接反映。
34 (SuccessfulRequestLatency)
理由:応答時間はUXの根本指標。
55 (AllRequests)
理由:全リクエスト数は、サービス利用量や負荷を把握するために重要。
28, 29 (ConsumedReadCapacityUnits, ConsumedWriteCapacityUnits)
理由:リソース消費量の変動は、ビジネスの成長や負荷変動を示す。
1, 2 (ECS CPUUtilization, MemoryUtilization)
理由:ECSリソースの利用状況は、サービス稼働効率の指標となる。
20 (AuroraReplicaLag)
理由:データベースのレプリカ遅延は、整合性や性能に影響。
3 (RunningTaskCount / DesiredTaskCount)
理由:ECSのタスク数不一致は、サービス提供能力の問題を示唆。
38, 39 (ElastiCache: CPUUtilization, FreeableMemory)
理由:キャッシュリソースの利用効率は、全体的なパフォーマンスに影響する。
2. 主要アラーム領域
目的:即時対応が必要な指標(エラー、障害)を監視。
選定したメトリクス(合計:20個)

4, 5, 6, 7, 8, 9 (HTTPCode_ELB_4XX_Count 〜 HTTPCode_ELB_504_Count)
理由:これらのエラーは、サービスのUXに直接影響。
23 (Deadlocks)
理由:デッドロックは、データベースのパフォーマンスに深刻な影響を与える。
68, 69, 70, 71, 72 (Lambda Errors, DeadLetterErrors, Throttles, Duration)
理由:Lambdaのエラーやスロットリングは、即座に対応すべき問題。
58, 59 (ApproximateNumberOfMessagesVisible)
理由:SQSキューの蓄積は、処理能力不足や異常を示唆。
56, 57 (S3: 4xxErrors, 5xxErrors)
理由:ストレージエラーは、データ操作全体に影響を与える。
48 (Evictions)
理由:キャッシュ淘汰は、メモリ不足やキャパシティ問題を示す。
45 (ChannelAuthorizationFailures)
理由:未承認のアクセス試行は、セキュリティリスクを示唆。
3. 主要システムメトリクス領域
目的:UXやパフォーマンスに影響を与えるシステム指標を監視。
選定したメトリクス(合計:18個)

22 (VolumeBytesUsed)
理由:ディスク使用量が増加すると、パフォーマンス低下やリソース枯渇を引き起こす。
17 (TargetResponseTime)
理由:応答時間の遅延は、システムのパフォーマンスに直接関わる。
18 (UnhealthyHostCount)
理由:非正常ホストは、サービスの信頼性に直結する。
25, 26 (DynamoDB Read/Write Capacity Utilization)
理由:プロビジョニング済みリソースの利用効率を示す。
3 (RunningTaskCount / DesiredTaskCount)
理由:ECSタスクのバランスは、負荷調整の指標。
38, 39 (ElastiCache CPUUtilization, FreeableMemory)
理由:キャッシュリソースは、システムパフォーマンスを維持する要素。
12, 34 (HTTPCode_Target_2XX_Count, SuccessfulRequestLatency)
理由:システムの応答成功率と速度を把握。
54 (StringBasedCmdsLatency)
理由:Redisコマンドの遅延は、パフォーマンスの劣化を示す。
4. 主要ログ領域
目的:ログを活用し、エラー原因や挙動を特定。
選定したメトリクス(合計:10個)

35 (SystemErrors)
理由:システムエラーは、根本的な障害原因を特定する鍵。
45, 49 (ChannelAuthorizationFailures, KeyAuthorizationFailures)
理由:未承認アクセスや操作は、セキュリティログとして重要。
56, 57 (S3: 4xxErrors, 5xxErrors)
理由:ストレージエラーの詳細を把握可能。
48 (Evictions)
理由:キャッシュ淘汰ログは、リソース不足を確認するために必要。
50 (MemoryFragmentationRatio)
理由:Redisのフラグメンテーションは、長期的な性能劣化を示す。
5. コスト領域
目的:リソース消費とコスト効率を監視。
選定したメトリクス(合計:4個)

25, 26 (DynamoDB Read/Write Capacity Utilization)
理由:コスト削減と最適化のため、リソース使用率を監視。
72 (Duration)
理由:Lambdaの実行時間が直接コストに関わる。
20 (AuroraReplicaLag)
理由:レプリカ遅延がある場合、再試行などで余分なリソース消費が発生。
6. セキュリティ領域
目的:セキュリティリスクや脅威を監視。
選定したメトリクス(合計:9個)

45, 49 (ChannelAuthorizationFailures, KeyAuthorizationFailures)
理由:セキュリティリスクの早期検知。
73 (AsyncEventsDropped)
理由:未処理イベントは、信頼性低下やデータ損失を引き起こす。
19 (UnhealthyStateDNS)
理由:DNSの不健康状態は、システムのセキュリティ問題を引き起こす。
7. その他領域
目的:カスタム監視や特殊なユースケース向け指標。
選定したメトリクス(合計:8個)

50 (MemoryFragmentationRatio)
理由:Redisの性能変化を監視。
41 (NetworkConntrackAllowanceExceeded)
理由:ネットワーク接続数の制限超過を検出。
54 (StringBasedCmdsLatency)
理由:Redisの遅延を詳細に把握。
kirin-ri commented 5 days ago

主要アラーム領域 目的:サービスやユーザー体験に直接影響を与える問題を早期発見し、対応可能にする。

選定したメトリクス(合計:20個) 4 (HTTPCode_ELB_4XX_Count) 理由:クライアントエラーが多発している場合、ユーザー体験に直接悪影響。 5 (HTTPCode_ELB_5XX_Count) 理由:サーバーエラーは、サービスが正常に稼働していない可能性を示唆。 6 (HTTPCode_ELB_500_Count) 理由:内部サーバーエラーが発生している場合、システム全体の障害の兆候。 7 (HTTPCode_ELB_502_Count) 理由:Bad Gatewayエラーは、バックエンドとの通信障害を示す。 8 (HTTPCode_ELB_503_Count) 理由:サーバーのオーバーロードやスケールの問題。 9 (HTTPCode_ELB_504_Count) 理由:Gateway Timeoutは、バックエンドのパフォーマンス問題を示唆。 23 (Deadlocks) 理由:データベースのデッドロックは、アプリケーションの大規模なパフォーマンス低下を引き起こす。 68 (Lambda Errors) 理由:Lambda関数のエラーが多発すると、機能停止のリスクが高まる。 69 (Lambda DeadLetterErrors) 理由:非同期実行のエラーがDLQにも処理できない場合、イベントの損失が発生。 70 (DestinationDeliveryFailures) 理由:送信先へのイベント配信に失敗すると、データフローが停止する。 71 (Lambda Throttles) 理由:スロットリングは、リソース不足や設定ミスを示唆。 72 (Lambda Duration) 理由:実行時間の長期化は、タイムアウトやコスト増加のリスク。 56 (S3 4xxErrors) 理由:クライアントエラーが多い場合、ストレージのアクセス権や設定問題の可能性。 57 (S3 5xxErrors) 理由:サーバーエラーは、ストレージ全体の障害を示唆。 58 (SQS ApproximateNumberOfMessagesVisible) 理由:キューにメッセージが大量に蓄積されると、リソース不足の可能性。 59 (SQS ApproximateNumberOfMessagesNotVisible) 理由:非表示メッセージが増加する場合、処理に遅延が発生している。 48 (ElastiCache Evictions) 理由:キャッシュの淘汰が発生すると、アプリケーションのパフォーマンスが低下。 45 (ChannelAuthorizationFailures) 理由:未承認アクセスは、セキュリティリスクを示す。 19 (UnhealthyStateDNS) 理由:DNSの不健康な状態は、通信障害を引き起こす可能性。 18 (UnhealthyHostCount) 理由:非正常ホストが増加すると、サービス全体の稼働に影響。

kirin-ri commented 5 days ago
AWSサービス名    リソース監視単位    リソース        メトリクス名  名前空間    ディメンション 監視/計測の目的    監視分類

1 Amazon Elastic Container Service (ECS) サービス "ツアー予約WebAP ホテル管理WebAP マスタ管理バッチAP" リソース監視 "CPUUtilization " AWS/ECS ClusterName, ServiceName オートスケーリングの閾値がメモリ使用率の場合、CPU使用率のみ伸びると処理時間が伸びるため。またオートスケーリングのタスク数上限に達している可能性がある。 ビジネスメトリクス領域 2 Amazon Elastic Container Service (ECS) サービス "ツアー予約WebAP ホテル管理WebAP マスタ管理バッチAP" リソース監視 MemoryUtilization AWS/ECS ClusterName, ServiceName オートスケーリングの閾値がCPU使用率の場合、メモリ使用率のみ伸びると処理時間が伸びるため。またオートスケーリングのタスク数上限に達している可能性がある。 ビジネスメトリクス領域 3 Amazon Elastic Container Service (ECS) クラスター "ツアー予約WebAP ホテル管理WebAP マスタ管理バッチAP" リソース監視 "RunningTaskCount / DesiredTaskCount" ECS/ContainerInsights ClusterName, ServiceName 長時間Desiredタスク数とRunningタスク数が一致しない場合、何らかの異常が発生していると考えられる。 ビジネスメトリクス領域 12 Elastic Load Balancing(ALB) ALB, TargetGroup "Public ALB └ ツアー予約WebAP用TG1 └ ツアー予約WebAP用TG2 Internal ALB └ ホテル管理WebAP用TG1 └ ホテル管理WebAP用TG2" リソース監視 HTTPCode_Target_2XX_Count AWS/ApplicationELB TargetGroup, LoadBalancer ターゲットへ異常な数の成功レスポンスを返していないか監視する ビジネスメトリクス領域 22 Amazon Aurora PostgreSQL クラスター "MainAuroraリーダーインスタンス MainAuroraライターインスタンス" リソース監視 VolumeBytesUsed AWS/RDS DBInstanceIdentifier APバグなどによる想定以上のディスク消費防止のため ビジネスメトリクス領域 25 Amazon DynamoDB テーブル Hotel Table リソース監視 AccountProvisionedReadCapacityUtilization AWS/DynamoDB -(Account Metrics) アカウントレベルのプロビジョニング済み読み込み容量ユニットの使用状況を監視 ビジネスメトリクス領域 26 Amazon DynamoDB テーブル Hotel Table リソース監視 AccountProvisionedWriteCapacityUtilization AWS/DynamoDB -(Account Metrics) アカウントレベルのプロビジョニング済み書き込み容量ユニットの使用状況を監視 ビジネスメトリクス領域 28 Amazon DynamoDB テーブル Hotel Table リソース監視 "ConsumedReadCapacityUnits (プロビジョニングモード)" AWS/DynamoDB TableName テーブルへのリクエストに待ちが発生していないか監視 ビジネスメトリクス領域 29 Amazon DynamoDB テーブル Hotel Table リソース監視 "ConsumedWriteCapacityUnits (プロビジョニングモード)" AWS/DynamoDB TableName テーブルへのリクエストに待ちが発生していないか監視 ビジネスメトリクス領域 47 "Amazon ElastiCache Redis" クラスター "Redisプライマリノード Redisレプリカノード " リソース監視 "DatabaseMemoryUsagePercentage (クラスターモード無効)" AWS/ElastiCache "CacheClusterId, CacheNodeId" メモリー不足によるパフォーマンス低下の防止 ビジネスメトリクス領域 55 Amazon Simple Storage Service (S3) バケット "業務データ用バケット GCログ格納用バケット ログアーカイブ用バケット AWS WAFログ格納バケット VPCフローログ格納バケット 内部用ALB用バケット パブリック用ALBバケット S3アクセスログ用バケット" リソース監視 AllRequests AWS/S3 BacketName, FilterID S3への異常な数のアクセスが発生していなかの確認 ビジネスメトリクス領域

kirin-ri commented 5 days ago
AWSサービス名
Amazon Elastic Container Service (ECS)
Amazon Elastic Container Service (ECS)
Amazon Elastic Container Service (ECS)
Elastic Load Balancing(ALB)
Amazon Aurora PostgreSQL
Amazon DynamoDB
Amazon DynamoDB
Amazon DynamoDB
Amazon DynamoDB
"Amazon ElastiCache
Redis"
Amazon Simple Storage Service (S3)

メトリクス名
"CPUUtilization
"
MemoryUtilization
"RunningTaskCount /
DesiredTaskCount"
HTTPCode_Target_2XX_Count
VolumeBytesUsed
AccountProvisionedReadCapacityUtilization
AccountProvisionedWriteCapacityUtilization
"ConsumedReadCapacityUnits
(プロビジョニングモード)"
"ConsumedWriteCapacityUnits
(プロビジョニングモード)"
"DatabaseMemoryUsagePercentage
(クラスターモード無効)"
AllRequests
kirin-ri commented 5 days ago
  1. Amazon Elastic Container Service (ECS) CPUUtilization 理由:ECSクラスタのCPU使用率は、サービスが適切にリソースを活用しているかを示す。 直接的なビジネス効率の指標として重要。 MemoryUtilization 理由:ECSのメモリ使用率は、リソース効率と安定性を示す。リソース不足によるサービス遅延がビジネス影響を及ぼすため。 RunningTaskCount / DesiredTaskCount 理由:実行タスク数と希望タスク数の一致状況は、サービス提供能力の指標。 リソース不足やスケーリングの問題を早期に検出するための重要なメトリクス。
  2. Elastic Load Balancing(ALB) HTTPCode_Target_2XX_Count 理由:成功応答の数は、サービスの正常稼働とUXの良好さを示す。ビジネス価値を評価するための直接的な指標。
  3. Amazon Aurora PostgreSQL VolumeBytesUsed 理由:Auroraインスタンスのストレージ使用量は、データベースの負荷を示す。 高トラフィック時のスケーラビリティを評価し、ビジネス成長に対応できるかの指標となる。
  4. Amazon DynamoDB AccountProvisionedReadCapacityUtilization 理由:リード容量利用率は、DynamoDBがどれだけビジネスリクエストを処理できているかを示す。 AccountProvisionedWriteCapacityUtilization 理由:書き込み容量利用率は、DynamoDBがデータ更新リクエストを処理する効率を示す。 高い利用率はビジネス需要の増加を反映。 ConsumedReadCapacityUnits(プロビジョニングモード) 理由:読み込みリクエストの消費量は、ビジネス負荷と利用状況を直接測定する。 ConsumedWriteCapacityUnits(プロビジョニングモード) 理由:書き込みリクエストの消費量も同様に、ビジネス活動の増減を示す指標。
  5. Amazon ElastiCache Redis DatabaseMemoryUsagePercentage(クラスターモード無効) 理由:Redisのメモリ使用率は、キャッシュシステムの負荷を示し、ビジネス要求に応える能力を評価するための重要な指標。
  6. Amazon Simple Storage Service (S3) AllRequests 理由:リクエスト数は、サービスのトラフィック状況を測定する直接的な指標。 S3へのアクセス頻度の増加は、ビジネス成長や需要の高まりを反映。
kirin-ri commented 5 days ago
AWSサービス名
Elastic Load Balancing(ALB)
Elastic Load Balancing(ALB)
Elastic Load Balancing(ALB)
Elastic Load Balancing(ALB)
Elastic Load Balancing(ALB)
Elastic Load Balancing(ALB)
Elastic Load Balancing(ALB)
Elastic Load Balancing(ALB)
Elastic Load Balancing(ALB)
Elastic Load Balancing(ALB)
Elastic Load Balancing(ALB)
Elastic Load Balancing(ALB)
Amazon Aurora PostgreSQL
Amazon Aurora PostgreSQL
Amazon DynamoDB
Amazon DynamoDB
Amazon DynamoDB
Amazon DynamoDB
Amazon DynamoDB
"Amazon ElastiCache
(ホストレベル)"
"Amazon ElastiCache
(ホストレベル)"
"Amazon ElastiCache
(ホストレベル)"
"Amazon ElastiCache
(ホストレベル)"
"Amazon ElastiCache
Redis"
"Amazon ElastiCache
Redis"
"Amazon ElastiCache
Redis"
Amazon Simple Storage Service (S3)
Amazon Simple Storage Service (S3)
Amazon Simple Queue Service (SQS) 
Amazon EventBridge
Amazon EventBridge
Amazon EventBridge
Amazon EventBridge
Amazon EventBridge
Amazon EventBridge
AWS Lambda
AWS Lambda
AWS Lambda
AWS Lambda
AWS Lambda
AWS Lambda
AWS Lambda
AWS Lambda
AWS Sinple Notification Service
AWS Sinple Notification Service
メトリクス名
HTTPCode_ELB_4XX_Count
HTTPCode_ELB_5XX_Count
HTTPCode_ELB_500_Count
HTTPCode_ELB_502_Count
HTTPCode_ELB_503_Count
HTTPCode_ELB_504_Count
RejectedConnectionCount
HTTPCode_Target_3XX_Count
HTTPCode_Target_4XX_Count
HTTPCode_Target_5XX_Count
TargetResponseTime
UnhealthyHostCount
AuroraReplicaLag
Deadlocks
ConditionalCheckFailedRequests
"ReadThrottleEvents
(プロビジョニングモード)"
"WriteThrottleEvents
(プロビジョニングモード)"
SystemErrors
"ThrottledRequests
(プロビジョニングモード)"
NetworkBandwidthInAllowanceExceeded
NetworkConntrackAllowanceExceeded
NetworkBandwidthOutAllowanceExceeded
"NetworkPacketsPerSecondAllowanceExceeded   "
Evictions
MasterLinkHealthStatus
ReplicationLag
4xxErrors
5xxErrors
ApproximateNumberOfMessagesVisible
DeadLetterInvocations
FailedInvocations
InvocationsFailedToBeSentToDlq
DeadLetterInvocations
FailedInvocations
InvocationsFailedToBeSentToDlq
Errors
DeadLetterErrors
DestinationDeliveryFailures
AsyncEventsDropped
Errors
DeadLetterErrors
DestinationDeliveryFailures
AsyncEventsDropped
NumberOfNotificationsFailed
NumberOfNotificationsFailedToRedriveToDlq
kirin-ri commented 5 days ago
1. Elastic Load Balancing(ALB)
HTTPCode_ELB_4XX_Count
理由:多数のクライアントエラー(4XX)は、UXに直接的な悪影響を及ぼすため。
HTTPCode_ELB_5XX_Count
理由:サーバーエラー(5XX)はサービス停止の兆候であり、即時対応が必要。
HTTPCode_ELB_500_Count
理由:内部サーバーエラー(500)は、深刻なバックエンド障害を示唆。
HTTPCode_ELB_502_Count
理由:Bad Gatewayエラーは、バックエンド間の通信問題を示唆。
HTTPCode_ELB_503_Count
理由:サービスオーバーロード(503)は、キャパシティ不足を示唆。
HTTPCode_ELB_504_Count
理由:Gateway Timeout(504)は、バックエンドの応答遅延が原因。
RejectedConnectionCount
理由:接続拒否は、ロードバランサーがオーバーロード状態である可能性を示唆。
HTTPCode_Target_3XX_Count
理由:過剰なリダイレクトが発生するとUXに悪影響。
HTTPCode_Target_4XX_Count
理由:ターゲットのクライアントエラーは、サービス提供に問題があることを示唆。
HTTPCode_Target_5XX_Count
理由:ターゲットのサーバーエラーは、深刻なバックエンド障害を示唆。
TargetResponseTime
理由:ターゲットの応答時間が長くなると、サービス全体の遅延を引き起こす。
UnhealthyHostCount
理由:非正常ホストが増えるとサービスの安定性が低下。
2. Amazon Aurora PostgreSQL
AuroraReplicaLag
理由:レプリカ遅延は、データ整合性やリアルタイム性に影響を与える。
Deadlocks
理由:デッドロックは、データベース性能や可用性を大きく損なう。
3. Amazon DynamoDB
ConditionalCheckFailedRequests
理由:条件付きリクエストの失敗は、アプリケーションエラーや設定ミスを示唆。
ReadThrottleEvents(プロビジョニングモード)
理由:読み取りリクエストがスロットリングされると、UXが悪化。
WriteThrottleEvents(プロビジョニングモード)
理由:書き込みリクエストのスロットリングも同様にビジネス影響が大きい。
SystemErrors
理由:システムエラーは、DynamoDBの障害を直接示唆。
ThrottledRequests(プロビジョニングモード)
理由:スロットリングイベントはリソース不足や設定ミスの兆候。
4. Amazon ElastiCache (ホストレベル)
NetworkBandwidthInAllowanceExceeded
理由:インバウンド帯域幅超過は、通信障害やデータ損失の可能性。
NetworkConntrackAllowanceExceeded
理由:接続トラッキング超過は、サービスへのアクセス制限を引き起こす。
NetworkBandwidthOutAllowanceExceeded
理由:アウトバウンド帯域幅超過は、レスポンス遅延やデータ損失を引き起こす。
NetworkPacketsPerSecondAllowanceExceeded
理由:パケット数超過は、ネットワーク通信の異常を示唆。
5. Amazon ElastiCache Redis
Evictions
理由:キャッシュ淘汰は、メモリ不足やパフォーマンス劣化を示唆。
MasterLinkHealthStatus
理由:Redisプライマリノードの同期不全は、データ整合性の問題を示唆。
ReplicationLag
理由:レプリケーション遅延は、リアルタイム性を損なう。
6. Amazon Simple Storage Service (S3)
4xxErrors
理由:多数のクライアントエラーは、不正アクセスや設定エラーを示唆。
5xxErrors
理由:サーバーエラーは、ストレージシステムの障害を示唆。
7. Amazon Simple Queue Service (SQS)
ApproximateNumberOfMessagesVisible
理由:メッセージの蓄積は、リソース不足や障害の可能性。
8. Amazon EventBridge
DeadLetterInvocations
理由:イベントがデッドレターキューに送信されないのは、データ処理失敗の兆候。
FailedInvocations
理由:完全な呼び出し失敗は、システムの重大な問題を示唆。
InvocationsFailedToBeSentToDlq
理由:デッドレターキュー送信失敗は、さらなるエラーを引き起こす可能性。
9. AWS Lambda
Errors
理由:Lambda関数のエラーは、システム全体のサービス停止に繋がる。
DeadLetterErrors
理由:非同期エラーのDLQ送信失敗は、データ損失のリスク。
DestinationDeliveryFailures
理由:イベント配信失敗は、システム間連携の問題を示唆。
AsyncEventsDropped
理由:ドロップされたイベントは、処理遅延やデータ欠損のリスク。
10. AWS Simple Notification Service (SNS)
NumberOfNotificationsFailed
理由:SNS通知の失敗は、緊急時の通知が機能していないことを示唆。
NumberOfNotificationsFailedToRedriveToDlq
理由:DLQへの再送信失敗は、通知システムの深刻な問題。
kirin-ri commented 5 days ago

AWSサービス名 Elastic Load Balancing(ALB) Elastic Load Balancing(ALB) Amazon Aurora PostgreSQL Amazon Aurora PostgreSQL Amazon DynamoDB "Amazon ElastiCache (ホストレベル)" "Amazon ElastiCache (ホストレベル)" "Amazon ElastiCache (ホストレベル)" "Amazon ElastiCache Redis" "Amazon ElastiCache Redis" "Amazon ElastiCache Redis" "Amazon ElastiCache Redis" Amazon Simple Queue Service (SQS) Amazon EventBridge Amazon EventBridge AWS Lambda AWS Lambda AWS Lambda AWS Lambda

メトリクス名 "HealthyHostCount / DisiredTaskCount" TargetConnectionErrorCount CPUUtilization DatabaseConnections SuccessfulRequestLatency CPUUtilization FreeableMemory SwapUsage CurrConnections "MemoryFragmentationRatio " ReplicationBytes StringBasedCmdsLatency ApproximateNumberOfMessagesVisible ThrottledRules ThrottledRules Throttles Duration Throttles Duration

kirin-ri commented 5 days ago
1. Elastic Load Balancing(ALB)
HealthyHostCount / DesiredTaskCount
理由:正常なホスト数と希望タスク数の比較は、システムの安定性を直接測る指標。リソース不足や障害を早期に検知。
TargetConnectionErrorCount
理由:ターゲット接続エラー数は、バックエンドとの通信が正しく機能しているかを示す重要な指標。
2. Amazon Aurora PostgreSQL
CPUUtilization
理由:AuroraのCPU使用率は、データベースの負荷とパフォーマンスの重要な指標。
DatabaseConnections
理由:データベース接続数の増加は、システムの負荷増大やスケーリングの必要性を示す。
3. Amazon DynamoDB
SuccessfulRequestLatency
理由:リクエストの遅延時間は、DynamoDBの性能とUXに直結。高遅延はシステム性能の劣化を示唆。
4. Amazon ElastiCache (ホストレベル)
CPUUtilization
理由:ElastiCacheのCPU使用率は、キャッシュ処理の効率性と安定性を示す。
FreeableMemory
理由:利用可能メモリが減少すると、キャッシュ性能が低下し、システム全体に影響を与える。
SwapUsage
理由:スワップメモリの使用は、物理メモリ不足の兆候であり、性能低下に直結。
5. Amazon ElastiCache Redis
CurrConnections
理由:現在のクライアント接続数は、キャッシュシステムの負荷を示す。
MemoryFragmentationRatio
理由:Redisのメモリフラグメンテーションは、メモリ使用効率や性能に影響を与える。
ReplicationBytes
理由:レプリケーションで送信されるデータ量は、システムのスケーラビリティに影響。
StringBasedCmdsLatency
理由:文字列ベースのコマンド遅延は、Redisの処理性能を示す重要な指標。
6. Amazon Simple Queue Service (SQS)
ApproximateNumberOfMessagesVisible
理由:キューに蓄積されたメッセージ数は、処理負荷やリソース不足を示唆。
7. Amazon EventBridge
ThrottledRules
理由:スロットリングされたルール数は、リソースの過負荷や設定ミスを示す。
8. AWS Lambda
Throttles
理由:Lambda関数のスロットリングは、リソース不足や性能劣化の兆候。
Duration
理由:関数の実行時間が長い場合、性能劣化やタイムアウトのリスクがある。
kirin-ri commented 5 days ago

AWSサービス名 Amazon DynamoDB Amazon DynamoDB

メトリクス名 MaxProvisionedTableReadCapacityUtilization MaxProvisionedTableWriteCapacityUtilization

kirin-ri commented 5 days ago

メトリクス名 UnhealthyStateDNS UserErrors ChannelAuthorizationFailures KeyAuthorizationFailures

ディメンション TargetGroup, LoadBalancer -(Account Metrics) "CacheClusterId, CacheNodeId" "CacheClusterId, CacheNodeId"

kirin-ri commented 4 days ago

監視分類検討.xlsx

kirin-ri commented 4 days ago
以下は分類の提案です:

主要アラーム領域 (Main Alarm Area)
HTTPCode_ELB_5XX_Count
理由:サーバーエラーが多数発生している場合、サービスの可用性やUXに直接影響を与えるため、即時対応が必要です。

HTTPCode_ELB_500_Count
理由:内部サーバーエラーはサービス提供に大きな支障をきたす可能性が高い指標です。

HTTPCode_ELB_502_Count
理由:Bad Gatewayエラーはクライアントとバックエンドの接続問題を示し、UXに大きな影響があります。

HTTPCode_ELB_503_Count
理由:サーバーのキャパシティ不足を示すため、重大な影響を与える可能性があります。

HTTPCode_ELB_504_Count
理由:タイムアウトエラーは、サービス遅延や不安定性を引き起こし、UXに直結する重要なアラームです。

RejectedConnectionCount
理由:ロードバランサーへの過接続は、攻撃や過負荷状態の可能性があり、迅速な対応が求められるため主要アラーム領域に分類されます。

システムメトリクス領域 (System Metrics Area)
HTTPCode_ELB_4XX_Count
理由:クライアントエラーはUXに影響を与える可能性がありますが、多くの場合クライアント側の問題(リクエストミスや認証エラー)であるため、主要なシステムトラブルの調査指標として扱うのが適切です。
kirin-ri commented 4 days ago
主要アラーム領域 (Main Alarm Area)
HealthyHostCount / DesiredTaskCount

理由:Healthyなホストが閾値を下回った場合、サービスの継続に直接影響を与えるため、即時対応が必要です。
UnhealthyHostCount

理由:Unhealthyなホストが存在する場合、サービスのパフォーマンスや信頼性に影響を与えるため、重要なアラーム指標となります。
UnhealthyStateDNS

理由:ゾーンシフト時のDNS異常検知は、サービスの可用性に大きく関わるため、アラームとして監視する必要があります。
主要システムメトリクス領域 (Main System Metrics Area)
HTTPCode_Target_5XX_Count

理由:ターゲットが多数のサーバーエラー(5XX)を返す場合、システム全体に重大な問題が発生している可能性が高いです。
TargetConnectionErrorCount

理由:ELBとターゲット間の接続エラーは、スケーリングやリソース不足の問題に直結し、サービスの安定性に影響します。
TargetResponseTime

理由:レスポンス時間の増加は、システム内のボトルネックや異常を示す重要な指標です。
システムメトリクス領域 (System Metrics Area)
HTTPCode_Target_4XX_Count

理由:クライアントエラー(4XX)は、システム問題ではなく、ユーザーやリクエストの問題が原因であることが多いため、主にトラブルシューティングに用いられる指標です。
HTTPCode_Target_3XX_Count

理由:リダイレクトの監視は、特定の設定ミスや遅延の調査に役立つため、システムメトリクス領域に分類します。
HTTPCode_Target_2XX_Count

理由:成功レスポンスの異常な増加は問題の兆候を示す場合があり、通常はモニタリングの参考として使われます。
kirin-ri commented 4 days ago
主要アラーム領域 (Main Alarm Area)
HealthyHostCount / DesiredTaskCount

理由:Healthyなホストが閾値を下回った場合、サービスの継続に直接影響を与えるため、即時対応が必要です。
UnhealthyHostCount

理由:Unhealthyなホストが存在する場合、サービスのパフォーマンスや信頼性に影響を与えるため、重要なアラーム指標となります。
UnhealthyStateDNS

理由:ゾーンシフト時のDNS異常検知は、サービスの可用性に大きく関わるため、アラームとして監視する必要があります。
主要システムメトリクス領域 (Main System Metrics Area)
HTTPCode_Target_5XX_Count

理由:ターゲットが多数のサーバーエラー(5XX)を返す場合、システム全体に重大な問題が発生している可能性が高いです。
TargetConnectionErrorCount

理由:ELBとターゲット間の接続エラーは、スケーリングやリソース不足の問題に直結し、サービスの安定性に影響します。
TargetResponseTime

理由:レスポンス時間の増加は、システム内のボトルネックや異常を示す重要な指標です。
システムメトリクス領域 (System Metrics Area)
HTTPCode_Target_4XX_Count

理由:クライアントエラー(4XX)は、システム問題ではなく、ユーザーやリクエストの問題が原因であることが多いため、主にトラブルシューティングに用いられる指標です。
HTTPCode_Target_3XX_Count

理由:リダイレクトの監視は、特定の設定ミスや遅延の調査に役立つため、システムメトリクス領域に分類します。
HTTPCode_Target_2XX_Count

理由:成功レスポンスの異常な増加は問題の兆候を示す場合があり、通常はモニタリングの参考として使われます。
kirin-ri commented 4 days ago
主要アラーム領域 (Main Alarm Area)
HealthyHostCount / DesiredTaskCount

理由:Healthyなホストが閾値を下回った場合、サービスの継続に直接影響を与えるため、即時対応が必要です。
UnhealthyHostCount

理由:Unhealthyなホストが存在する場合、サービスのパフォーマンスや信頼性に影響を与えるため、重要なアラーム指標となります。
UnhealthyStateDNS

理由:ゾーンシフト時のDNS異常検知は、サービスの可用性に大きく関わるため、アラームとして監視する必要があります。
主要システムメトリクス領域 (Main System Metrics Area)
HTTPCode_Target_5XX_Count

理由:ターゲットが多数のサーバーエラー(5XX)を返す場合、システム全体に重大な問題が発生している可能性が高いです。
TargetConnectionErrorCount

理由:ELBとターゲット間の接続エラーは、スケーリングやリソース不足の問題に直結し、サービスの安定性に影響します。
TargetResponseTime

理由:レスポンス時間の増加は、システム内のボトルネックや異常を示す重要な指標です。
システムメトリクス領域 (System Metrics Area)
HTTPCode_Target_4XX_Count

理由:クライアントエラー(4XX)は、システム問題ではなく、ユーザーやリクエストの問題が原因であることが多いため、主にトラブルシューティングに用いられる指標です。
HTTPCode_Target_3XX_Count

理由:リダイレクトの監視は、特定の設定ミスや遅延の調査に役立つため、システムメトリクス領域に分類します。
HTTPCode_Target_2XX_Count

理由:成功レスポンスの異常な増加は問題の兆候を示す場合があり、通常はモニタリングの参考として使われます。
kirin-ri commented 4 days ago
主要アラーム領域 (Main Alarm Area)
AuroraReplicaLag

理由:リードレプリカの遅延は、業務に支障をきたす可能性があるため、サービス継続性に直結する重要な指標です。
Deadlocks

理由:デッドロックの発生は、データベース全体の応答性やパフォーマンスに直接影響を与える重大な問題です。
主要システムメトリクス領域 (Main System Metrics Area)
CPUUtilization

理由:CPU使用率の上昇は、システム全体のパフォーマンスに直接影響を与えるため、主要システムメトリクスとして監視する必要があります。
DatabaseConnections

理由:データベース接続数が閾値を超える場合、リソース枯渇や応答性の低下を引き起こす可能性があるため、重要なシステムメトリクスです。
システムメトリクス領域 (System Metrics Area)
VolumeBytesUsed
理由:ディスク容量の消費は直接的なパフォーマンスに影響を与えないものの、異常値を検知することでシステムの安定性を保つための重要な指標となります。
kirin-ri commented 4 days ago
主要アラーム領域 (Main Alarm Area)
SystemErrors

理由:システムエラーは、サービス全体の信頼性や可用性に直接影響を及ぼすため、重大なアラームとして扱うべきです。
UserErrors

理由:ユーザーエラーは、アプリケーションの機能性やUXに影響する可能性があるため、重要なアラーム指標です。
ReadThrottleEvents / WriteThrottleEvents / ThrottledRequests

理由:スロットリングイベントは、テーブルへのリクエスト処理に制限がかかるため、サービスに直接影響する重大な指標となります。
主要システムメトリクス領域 (Main System Metrics Area)
AccountProvisionedReadCapacityUtilization / AccountProvisionedWriteCapacityUtilization

理由:リソースのプロビジョニング使用状況が高くなると、パフォーマンスに影響を与える可能性があるため、システム全体の健全性を確認する重要なメトリクスです。
ConsumedReadCapacityUnits / ConsumedWriteCapacityUnits

理由:読み書きのリクエスト容量が上限に近づくと、スロットリングや遅延の原因となるため、主要システムメトリクスに分類します。
MaxProvisionedTableReadCapacityUtilization / MaxProvisionedTableWriteCapacityUtilization

理由:最大のプロビジョニング使用状況は、テーブルやシステム全体のリソース消費を把握するために必要です。
SuccessfulRequestLatency

理由:リクエストの遅延は、システムパフォーマンスに直接影響するため、主要システムメトリクスとして扱います。
システムメトリクス領域 (System Metrics Area)
ConditionalCheckFailedRequests
理由:書き込みエラーの監視は、アプリケーションや運用上のトラブルシューティングに役立ちます。
kirin-ri commented 4 days ago

主要アラーム領域 (Main Alarm Area) NetworkBandwidthInAllowanceExceeded / NetworkBandwidthOutAllowanceExceeded / NetworkPacketsPerSecondAllowanceExceeded

理由:ネットワークトラフィックの制限が発生すると、Redisのパフォーマンスやサービス全体に直接的な影響を与えるため、重大なアラーム指標となります。 NetworkConntrackAllowanceExceeded

理由:ネットワーク接続トラフィックの制限は、接続不能やサービス停止の原因となる可能性が高いため、即時対応が必要です。 主要システムメトリクス領域 (Main System Metrics Area) CPUUtilization

理由:CPU使用率が高い場合、ノードのパフォーマンスに直接影響を与えるため、システムの健全性を監視する重要な指標です。 FreeableMemory

理由:メモリ不足は、スローダウンや障害の原因となるため、システムメトリクス領域に分類されます。 SwapUsage

理由:スワッピングが発生すると、システムパフォーマンスに重大な影響を与えるため、監視が必要です。 システムメトリクス領域 (System Metrics Area) NetworkBandwidthInAllowanceExceeded / NetworkBandwidthOutAllowanceExceeded / NetworkPacketsPerSecondAllowanceExceeded 理由:これらのネットワーク関連のメトリクスは、システム健全性の確認やトラブルシューティングに役立つため、システムメトリクス領域としても利用可能です。

kirin-ri commented 4 days ago

主要アラーム領域 (Main Alarm Area) ChannelAuthorizationFailures / KeyAuthorizationFailures

理由:これらの不正アクセス試行はセキュリティに直結するため、即時対応が必要な重要なアラームとして扱われるべきです。 関連領域: セキュリティ領域(Security Area) Evictions

理由:メモリが不足し、キャッシュからデータが削除されると、パフォーマンスに重大な影響を及ぼすため、アラーム領域に分類します。 ReplicationLag

理由:レプリカがプライマリノードから遅延すると、データ整合性や可用性に影響を与えるため、即座の対応が求められます。 主要システムメトリクス領域 (Main System Metrics Area) CurrConnections

理由:接続数の増加がパフォーマンス低下を引き起こす可能性があるため、主要なパフォーマンス指標として分類します。 DatabaseMemoryUsagePercentage

理由:メモリ使用率が高い場合、ノードやクラスター全体のパフォーマンスに影響を及ぼす可能性があります。 StringBasedCmdsLatency

理由:Redis操作の平均処理時間は、ユーザーエクスペリエンス(UX)に直接影響を与えるため、重要な指標です。 MemoryFragmentationRatio

理由:メモリの断片化は、リソース効率とアクセス速度を低下させる可能性があるため、システム健全性の指標として扱います。 システムメトリクス領域 (System Metrics Area) MasterLinkHealthStatus

理由:セッション情報が取得できない場合、原因調査やトラブルシューティングのための指標として分類します。 ReplicationBytes

理由:レプリケーションされるデータ量は、負荷分析やトラフィック管理に役立つため、システムメトリクスとして適切です。 セキュリティ領域 (Security Area) ChannelAuthorizationFailures / KeyAuthorizationFailures 理由:不正アクセスの試行は、セキュリティリスクを伴うため、セキュリティ領域に該当します。

kirin-ri commented 4 days ago

主要アラーム領域 (Main Alarm Area) Errors

理由: エラーが発生すると、サービスの継続性が確保できなくなる可能性があるため、即時対応が必要です。 DeadLetterErrors

理由: デッドレターキューへの送信が失敗した場合、エラー追跡ができず、問題解決が遅れる可能性があるため、重要なアラームとして扱います。 DestinationDeliveryFailures

理由: 呼び出し先の問題が原因でイベントが処理されない場合、アプリケーション全体に影響を及ぼす可能性があるため、アラーム領域に分類します。 Throttles

理由: スロットリングは、システムのパフォーマンス低下やリクエスト拒否を引き起こし、UXに悪影響を与えるため、即時監視が必要です。 AsyncEventsDropped

理由: リトライ後も失敗するイベントは、システムの信頼性に大きな影響を与えるため、即座に対応が必要です。 主要システムメトリクス領域 (Main System Metrics Area) Duration 理由: 関数の実行時間が長引くと、タイムアウトやパフォーマンス劣化を引き起こす可能性があるため、システム全体のパフォーマンスを監視する指標として重要です。 関連領域の補足 セキュリティ領域 (Security Area) Errors / DeadLetterErrors: セキュリティ関連の失敗(例: 認証エラー)が含まれる場合、セキュリティ領域とも関連します。 コスト領域 (Cost Area) Duration / Throttles: 関数の実行時間が長すぎたり、スロットリングが多発する場合、リソースの無駄遣いにつながり、コスト増加を招く可能性があります。