twsnmp / twsnmpfc

TWSNMP For Container
Apache License 2.0
10 stars 1 forks source link

通知メール、イベントログについて #17

Closed katuhiko-watanabe closed 1 year ago

katuhiko-watanabe commented 1 year ago

お世話になっております。 複数のノードにて同時に障害を検知した場合、障害リストの件数と復旧リストの件数に差異が 発生しております。 ①障害リストには載っているが復旧が来ていないノード ②障害リストには載っていないが復旧のみが来たノード 上記ノード共にノード毎のポーリングログには障害がログが記載されておりますが、 イベントログ、通知メールには記載されておりませんでした。 原因や対処についてお分かりになれば教えて頂けませんでしょうか。

監視の内容はHTTP接続監視を行っており、判定スクリプトにてcode == 200を確認しております。

twsnmp commented 1 year ago

お知らせいただきありがとうございます。

上記ノード共にノード毎のポーリングログには障害がログが記載されておりますが、 イベントログ、通知メールには記載されておりませんでした

まず、イベントログに記載されてない場合は通知メールにも記載されません。 ですからイベントログに記載されない原因を調べれば解決できるように思います。

基本的にポーリングの状態が変化した場合は、イベントログに記録する仕様になっています。

ポーリングのログに障害のログだけが記録されていれば、状態の変化がないので、 イベントログには記録されません。 イベントログに記録されなければ、通知メールにも含まれません。

ノード名などは隠して、イベントログとポーリングログの実例を このIssuesに記載していただければ、もう少し調べることができると思います。

katuhiko-watanabe commented 1 year ago

お世話になっております。 ご回答ありがとうございます。 当事象について詳細をお伝えいたします。 監視設定の詳細と事象の詳細、及びログを添付いたします。 お忙しいところ恐縮ですが、よろしくお願いいたします。

【監視設定】 監視ノード数 93ノード ・PING監視 ・HTTP接続監視 ・SNMP再起動監視 ※現在監視停止中 ・プロセス起動数監視  ※現在監視停止中 ※ログモード常に記録、ポーリング間隔 300 タイムアウト 10 リトライ回数 2

【状況】 12/22頃、サーバ再起動に伴う監視停止を検出、 障害通知件数 23件、復旧通知件数 35件 ※12件が障害通知なし、復旧のみ通知となっております。 障害・復旧メール内容、イベントログ、ポーリングログを資料に添付いたします。

log.xlsx

twsnmp commented 1 year ago

ログと情報ありがとうございます。 地区Aとか地区Bの名前が一致しませんが、 送付いただいたイベントとログと通知の内容はあっているように思います。 イベントログの記録に従って通知はされているという意味です。 ポーリングログとイベントログも一致していると思います。

しかし、ちょっとおかしなところがあります。 イベントログでは、 00:00:18 定期レポートメール送信

00:06:18 通知メール送信

00:11:18 復帰メール送信

00:16:18 復帰メール送信

となっています。 通知メールの送信間隔を5分にしていると思いますが、

00:01:18 の通知がありません。 この時点で送信するはずの12件の障害通知が抜けている のかもしれません。 00:00:18より前のイベントログでに、抜けていると思われる 障害は記録されていますか? 特に 23:56:18以降です。 この間に障害のイベントログがなければ、通知は送信されないと思います。 復帰しかないサーバー19、20などの障害が、発生した時期が問題です。

katuhiko-watanabe commented 1 year ago

お世話になっております。 提供資料の不備、失礼いたしました。 ご確認ありがとうございます。 00:00:18以前のイベントログで抜けているものは無いと思います。

サーバ19,20のポーリングログの障害検知時間は以下の通りです。 サーバ19 12/22 00:03:11 サーバ20 12/22 00:03:08

本日も障害21件、復旧25件と差異が発生しております。 毎日、00:00から監視サーバの再起動を実施しています。 監視をスタートし監視てからすべてではありませんが、 継続しております。

年末でお忙しいところ恐縮ですが、よろしくお願いいたします。

katuhiko-watanabe commented 1 year ago

お世話になっております。 監視を実施しているPCの時刻が3分進んでいました。 原因の一つとして考えられますでしょうか。

twsnmp commented 1 year ago

すみません。 日中は本業があるので、回答が遅くなりました。

監視を実施しているPCの時刻が3分進んでいました。

ちょっと原因としては考えにくいですが、 PCの時計をあわせて改善するのであれば、それが原因かもしれません。 途中で大きく時刻を変更するとかしない限り、ソフトの動作に影響はないと思います。

twsnmp commented 1 year ago

毎日、00:00から監視サーバの再起動を実施しています。

がTWSNMP FCを稼働させているサーバーを再起動しているということならば これが原因のように思います。 イベントログに、”TWSNMP FC停止”のログが記録されていない場合は 正常に停止できない状態でログのイベントログの保存ができないまま停止したと思います。

監視サーバーを再起動しないか、再起動しないPCでTWSNMP FCを動かして 同じ現象か発生するか確認してみると切り分けできると思います。

katuhiko-watanabe commented 1 year ago

お世話になっております。 監視サーバとは監視側のサーバの再起動になります。 TWSNMP FCを稼働させているサーバは再起動しておりません。 やはり、連日、障害通知と復旧通知の件数が異なる現象が発生しております。 また、時刻調整を実施しても変化はございませんでした。

ご説明が不足している点もございますが、調査、ご対応をお願いいたします。

以上、よろしくお願いいたします。

twsnmp commented 1 year ago

本業のお昼休みに書いてます。

なんとなく、問題がわかってきました。

サーバ19,20のポーリングログの障害検知時間は以下の通りです。 サーバ19 12/22 00:03:11 サーバ20 12/22 00:03:08

がイベントログに記録されないのが問題の原因のようです。

明日の朝にでもイベントログを多数発生させるテストを実施して動作がどうなるか試してみます。 今、しばらくお待ちください。

katuhiko-watanabe commented 1 year ago

お世話になっております。 ご対応ありがとうございます。。 年末の忙しいところ申し訳ございません。 よろしくお願いいたします。

twsnmp commented 1 year ago

原因がわかりました。 Window環境のほうが発生しやすい問題のようです。 イベントログのIDをnano秒単位のタイムスタンプから生成していますが、 時刻の解像度が低いために、ほぼ同時に実行された、ポーリングで障害か復帰が発生すると、 一部のログのIDが重複するという問題でした。 ありがとうございます。 次のバージョンで修正します。

twsnmp commented 1 year ago

修正しましたので次のバージョンでご確認ください。

katuhiko-watanabe commented 1 year ago

早速のご対応ありがとうございます。 次のバージョンで確認させていただきます。 ありがとうございました。 非常に良い監視ツールをご提供いただき感謝しております。 引き続きよろしくお願いいたします。