KiwiHC16 / Abeille

Abeille pour Jeedom (Gateway ZiGate)
GNU Affero General Public License v3.0
60 stars 52 forks source link

Zigate v2 équipements en timeout (ZPS_NWK_ENUM_ROUTE_DISCOVERY_FAILED) #2690

Open eoeir opened 3 months ago

eoeir commented 3 months ago

Bonjour,

Presque tous mes équipements sont en timeout depuis ce matin 6h :

image

Si je regarde le premier (FD5A), il ne répond effectivement plus :

[2024-03-14 05:30:08][DEBUG] : cron15(): Interrogating 'Abeille1-102-Prise bureau' (addr FD5A, poll-reason=1)
[2024-03-14 05:30:08][DEBUG] :   publishMosquitto(): Sent '{"topic":"TempoCmdAbeille1/FD5A/readAttribute&time=1710390608","payload":"ep=0B&clustId=0000&attrId=0000"}' to queue 1212
[2024-03-14 05:30:08][DEBUG] : msgFromParser(): Read attributes response by name from 'Abeille1/FD5A/0B
[2024-03-14 05:35:34][DEBUG] : msgFromParser(): Device 'Abeille1/FD5A' is ALIVE
[2024-03-14 06:00:09][DEBUG] : cron15(): Interrogating 'Abeille1-102-Prise bureau' (addr FD5A, poll-reason=1)
[2024-03-14 06:00:09][DEBUG] :   publishMosquitto(): Sent '{"topic":"TempoCmdAbeille1/FD5A/readAttribute&time=1710392409","payload":"ep=0B&clustId=0000&attrId=0000"}' to queue 1212
[2024-03-14 06:15:08][DEBUG] : cron15(): Interrogating 'Abeille1-102-Prise bureau' (addr FD5A, poll-reason=1)
[2024-03-14 06:15:08][DEBUG] :   publishMosquitto(): Sent '{"topic":"TempoCmdAbeille1/FD5A/readAttribute&time=1710393308","payload":"ep=0B&clustId=0000&attrId=0000"}' to queue 1212

Dans AbeilleParser, j'ai une erreur ZPS_NWK_ENUM_ROUTE_DISCOVERY_FAILED :

[2024-03-14 08:15:12] Abeille1, Type=8702/APS data confirm fail, Status=D4/ZPS_NWK_ENUM_FRAME_IS_BUFFERED, SrcEP=01, DstEP=0B, AddrMode=02, Addr=FD5A, SQNAPS=92, NPDU=06, APDU=00
[2024-03-14 08:15:19] Abeille1, Type=8011/APS data ACK, Status=A7/NO_ACK, Addr=FD5A, EP=01, ClustId=0000, SQNAPS=92
[2024-03-14 08:15:22] Abeille1, Type=8701/Route discovery confirm, MACStatus=00/ZPS_EVENT_NONE, NwkStatus=D0/ZPS_NWK_ENUM_ROUTE_DISCOVERY_FAILED, Addr=FD5A

Qu'est-ce qui peut provoquer ce comportement ?

Les logs : AbeilleLogs-240314(1).tar.gz

tcharp38 commented 3 months ago

Salut Tu as changé qqch ? Une quelconque mise à jour ?

On dirait qu'il s'est passé qqch à 8H pile ce matin.

[2024-03-14 08:00:08] Abeille1, Type=8702/APS data confirm fail, Status=D4/ZPS_NWK_ENUM_FRAME_IS_BUFFERED, SrcEP=01, DstEP=01, AddrMode=02, Addr=B43B, SQNAPS=5B, NPDU=02, APDU=00

le premier device qui n'a pas repondu est

- TO : [Salon][Chauffage salon], Id=195, TIMEOUT (last comm 2024-03-14 06:26:04)
       Addr=B43B, Model='TS0001__TZ3000_rmjr4ufz', Type='Tuya mini smart switch'

Cette action semble venir d'un scenario

[2024-03-14 08:00:08] -- execute([Salon][Chauffage salon][Off], type=action, options={"background":"0"})
[2024-03-14 08:00:08] -- Msg sent: {"topic":"CmdAbeille1/B43B/cmd-0006","payload":"ep=01&cmd=00"}

Ca t'inspire qqch ?.

tcharp38 commented 3 months ago

En remontant en arriere encore (merci les logs) on voit que la premiere fois ou l'acces à B43B commence à déconner est

[2024-03-13 19:35:04] Abeille1, Type=8000/Status, Status=00/Success, SQN=00, PacketType=0092, Sent=01, SQNAPS=03, NPDU=02, APDU=01
[2024-03-13 19:35:04] Abeille1, Type=8702/APS data confirm fail, Status=D4/ZPS_NWK_ENUM_FRAME_IS_BUFFERED, SrcEP=01, DstEP=01, AddrMode=02, Addr=B43B, SQNAPS=03, NPDU=02, APDU=00
[2024-03-13 19:35:04] Abeille1, Type=8011/APS data ACK, Status=00/Success, Addr=B43B, EP=01, ClustId=0006, SQNAPS=03

Autrement dit le message semble bufferisé sur le reseau mais arrive à destination quand meme. Donc on dirait qu'un pb de routage est arrivé entre temps.

Juste avant ca la Zigate s'est encore plantée et a redémarré. En dehors du fait que ca prouve à quelle point la v2 à un FW de qualité lamentable... je ne sais pas si cette erreur en est la cause vu qu'il y en a plein d'autres dans le log.

[2024-03-13 19:34:55] Abeille1, Type=9999/Extended error, ExtStatus=87, NPDU=00, APDU=00
[2024-03-13 19:34:55] Abeille1, Type=0302/PDM loaded (unused).
[2024-03-13 19:34:55] Abeille1, Type=8024/Network joined-formed, Status='Formed new network', Addr=0000, ExtAddr=00158D0005D2A0B0, Chan=11
[2024-03-13 19:34:55] Abeille1, Type=8006/Non “Factory new” Restart (unused).

Donc en supposant que le fait que la Zigate reboote n'est pas un souci.. qqch d'important dans le reseau semble etre tombé. Un routeur. Quel est le status actuel ? Des choses sont revenues à la normale ?

eoeir commented 3 months ago

Je n'ai pas pu répondre plus tôt...

Quel est le status actuel ? Des choses sont revenues à la normale ?

Non tout est toujours KO sur le réseau. J'ai seulement 4 devices online, 1 en no-ACK et 28 autres en timeout. Pour moi il n'y a pas de logique dans ceux qui sont en timeout et les autres.

Tu as changé qqch ? Une quelconque mise à jour ?

Rien.

Cette action semble venir d'un scenario

[2024-03-14 08:00:08] -- execute([Salon][Chauffage salon][Off], type=action, options={"background":"0"})
[2024-03-14 08:00:08] -- Msg sent: {"topic":"CmdAbeille1/B43B/cmd-0006","payload":"ep=01&cmd=00"}

Ca t'inspire qqch ?.

Oui, j'ai un scénario qui fait le thermostat de ce radiateur, c'est donc normal qu'il lui passe des instructions régulièrement.

Voici les derniers logs.

AbeilleLogs-240315.tar.gz

Quelle approche me recommandes-tu ?

tcharp38 commented 3 months ago

Alors qq devices sont revenus ok, donc la Zigate n'est pas HS.

Je me focaliserais en premier sur les routeurs.. donc tout equipement sur secteur. Si l'un d'eux est HS mais etait important dans le maillage.. ca pourrait expliquer.

Mais en regardant le log LQI la Zigate semble ne connaitre que 3 devices !!! Ca doit etre visible quand tu affiches la table des noeuds (reseau). Donc pour moi elle s'est corrompue et a perdu la connaissance des autres. Pour confirmer ca peut etre peux tu juste reintegrer un routeur en timeout, le +facile pour toi et voir si il améliore les choses. Mais j'avoue que j'ai peur que toute cette investigation aboutisse au meme résultat ... FW Zigate v2 = daube :(

eoeir commented 3 months ago

Voici ce que j'avais sur le réseau :

image

EDIT: je ne sais pas si c'était le cas tout à l'heure mais je remarque maintenant que la LQI des 3 routeurs en question est de 0.

J'ai réintégré 2 équipements sur secteur (B43B et 1D9F) et voici ce que j'ai maintenant :

image

Voici les logs, deuxième inclusion à 19:08 :

AbeilleLogs-240316.tar.gz

J'ai l'impression que depuis que je suis passé en Zigate v2, j'ai des crashs du réseau à quelques mois d’intervalle et qu'à chaque fois, il faut que je réintègre mes équipements...

tcharp38 commented 3 months ago

Je me suis donc planté qq part. Je n'en voyais que 3 equipements avant reinclusion.

Quoi qu'il en soit j'ai le meme sentiment que toi.. le FW de la Zigate vire tout seul certains equipements et je pense que ca fait suite a des erreurs.

Tu peux toujours rajouter une couche chez Zigate.. mais il n'y a que tres peu de support et encore moins d'evolutions :(

eoeir commented 3 months ago

Bon, je remets progressivement mes équipements en ligne mais ça ne peut pas durer comme cela. Plus je développe mon réseau, plus cela a d'impact quand la Zigate plante.

Qu'est-ce que je peux apporter de concret chez Zigate pour monter mon pb ? J'ai l'impression que l'on arrive pas à vraiment cibler ce qu'il se passe...

tcharp38 commented 3 months ago

Je te comprends. Et je vais aller dans ton sens. Il ne faut malheureusement pas esperer qqch de serieux avec une Zigate v2. Aucune evolution vers un FW serieux ne semble venir.

Je te suggere donc de trouver une ou plusieurs v1 d'occasion si tu veux rester sur Abeille ou basculer sur une clef + serieuse mais sans Abeille. Le plugin officiel en supporte un paquet.

Quant à remonter le pb..a part avoir une trace je ne sais pas trop c'est vrai.

tcharp38 commented 3 months ago

Salut @eoeir

Je ne sais pas ou tu en es de ta reflexion vis à vis du manque de stabilité de la Zigate v2. Depuis un moment je pense ajouter le support pour un autre type de clef.. j'envisage celles basées sur EFR32MG21 donc EmberZNet (EZSP) car me semble la + en vogue et tres repandue.

Note que ce support existe deja avec le plugin officiel.

Tu penses faire quoi ?

kaleofr commented 2 months ago

Même chose chez moi. Tous les module LEGRAND en timeout. Et comme ils constituent les routeurs réseau, j'ai perdu pas mal d'autres modules. Ce n'est pas la première fois... et j'en ai assez de cette Zigate.

Je viens de commander la SONOFF Zigbee 3.0 USB Dongle Plus ZBDongle-P (CC2652P). On verra bien. Kaléo.

tcharp38 commented 2 months ago

Oui, triste mais c'est un fait. La v2 est une horreur.

Question.. Pourquoi avoir choisi le dongle P ? J'ai l'impression qu'il est à l'abandon au profit du E, donc eznet.

kaleofr commented 2 months ago

Oui, triste mais c'est un fait. La v2 est une horreur.

Question.. Pourquoi avoir choisi le dongle P ? J'ai l'impression qu'il est à l'abandon au profit du E, donc eznet.

Bonjour tcharp38, Parce que le plugin officiel jeezigbee est basé sur Zigbee2MQTT et envoi directement chez eux pour la compatibilité: "N’hésitez pas à consulter la page officielle Zigbee2MQTT pour retrouver les firmwares disponibles pour votre clé ici" Et donc sur cette page, la version P (Texas Instruments CC2652/CC1352 chip) est indiquée dans la liste des adaptateurs recommandées. La version E (based on EFR32MG21) est classée dans "Expérimental"

J'ai donc préféré le recommandé à l'expérimental :-)

Kaléo.

tcharp38 commented 2 months ago

Ok, merci pour ton retour et j'espere que tu trouvera la solution bien plus robuste.