Open eoeir opened 2 years ago
Ce matin le réseau est toujours en vrac. Je constate que le Xiaomi Single Switch Module T1 (Abeille1/6A0C) n'a plus de commandes On/Off/Toggle.
Il s'est réannoncé cette nuit avec seulement une partie de ses commandes :
[2022-07-13 02:30:39][DEBUG] : msgFromParser(): Eq announce received for Abeille1/6A0C, jsonId='defaultUnknown', jsonLoc='Abeille'
[2022-07-13 02:30:39][DEBUG] : createDevice(create, dev={"net":"Abeille1","addr":"6A0C","ieee":"54EF44100026A3F6","modelId":false,"manufId":false,"jsonId":"defaultUnknown","jsonLocation":"Abeille"}
[2022-07-13 02:30:39][DEBUG] : modelPath=/var/www/html/plugins/Abeille/core/class/../config/devices/defaultUnknown/defaultUnknown.json
[2022-07-13 02:30:39][DEBUG] : Already existing device Abeille1/6A0C => [VMC][VMC Alimentation]
[2022-07-13 02:30:39][DEBUG] : modelConfig={"mainEP":"01","poll":"0","icon":"defaultUnknown"}
[2022-07-13 02:30:39][DEBUG] : postSave()
[2022-07-13 02:30:39][DEBUG] : Updating info 'IEEE-Addr' (IEEE-Addr)
[2022-07-13 02:30:39][DEBUG] : Updating info 'Link Quality' (Link-Quality)
[2022-07-13 02:30:39][DEBUG] : Updating info 'Time-Time' (Time-Time)
[2022-07-13 02:30:39][DEBUG] : Updating info 'Time-TimeStamp' (Time-TimeStamp)
[2022-07-13 02:30:39][DEBUG] : Updating info 'Short-Addr' (Short-Addr)
[2022-07-13 02:30:39][DEBUG] : Updating info 'Online' (online)
[2022-07-13 02:30:39][DEBUG] : Removing info 'Groups' (Group-Membership)
[2022-07-13 02:30:39][DEBUG] : Removing info 'Status' (0006-01-0000)
[2022-07-13 02:30:39][DEBUG] : Removing action 'On' ()
[2022-07-13 02:30:39][DEBUG] : Removing action 'Off' ()
[2022-07-13 02:30:39][DEBUG] : Removing action 'Toggle' ()
[2022-07-13 02:30:39][DEBUG] : Removing action 'Get-Status' ()
[2022-07-13 02:30:39][DEBUG] : Removing action 'Bind-0006-ToZigate' ()
[2022-07-13 02:30:39][DEBUG] : Removing action 'Set-0006-Reporting' ()
[2022-07-13 02:30:39][DEBUG] : Removing info 'ActivePower' (0B04-01-050B)
[2022-07-13 02:30:39][DEBUG] : Removing action 'Bind-0B04-ToZigate' ()
[2022-07-13 02:30:39][DEBUG] : Removing action 'SetReporting-ActivePower' ()
[2022-07-13 02:30:39][DEBUG] : postSave()
[2022-07-13 02:30:39][DEBUG] : msgFromParser(): Attributes report by name from 'Abeille1/6A0C/15
[2022-07-13 02:30:39][DEBUG] : Unknown Jeedom command logicId='0000-15-0010'
Salut @eoeir
Mémo pour moi:
Je vois que tu es sur le canal 20 et non pas 11. De nombreux periphs peuvent ne pas fonctionner dans cette plage. Sais tu pourquoi 20 a été choisi ?
Cela ne me dit pas grand chose... Je me rappelle avoir regardé quels canaux étaient "chargés" chez moi mais pas d'avoir fait une config spécifique sur Abeille. Où se règle ce paramètre ?
Par rapport à ton mémo, la Zigate est neuve, elle a été changé depuis le dernier incident.
Jamais bien creusé cette partie mais d'apres mes observatisons la zigate choisi un canal au demarrage, la plupart du temps 11. Mais peut en choisir un autre si elle estime que le canal est encombré.
Tu peux forcer le canal via l'onglet "Avancé" de la ruche
Un redemarrage d'Abeille sera peut etre necessaire mais tu dois actuellement voir "canal 20" et arriver à le changer. D'ailleurs il faudrait que je retravaille cette partie qui n'est pas tres intuitive je trouve.
J'ai modifié pour le canal 11. Effectivement ce n'est pas du tout intuitif : la page ne réagit pas mais après redémarrage du plugin Abeille, le canal a bien changé. Un pop-up ou autre info après la modification serait utile :)
Reste à voir si cela améliore les choses pour mon réseau...
Pas d'amélioration constatée. Pire, tout les équipements sont en time-out maintenant :
Les derniers logs : AbeilleLogs-220715.tar.gz
Que dit la page zigate avancé ? Quel canal donne t'il ? J'ai l'impression qu'apres redemarrage tu es encore sur 20.
Pourtant j'ai bien le canal 11 d'affiché :
Autant pour moi. Effectivement le canal est passé 11 lors du dernier redemarrage. Aucun progres ?
Aucun progrès. Tous les équipements sont en time-out. Les derniers signes de vie datent du 15/07. Je reste en l'état pour garder la possibilité de faire du troubleshoot. Dis moi quels tests seraient pertinents.
Les derniers logs : AbeilleLogs-220721.tar.gz .
Je ne sais pas trop comment se comportent les devices quand on change le canal de maniere importante.
De tes logs je vois
Ex: [2022-07-19 15:00:05] Msg from 'xToCmd': Pri=4, CmdAbeille1/7270/readAttribute => ep=01&clustId=0000&attrId=0000
[2022-07-19 15:00:05] Abeille1, Type=8000/Status, Status=00/Success, SQN=F1, PacketType=0100, Sent=01, SQNAPS=D8, NPDU=02, APDU=01 [2022-07-19 15:00:05] Abeille1, Type=8702/APS data confirm fail, Status=D4/ZPS_NWK_ENUM_FRAME_IS_BUFFERED, SrcEP=01, DstEP=01, AddrMode=02, Addr=7270, SQNAPS=D8, NPDU=02, APDU=00 [2022-07-19 15:00:11] Abeille1, Type=8011/APS data ACK, Status=A7/NO_ACK, Addr=7270, EP=01, ClustId=0000, SQNAPS=D8
Je tenterais bien de reappairer un des routeurs pour voir, donc un des equipements sur secteur qui pourrait faire le relais. Si les routeurs n'arrivent pas à rejoindre le reseau, alors tous ceux qui passent par eux sont HS aussi.
D'ailleurs peux tu me filer AbeilleLQI_Abeille1.json ? via page support.
Je viens de réinclure un routeur proche de la gateway. Il a mis du temps à se synchroniser mais cela semble avoir fonctionné.
[2022-07-23 09:24:07][DEBUG] : msgFromParser(): Attributes report by name from 'Abeille1/C32D/01
[2022-07-23 09:24:07][DEBUG] : modelPath=/var/www/html/plugins/Abeille/core/class/../config/devices/BASICZBR3/BASICZBR3.json
[2022-07-23 09:24:07][DEBUG] : Unknown device 'Abeille1/C32D'
[2022-07-23 09:24:07][DEBUG] : msgFromParser(): Eq announce received for Abeille1/C32D, jsonId='BASICZBR3', jsonLoc='Abeille'
[2022-07-23 09:24:07][DEBUG] : postSave()
[2022-07-23 09:24:07][DEBUG] : msgFromParser(): Eq found with old addr 7270. Update done.
[2022-07-23 09:24:07][DEBUG] : createDevice(create, dev={"net":"Abeille1","addr":"C32D","ieee":"00124B00234313DE","modelId":"BASICZBR3","manufId":"SONOFF","jsonId":"BASICZBR3","jsonLocation":"Abeille"}
[2022-07-23 09:24:07][DEBUG] : modelPath=/var/www/html/plugins/Abeille/core/class/../config/devices/BASICZBR3/BASICZBR3.json
[2022-07-23 09:24:07][DEBUG] : Already existing device Abeille1/C32D => [Maison][Abeille1-101-Lumiere salon]
[2022-07-23 09:24:07][DEBUG] : modelConfig={"mainEP":"01","icon":"Sonoff-BASICZBR3"}
Mais les commandes vers cet équipement ne fonctionnent pas... J'ai réussi à l'allumer une fois sur de multiples essais.
J'avais oublié le 2 eme fichier mais il a pas l'air d'une grande utilité, il ne contient que le routeur que je viens de ré-inclure : AbeilleLQI-Abeille1.json.log
Haaa ca c'est interessant. Ca veut dire que d'un point de vue zigate il n'y a qu'un seul equipement dans ton reseau. Je suis remonté dans l'historique et suis tombé la dessus "réinitialisation du réseau zigbee". Ca veut dire quoi ? Tu avais fait quoi ?
Autrement dit pas d'autre choix que de les reinclure 1 par 1, en commencant par les + proches qui peuvent peut etre faire relais des + eloignés.
Mais avant d'aller + loin je vois de multiples erreurs 'MAC_ENUM_CHANNEL_ACCESS_FAILURE'. A priori tu es sur le canal 11, donc tout ce qu'il y a de + standard sauf que je soupconne qu'il soit "pollué" et du coup la communication est perturbée. Ce qui expliquerait pourquoi en mode "auto" la zigate avait choisi le 20.
Bref mea culpa mais je suis parti sur une mauvaise piste. Je te suggere maintenant de changer par un canal "libre" si tu sais trouver lequel, ou repasser en mode "auto" (mask=7fff800) pour voir comment ca se comporte avec le seul periph remis dans la boucle. Pense à redemarrer Abeille apres changement du canal.
Je suis remonté dans l'historique et suis tombé la dessus "réinitialisation du réseau zigbee". Ca veut dire quoi ? Tu avais fait quoi ?
Alors je n'ai plus la séquence des évènements en tête mais à ce moment là j'avais d'abord réinstallé ma gateway sur mon RPi 1b avec la PiZigate et j'avais récupéré mon réseau. Ensuite j'ai fait l'acquisition d'une Zigate USB v2 avec laquelle j'ai recréé mon réseau depuis zéro sur mon RPi 4. Depuis il a fonctionné avec ma 20aine d'équipements jusqu'à ce nouvel incident.
Voici ce que je vois depuis ma box sur l'occupation des canaux wifi :
Le canal 11 ne me semble donc pas un si mauvais choix !
J'ai réinclu le même routeur sur le canal 13 et fait quelques tests. L'inclusion est toujours lente (~2 mins 30 pour apparaitre dans les logs) mais le device semble fonctionner correctement pour l'instant.
Comment peux tu dire que le canal 11 est un bon choix ? Pour moi zigbee 11 tombe en plein wifi 1-3. J aurais dit 15 plutot.
Tu me files les logs avec le canal 13 du coup ? Que je regarde si il y a toujours des erreurs
Effectivement, je n'avais pas percuté le décalage des canaux ! Le canal zigbee 11 tombe effectivement en plein canal wifi 1 qui est utilisé par le routeur NETGEAR chez moi. Le schéma ci-dessous m'a aidé à analyser plus précisément les recouvrements entre wifi et zigbee. Je le mets ici, cela peut aider d'autres personnes.
Pour régler le pb, j'ai reconfiguré le NETGEAR pour qu'il soit sur le canal wifi 11 et ne gêne plus.
Le canal 11 zigbee me semble idéal maintenant que le canal wifi 1 est totalement libre.
Voici les logs actuellement : AbeilleLogs-220728.tar.gz
Que dit ta page santé maintenant ? Toujours la cata ou tu as pu recoller les morceaux ?
Pas d'amélioration réelle.
J'ai réintégré quelques équipements (ceux du haut de la liste) suite au changement de canal et c'est resté stable pour eux quelques jours mais je constate aujourd'hui à nouveau le même soucis :
Voici les derniers logs : AbeilleLogs-220813.tar.gz
Edit : J'ai réussi à réveiller 123C manuellement.
Bilan ce matin, tout le monde vient de repasser en time-out. Derniers contacts vers 22h hier soir. Pourtant il ne s'est rien passé à ma connaissance.
Toujours RAS sur les canaux wi-fi.
Les logs de ce matin : AbeilleLogs-220814.tar.gz
Je me demande comment ca se passe lors du changement de canal. Est ce que les periphs sont censés suivre d eux meme ou est ce qu'ils restent sur le canal adopté lors de l'inclusion.
Pourrais tu remettre le canal 11. Il doit etre libre maintenant si j'ai bien suivi. puis redemarrer et on se focalise juste sur 69A2 par ex (sonoff basic)
Juste ca et rien d'autre histoire de pas embrouiller les pinceaux. C est possible ?
OK. Je viens de repasser sur le canal 11. D'ailleurs je vois que tu as changé l'interface pour le faire, c'est plus user friendly ;) Il faudra mettre à jour la documentation associée (https://kiwihc16.github.io/AbeilleDoc//Radio.html#zigate-channel-selection).
J'ai réinclu le module Sonoff (69A2) à 19h34. Ce qui est étrange c'est que j'ai récupéré les capteurs que j'avais réinclus il y a quelques jours avant même de le faire...
Ca n'aura pas duré longtemps. Réseau à nouveau en vrac. Impossible de réinclure le moindre équipement...
Reste sur le canal 11. C est le canal standard.
Maintenant j'avoue que je ne comprends pas ce qui se passe. Par ex, 69A2, fait plusieurs reporting et ca se termine en erreur MAC_ENUM_CHANNEL_ACCESS_FAILURE. Je ne sais pas comment l'interpreter et j'ai ouvert un sujet chez Zigate.
OK je reste sur le canal 11. Le réseau reste en vrac ce matin...
En parcourant le net avec "channel access failure" je tombe sur differents cas et certains mentionnent des perturbations liées au HDD. Aurais tu une config differente de ce que tu avais avant coté HDD/SSD ?
Tu tiens peut-être une bonne piste.
Le point de départ du précédent thread était le crash du système de fichier de la carte SD de mon Rpi1b sous raspbian avec PiZiGate (https://community.jeedom.com/t/recuperation-equipements-zigbee-apres-reinstallation-jeedom/72644).
J'ai donc décidé de réinstaller le système sur un matériel plus performant (Rpi 4) et sur un support plus robuste que la carte SD. Lorsque j'ai commencé à rencontrer le pb de réseau (https://github.com/KiwiHC16/Abeille/issues/2332#issuecomment-1055878412) j'étais donc sur un Rpi 4 avec le système de fichier sur une clé USB. Faute de solution je suis repassé sur le RPi 1b avec le système de fichier sur une clé USB.
Depuis j'ai réinstallé le Rpi 4 sur un SSD connecté via l'USB 3.0 (plus une novelle Zigate USB). C'est le setup actuel qui s'est remis à dysfonctionner.
Alors oui, il faut jouer avec la position des ports USB et l'alim du RPI. Tu trouves sur le net des tas de sujets liés aux perturbations engendrées par le SSD et/ou l'alim.
Tu as raison, j'ai déjà lu que l'USB 3 du RPi4 ne fonctionnait pas idéalement. Ce qui m'étonne c'est que ce setup en USB 3 a fonctionné sans aucun soucis pendant des mois avant de planter...
On va essayer d'éliminer cela de l'équation et voir ce que cela donne.
L'alimentation est l'alimentation officielle donc je vais partir pour l'instant de l'hypothèse qu'il n'y a pas de soucis de ce coté là.
Coté USB, je viens de passer le SSD sur USB 2 et faire des tests réussis de réinclusion. Je vais voir si je récupère le réseau Zigbee dans cette configuration.
Quelles sont les news de ce cote ? J'ai peur que ca impacte d'autres sujets sur lesquels on bosse ensemble.
Pour l'instant j'ai une nette amélioration de la situation.
Je réinclus progressivement mes devices :
Notes :
Du coup concernant le sujet d'origine ca fonctionne à nouveau n'est ce pas ? Tu as fait quoi exactement ?
Je pense qu'on va ouvrir un point séparé pour chaque "hors sujet" si tu veux bien.
Disons que mon réseau est en période d'observation pour l'instant. Si cela te va je laisse le sujet ouvert le temps d'être sûr que c'est revenu à la normale.
J'ai branché le SSD sur un port USB 2 au lieu de l'USB 3 ce qui a supprimé la source de perturbation radio. J'ai ensuite réinclus mes devices.
Je ne pensais pas traiter les points en notes, c'est plus pour info. J'ouvrirai des issues pour ça si besoin.
Je prefere avoir un sujet séparé pour les E095 & 398F pour ne pas pourrir ce sujet mais ok pour le garder ouvert pour l'instant.
Je retrouve ce soir l'ensemble du réseau en time out. Pas de signe avant coureur, tout allait bien ce matin.
Les équipements ont été perdus vers 14-15h.
Il refonctionnait depuis un mois environ. Aucun changement sur le RPi depuis. RAS sur l'occupation des canaux wi-fi. Rien sur le canal 1 du wifi.
Les logs :
Je pense avoir un peu avancé. Le RPi était bien opérationnel mais la Zigate était éteinte (LED éteinte). Le réseau est revenu après le reboot. Je soupçonne donc un soucis au niveau de l'alimentation du port USB. Il a peut-être été mis en veille par le système.
Oui. Autre piste.. la zigate a planté. Manque de pot j'ai déja vu ca.
Je crois qu'il faut que je bosse la dessus. Si la Zigate devient "sans reponse" Abeille devrait lever une alerte qq part.
Salut @eoeir On fait quoi avec ce sujet ? Ca dit quoi de ton coté ?
Ça marchait sans soucis depuis mais aujourd'hui j'ai à nouveau eu une perte totale de réseau. Cette fois la Zigate était allumée et répondait toujours. Je n'ai rien remarqué de particulier au niveau OS. J'ai simplement redémarré Abeille dans la configuration du plugin et s'est revenu progressivement.
Même si cela fonctionne beaucoup mieux, c'est assez gênant que cela plante (toute ma domotique est sur zigbee et elle devient indisponible). Je pense qu'il y a encore un soucis que l'on a pas encore diagnostiqué.
Voici les logs juste avant redémarrage d'Abeille : AbeilleLogs-221204.tar.gz
En regardant les logs Abeille, je constate l'erreur suivante :
[2022-12-04 12:05:24][DEBUG] : ERROR: No zigate for network Abeille1
La Zigate semblait fonctionnelle 2 mins plus tôt. [2022-12-04 12:03:23][DEBUG] : msgFromParser(): Abeille1, Zigate version 0005-0321
Et cela dure jusqu'au redémarrage d'Abeille.
Alors ca c'est etrange
[2022-12-04 12:02:17][DEBUG] : msgFromParser(): Attributes report by name from 'Abeille1/53EC/01 [2022-12-04 12:02:17][DEBUG] : 'Humidity' (0405-01-0000) => 78.2 % [2022-12-04 12:02:23][DEBUG] : msgFromParser(): Abeille1, Zigate version 0005-0321 [2022-12-04 12:03:02][DEBUG] : checkAllDaemons2() [2022-12-04 12:03:02][DEBUG] : expected=["SerialRead1","Parser","Cmd"] [2022-12-04 12:03:02][DEBUG] : running={"runningNb":3,"runBits":7,"daemons":{"SerialRead1":{"pid":"3575","cmd":" \/usr\/bin\/php \/var\/www\/html\/plugins\/Abeille\/core\/class\/..\/php\/AbeilleSerialRead.php Abeille1 \/dev\/ttyUSB0 debug"},"Parser":{"pid":"3577","cmd":" \/usr\/bin\/php \/var\/www\/html\/plugins\/Abeille\/core\/class\/..\/php\/AbeilleParser.php debug"},"Cmd":{"pid":"3579","cmd":" \/usr\/bin\/php \/var\/www\/html\/plugins\/Abeille\/core\/class\/..\/php\/AbeilleCmd.php debug"}}} [2022-12-04 12:03:02][DEBUG] : checkAllDaemons2() => ok [2022-12-04 12:03:02][DEBUG] : cron(): Daemons: 3575/SerialRead1, 3577/Parser, 3579/Cmd [2022-12-04 12:03:02][DEBUG] : publishMosquitto(): Envoyé '{"topic":"TempoCmdAbeille1\/0000\/getZgVersion&time=1670151802","payload":""}' vers queue 1212 [2022-12-04 12:03:23][DEBUG] : msgFromParser(): Abeille1, Zigate version 0005-0321 [2022-12-04 12:03:36][DEBUG] : msgFromParser(): Attributes report by name from 'Abeille1/0904/01 [2022-12-04 12:03:36][DEBUG] : 'Temperature' (0402-01-0000) => 17.9 °C [2022-12-04 12:03:47][DEBUG] : msgFromParser(): Attributes report by name from 'Abeille1/53EC/01 [2022-12-04 12:03:47][DEBUG] : Unknown device 'Abeille1/53EC'
Le device 53EC a disparu comme des tas d'autres (tous ?) Donc la zigate aussi. Que s'est il passé autour de midi ? Une maj de l OS ? On dirait que les bases de donnée Jeedom n etaient plus accessible
Oui, j'ai fais une maj de l'OS ce WE mais je ne sais plus à quel moment précisément...
Je ne sais pas comment retrouver cette trace mais elle doit exister qq part. Si la maj etait le 4 vers 12H, ca peut correspondre. La base de données est devenue inaccessible donc je pense que tout Jeedom etait par terre et pas seulement Abeille. Sinon je n'ai aucune piste pour mettre en cause Abeille.
OK. Mettons ça de côté pour le moment et on verra si j'ai de nouveaux pb.
Bonjour à tous
J'avais déjà constaté une fois ce problème et on en avait parlé dans une autre issue (https://github.com/KiwiHC16/Abeille/issues/2332#issuecomment-1055878412). J'avais fini par réinstaller tout mon setup (RPi + jeedom + réinitialisation du réseau zigbee).
La principale piste était un problème de routage du réseau et depuis il est beaucoup plus maillé avec pas mal d'équipements routeurs en plus.
A nouveau, l'ensemble de mon réseau ou presque est progressivement passé en time-out depuis hier.
J'ai constaté les premiers dysfonctionnements il y a 2-3 jours. Le premier symptôme identifié a été l'impossibilité de commander à certains moments le module Xiaomi Module Double Switch Aqara (Abeille1/1180) et j'ai vu ce genre d'erreurs dans les logs :
J'ai aussi remarqué que le Xiaomi Single Switch Module T1 (Abeille1/6A0C) qui est le dernier équipement ajouté au réseau il y a quelques semaines spame le réseau avec des messages vides (valeur mesurée = 0) sur la consommation :
Je ne sais pas quoi en penser... ni par où chercher. Voici le package de logs :
AbeilleLogs-220712.tar.gz
Note pour éviter de fausses pistes :