Drift/Stabilitetsproblem

magnivar commented 6 years ago

Under fredagen den 24/11 2017 fick malmo.se-server det tungt. Siteimprove meddelade flera gånger att servern inte gick att nå och det bekräftades även manuellt vid dessa tillfällen. IT-Drift kollade på problemet och konstaterade att SiteVision arbetade väldigt hårt. SiteVision AB's support har kontrollerat loggarna och kommit fram till följande:

Vad jag kan se så började problemen runt 16:20 i fredags. Då börjar FullGC tugga frenetiskt, det verkar även gå en större indexering samtidigt.

Jag ser mycket: "Timeout received from cassandra waiting 500 ms" "Resetting heartbeat timestamps because of huge system clock jump! Clock-Jump: 18556 ms" "Heap usage in high range close to last full GC"

Jag ser FullGC-tider på 15-20 sekunder, under den tiden kommer servern stå still, det är också i anknytning till dessa man ser utskrifterna ovan. Nr det händer är det inte alls märkligt att ni ser sega eller rent av inga svar från servern. "Självläkte" det efter ett tag eller har ni fått starta om? Ifall det självläkte så var det nog med stor sannolikhet indexering som var boven.

Jag ser väldigt mycket fel i loggen gällande två moduler på er felsida. De loggar så mycket att det blir nästintill omöjligt att försöka följa loggen. Det är två stycken relaterad info-moduler som heter fakta och läs mer. Exceptionhantering är dyrt, och i det här fallet extremt onödigt. Min rekommendation är att antingen ta bort modulerna eller fixa den egna mallen så att modulerna börjar fungera igen. Jag tror aboslut inte det är boven i det här dramat, men det gör inte saken bättre.

Vänliga hälsningar, Anders Sjöstrand

Support | SiteVision AB

magnivar commented 6 years ago

@badwiz Kan ni ta del av detta och återkomma med förslag till lösning?

badwiz commented 6 years ago

Vi kikar på detta omgående.

badwiz commented 6 years ago

Efter lite felsökning så ser vi att kommentaren från Sjöstrand är lite missvisande. Problemen kommer sig av att det är RSS:er som försöker läsas in som inte finns längre. Detta borde avhjälpas med en omstart av SiteVision-tjänsten. SiteVision lagrar alla RSS:er även om man tar bort dessa ur gränssnittet, de läses in vid uppstart och när de läggs till.

israelsson commented 6 years ago

Jag har programmatiskt gjort en lista på de RSS:er som är upplagda på huset, och testar deras adress genom att försöka göra en http-koppling till dom.

I det bifogade dokumentet så finns rss:ens svarskod i den sista kolumnen. De som har svarskod 404 finns inte alls. De borde man kunna ta bort utan risk. De som det står "Error" på lyckas jag inte få en svarskod ifrån programmatiskt, där kan manuell kontroll göras. rss_malmo.xlsx

RSS:er som inte finns verkar ge en hel del error meddelande i loggen. Dokumentet är tänkt för att kunna rensa rss:er och på så sätt få en renare logg. RSS:erna är antagligen inte anledningen till att servern gick ned

magnivar commented 6 years ago

Vi rensar RSS:er @Svempan

magnivar commented 6 years ago

Efter gårdagens nedgång har ord växlats och ITS och SVAB har sagt lite olika saker. Jag tycker vi försöker ta ett nytt grepp om den översyn som inleddes 2016. Vi kan ju göra vissa saker själva, t.ex. att rensa bort oanvända RSSer (@Svempan) men att få en lista på saker att titta på extra vore att föredra. Bifogar lite kommentarer från ITS Logg-saker_2018-01-18.txt

badwiz commented 6 years ago

ITS kommentarer är befogade. Jag kollade igenom RSS-länkarna och de sidorna är antingen borttagna eller avpublicerade. Så det är klart det blir time-out. Sen är det första exemplet till mynewsdesk, så om de inte svarar så ligger det ju utanför SiteVision.

badwiz commented 6 years ago

Kommentar från SVAB är att vi inaktiverar interna katalogen för att få bort minnesrelaterade buggen, SV-22869. Det är två användare som måste slyttas till ordinarie AD. @magnivar beställer dessa.

malmostad / sitevision_assets

Drift/Stabilitetsproblem #371