civicnet / archived-fiipregatit.ro

:fire_engine: Platforma Națională de Pregătire pentru Situații de Urgență
https://fiipregatit.ro
Apache License 2.0
8 stars 4 forks source link

Setup monitoring #366

Open ClaudiuCeia opened 6 years ago

ClaudiuCeia commented 6 years ago

Ce se întâmplă:

Nu stim, ca nu avem monitorizare

Ce ar trebui să se întâmple:

Sa stim ce se intampla

Pași pentru reproducerea problemei:

Specificații de sistem:

Commit hash: Sistem de operare:

ClaudiuCeia commented 6 years ago

@superudu despre asta nu am mai apucat sa vorbim, dar nu e grav, backups e mai important acum.

In principiu ar fi bine sa putem monitoriza:

Poate ai si tu recomandari mai pragmatice sau alte sugestii. Din nou, nu e critic pentru acum pentru fiipregatit.ro sau ceva, dar it would be very nice indeed.

superudu commented 6 years ago

Am putea folosi Site24x7, include toate acele tipuri de monitorizare. Iar o licenta ce permite monitorizarea a pana la 10 servere costa 9$/luna (platit pe tot anul din start = 108$ ): https://www.site24x7.com/site24x7-pricing.html

Exista si varianta Nagios, insa nu ofera acelasi standard. De exemplu ai o problema cu a vedea cu grafic care sa arate ca lumea sau sa vezi istoricul de evenimente sau disponibilitate. E bun in schimb pentru a da alarma in caz de ceva. Mai multe detalii are Lucian dintr-o discutie anterioara pe subiect.

Astept o decizie daca e ok Site24x7.

ClaudiuCeia commented 6 years ago

N-avem bani! 👍

Dar revin cu un raspuns mai in detaliu, momentan poate sa ramana on hold.

superudu commented 6 years ago

Ar mai fi ca varianta, doar pentru monitorizare uptime, UptimeRobot https://uptimerobot.com/ Este gratuit pana la 50 de website-uri monitorizate (la interval de 5 minute) Si pare ca are si integrare cu Slack, deci ar putea fi trimise alerte pe un canal dedicat.

ClaudiuCeia commented 6 years ago

Haha, da, UptimeRobot e deja setat (vezi si badge in README) :) Defapt avem si Pingdom pentru speed tests, dar care ofera si uptime checks. Chestia e ca in niciunul din cazurile astea nu stim ce anume s-a intamplat, doar ca nu mai e sus site-ul.

Cred ca suntem ok, cel putin momentan, nu e vital task-ul asta, dar e nice-to-have in ideea ca e totusi un site destul de accesat, iar la primul dezastru cu siguranta vom avea niste spike-uri f. mari.

superudu commented 6 years ago

Pentru a vedea cauza dupa producerea unui incident cred ca ar merge sa fie instalat un cron cu un script care sa colecteze periodic date din sistem. Ii zic eu "personal monitor" si m-a ajutat in multe cazuri de servere picate in weeked sau seara. Iar comenzile pe care acesta le da sunt aceleasi pe care si eu le-as rula ca sa vad ce se intampla: disk, ram, procese, load etc. Si ramane sa le citesti dupa aceea sau ori de cate ori crezi ca ceva a fost in neregula la o anumita ora. Alternativa cu sistem de alertare e mai buna, poti sa previi, dar presupune si sa ai pe cineva disponibil, un fel de om de garda pentru alerte si verificari. Pentru un server nu ar fi o problema, dar pe la 10-20 o sa vezi ca ai zilnic cate ceva de verificat. Pana atunci recomand acel script de personal monitor.

lucianstuparu commented 6 years ago

Pai din ce imi dau seama, daca am inteles corect, am putea deocamdata sa le folosim pe ambele: UptimeRobot + "personal monitor". Nu?

superudu commented 6 years ago

Da. Si cum UptimeRobot ati zis ca folositi deja, ar mai ramane sa pun acel script bash sa fie rulat de un cron si astfel am avea si date pe server pentru analiza la nevoie.

ClaudiuCeia commented 6 years ago

E un inceput f bun! Mai avem de discutat un pic cu cei de la DSU legat de infrastructura, as recomanda sa asteptam un pic pana lamurim asta si dupa putem sa go ahead cu propunerea ta, what say you?

dsecareanu commented 6 years ago

Din ce am vb cu Claudiu these days, de explorat: https://grafana.com/

dsecareanu commented 6 years ago

Am mai descoperit un tool open source: https://my-netdata.io/#demosites

dsecareanu commented 5 years ago

https://opensource.com/article/18/8/open-source-monitoring-tools