Open ClaudiuCeia opened 6 years ago
@superudu despre asta nu am mai apucat sa vorbim, dar nu e grav, backups e mai important acum.
In principiu ar fi bine sa putem monitoriza:
Poate ai si tu recomandari mai pragmatice sau alte sugestii. Din nou, nu e critic pentru acum pentru fiipregatit.ro sau ceva, dar it would be very nice indeed.
Am putea folosi Site24x7, include toate acele tipuri de monitorizare. Iar o licenta ce permite monitorizarea a pana la 10 servere costa 9$/luna (platit pe tot anul din start = 108$ ): https://www.site24x7.com/site24x7-pricing.html
Exista si varianta Nagios, insa nu ofera acelasi standard. De exemplu ai o problema cu a vedea cu grafic care sa arate ca lumea sau sa vezi istoricul de evenimente sau disponibilitate. E bun in schimb pentru a da alarma in caz de ceva. Mai multe detalii are Lucian dintr-o discutie anterioara pe subiect.
Astept o decizie daca e ok Site24x7.
N-avem bani! 👍
Dar revin cu un raspuns mai in detaliu, momentan poate sa ramana on hold.
Ar mai fi ca varianta, doar pentru monitorizare uptime, UptimeRobot https://uptimerobot.com/ Este gratuit pana la 50 de website-uri monitorizate (la interval de 5 minute) Si pare ca are si integrare cu Slack, deci ar putea fi trimise alerte pe un canal dedicat.
Haha, da, UptimeRobot e deja setat (vezi si badge in README) :) Defapt avem si Pingdom pentru speed tests, dar care ofera si uptime checks. Chestia e ca in niciunul din cazurile astea nu stim ce anume s-a intamplat, doar ca nu mai e sus site-ul.
Cred ca suntem ok, cel putin momentan, nu e vital task-ul asta, dar e nice-to-have in ideea ca e totusi un site destul de accesat, iar la primul dezastru cu siguranta vom avea niste spike-uri f. mari.
Pentru a vedea cauza dupa producerea unui incident cred ca ar merge sa fie instalat un cron cu un script care sa colecteze periodic date din sistem. Ii zic eu "personal monitor" si m-a ajutat in multe cazuri de servere picate in weeked sau seara. Iar comenzile pe care acesta le da sunt aceleasi pe care si eu le-as rula ca sa vad ce se intampla: disk, ram, procese, load etc. Si ramane sa le citesti dupa aceea sau ori de cate ori crezi ca ceva a fost in neregula la o anumita ora. Alternativa cu sistem de alertare e mai buna, poti sa previi, dar presupune si sa ai pe cineva disponibil, un fel de om de garda pentru alerte si verificari. Pentru un server nu ar fi o problema, dar pe la 10-20 o sa vezi ca ai zilnic cate ceva de verificat. Pana atunci recomand acel script de personal monitor.
Pai din ce imi dau seama, daca am inteles corect, am putea deocamdata sa le folosim pe ambele: UptimeRobot + "personal monitor". Nu?
Da. Si cum UptimeRobot ati zis ca folositi deja, ar mai ramane sa pun acel script bash sa fie rulat de un cron si astfel am avea si date pe server pentru analiza la nevoie.
E un inceput f bun! Mai avem de discutat un pic cu cei de la DSU legat de infrastructura, as recomanda sa asteptam un pic pana lamurim asta si dupa putem sa go ahead cu propunerea ta, what say you?
Din ce am vb cu Claudiu these days, de explorat: https://grafana.com/
Am mai descoperit un tool open source: https://my-netdata.io/#demosites
Ce se întâmplă:
Nu stim, ca nu avem monitorizare
Ce ar trebui să se întâmple:
Sa stim ce se intampla
Pași pentru reproducerea problemei:
Specificații de sistem:
Commit hash: Sistem de operare: