XiaoMi / minos

Minos is beyond a hadoop deployment system.
Apache License 2.0
522 stars 200 forks source link

现在GItHub上的Minos版本支持spark和storm监控吗? #40

Open zengzhaozheng opened 9 years ago

zengzhaozheng commented 9 years ago

现在GItHub上的Minos版本支持spark和storm监控吗?还有,这个Minos有没有报警功能的?

YxAc commented 9 years ago
  1. spark目前Owl上没有相关支持,我们内部spark跑在yarn上,有一个专门查看spark作业的tool
  2. storm的话,owl上是支持的,不过这个强依赖我们内部的storm版本,内部对storm做过hack,起了一个http server将storm作业相关的metric吐出来,然后owl这边的collector会去收集,就像hadoop的jmx一样
  3. 报警功能:

\ Owl只支持一些简单的报警,例如hdfs namenode等状态的check,如果出现问题,例如ha问题等,owl会报警;这个在owl/alert模块中。

\ 另外还支持hdfs quota方面的报警,例如某个用户的quota超阈值了,Owl会报警了;这个在owl/quota模块中。

\ 对于集群进程的监控报警主要是基于supervisord的,如果done掉,supervisord会报警并自动拉起;

\ 对于metrics方面的报警,我们这边是将metrics收集起来以后推送给一个公司统一的报警系统,在里面配置一下,这方面的报警由他们来报

zengzhaozheng commented 9 years ago

通过什么方式报警的,email方式吗,还是其他的?

YxAc commented 9 years ago

嗯,owl这块是email和米聊;metrics方面还有短信