Closed zgyzgyhero closed 5 years ago
对照行内的应用监控,还需要加上以下功能: 1.应用进程监控, 进程的CPU、内存使用率等。 2.应用错误日志监控, 监控应用日志中出现的关键字:error,exception等。 3.应用业务指标监控,扫描应用日志, 获取固定格式中的某些字段为监控值, 可以配置告警阈值。
这3个功能是现在IMS支持的,行内也用的很多, 如果我们要开始项目实施, 这些功能应该都需要。
沟通完结论: 进程监控暂时先不考虑一些特殊的进程,在现已支持一些基本应用进程的情况下先把进程监控往后排。 下个迭代的主要目标是日志监控与应用视图,还有一些现有功能的优化。
1 日志
1 修改node_exporter源码使其支持指定日志采集
2 在告警对象配置上增加日志采集配置
2 应用视图
3 告警功能优化
当前监控系统已经可以 1 展示各类监控对象的视图 2 配置监控对象的告警 3 告警信息获取与保存
基本的视图与告警功能可用,但还需要完善一些功能 下面是我列举的需完善需求点:
自身用户体验完善: 1、告警对象管理界面需增加注册注销维护窗口功能 2、告警视图需增加自定义指标查看与指标维护功能 3、阀值配置的名称和表达式需支持选择已配置好的表达式 4、未恢复告警界面需支持手动关闭告警和直接添加维护窗口 5、告警视图需可直接跳转至对象监控配置里 6、告警接收方式?
与wecube其它插件关联: 1、需要与CMDB关联去注册注销告警对象 2、需要在阀值配置里增加告警回调itsm或自动化工具 3、流程编排需要调用接口去给告警对象增加维护窗口
prometheus基础采集完善: 1、可配置采集模板来指定监控指标 2、可指定进程监控
容量: 1、支持表达式查询结果与时间序列或另一个表达式结果做简单线性规划 2、支持其它数据源配置并使用其数据做简单线性规划
希望大家评估和建议下上面的需求,个人想法是如果下个月要演示的话优先把用户体验完善和系统关联的先完成。 @chaneyliu @nertonsong @nevinxie @pobu168