Open laiwei opened 2 years ago
你这么大的企业,付费吧,别跟我们抢开源了
企业或者组织: inke
地点:北京
使用场景和经验分享:
最看重夜莺的哪些功能: 1.更契合云原生场景。 2.能节约大量成本。目前用的open-falcon, falcon-graph对disk.io和mem需求太高。使用n9e可以节约70%的成本。 3.更灵活的告警配置,更多聚合算法。
使用规模和范围: 使用规模:目前vm中的series数量有4亿+,实际应该是2亿+(之前为业务组打上标签导致很多指标重新上报了)。
架构:简单抽象为3个机房。国内有A,B机房,国外C机房。
A机房部署thanos,采样之后保存历史数据。
B机房部署VictoriaMetrics,提供3个月原始数据。
C机房部署Prometheus,量比较小。
使用了telegraf采集基础监控,业务监控暂时通过falcon的/v1/push接口转发至n9e,后期下掉falcon由sdk直接上报。
telegraf加壳部署为n9e-agent,每个机器都往各自机房server写数据。
A,B机房的数据双写(集群:Default),读写地址是通过srv域名做的区域解析。A区的server读自己的TSDB(thanos),B区的server读(B机房部署VictoriaMetrics,提供3个月原始数据)。
TSDB:
thanos有个问题:query无法按时间就近查询receive,而是查询所有store地址然后合并数据(是否我的用法不当)?假如receive存7天数据,store存30天数据,我只想查最近7天的数据,他会同时查询receive和store,因为store数据可能保存在oss所以会很慢。为了解决查询速度慢的问题,加了query-frontend,store地址也合并为1个lb地址,初次查询会慢,后面就走缓存了。
需求建议:可以更易用,当然这个是大家共同探索的方向。
@bbaobelief 请教几个问题 1、业务监控暂时通过falcon的/v1/push接口转发至n9e(将原来agent推送到transfer的压力都转发到n9e,为什么不考虑直接推送到vm或者Prometheus).后期下掉falcon由sdk直接上报(这块agent聚合能力放到sdk去处理吗?还是采取一分钟推送一次?感觉这块逻辑放到sdk是否会影响原来应用的资源使用) 2、之前falcon的nodata处理你们有遇到这块的问题嘛?
@bbaobelief 请教几个问题 1、业务监控暂时通过falcon的/v1/push接口转发至n9e(将原来agent推送到transfer的压力都转发到n9e,为什么不考虑直接推送到vm或者Prometheus).后期下掉falcon由sdk直接上报(这块agent聚合能力放到sdk去处理吗?还是采取一分钟推送一次?感觉这块逻辑放到sdk是否会影响原来应用的资源使用) 2、之前falcon的nodata处理你们有遇到这块的问题嘛?
absent_over_time
函数告警。最后特别感谢夜莺监控团队对监控领域的辛勤付出和耐心解答!
企业或者组织: 深圳艾派 地点:西安 使用场景:可视化监控报警配置 需求建议:app或者小程序
企业或者组织: 人人公司 地点:北京 使用场景:可视化监控报警配置,日志监控,对接K8S ,做多集群prometheus 存储 需求建议:日志mtail 本身是日志告警的,有个组件叫loggie ,做日志告警以及日志收集,看是否可以整合,两个开源团队能否碰触火花
企业或者组织: 诺瓦星云科技股份有限公司 地点:西安 使用场景:主要是监控VMware云的虚机,做可视化监控报警配置,应用日志监控,多集群prometheus 存储。 需求建议:可一边使用快捷查询,一边可提示语法方式制作、测试监控模板。碰到过好多,告警模板制作好了,许久没有告警。
最重要的是,作为一个监控系统,虽然不做大而全,但至少能提供一个批量处理集群的命令执行工具。比如ansible能集成就好了。
祝发展越来越好。
企业或者组织: 西安轻网 地点:西安 使用场景和经验分享: 使用k8s进行部署夜莺,categraf作为采集器采集数据。 最看重夜莺的哪些功能: 集采集器、告警、平台展示于一体,开箱即用。而且都是开源项目,可以从中学到很多东西。 使用场景: 使用k8s部署夜莺的nwebapi和nserver,categraf负责采集数据推送到nserver 需求建议: 1.在页面上支持对categraf采集器的配置,并可以通过配置内容反向查询agent 2.helm部署夜莺暴露nserver 3.活跃告警、历史告警列表支持从外部接入告警信息进行展示
企业或者组织: 分秒帧 地点:北京 使用场景和经验分享:
最看重夜莺的哪些功能: 云原生监控,无缝对接Prometheus,grafana能力,支持多种、多个数据源 开源、活跃的社区、有问必答的专业监控咨询,构建了一个比较好的监控生态圈,以及强大的 agent Categraf,丰富多彩的中间件插件。可以一键式接入监控平台。 使用场景: 目前主要使用夜莺告警管理能力,以及和自研微服务框架集成, 因为服务发现使用的 etcd,所以不能复用 Prometheus 已有实现 pull 发现,采用框架定时器 push 到 Categraf,然后 Categraf 再 push 到夜莺 server。 需求建议:
企业或者组织: 云算时代 地点:厦门
使用场景和经验分享: ·从open falcon开始接触 ·由于人力和规模情况;当前是v3的最终版本,等社区v6上线后准备迭代到v5的最终版本 ·M3其实不适合每个公司,内存消耗大,而且原生对接会跳过一个调度器的组件,如果不是开箱的话,会带来一定的工量摸索 ·结合Prometheus Thanos 对象存储做了一些冷热数据分离归档的调整 ·使用的历代版本都有很大的工量投入在自定义上报功能订制 ·说句无关技术的话,带宽和数据量,控本的问题要最开始规划好
最看重夜莺的哪些功能: 其实最看重企业版层层下钻的灭火图
使用场景: 数据量和成本问题有意只开启了一部分metrics,裸机量2k+这样子
需求建议: 实话实说,v2 v3 v4更像是三个产品,各有侧重和优势;v5则是拥抱生态 恳切建议产品经理要认真思考这个问题 或者说一句很外行的话,有没有一种可能做成本体和插件的形式来实现个人需求定制
企业或者组织:中电信数智科技有限公司 地点:长沙 使用场景:可视化监控报警配置,日志监控,对接K8S,做多集群prometheus存储 需求建议:还学习摸索中,争取应用到公司多项目监控环境中
企业或者组织: Freetalen 地点:BJ 使用场景:可视化监控报警配置 需求建议:学习中
企业或者组织:上海联合产权交易所有限公司 老卢 地点:上海 使用场景:可视化监控报警配置,日志监控,对接K8S,做多集群prometheus存储 需求建议:学习摸索
企业或者组织:北京远舢智能科技有限公司 地点:北京 使用场景:可视化监控报警配置,日志监控,对接K8S 需求建议:我是夜莺V4用户,目前在调研V5,还在学习摸索阶段中。
企业或者组织: 北京华宇信息技术有限公司 地点:北京 使用场景:k8s、私有云监控 需求建议:还在学习摸索中
企业或者组织: 深圳开#思#时#代科技有限公司 地点:深圳 使用场景:K8S告警,日志监控告警 需求建议:可支持动态告警,时序预测
企业或者组织: 传化智联 地点:杭州 使用场景和经验分享: 用夜莺替换了原先使用的zabbix和owl监控系统,categraf作为采集器采集数据。 最看重夜莺的哪些功能: 云原生监控,无缝对接Prometheus,grafana能力,支持多种、多个数据源 开源、活跃的社区、有问必答的专业监控咨询,构建了一个比较好的监控生态圈,以及强大的 agent Categraf,丰富多彩的中间件插件。可以一键式接入监控平台。 使用场景: 可视化监控报警配置,k8s监控,监控对象持续接入中 需求建议: 1.支持报表统计,能进行资源使用量报表展示。 最后特别感谢夜莺监控团队对监控领域的辛勤付出和耐心解答!
企业或者组织: 格创#东智 地点:深圳 使用场景:K8S告警,智能告警 需求建议:可支持动态阈值,报表分析,指标管理,agent管理
企业或者组织: 中移动 地点:苏州 使用场景:可视化监控报警配置,网络设备监控 需求建议:设备端口变动及时告警
企业或者组织: 浙江强云 地点:金华 使用场景:可视化监控报警配置,网络设备监控、可视化监控报警配置,日志监控 需求建议:设备端口变动及时告警,全景能否像grafana 展示更直观
企业或者组织: 魔线科技(深圳)有限公司 地点:深圳 使用场景:K8S告警,日志监控告警 需求建议:支持动态告警,动态告警阈值,告警升级。
企业或者组织: 亚信 地点:南京 使用场景:Categraf采集器,采集windows一些性能指标,k8s云监控 需求建议:夜莺展示性能指标时候能更加具体点。类似grafana
企业或者组织:深圳卓望数码 地点:深圳 使用场景:可视化监控报警配置 需求建议:还学习摸索中,争取应用到公司多项目监控环境中
企业或者组织:中国电信天翼电子商务有限公司 地点:上海 使用场景:可视化监控报警配置 需求建议:功能目前符合预期,整体还在探索使用中
企业或者组织:https://www.odaclass.com/ 地点:北京 使用场景:可视化监控报警配置 需求建议:目前基本能满足线上需求
企业或者组织: 烽#云#信#息科技有限公司 地点:广州 使用场景:日常监控服务器 需求建议:还学习摸索中
企业或者组织: 中国电信 地点:福州 使用场景和经验分享:n9e丰富的web界面功能配置,极大降低运维人员的运维门槛,即使是开发人员也能快速上手。目前接入服务器数量规模超过500+,后续考虑大规矩接入 需求建议: 1、希望可以支持kubernetes事件监控和告警,参考opsgenie/kubernetes-event-exporter 2、希望内置kubernetes_by_categraf监控大盘 3、针对n9e的监控大盘dashboard发布社区,可以提供给广大优秀创作者一个作品展示平台
企业或者组织: 中移动 地点:苏州 使用场景:可视化监控报警配置,网络设备监控 需求建议:设备端口变动及时告警
- 企业或者组织: 中移动
- 地点:北京
- 使用场景:可视化监控报警配置
- 需求建议:急需巡检报表,可根据主机,监控项导出报表
巡检报表这块其实可以考虑支持监控对象-对象列表中支持根据业务组导出或者生成pdf文件
企业或者组织: 品众互动 地点:北京 使用场景和经验分享:监控对象丰富,但对国产化数据库监控不足,其次图表中时序数据曲线突刺太多,可再优化一下。 需求建议:希望可以优化领导视图,大屏展示监控整体概况。
企业或者组织:千桦资本 地点:上海 使用场景:可视化监控报警、监控数据分析及优化 需求建议:正在使用zabbix向N9E迁移,功能目前符合预期
企业或者组织: 博維智慧科技 地点:澳門 使用场景和经验分享:接入victoriametrics數據源,使用N9E配置告警規則並將告警轉發至公司自研的系統。 需求建议:目前使用v6.7.3,通知模板管理UI和邏輯略為混亂,因此我們將告警轉發至公司自研的系統作處理。
可以通过在当前 issue 登记您的使用情况,并分享您使用夜莺监控的经验,将会自动进入 END USERS 列表,并获得社区的 VIP Support。