内容简介:tidb的grafana界面突然没有数据,看后台alertmanager日志level=error ts=2018-07-19T09:39:54.470233355Z caller=dispatch.go:266 component=dispatcher msg="Notify for alerts failed" num_alerts=1 err="dial tcp 127.0.0.1:25: getsockopt: connection refused"level=error ts=2018-07-1
tidb的grafana界面突然没有数据,看后台alertmanager日志
level=error ts=2018-07-19T09:39:54.470233355Z caller=dispatch.go:266 component=dispatcher msg="Notify for alerts failed" num_alerts=1 err="dial tcp 127.0.0.1:25: getsockopt: connection refused"
level=error ts=2018-07-19T09:39:54.470337114Z caller=notify.go:303 component=dispatcher msg="Error on notify" err="dial tcp 127.0.0.1:25: getsockopt: connection refused"
level=error ts=2018-07-19T09:39:54.470342259Z caller=notify.go:303 component=dispatcher msg="Error on notify" err="dial tcp 127.0.0.1:25: getsockopt: connection refused"
level=error ts=2018-07-19T09:39:54.470352018Z caller=dispatch.go:266 component=dispatcher msg="Notify for alerts failed" num_alerts=1 err="dial tcp 127.0.0.1:25: getsockopt: connection refused"
level=error ts=2018-07-19T09:39:54.470356533Z caller=dispatch.go:266 component=dispatcher msg="Notify for alerts failed" num_alerts=1 err="dial tcp 127.0.0.1:25: getsockopt: connection refused"
start_grafana_collector.sh 只是个辅助插件,用老导出 metrics PDF
1、去grafana的服务器pd-1上,重启下grafana服务,重启脚本在/data0/tidb/deploy/scripts目录下
sh stop_grafana_collector.sh
sh stop_grafana.sh
sh start_grafana_collector.sh
sh start_grafana.sh
看了下,还是没有监控数据,按照惯例,监控没有数据量,可以去检查 push gateway 和 Prometheus ,重启下这2个服务
sh stop_prometheus.sh
sh stop_pushgateway.sh
start stop_prometheus.sh
start stop_pushgateway.sh
监控上,还是没有记录
2、查看grafana的架构
Grafana有2个重要点,一个是prometheus,一个是pushgateway,从这2方面查下问题
3、排查问题
1、查看pushgateway网页
http://st3-goods-pd-1.prod.yiran.com:9091/# 查看节点最新更新时间
点开其中一个,看下 lastupdate 时间
lastupdate时间是最新的记录,然后看下gateway的日志
2、查看先看下 Prometheus网页
http://st3-goods-pd-1.prod.yiran.com:9090 查看所有节点是否UP状态
所有节点都是Up状态
然后输入参数,查看下数据
其中,输入sum(rate(tidb_server_query_total[1m])) by (result),查下没有数据记录;输入node_disk_io_time_ms,查下有数据记录,而node_disk_io_time_ms在grafana上也有监控图记录;这个表示:那就是 tidb pd tikv 到 push gateway 得没数据了,node export 是 ok 得
3、重置prometheus参数
/data0/tidb/deploy/conf/prometheus.yml,之前默认是3,修改成如下值
scrape_configs
scrape_interval: 15s
scrape_timeout: 10s
evaluation_interval: 15s
修改后,重启promecheus服务
sh stop_prometheus.sh
sh start_prometheus.sh
之后grafana界面就有数据显示了。
以上所述就是小编给大家介绍的《tidb监控突然没有数据问题》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- Node应用没有错误监控怎么行?
- 对没有监控的微服务 Say No
- 微信到底有没有监控用户聊天内容?腾讯再次回应
- 0615 - 没有比较,就没有伤害
- 对话微软ONNX负责人:没有中国的认可,开源标准没有意义
- 建模的世界没有银弹
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Java Servlet & JSP Cookbook
Bruce W. Perry / O'Reilly Media / 2003-12-1 / USD 49.99
With literally hundreds of examples and thousands of lines of code, the Java Servlet and JSP Cookbook yields tips and techniques that any Java web developer who uses JavaServer Pages or servlets will ......一起来看看 《Java Servlet & JSP Cookbook》 这本书的介绍吧!