prometheus——metrics领域的利器
connygpt 2024-12-16 11:38 10 浏览
监控分类
?Logging 用于记录离散的事件。例如,应用程序的调试信息或错误信息。它是我们诊断问题的依据。比如我们说的ELK就是基于Logging。?Metrics 用于记录可聚合的数据。例如,1、队列的当前深度可被定义为一个度量值,在元素入队或出队时被更新;HTTP 请求个数可被定义为一个计数器,新请求到来时进行累。2、列如获取当前CPU或者内存的值。 prometheus专注于Metrics领域。?Tracing - 用于记录请求范围内的信息。例如,一次远程方法调用的执行过程和耗时。它是我们排查系统性能问题的利器。最常用的有Skywalking,ping-point,zipkin。
Prometheus介绍
简介
Prometheus(中文名:普罗米修斯)是由SoundCloud开发的开源监控报警系统和时序列数据库(TSDB). Prometheus使用Go语言开发, 是Google BorgMon监控系统的开源版本。
Prometheus的基本原理是通过HTTP协议周期性抓取被监控组件的状态, 任意组件只要提供对应的HTTP接口就可以接入监控. 不需要任何SDK或者其他的集成过程。输出被监控组件信息的HTTP接口被叫做exporter,目前开发常用的组件大部分都有exporter可以直接使用, 比如Nginx、MySQL、Linux系统信息、Mongo、ES等
官网地址:https://prometheus.io/
系统生态
Prometheus 可以从配置或者用服务发现,去调用各个应用的 metrics 接口,来采集数据,然后存储在硬盘中,而如果是基础应用比如数据库,负载均衡器等,可以在相关的服务中安装 Exporters 来提供 metrics 接口供 Prometheus 拉取。
采集到的数据有两个去向,一个是报警,另一个是可视化。
Prometheus有着非常高效的时间序列数据存储方法,每个采样数据仅仅占用3.5byte左右空间,上百万条时间序列,30秒间隔,保留60天,大概花了200多G(引用官方PPT)。
Prometheus内部主要分为三大块,Retrieval是负责定时去暴露的目标页面上去抓取采样指标数据,Storage是负责将采样数据写磁盘,PromQL是Prometheus提供的查询语言模块。
Metrics
格式
<metric name>{<label name>=<label value>, ...}
?metric name: [a-zA-Z_:][a-zA-Z0-9_:]*?label name: [a-zA-Z0-9_]*?label value: .* (即不限制)
例如通过NodeExporter的metrics地址暴露指标内容:
node_cpu_seconds_total{cpu="0",mode="idle"} 927490.95
node_cpu_seconds_total{cpu="0",mode="iowait"} 27.74
样本
在时间序列中的每一个点称为一个样本(sample),样本由以下三部分组成:
?指标(metric):指标名称和描述当前样本特征的 labelsets;?时间戳(timestamp):一个精确到毫秒的时间戳;?样本值(value):一个 folat64 的浮点型数据表示当前样本的值。
数据类型
Prometheus定义了4中不同的指标类型(metric type):Counter(计数器)、Gauge(仪表盘)、Histogram(直方图)、Summary(摘要)。
在NodeExporter返回的样本数据中,其注释中也包含了该样本的类型。例如:
# HELP node_cpu_seconds_total Seconds the cpus spent in each mode.
# TYPE node_cpu_seconds_total counter
node_cpu_seconds_total{cpu="0",mode="idle"} 927490.95
node_cpu_seconds_total{cpu="0",mode="iowait"} 27.74...
?
Counter
统计的数据是递增的,不能使用计数器来统计可能减小的指标,计数器统计的指标是累计增加的,如http请求的总数,出现的错误总数,总的处理时间,api请求数等
例如:
第一次抓取 http_response_total{method="GET",endpoint="/api/tracks"} 100
第二次抓取 http_response_total{method="GET",endpoint="/api/tracks"} 150
?
Gauge
量规是一种度量标准,代表可以任意上下波动的单个数值,用于统计cpu使用率,内存使用率,磁盘使用率,温度等指标,还可以统计上升和下降的计数。如并发请求数等。
例如:
第1次抓取 memory_usage_bytes{host="master-01"} 100
第2秒抓取 memory_usage_bytes{host="master-01"} 30
第3次抓取 memory_usage_bytes{host="master-01"} 50
第4次抓取 memory_usage_bytes{host="master-01"} 80
?
Histogram
统计在一定的时间范围内数据的分布情况。如请求的持续/延长时间,请求的响应大小等,还提供度量指标的总和,数据以直方图显示。Histogram由_bucket{le=""},_bucket{le="+Inf"}, _sum,_count 组成 如: apiserver_request_latencies_sum apiserver_request_latencies_count apiserver_request_latencies_bucket
?
Summary
和Histogram直方图类似,主要用于表示一段时间内数据采样结果(通常是请求持续时间或响应大小之类的东西),还可以计算度量值的总和和度量值的分位数以及在一定时间范围内的分位数,由{quantile="<φ>"},_sum,_count 组成
PromSQL
?
运算
乘:* 除:/ 加:+ 减:-
?
函数
sum() 函数:求出找到所有value的值
irate() 函数:统计平均速率
by (标签名) 相当于关系型数据库中的group by函数
min:最小值
count: 元素个数
avg: 平均值
?
范围匹配
5分钟之内 [5m]
?
案例
1、获取cpu使用率 :100-(avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by(instance) *100)
2、获取内存使用率:100-(node_memory_MemFree_bytes+node_memory_Buffers_bytes+node_memory_Cached_bytes)/node_memory_MemTotal_bytes*100
下载安装
?官方下载安装
# mac下载地址 https://prometheus.io/download/
# 解压
tar -zxvf prometheus-2.26.0.darwin-amd64.tar.gz
#启动
./prometheus --config.file=/usr/local/prometheus/prometheus.yml
?
docker 方式快速安装
docker run -d --restart=always \
-p 9090:9090 \
-v ~/prometheus.yml:/etc/prometheus/prometheus.yml \
prom/prometheus
?
配置文件: prometheus.yml
# my global config
global:
scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
# scrape_timeout is set to the global default (10s).
# Alertmanager configuration
alerting:
alertmanagers:
- static_configs:
- targets:
# - alertmanager:9093
# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
# - "first_rules.yml"
# - "second_rules.yml"
# A scrape configuration containing exactly one endpoint to scrape:
# Here it's Prometheus itself.
scrape_configs:
# The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
- job_name: 'prometheus'
# metrics_path defaults to '/metrics'
# scheme defaults to 'http'.
static_configs:
- targets: ['localhost:9090']
- job_name: 'erp-monitord'
metrics_path: '/prometheus'
# scheme defaults to 'http'.
static_configs:
- targets: ['localhost:50258']
?访问http://localhost:9090
Target
Graph
Springboot 集成
Springboot1.5集成
?
配置参照地址: https://micrometer.io/docs/ref/spring/1.5#[1]
?
maven 依赖
<dependency>
<groupId>io.micrometer</groupId>
<artifactId>micrometer-registry-prometheus</artifactId>
<version>1.6.1</version>
</dependency>
<dependency>
<groupId>io.micrometer</groupId>
<artifactId>micrometer-spring-legacy</artifactId>
<version>1.3.15</version>
</dependency>
?
配置访问地址
#endpoints.prometheus.path=${spring.application.name}/prometheus
management.metrics.tags.application = ${spring.application.name}
?
启动springboot 服务查看指标 http://xxxx:port/prometheus
Springboot2.x 版本集成
?
maven 依赖
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-actuator</artifactId>
</dependency>
<dependency>
<groupId>io.micrometer</groupId>
<artifactId>micrometer-core</artifactId>
</dependency>
<dependency>
<groupId>io.micrometer</groupId>
<artifactId>micrometer-registry-prometheus</artifactId>
</dependency>
?
默认地址: http://localhost:8990/actuator/prometheus[2]
?
配置
#Prometheus springboot监控配置
management:
endpoints:
web:
exposure:
include: 'prometheus' # 暴露/actuator/prometheus
metrics:
tags:
application: ${spring.application.name} # 暴露的数据中添加application label
自定义业务指标案例
?代码配置
import com.slightech.marvin.api.visitor.app.metrics.VisitorMetrics;
import com.slightech.marvin.api.visitor.app.service.VisitorStatisticsService;
import io.micrometer.core.instrument.MeterRegistry;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.boot.actuate.autoconfigure.metrics.MeterRegistryCustomizer;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;
/**
* @author wanglu
*/
@Configuration
public class MeterConfig {
@Value("${spring.application.name}")
private String applicationName;
@Autowired
private VisitorStatisticsService visitorStatisticsService;
@Bean
public MeterRegistryCustomizer<MeterRegistry> configurer() {
return (registry) -> registry.config().commonTags("application", applicationName);
}
@Bean
public VisitorMetrics visitorMetrics() {
return new VisitorMetrics(visitorStatisticsService);
}
}
?
自定义指标处理类实现MeterBinder 接口
import io.micrometer.core.instrument.Gauge;
import io.micrometer.core.instrument.MeterRegistry;
import io.micrometer.core.instrument.binder.MeterBinder;
/**
* @author wanglu
* @date 2019/11/08
*/
public class VisitorMetrics implements MeterBinder {
private static final String METRICS_NAME_SPACE = "visitor";
private VisitorStatisticsService visitorStatisticsService;
public VisitorMetrics(VisitorStatisticsService visitorStatisticsService) {
this.visitorStatisticsService = visitorStatisticsService;
}
@Override
public void bindTo(MeterRegistry meterRegistry) {
//公寓获取二维码次数-当天
//visitor_today_apartment_get_qr_code_count{"application"="xxx", "option"="apartment get qr code"}
Gauge.builder(METRICS_NAME_SPACE + "_today_apartment_get_qr_code_count", visitorStatisticsService, VisitorStatisticsService::getTodayApartmentGetQrCodeCount)
.description("today apartment get qr code count")
.tag("option", "apartment get qr code")
.register(meterRegistry);
//visitor_today_apartment_get_qr_code_count{"application"="xxx", "option"="employee get qr code"}
//员工获取二维码次数-当天
Gauge.builder(METRICS_NAME_SPACE + "_today_employee_get_qr_code_count", visitorStatisticsService, VisitorStatisticsService::getTodayEmployeeGetQrCodeCount)
.description("today employee get qr code count")
.tag("option", "employee get qr code")
.register(meterRegistry);
}
}
?
埋点服务计数
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.data.redis.core.RedisTemplate;
import org.springframework.scheduling.annotation.Async;
import org.springframework.stereotype.Service;
import java.util.Calendar;
import java.util.Date;
import java.util.concurrent.TimeUnit;
/**
* 数据统计
*
* @author laijianzhen
* @date 2019/11/08
*/
@Service
public class VisitorStatisticsService {
/**
* 公寓获取二维码次数-当天
*/
private static final String COUNT_TODAY_APARTMENT_GET_QR_CODE_REDIS_KEY = "Visitor:Statistics:CountTodayApartmentGetQrCode";
/**
* 员工获取二维码次数-当天
*/
private static final String COUNT_TODAY_EMPLOYEE_GET_QR_CODE_REDIS_KEY = "Visitor:Statistics:CountTodayEmployeeGetQrCode";
@Autowired
private RedisTemplate<String, Object> redisTemplate;
public int getTodayApartmentGetQrCodeCount() {
return getCountFromRedis(COUNT_TODAY_APARTMENT_GET_QR_CODE_REDIS_KEY);
}
public int getTodayEmployeeGetQrCodeCount() {
return getCountFromRedis(COUNT_TODAY_EMPLOYEE_GET_QR_CODE_REDIS_KEY);
}
@Async
public void countTodayApartmentGetQrCode() {
increaseCount(COUNT_TODAY_APARTMENT_GET_QR_CODE_REDIS_KEY);
}
@Async
public void countTodayEmployeeGetQrCode() {
increaseCount(COUNT_TODAY_EMPLOYEE_GET_QR_CODE_REDIS_KEY);
}
private int getCountFromRedis(String key) {
Object object = redisTemplate.opsForValue().get(key);
if (object == null) {
return 0;
}
return Integer.parseInt(String.valueOf(object));
}
private void increaseCount(String redisKey) {
Object object = redisTemplate.opsForValue().get(redisKey);
if (object == null) {
redisTemplate.opsForValue().set(redisKey, String.valueOf(1), getTodayLeftSeconds(), TimeUnit.SECONDS);
return;
}
redisTemplate.opsForValue().increment(redisKey, 1);
}
private long getTodayLeftSeconds() {
Date nowDate = new Date();
Calendar midnight = Calendar.getInstance();
midnight.setTime(nowDate);
midnight.add(Calendar.DAY_OF_MONTH, 1);
midnight.set(Calendar.HOUR_OF_DAY, 0);
midnight.set(Calendar.MINUTE, 0);
midnight.set(Calendar.SECOND, 0);
midnight.set(Calendar.MILLISECOND, 0);
return (midnight.getTime().getTime() - nowDate.getTime()) / 1000;
}
}
Grafana 集成
下载安装
https://grafana.com/grafana/download?pg=get&plcmt=selfmanaged-box1-cta1&platform=mac
#下载解压
curl -O https://dl.grafana.com/oss/release/grafana-7.5.4.darwin-amd64.tar.gz
tar -zxvf grafana-7.5.4.darwin-amd64.tar.gz
启动
#启动
./bin/grafana-server web
#访问
http://localhost:3000
默认账号密码 admin admin
数据源配置
监控仪表盘
?
导入常用别人已配置的图表信息,例如:springboot 用了micrometer 库,从granfna官网可以找到该库已提供的的JVM监控图表
直接找到 id 导入即可。找找地址:https://grafana.com/grafana/dashboards
搜索
查看详情
导入
JVM 监控仪表盘:
?
自定义制作
报警
基于AlertManager报警
安装
? 下载二进制安装
# mac下载地址 https://prometheus.io/download/
# 解压
tar -zxvf prometheus-2.26.0.darwin-amd64.tar.gz
#启动 默认配置项为alertmanager.yml
./alertmanager --config.file=alertmanager.yml
?
docker 安装
docker run --name alertmanager -d -p 127.0.0.1:9093:9093 quay.io/prometheus/alertmanager
配置
?
alertmanager.yml 配置
# 全局配置项
global:
resolve_timeout: 5m #处理超时时间,默认为5min
smtp_smarthost: 'smtp.sina.com:25' # 邮箱smtp服务器代理
smtp_from: '******@sina.com' # 发送邮箱名称
smtp_auth_username: '******@sina.com' # 邮箱名称
smtp_auth_password: '******' # 邮箱密码或授权码 wechat_api_url: 'https://qyapi.weixin.qq.com/cgi-bin/' # 企业微信地址
# 定义模板信心templates: - 'template/*.tmpl'
# 定义路由树信息
route:
group_by: ['alertname'] # 报警分组依据
group_wait: 10s # 最初即第一次等待多久时间发送一组警报的通知
group_interval: 10s # 在发送新警报前的等待时间
repeat_interval: 1m # 发送重复警报的周期 对于email配置中,此项不可以设置过低,否则将会由于邮件发送太多频繁,被smtp服务器拒绝
receiver: 'email' # 发送警报的接收者的名称,以下receivers name的名称
# 定义警报接收者信息
receivers:
- name: 'email' # 警报
email_configs: # 邮箱配置
- to: '******@163.com' # 接收警报的email配置 html: '{{ template "test.html" . }}' # 设定邮箱的内容模板 headers: { Subject: "[WARN] 报警邮件"} # 接收邮件的标题 webhook_configs: # webhook配置 - url: 'http://127.0.0.1:5001' send_resolved: true wechat_configs: # 企业微信报警配置 - send_resolved: true to_party: '1' # 接收组的id agent_id: '1000002' # (企业微信-->自定应用-->AgentId) corp_id: '******' # 企业信息(我的企业-->CorpId[在底部]) api_secret: '******' # 企业微信(企业微信-->自定应用-->Secret) message: '{{ template "test_wechat.html" . }}' # 发送消息模板的设定# 一个inhibition规则是在与另一组匹配器匹配的警报存在的条件下,使匹配一组匹配器的警报失效的规则。两个警报必须具有一组相同的标签。 inhibit_rules: - source_match: severity: 'critical' target_match: severity: 'warning' equal: ['alertname', 'dev', 'instance']
?
启用AlertManager 报警 prometheus.yml 配置
# my global config
global:
scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
# scrape_timeout is set to the global default (10s).
Alertmanager configuration
alerting: alertmanagers:
?static_configs:
?targets: ["localhost:9093"]
Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
?"first_rules.yml"?"second_rules.yml"
* Rule 定义
groups:
?
name: rules:
?alert: expr: for: [ | default 0 ] labels: [ : ] annotations: [ : ]
参数 | 描述 |
- name: | 警报规则组的名称 |
- alert: | 警报规则的名称 |
expr: <string | 使用PromQL表达式完成的警报触发条件,用于计算是否有满足触发条件 |
: | 自定义标签,允许自行定义标签附加在警报上,比如high warning |
annotations: : | 用来设置有关警报的一组描述信息,其中包括自定义的标签,以及expr计算后的值。 |
?
案例
groups:
- name: operations
rules:
- alert: node-down
expr: up{env="operations"} != 1
for: 5m
labels:
status: High
team: operations
annotations:
description: "Environment: {{ $labels.env }} Instance: {{ $labels.instance }} is Down ! ! !"
value: '{{ $value }}'
summary: "The host node was down 20 minutes ago"
?
查看配置报警配置
?
告警展示
基于Granfana 报警
?
创建Channel
?
创建规则
?
告警效果展示Email
References
[1] https://micrometer.io/docs/ref/spring/1.5#: https://micrometer.io/docs/ref/spring/1.5
[2] http://localhost:8990/actuator/prometheus: http://localhost:8088/actuator/prometheus
相关推荐
- 3分钟让你的项目支持AI问答模块,完全开源!
-
hello,大家好,我是徐小夕。之前和大家分享了很多可视化,零代码和前端工程化的最佳实践,今天继续分享一下最近开源的Next-Admin的最新更新。最近对这个项目做了一些优化,并集成了大家比较关注...
- 干货|程序员的副业挂,12个平台分享
-
1、D2adminD2Admin是一个完全开源免费的企业中后台产品前端集成方案,使用最新的前端技术栈,小于60kb的本地首屏js加载,已经做好大部分项目前期准备工作,并且带有大量示例代码,助...
- Github标星超200K,这10个可视化面板你知道几个
-
在Github上有很多开源免费的后台控制面板可以选择,但是哪些才是最好、最受欢迎的可视化控制面板呢?今天就和大家推荐Github上10个好看又流行的可视化面板:1.AdminLTEAdminLTE是...
- 开箱即用的炫酷中后台前端开源框架第二篇
-
#头条创作挑战赛#1、SoybeanAdmin(1)介绍:SoybeanAdmin是一个基于Vue3、Vite3、TypeScript、NaiveUI、Pinia和UnoCSS的清新优...
- 搭建React+AntDeign的开发环境和框架
-
搭建React+AntDeign的开发环境和框架随着前端技术的不断发展,React和AntDesign已经成为越来越多Web应用程序的首选开发框架。React是一个用于构建用户界面的JavaScrip...
- 基于.NET 5实现的开源通用权限管理平台
-
??大家好,我是为广大程序员兄弟操碎了心的小编,每天推荐一个小工具/源码,装满你的收藏夹,每天分享一个小技巧,让你轻松节省开发效率,实现不加班不熬夜不掉头发,是我的目标!??今天小编推荐一款基于.NE...
- StreamPark - 大数据流计算引擎
-
使用Docker完成StreamPark的部署??1.基于h2和docker-compose进行StreamPark部署wgethttps://raw.githubusercontent.com/a...
- 教你使用UmiJS框架开发React
-
1、什么是Umi.js?umi,中文可发音为乌米,是一个可插拔的企业级react应用框架。你可以将它简单地理解为一个专注性能的类next.js前端框架,并通过约定、自动生成和解析代码等方式来辅助...
- 简单在线流程图工具在用例设计中的运用
-
敏捷模式下,测试团队的用例逐渐简化以适应快速的发版节奏,大家很早就开始运用思维导图工具比如xmind来编写测试方法、测试点。如今不少已经不少利用开源的思维导图组件(如百度脑图...)来构建测试测试...
- 【开源分享】神奇的大数据实时平台框架,让Flink&Spark开发更简单
-
这是一个神奇的框架,让Flink|Spark开发更简单,一站式大数据实时平台!他就是StreamX!什么是StreamX大数据技术如今发展的如火如荼,已经呈现百花齐放欣欣向荣的景象,实时处理流域...
- 聊聊规则引擎的调研及实现全过程
-
摘要本期主要以规则引擎业务实现为例,陈述在陌生业务前如何进行业务深入、调研、技术选型、设计及实现全过程分析,如果你对规则引擎不感冒、也可以从中了解一些抽象实现过程。诉求从硬件采集到的数据提供的形式多种...
- 【开源推荐】Diboot 2.0.5 发布,自动化开发助理
-
一、前言Diboot2.0.5版本已于近日发布,在此次发布中,我们新增了file-starter组件,完善了iam-starter组件,对core核心进行了相关优化,让devtools也支持对IAM...
- 微软推出Copilot Actions,使用人工智能自动执行重复性任务
-
IT之家11月19日消息,微软在今天举办的Ignite大会上宣布了一系列新功能,旨在进一步提升Microsoft365Copilot的智能化水平。其中最引人注目的是Copilot...
- Electron 使用Selenium和WebDriver
-
本节我们来学习如何在Electron下使用Selenium和WebDriver。SeleniumSelenium是ThoughtWorks提供的一个强大的基于浏览器的开源自动化测试工具...
- Quick 'n Easy Web Builder 11.1.0设计和构建功能齐全的网页的工具
-
一个实用而有效的应用程序,能够让您轻松构建、创建和设计个人的HTML网站。Quick'nEasyWebBuilder是一款全面且轻巧的软件,为用户提供了一种简单的方式来创建、编辑...
- 一周热门
- 最近发表
- 标签列表
-
- kubectlsetimage (56)
- mysqlinsertoverwrite (53)
- addcolumn (54)
- helmpackage (54)
- varchar最长多少 (61)
- 类型断言 (53)
- protoc安装 (56)
- jdk20安装教程 (60)
- rpm2cpio (52)
- 控制台打印 (63)
- 401unauthorized (51)
- vuexstore (68)
- druiddatasource (60)
- 企业微信开发文档 (51)
- rendertexture (51)
- speedphp (52)
- gitcommit-am (68)
- bashecho (64)
- str_to_date函数 (58)
- yum下载包及依赖到本地 (72)
- jstree中文api文档 (59)
- mvnw文件 (58)
- rancher安装 (63)
- nginx开机自启 (53)
- .netcore教程 (53)