一、平均负载与cpu使用率并没有直接关系
1、平均负载
单位时间内,系统处于可运行状态和不可终端状态的平均进程数也就是平均活跃进程数,它和cpu使用率并没有直接关系,
可运行状态:
正在使用的cpu或者正在等待cpu的进程
不可中断状态
进程是正处于内核关键流程中的进程,并且这些流程是不可打断的,比如最常见的是等待硬件设备i/o响应,也就是我们在ps命令中看到的d状态的状态
或者中断打断的 ,这个时候的 进程处于不可终端状态,如果此时的进程被打断了 ,就容易出现磁盘数据与进程不一致的 问题
所以,不可中断状态实际上是系统对进程和硬件的一种保护机制
2、当平均负载2时,意味着什么呢?
既然是平均的活跃进程数,那么最理想的,就是每个cpu上都刚好运行着一个进程,这样每个cpu都得到了充分利用,比如当平均负载2时,意味着什么呢?
1、在只有2个cpu的系统上,意味着所有的cpu都刚好被完全占用
2、在4个cpu的系统上,意味着cpu有50%的空闲
3、而在只有1个cpu的系统上,则意味着有一半的进程竞争不到cpu
二、平均负载为多少时合理
平均负载最理想的情况等于cpu的个数
1、系统有几个cpu?
# 关于 grep 和 wc 的用法请查询它们的手册或者网络搜索
$ grep 'model name' /proc/cpuinfo | wc -l 2
当平均负载高于 cpu 数量 70% 排查负载高的问题了。一旦负载过高,就可能导致进程响应变慢,进而影响服务的正常功能。
三、平均负载与 cpu 使用率
1、平均负载
1、正在使用 cpu 的进程,
2、等待 cpu
3、等待 i/o 的进程。
2、cpu使用率
是单位时间内cpu繁忙情况的 统计,跟平均负载并不一定完全对应
1、cpu 密集型进程,使用大量 cpu 会导致平均负载升高,此时这两者一直的
2、i/o 密集型进程,等待 i/o 也会导致平均负载升高,但 cpu 使用率不一定很高;
3、大量等待 cpu 的进程调度也会导致平均负载升高,此时的cpu 使用率也会比较高
四、实战
1、环境与测试工具
1、操作系统
[root@luoahong ~]# cat /etc/redhat-release centos linux release 7.4.1708 (core)
2、测试工具
yum install stress-ng sysstat -y
wget -o /etc/yum.repos.d/centos-base.repo http://mirrors.aliyun.com/repo/centos-7.repo
3、升级sysstat版本到11.5以上
rpm -qa|grep sysstat
wget http://www.rpmfind.net/linux/opensuse/tumbleweed/repo/oss/x86_64/sysstat-12.3.3-1.3.x86_64.rpm
rpm -uvh sysstat-12.3.3-1.3.x86_64.rpm
rpm -qa|grep sysstat
2、场景一:cpu 密集型进程
1、窗口1
[root@luoahong ~]# stress --cpu 1 --timeout 600 stress: info: [1307] dispatching hogs: 1 cpu, 0 io, 0 vm, 0 hdd
2、窗口2
[root@luoahong ~]# stress --cpu 1 --timeout 600 stress: info: [1307] dispatching hogs: 1 cpu, 0 io, 0 vm, 0 hdd
1 分钟的平均负载会慢慢增加到 1.00
3、窗口3
#-p all 表示监控所有 cpu,后面数字 5 表示间隔 5 秒后输出一组数据 [root@luoahong ~]# mpstat -p all 5 03:47:20 pm cpu %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle 03:47:25 pm all 25.29 0.00 0.05 0.05 0.00 0.05 0.00 0.00 0.00 74.55 03:47:25 pm 0 99.80 0.00 0.00 0.00 0.00 0.20 0.00 0.00 0.00 0.00 03:47:25 pm 1 0.00 0.00 0.20 0.20 0.00 0.00 0.00 0.00 0.00 99.59 03:47:25 pm 2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 100.00 03:47:25 pm 3 0.21 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 99.79 03:47:25 pm cpu %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle 03:47:30 pm all 24.94 0.00 0.10 0.00 0.00 0.05 0.00 0.00 0.00 74.91 03:47:30 pm 0 99.80 0.00 0.00 0.00 0.00 0.20 0.00 0.00 0.00 0.00 03:47:30 pm 1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 100.00 03:47:30 pm 2 0.00 0.00 0.20 0.00 0.00 0.00 0.00 0.00 0.00 99.80 03:47:30 pm 3 0.00 0.00 0.20 0.00 0.00 0.00 0.00 0.00 0.00 99.80
正好有一个 cpu 的使用率为 100%,但它的只有 0。这说明,平均负载的升高正是由于 cpu 使用率为 100% 。
那么,到底是哪个进程导致了 cpu 使用率为 100% 呢?你可以使用 pidstat 来查询
[root@luoahong ~]# pidstat -u 5 1 linux 3.10.0-693.el7.x86_64 (luoahong) 02/05/2019 _x86_64_ (4 cpu) 03:51:51 pm uid pid %usr %system %guest %wait %cpu cpu command 03:51:56 pm 0 79 0.00 0.59 0.00 0.20 0.59 2 kworker/2:2 03:51:56 pm 0 309 0.00 0.20 0.00 0.00 0.20 0 xfsaild/sda2 03:51:56 pm 0 738 0.40 0.00 0.00 0.20 0.40 1 vmtoolsd 03:51:56 pm 0 1308 99.80 0.20 0.00 0.00 100.00 3 stress 03:51:56 pm 0 1501 0.20 0.20 0.00 0.00 0.40 0 watch 03:51:56 pm 0 1752 0.00 0.40 0.00 0.00 0.40 1 pidstat average: uid pid %usr %system %guest %wait %cpu cpu command average: 0 79 0.00 0.59 0.00 0.20 0.59 - kworker/2:2 average: 0 309 0.00 0.20 0.00 0.00 0.20 - xfsaild/sda2 average: 0 738 0.40 0.00 0.00 0.20 0.40 - vmtoolsd average: 0 1308 99.80 0.20 0.00 0.00 100.00 - stress average: 0 1501 0.20 0.20 0.00 0.00 0.40 - watch average: 0 1752 0.00 0.40 0.00 0.00 0.40 - pidstat
从这里可以明显看到,stress 进程的 cpu 使用率为 99.80
3、场景二:i/o 密集型进程
1、窗口1
stress-ng -i 1 --hdd 1 --timeout 600
2、窗口2
# -d 参数表示高亮显示变化的区域 $ watch -d uptime ..., load average: 2.17, 0.84, 0.40
3、窗口3
[root@luoahong ~]# mpstat -p all 5 1 linux 3.10.0-693.el7.x86_64 (luoahong) 02/05/2019 _x86_64_ (2 cpu) 08:58:00 pm cpu %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle 08:58:05 pm all 0.32 0.00 54.64 40.51 0.00 1.79 0.00 0.00 0.00 2.74 08:58:05 pm 0 0.43 0.00 27.55 66.59 0.00 3.47 0.00 0.00 0.00 1.95 08:58:05 pm 1 0.21 0.00 80.29 15.81 0.00 0.21 0.00 0.00 0.00 3.49 average: cpu %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle average: all 0.32 0.00 54.64 40.51 0.00 1.79 0.00 0.00 0.00 2.74 average: 0 0.43 0.00 27.55 66.59 0.00 3.47 0.00 0.00 0.00 1.95 average: 1 0.21 0.00 80.29 15.81 0.00 0.21 0.00 0.00 0.00 3.49
1 分钟的平均负载会慢慢增加到 1.00
其中一个 cpu 的系统 cpu 使用率升高到了 27.55,而 iowait 高达 66.59%。这说明,平均负载的升高是由于 iowait 的升高。
那么,到底是哪个进程导致了 cpu 使用率为 100% 呢?
[root@luoahong ~]# pidstat -u 5 1 linux 3.10.0-693.el7.x86_64 (luoahong) 02/05/2019 _x86_64_ (2 cpu) 09:02:14 pm uid pid %usr %system %guest %wait %cpu cpu command 09:02:19 pm 0 3 0.00 2.17 0.00 0.79 2.17 0 ksoftirqd/0 09:02:19 pm 0 9 0.00 0.40 0.00 3.36 0.40 0 rcu_sched 09:02:19 pm 0 13 0.00 0.20 0.00 1.19 0.20 1 ksoftirqd/1 09:02:19 pm 0 291 0.00 0.20 0.00 0.99 0.20 0 xfsaild/sda2 09:02:19 pm 0 683 0.20 0.20 0.00 0.59 0.40 0 vmtoolsd 09:02:19 pm 0 3732 0.00 1.78 0.00 1.78 1.78 0 kworker/0:0 09:02:19 pm 0 4492 0.59 72.33 0.00 0.79 72.92 0 stress-ng-hdd 09:02:19 pm 0 4493 0.00 3.75 0.00 0.79 3.75 0 stress-ng-io 09:02:19 pm 0 4496 0.00 6.13 0.00 0.20 6.13 0 kworker/u256:1 09:02:19 pm 0 4589 0.00 0.40 0.00 0.40 0.40 1 kworker/1:2 09:02:19 pm 0 4621 0.00 0.40 0.00 0.00 0.40 1 pidstat average: uid pid %usr %system %guest %wait %cpu cpu command average: 0 3 0.00 2.17 0.00 0.79 2.17 - ksoftirqd/0 average: 0 9 0.00 0.40 0.00 3.36 0.40 - rcu_sched average: 0 13 0.00 0.20 0.00 1.19 0.20 - ksoftirqd/1 average: 0 291 0.00 0.20 0.00 0.99 0.20 - xfsaild/sda2 average: 0 683 0.20 0.20 0.00 0.59 0.40 - vmtoolsd average: 0 3732 0.00 1.78 0.00 1.78 1.78 - kworker/0:0 average: 0 4492 0.59 72.33 0.00 0.79 72.92 - stress-ng-hdd average: 0 4493 0.00 3.75 0.00 0.79 3.75 - stress-ng-io average: 0 4496 0.00 6.13 0.00 0.20 6.13 - kworker/u256:1 average: 0 4589 0.00 0.40 0.00 0.40 0.40 - kworker/1:2 average: 0 4621 0.00 0.40 0.00 0.00 0.40 - pidstat
4、场景三:大量进程的场景
当系统中运行进程超出cpu运行能力时,就会出现等待cpu的进程。
比如,我们还是使用stress,但这次模拟的 是8个进程:
1、窗口1
[root@luoahong ~]# stress -c 8 --timeout 600 stress: info: [5270] dispatching hogs: 8 cpu, 0 io, 0 vm, 0 hdd
2、窗口2
[root@luoahong ~]# uptime 21:16:07 up 1:43, 3 users, load average: 5.98, 2.14, 1.19
3、窗口3
[root@luoahong ~]# pidstat -u 5 1 linux 3.10.0-693.el7.x86_64 (luoahong) 02/05/2019 _x86_64_ (2 cpu) 09:15:30 pm uid pid %usr %system %guest %wait %cpu cpu command 09:15:35 pm 0 683 0.20 0.00 0.00 1.37 0.20 0 vmtoolsd 09:15:35 pm 0 1049 0.00 0.20 0.00 0.00 0.20 0 tuned 09:15:35 pm 0 4622 0.00 0.39 0.00 0.39 0.39 1 kworker/1:0 09:15:35 pm 0 4624 0.20 0.20 0.00 0.59 0.39 0 watch 09:15:35 pm 0 5271 24.31 0.00 0.00 74.31 24.31 1 stress 09:15:35 pm 0 5272 24.51 0.00 0.00 74.12 24.51 0 stress 09:15:35 pm 0 5273 24.31 0.00 0.00 73.92 24.31 1 stress 09:15:35 pm 0 5274 24.12 0.00 0.00 74.12 24.12 0 stress 09:15:35 pm 0 5275 24.31 0.00 0.00 74.12 24.31 1 stress 09:15:35 pm 0 5276 24.31 0.20 0.00 73.73 24.51 0 stress 09:15:35 pm 0 5277 24.31 0.20 0.00 74.31 24.51 1 stress 09:15:35 pm 0 5278 24.31 0.20 0.00 74.71 24.51 0 stress 09:15:35 pm 0 5326 0.00 0.20 0.00 0.39 0.20 0 pidstat average: uid pid %usr %system %guest %wait %cpu cpu command average: 0 683 0.20 0.00 0.00 1.37 0.20 - vmtoolsd average: 0 1049 0.00 0.20 0.00 0.00 0.20 - tuned average: 0 4622 0.00 0.39 0.00 0.39 0.39 - kworker/1:0 average: 0 4624 0.20 0.20 0.00 0.59 0.39 - watch average: 0 5271 24.31 0.00 0.00 74.31 24.31 - stress average: 0 5272 24.51 0.00 0.00 74.12 24.51 - stress average: 0 5273 24.31 0.00 0.00 73.92 24.31 - stress average: 0 5274 24.12 0.00 0.00 74.12 24.12 - stress average: 0 5275 24.31 0.00 0.00 74.12 24.31 - stress average: 0 5276 24.31 0.20 0.00 73.73 24.51 - stress average: 0 5277 24.31 0.20 0.00 74.31 24.51 - stress average: 0 5278 24.31 0.20 0.00 74.71 24.51 - stress average: 0 5326 0.00 0.20 0.00 0.39 0.20 - pidstat
可以看出,8 个进程在争抢 2 个 cpu,每个进程等待cpu 的时间(也就是代码块中的 %wait 列)高达 75%这些超出 cpu 计算能力的进程,最终导致 cpu 过载。
五、小结
1、平均负载高有可能是 cpu 密集型进程导致的;
2、平均负载负载高并不一定代表 cpu 使用率高,还有可能是 i/o i/o 更繁忙了
3、当发现负载高的时候,你可以使用 mpstat、pidstat等工具,辅助分析负载的来源