性能测试没你想的那么难，看完这篇文章就懂了

用多少眼泪才能让你相信 · 2024-10-30 00:41:52

性能测试没你想的那么难，看完这篇文章就懂了

  01

  常见概念
  吞吐量（TPS, QPS）
  简朴来说就是每秒钟完成的事务数大概查询数。通常吞吐量大表明系统单位时间能处理的请求数越多，以是通常希望TPS越高越好
  响应时间
  即从请求发出去到收到系统返回的时间。响应时间一样寻常不取平均值，而是要去掉不稳固的值之后再取均值，好比常用的90%响应时间，指的就是去掉了10%不稳固的响应时间之后，剩下90%的稳固的响应时间的均值。从聚类的观点看，实在就是去掉离群点。
  错误率
  即错误请求数与总请求数之比。随着压力增加，有可能出现处理请求处理不外来的情况，这时错误数会不停增加。
  三者有极大的关联，任何孤立的数据都不能说明问题。典型的关系是，吞吐量增加时，响应耽误有可能增加，错误率也有可能增加。因此，单拿出一个10w的TPS并不能说明问题。
  性能调优的思绪
  一样寻常情况，调优需要有个前提条件，即无论是用线上的真实流水还是线下的压力测试让问题扩大化，明显化。
  根据这些比力明显的征象去初判问题，网络证据去验证初判结果成立，然后分析征象产生的原因，并尝试解决问题。
  02

  性能测试
  对于新上的系统大概是有过较大代码改动的系统来说，做一次摸底测试还是很有必要的。一样寻常来说，期望摸底的测试是一次对单机的压力测试。压力测试可以帮你大概搞清晰系统的极限TPS是多少，在压力上来时有没有暴露一些错误大概问题，系统大致的资源占用情况是什么，系统可能的性能瓶颈在哪。
  <blockquote class="multiquote-1" style="border: none; display: block; font-size: 0.9em; overflow: auto; overflow-scrolling: touch; padding-top: 10px; padding-bottom: 10px; padding-left: 20px; padding-right: 10px; margin-bottom: 20px; margin-top: 20px; color: rgb(91,91,91); border-left: 3px solid rgb(158,158,158); background: rgba(158, 158, 158, 0.1); padding: 1px 0 1px 10px; margin: 20px 0px;"> 如下是一次摸底测试的设置和结果。
这是用12000并发用户对10台呆板压测的结果，可以看出，TPS到7w多，平均响应时间为82ms，错误率在2.5%。
从图中还可以得到哪些信息？起首，TPS在后期迅速下落，现实上已经支撑不了云云大的并发量，即进入瓦解区，这里有几个可能：

一是系统根本遭受不了云云大的并发量
二是系统中间有问题导致TPS下跌。

  其次，随着时间增长，错误率明显增加，说明系统已经处理不了云云多的请求。结合前面两点以及相对安稳的平均响应时间，大致可以推断系统没法遭受云云大的并发。别的，由于是10台呆板，单台的TPS大概在7000多，以后的调优可以以此为依据。
  对于应用的特点，也要在这时候分析出来，即应用可能占用的资源。好比是CPU麋集型应用还是IO麋集型应用（还可以细分为是磁盘麋集还是网络）

03

  界说性能优化的目标
  经常听到人说，做个性能优化，吞吐量越高越好；大概做个性能测试，目标TPS是50000。可现实拿到这个信息，能够做性能测试吗？这个目标足够清晰吗？
  事实上，在我看来，未界说清晰的目标去做性能测试都是耍流氓。
  性能优化的目标一样寻常是吞吐量到达多少，90%响应时间小于多少，错误率小于多少。同时还需要关注其他的性能指标，cpu利用情况，内存利用情况，磁盘利用情况，带宽利用情况等。对于摸底测试已经发现问题的，可以针对该问题专门优化，好比负载较高，cpu斲丧过大，则目标可能是TPS，响应时间以及错误率稳定的情况下降低CPU负载。大概内存增长过快，gc较为频繁，则目标可能是找出可能的内存泄露，大概举行相关的jvm内存调优。总之，目标可以比力机动调整，但肯定要明白。
  04

  分析
  分析的过程较为机动，基本上是一千个系统有一千种表现。这里很难逐一说明。仅谈谈一些常见的方法，工具以及思绪。
  01

  针对CPU
  针对cpu的监控，实在linux已经提供了两个比力好用的工具，一个是top，一个是vmstat。关于这两个下令就不细说了，关于cpu主要关注4个值：us(user), sy(system), wa(wait), id(idle)。理论上他们加起来应该等于100%。而前三个每一个值过高都有可能表示存在某些问题。
  us过高：

代码问题
好比一个耗时的循环不加sleep，大概在一些cpu麋集盘算（如xml解析，加解密，加解压，数据盘算）时没处理好
gc频繁
一个比力容易遗漏的问题就是gc频繁时us容易过高，由于垃圾回收属于大量盘算的过程。gc频繁带来的cpu过高常伴有内存的大量波动，通过内存来判断并解决该问题更好。

<blockquote class="multiquote-1" style="border: none; display: block; font-size: 0.9em; overflow: auto; overflow-scrolling: touch; padding-top: 10px; padding-bottom: 10px; padding-left: 20px; padding-right: 10px; margin-bottom: 20px; margin-top: 20px; color: rgb(91,91,91); border-left: 3px solid rgb(158,158,158); background: rgba(158, 158, 158, 0.1); padding: 1px 0 1px 10px; margin: 20px 0px;"> 小本领：怎样定位us过高的线程并检察它的状态。
a. top下令找到斲丧us过高的进程pid
b. top -Hp pid找到对应的线程tid
c. printf %x tid转为16进制tid16
d. jstack pid | grep -C 20 tid16 即可查到该线程堆栈
sy过高：

上下文切换次数过多。通常是系统内线程数量较多，而且线程经常在切换，由于系统抢占相对切换时间和次数比力合理，以是sy过高通常都是主动让出cpu的情况，好比sleep大概lock wait, io wait。

wa过高：

等待io的cpu占比力多。
留意与上面情况的区别，io wait引起的sy过高指的是io不绝的wait然后唤醒，由于数量较大，导致上下文切换较多，夸大的是动态的过程；而io wait引起的wa过高指的是io wait的线程占比力多，cpu切换到这个线程是io wait，到那个线程也是io wait，于是总cpu就是wait占比力高。

id过高：

很多人认为id高是好的，其着实性能测试中id高说明资源未完全利用，大概压测不到位，并不是好事。

  02

  针对内存
  关于java应用的内存，通常只需要关注jvm内存，但有些特殊情况也需要关注物理内存。关于jvm内存，常见的工具有jstat 、jmap、pidstat、vmstat, top
  jvm内存：
  通常gc发生意味着总归是有一块区域空间不足而触发gc。而许多导致异常gc的情况通常是持有了不必要的引用而没有即时的开释，好比像cache这样的地方就容易处理不好导致内存泄露引发异常gc。
  有可能是程序的行为是正常的，但是由于没有设置对符合的gc参数导致异常gc，这种情况通常需要调优gc参数大概堆代大小参数。
  Full gc 发生的情况:

永久代满
年老代满

  minor gc晋升到旧生代的平均大小大于旧生代剩余大小
  CMS gc中promotion fail或concurrent mode fail
  OOM：
  OOM经常伴随着异常gc，之以是单独拿出来讲，是由于它的危害更大一些，异常gc顶多是网络速度过快大概回收不了内存，但是起码有个缓冲时间，但是出了OOM问题就大了。

heap区，对象创建过多或持有太多无效引用（泄露）大概堆内存分配不足。利用jmap找到内存中对象的分布，利用ps找到相应进程及初始内存设置。
stack区, 不正确的递归调用。
perm区，初始加载包过多，分配内存不足。
堆外内存区，分配ByteBuffer未开释导致。

  03

  针对IO
  针对网络IO比力有效的工具有sar、netstat是一个非常牛逼的下令，可以助于排查很多问题, 针对文件io的工具有pidstat、iostat
  1、文件IO：
  从技术上来说，对于大文件IO可以接纳的措施是异步批处理，采用异步方式用于削峰并累计buffer，采用批处理能够让磁盘寻道连续从而更加快速。
  2、网络IO：网络IO的问题较为复杂，仅举几个常见的

大量TIME_WAIT。

根据TCP协议，主动发起关闭连接的那一方，关闭了本身这端的连接后再收到被动发起关闭的那一方的关闭请求后，会将状态变为TIME_WAIT，并等待2MSL, 目的是等待本身的回执发送到对方。如果在服务器上发现大量TIME_WAIT，说明服务器主动断开了连接，什么情况下服务器会主动断开连接，很可能是客户端忘了断开连接，以是一个典型的案例就是jdbc连接忘记关闭，则数据库服务器可能会出现大量的TIME_WAIT状态。

大量CLOSE_WAIT。

  CLOSE_WAIT状态，在收到主动关闭连接的一方发出关闭连接之后，被动关闭的一方进入CLOSE_WAIT状态，如果这时候被hang住了没举行后续关闭，则会出现大量CLOSE_WAIT。啥情况会被hang住呢，举几个例子，好比刚刚的忘记关闭数据库连接，在应用服务器这端，大量的欣赏器请求进来，由于没有连接池连接被hang住，这时候欣赏器等待肯定时间超时发送关闭连接请求，而应用服务器这边由于servlet线程被hang住了，自然没有办法走第二个关闭归去。因此在应用服务器出现大量CLOSE_WAIT。
  另一个例子是httpClient的坑，在调用response.getEntity(); 前都不会做inputStream.close()，如果在调用response.getEntity()前就返回了，就狗带了。
  本文由 mdnice 多平台发布

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

性能测试没你想的那么难，看完这篇文章就懂了

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块