记录一次 spring cloud gateway TPS 性能异常的排查

Gateway作为一款基于Netty开发的网关,其支持并发的能力应当很优秀才对,可是我在最近一次jmeter测试中发现自己搭建的网关的TPS非常低,这也令我非常困惑,究竟哪里出了问题?

下载JProfiler

https://www.ej-technologies.com/products/jprofiler/overview.html

不需要去找破解版,免费10天的,足够了

安装完成后,打开idea,安装对应插件

file

都安装完成后,点击蓝色的profiler小圆球,启动gateway

file

evaluate -> ok 啥都不看,直接进

file

这就是监控主页
file

本文主要是介绍并发情况下的线程问题,直接去Threads下,搜索reactor线程,这是gateway工作的主要区域,可以看见8个线程,数量应该是按照CPU线程数*2来的吧,说错勿怪

file

接下来,打开JMeter,新建-线程组,设个2000线程,ramp-up时间0s,配置完Http请求的数据,run
file

就是这样了,block就是红色区域,这我那信啊,gateway作为spring家族一员怎么可能连这一点并发都撑不住呢

切回JProfiler->Monitors&locks->Locking History Graph,并重新开始JMeter测试

file

可以很轻易找到发生lock的各个时间点的快照图,图中三个reactor线程发生的bolck,右边是锁住的类,右击该类,选择Show Selection in Heap Walker

file

References下 选择Incoming references,可以看到具体的引用链
file

这下就看出来了,导致阻塞的是logback日志类的ConsoleAppender,应该是控制台输出过于频繁了,因为之前为了调试,日志的打印级别设为了DEBUG,现在需要改回INFO,重新启动测试:

file

现在红色的是 sun.nio包里的 WindowsSelectorImpl 导致的,具体的不是很清楚,但现在主要问题已经解决了,TPS也恢复了正常。要是有同学知道nio原理的可以留言解惑

实战

使用Jmeter 压测:
file

JProfiler监控:
file

file

压测出现大量的 keep-alive-timer:
file

file

用 1000 线程 60s 来压测:

file

file

file

2000 线程数 60s 压测:
file


相关文章:
记录一次spring cloud gateway TPS性能异常的排查

为者常成,行者常至