一、前言
经过几个月的奋战,重构终于落下帷幕,并与5月底提前上线。同时我们为每个服务配上了 JavaMelody 用于监控应用实际使用情况。
二、初见端倪
然而上线几天后发现线上某个服务经常 OOM。为了尽快恢复线上使用,暂时先将 JVM 内存调高,由之前的 1G 改为 2G。于此同时分析堆 dump 文件查找具体原因,结果发现内存中有很多长 SQL。
立即找到相应开发优化该 SQL,但重新部署后发现线上服务内存占用情况并未变化。理论上 300~400M 就足够了却占用了将近 1G 内存。黑人问号脸…
三、解决过程
因为同一台服务器的其他服务均未出现内存占用异常的情况,所以判断应该是 Tomcat 或者是 JVM 配置的问题。
① 首先让运维同学排查 JVM 配置与其他服务是否不同。发现除了有一个无效配置,其他均正常且该无效配置对内存并无影响。
② 排除 JVM 的配置问题,那就聚焦到 Tomcat。于是就让运维同学将该 Tomcat 拷贝到一个空闲服务器上部署,拷贝过程中突然发现有很多前缀为 sql 的文件一闪而过,当时就引起了我们的注意。拷贝完成后我们定位到那些文件在 Tomcat 的 temp/javamelody 目录中。直觉告诉我们,应该就是这些 rrd 文件引起的,统计了一下个数,大概有两千多个。
③ 清理所有 sql.rrd 临时文件并重启服务,发现内存占用降低到三百多兆。
④ 分析新的堆 dump 文件,之前那堆长 SQL 也已消失。
四、总结
我们知道 JavaMelody 会把项目的运行情况持久化到 rrd 文件中,上述的 sql.rrd 临时文件应该是由于长 SQL 触发了 JavaMelody 的某个机制才被持久化起来做数据分析,并且在项目部署时加载到内存中,才导致内存占用过高的问题。