ToB企服应用市场:ToB评测及商务社交产业平台

标题: 【解决方案】Java 互联网项目如何防止集合堆内存溢出(一) [打印本页]

作者: 丝    时间: 2024-5-2 14:50
标题: 【解决方案】Java 互联网项目如何防止集合堆内存溢出(一)
目录

前言

OOM 几乎是笔者工作中遇到的线上 bug 中最常见的,一旦平时正常的页面在线上出现页面崩溃或者服务无法调用,查看服务器日志后你很可能会看到“Caused by: java.lang.OutOfMlemoryError: Java heap space” 这样的提示,那么毫无疑问表示的是 Java 堆内存溢出了。
其中又当属集合内存溢出最为常见。你是否有过把整个数据库表查出来的全字段结果直接赋值给一个 List 对象?是否把未经过过滤处理的数据赋值给 Set 对象进行去重操作?又或者是在高并发的场景下创建大量的集合对象未释放导致 JVM 无法自动回收?
Java 堆内存溢出我的解决方案的核心思路有两个:一是从代码入手进行优化;二是从硬件层面对机器做合理配置。
一、代码优化

下面先说从代码入手怎么解决。
1.1Stream 流自分页
  1. /**
  2. * 以下示例方法都在这个实现类里,包括类的继承和实现
  3. */
  4. @Service
  5. public class StudyServiceImpl extends ServiceImpl<StudyMapper, Study> implements StudyService{}
复制代码
在循环里使用 Stream 流的 skip()+limit() 来实现自分页,直至取出所有数据,不满足条件时终止循环
  1.     /**
  2.      * 避免集合内存溢出方法(一)
  3.      * @return
  4.      */
  5.     private List<StudyVO> getList(){
  6.         ArrayList<StudyVO> resultList = new ArrayList<>();
  7.         //1、数据库取出源数据,注意只拿 id 字段,不至于溢出
  8.         List<String> idsList = this.list(new LambdaQueryWrapper<Study>()
  9.                                         .select(Study::getId)).stream()
  10.                                         .map(Study::getId)
  11.                                         .collect(Collectors.toList());
  12.         //2、初始化循环
  13.         boolean loop = true;
  14.         long number = 0;
  15.         long perSize = 5000;
  16.         while (loop){
  17.             //3、skip()+limit()组合,限制每次只取固定数量的 id
  18.             List<String> ids = idsList.stream()
  19.                                       .skip(number * perSize)
  20.                                       .limit(perSize)
  21.                                       .collect(Collectors.toList());
  22.             if (CollectionUtils.isNotEmpty(ids)){
  23.                 //根据第3步的 id 去拿数据库的全字段数据,这样也不至于溢出,因为一次只是 5000 条
  24.                 List<StudyVO> voList = this.listByIds(ids).stream()
  25.                         .map(e -> e.copyProperties(StudyVO.class))
  26.                         .collect(Collectors.toList());
  27.                 //addAll() 方法也比较关键,快速地批量添加元素,容量是比较大的
  28.                 resultList.addAll(voList);
  29.             }
  30.             //4、判断是否跳出循环
  31.             number++;
  32.             loop = ids.size() == perSize;
  33.         }
  34.         return resultList;
  35.     }
复制代码
1.2数据库分页

这里是用数据库语句查询符合条件的指定条数,循环查出所有数据,不满足条件就跳出循环
  1.     /**
  2.      * 避免集合内存溢出方法(二)
  3.      * @param param
  4.      * @return
  5.      */
  6.     private List<StudyVO> getList(String param){
  7.         ArrayList<StudyVO> resultList = new ArrayList<>();
  8.         //1、构造查询条件
  9.         String id = "";
  10.         //2、初始化循环
  11.         boolean loop = true;
  12.         int perSize = 5000;
  13.         while (loop){
  14.             //分页,固定每次循环都查 5000 条
  15.             Page<Study> studyPage = this.page(new Page<>
  16.                                     (NumberUtils.INTEGER_ZERO, perSize),
  17.                                      wrapperBuilder(param, id));
  18.             if (Objects.nonNull(studyPage)){
  19.                 List<Study> studyList = studyPage.getRecords();
  20.                 if (CollectionUtils.isNotEmpty(studyList)){
  21.                     //3、每次截取固定数量的标识,数组下标减一
  22.                     id = studyList.get(perSize - NumberUtils.INTEGER_ONE).getId();
  23.                     //4、判断是否跳出循环
  24.                     loop = studyList.size() == perSize;
  25.                     //添加进返回的 VO 集合中
  26.                     resultList.addAll(studyList.stream()
  27.                                       .map(e -> e.copyProperties(StudyVO.class))
  28.                                       .collect(Collectors.toList()));
  29.                 }
  30.                 else {
  31.                     loop = false;
  32.                 }
  33.             }
  34.         }
  35.         return resultList;
  36.     }
  37.     /**
  38.      * 条件构造
  39.      * @param param
  40.      * @param id
  41.      * @return
  42.      */
  43.     private LambdaQueryWrapper<Study> wrapperBuilder(String param, String id){
  44.         LambdaQueryWrapper<Study> wrapper = new LambdaQueryWrapper<>();
  45.         //只查部分字段,按照 id 的降序排列,形成顺序
  46.         wrapper.select(Study::getUserAvatar)
  47.                 .eq(Study::getOpenId, param)
  48.                 .orderByAsc(Study::getId);
  49.         if (StringUtils.isNotBlank(id)){
  50.             //这步很关键,只查比该 id 值大的数据
  51.             wrapper.gt(Study::getId, id);
  52.         }
  53.         return wrapper;
  54.     }
复制代码
1.3其它思考

以上从根本上还是解决不了内存里处理大量数据的问题,取出 50w 数据放内存的风险就很大了。以下是我的其它解决思路:
二、硬件配置

核心思路:加大服务器内存,合理分配服务器的堆内存,并设置好弹性伸缩规则,当触发告警时自动伸缩扩容,保证系统的可用性。
2.1云服务器配置

以下是阿里云 ECS 管理控制台的编辑页面,可以对 CPU 和内存进行配置。在 ECS 实例伸缩组创建完成后,即可以根据业务规模去创建一个自定义伸缩配置,在业务量大的时候会触发自动伸缩。
阿里云 ECS 管理如果是部署在私有云服务器,需要对具体的 JVM 参数进行调优的话,可能还得请团队的资深大佬、或者运维团队的老师来帮忙处理。
三、文章小结

本篇文章主要是记录一次线上 bug 的处理思路,在之后的文章中我会分享一些关于真实项目中处理高并发、缓存的使用、异步/解耦等内容,敬请期待。
那么今天的分享到这里就结束了,如有不足和错误,还请大家指正。或者你有其它想说的,也欢迎大家在评论区交流!

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4