ToB企服应用市场:ToB评测及商务社交产业平台

标题: 【解决方案】Java 互联网项目如何防止集合堆内存溢出（一） [打印本页]

作者: 丝 时间: 2024-5-2 14:50
标题: 【解决方案】Java 互联网项目如何防止集合堆内存溢出（一）
目录

前言

OOM 几乎是笔者工作中遇到的线上 bug 中最常见的，一旦平时正常的页面在线上出现页面崩溃或者服务无法调用，查看服务器日志后你很可能会看到“Caused by: java.lang.OutOfMlemoryError: Java heap space” 这样的提示，那么毫无疑问表示的是 Java 堆内存溢出了。
其中又当属集合内存溢出最为常见。你是否有过把整个数据库表查出来的全字段结果直接赋值给一个 List 对象？是否把未经过过滤处理的数据赋值给 Set 对象进行去重操作？又或者是在高并发的场景下创建大量的集合对象未释放导致 JVM 无法自动回收？

Java 堆内存溢出我的解决方案的核心思路有两个：一是从代码入手进行优化；二是从硬件层面对机器做合理配置。
一、代码优化

下面先说从代码入手怎么解决。
1.1Stream 流自分页

/**
* 以下示例方法都在这个实现类里，包括类的继承和实现
*/
@Service
public class StudyServiceImpl extends ServiceImpl<StudyMapper, Study> implements StudyService{}

复制代码

在循环里使用 Stream 流的 skip()+limit() 来实现自分页，直至取出所有数据，不满足条件时终止循环

/**
* 避免集合内存溢出方法（一）
* @return
*/
private List<StudyVO> getList(){
ArrayList<StudyVO> resultList = new ArrayList<>();
//1、数据库取出源数据，注意只拿 id 字段，不至于溢出
List<String> idsList = this.list(new LambdaQueryWrapper<Study>()
.select(Study::getId)).stream()
.map(Study::getId)
.collect(Collectors.toList());
//2、初始化循环
boolean loop = true;
long number = 0;
long perSize = 5000;
while (loop){
//3、skip()+limit()组合，限制每次只取固定数量的 id
List<String> ids = idsList.stream()
.skip(number * perSize)
.limit(perSize)
.collect(Collectors.toList());
if (CollectionUtils.isNotEmpty(ids)){
//根据第3步的 id 去拿数据库的全字段数据，这样也不至于溢出，因为一次只是 5000 条
List<StudyVO> voList = this.listByIds(ids).stream()
.map(e -> e.copyProperties(StudyVO.class))
.collect(Collectors.toList());
//addAll() 方法也比较关键，快速地批量添加元素，容量是比较大的
resultList.addAll(voList);
}
//4、判断是否跳出循环
number++;
loop = ids.size() == perSize;
}
return resultList;
}

复制代码

1.2数据库分页

这里是用数据库语句查询符合条件的指定条数，循环查出所有数据，不满足条件就跳出循环

/**
* 避免集合内存溢出方法（二）
* @param param
* @return
*/
private List<StudyVO> getList(String param){
ArrayList<StudyVO> resultList = new ArrayList<>();
//1、构造查询条件
String id = "";
//2、初始化循环
boolean loop = true;
int perSize = 5000;
while (loop){
//分页，固定每次循环都查 5000 条
Page<Study> studyPage = this.page(new Page<>
(NumberUtils.INTEGER_ZERO, perSize),
wrapperBuilder(param, id));
if (Objects.nonNull(studyPage)){
List<Study> studyList = studyPage.getRecords();
if (CollectionUtils.isNotEmpty(studyList)){
//3、每次截取固定数量的标识，数组下标减一
id = studyList.get(perSize - NumberUtils.INTEGER_ONE).getId();
//4、判断是否跳出循环
loop = studyList.size() == perSize;
//添加进返回的 VO 集合中
resultList.addAll(studyList.stream()
.map(e -> e.copyProperties(StudyVO.class))
.collect(Collectors.toList()));
}
else {
loop = false;
}
}
}
return resultList;
}
/**
* 条件构造
* @param param
* @param id
* @return
*/
private LambdaQueryWrapper<Study> wrapperBuilder(String param, String id){
LambdaQueryWrapper<Study> wrapper = new LambdaQueryWrapper<>();
//只查部分字段，按照 id 的降序排列，形成顺序
wrapper.select(Study::getUserAvatar)
.eq(Study::getOpenId, param)
.orderByAsc(Study::getId);
if (StringUtils.isNotBlank(id)){
//这步很关键，只查比该 id 值大的数据
wrapper.gt(Study::getId, id);
}
return wrapper;
}

复制代码

1.3其它思考

以上从根本上还是解决不了内存里处理大量数据的问题，取出 50w 数据放内存的风险就很大了。以下是我的其它解决思路：

从业务上拆解：明确什么情况下需要后端处理这么多数据？是否可以考虑在业务流程上进行拆解？或者用其它形式的页面交互代替？
数据库设计：数据一般都来源于数据库，库/表设计的时候尽量将表与表之间解耦，表字段的颗粒度放细，即多表少字段，查询时只拿需要的字段；
数据放在磁盘：比如放到 MQ 里存储，然后取出的时候注意按固定数量批次取，并且注意释放资源；
异步批处理：如果业务对实时性要求不高的话，可以异步批量把数据添加到文件流里，再存入到 OSS 中，按需取用；
定时任务处理：询问产品经理该功能或者实现是否是结果必须的？是否一定要同步处理？可以考虑在一个时间段内进行多次操作，缓解大数据量的问题；
咨询大数据团队：寻求大数据部门团队的专业支持，对于处理海量数据他们是专业的，看能不能提供一些可参考的建议。

二、硬件配置

核心思路：加大服务器内存，合理分配服务器的堆内存，并设置好弹性伸缩规则，当触发告警时自动伸缩扩容，保证系统的可用性。
2.1云服务器配置

以下是阿里云 ECS 管理控制台的编辑页面，可以对 CPU 和内存进行配置。在 ECS 实例伸缩组创建完成后，即可以根据业务规模去创建一个自定义伸缩配置，在业务量大的时候会触发自动伸缩。

阿里云 ECS 管理如果是部署在私有云服务器，需要对具体的 JVM 参数进行调优的话，可能还得请团队的资深大佬、或者运维团队的老师来帮忙处理。
三、文章小结

本篇文章主要是记录一次线上 bug 的处理思路，在之后的文章中我会分享一些关于真实项目中处理高并发、缓存的使用、异步/解耦等内容，敬请期待。
那么今天的分享到这里就结束了，如有不足和错误，还请大家指正。或者你有其它想说的，也欢迎大家在评论区交流！

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)

Powered by Discuz! X3.4