【Mongodb-01】Mongodb亿级数据性能测试和压测

打印 上一主题 下一主题

主题 542|帖子 542|积分 1626

一,mongodb数据性能测试

如需转载,请标明出处:https://zhenghuisheng.blog.csdn.net/article/details/139505973
之前公司将用户的游戏数据存储在mysql中,就是直接将json数据存储到mysql数据库内里,几个月不到,数据库内里已经有两亿条数据,而且每行中每个json数据量也比力大,导致占用的磁盘容量也比力大,因此为了解决mysql带来多方面的瓶颈,最终选择使用mongodb来取代mysql。为了测试mongodbdb的性能以及是否满意需求,因此做了以下测试,对mongodb在高流量时验证其增删改查的服从,以及对其进行压测
服务器配置:2核4g轻量级服务器 磁盘容量 70GB
每条数据大概在500个字节,索引有一个id主键索引,还有一个parentId和category的团结唯一索引,这里两个字段能保证唯一性,因此用唯一索引服从更优
1,mongodb数据库创建和索引设置

首先在Java代码中创建一个实体类,用这个类作为json对象插入到文档中即可。
  1. @Data
  2. public class Archive {
  3.     private String id;
  4.     //账号id
  5.     private String parentId;
  6.     private String category;
  7.     private String content;
  8. }
复制代码
随后在mongodb中创建一个数据库,然后再该库下面建立一个名为 archive 的聚集,mongodb的聚集就是类似于mysql的表,两者概念是一样的。由于后期数据量可能非常大,因此根据mongodb官方文档所说,在数据插入前,尽量提前建立索引,为了满意业务需求,这里选择创建一个团结索引,由于我这边业务能保证要加索引的两个字段的唯一性,因此选择直接添加唯一索引
  1. db.users.createIndex({parentId: 1,category:1}, {unique: true})
复制代码
如果navicate操纵不方便的话,可以安装一个 Mongodb Compass 可视化工具,如下图,很多操纵都是可以在这个可视化图形界面上面直接操纵的

2,线程池+批量方式插入数据

由于这边重要是io操纵将数据插入,不需要计算之类的,因此选择使用io密集型线程池,接下来自界说一个线程池
  1. @Slf4j
  2. public class ThreadPoolUtil {
  3.     public static ThreadPoolExecutor pool = null;
  4.     public static synchronized ThreadPoolExecutor getThreadPool() {
  5.         if (pool == null) {
  6.             //获取当前机器的cpu
  7.             int cpuNum = Runtime.getRuntime().availableProcessors();
  8.             int maximumPoolSize = cpuNum * 2 ;
  9.             pool = new ThreadPoolExecutor(
  10.                     maximumPoolSize - 2,
  11.                     maximumPoolSize,
  12.                     5L,   //5s
  13.                     TimeUnit.SECONDS,
  14.                     new LinkedBlockingQueue<>(),  //数组有界队列
  15.                     Executors.defaultThreadFactory(), //默认的线程工厂
  16.                     new ThreadPoolExecutor.AbortPolicy());  //直接抛异常,默认异常
  17.         }
  18.         return pool;
  19.     }
  20. }
复制代码
第二步就是界说一个线程任务,到时将任务丢到线程池内里,其代码如下,该任务实现Callable接口,每个线程插入10万条,每次批量插入100条数据,大概就是需要1000次
  1. @Data
  2. public class ArchiveTask implements Callable {
  3.     private MongoTemplate mongoTemplate;
  4.     public ArchiveTask(MongoTemplate mongoTemplate){
  5.         this.mongoTemplate = mongoTemplate;
  6.     }
  7.     @Override
  8.     public Object call() throws Exception {
  9.         List<Archive> list = new ArrayList<>();
  10.         for (int i = 1; i <= 100000; i++) {
  11.             Archive archive = new Archive();
  12.             archive.setCategory("score");
  13.             archive.setId(SnowflakeUtils.nextOrderId());
  14.             archive.setParentId(SnowflakeUtils.nextOrderId());
  15.             Map<String,String> map = new HashMap<>();
  16.             StringBuilder sb = new StringBuilder();
  17.             for (int j = 0; j < 15; j++) {
  18.                 sb.append(UUID.randomUUID());
  19.             }
  20.             map.put("key" + i, sb.toString());
  21.             archive.setContent(JSON.toJSONString(map));
  22.             list.add(archive);
  23.             if (i%100 == 0){
  24.                 mongoTemplate.insertAll(list);
  25.                 list.clear();        //手动gc,100个对象没被引用会被回收
  26.                 list = new ArrayList<>();
  27.             }
  28.         }
  29.         return null;
  30.     }
  31. }
复制代码
最后界说一个测试类大概一个接口,我这边使用接口,部分代码如下,循环100次,就是会创建100个线程任务,随后将这个线程任务丢到线程池中,100乘以100000就是1万万条数据
  1. @Resource
  2. private MongoTemplate mongoTemplate;
  3. static ThreadPoolExecutor threadPool = ThreadPoolUtil.getThreadPool();
  4. @GetMapping("/add")
  5. public void test(){
  6.         for (int i = 0; i < 100; i++) {
  7.                 ArchiveTask archiveTask = new ArchiveTask(mongoTemplate);
  8.                 threadPool.submit(archiveTask);
  9.     }
  10.         log.info("数据添加完成");
  11. }
复制代码
3,一万万数据性能测试

mongodb性能测试,此时archive 聚集中已有10134114条数据,平均每条数据大小674字节,1千多万条,此时的存储大小为5.5个g,索引的总大小为459m
接下来通过唯一索引查询一条数据,这里直接通过parentId查询一条数据,此时数据还是在不绝插入的
  1. db.archive.find({parentId:"2405291858848274156091867143"})
复制代码
是的,如下图所示,1000多万条数据内里查询,只需要25ms即可将数据放回,当然这里没有在高流量的环境下进行压测。

4,两万万数据性能测试

此时archive聚集来到了两万万条,每条数据和之前一样,平均大小是674字节,数据总大小来到了10.92G,内存大小12.65g,索引总大小是913m

接下来测试查询服从,仍旧使用上面的这个parentId,由于设置的是parentId+category的团结唯一索引,接下来两个参数一起查
  1. db.archive.find({parentId:"2405291858848274156091867143",category:"score"})
复制代码
2000万的数据查询效果如下,只需要21ms,和上面的25ms慢了快要4ms,但是这4ms可以忽略

5,五万万数据性能测试

由于70G的磁盘容量已经只剩48G,因此在content字段将500字节的值调小,调整到150个字节,以便能插入更多数据。将上面的StringBuilder拼接的15个uuid改成1个uuid
  1. map.put("key" + i,UUID.randomUUID().toString());
复制代码
此时数据来到50245694条数据,每条数据平均大小372kb,总存储大小12.66g,内存中的总大小17.45g,索引大小现在只有2.8g

为了保证拿到的parentId是一次没有查询过的,手动的插入一批数据,手动单条插入20条数据,耗时600ms,在插入数据时会改变索引,插入数据会轻微慢些。此时的插入操纵都是在多线程插入大量数据的时候测试的
  1. db.archive.insertOne({parentId:"2024111222337",category:"score1",content:"cbasbsadhpasdbsaodgs"})
  2. db.archive.insertOne({parentId:"2024111222337",category:"score2",content:"cbasbsadhpasdbsaodgs"})
  3. ....
复制代码
此时第一次查询这条数据,共耗时153ms,共查出20条数据

再第二次查询之后,花费78ms,内部应该也是会将查询效果参加到缓存中,方便第二次查询

在上面的插入操纵中由于会破坏到索引布局,因此耗时久一点。接下来看这个更新操纵,
  1. db.archive.updateOne(
  2.     { parentId: "2024111222337",category:"score1" },
  3.     { $set: { content: "cbasbsadhpasdbsaodgsscore" } }
  4. );
复制代码
其效果如下,更新了一条数据,只花费了13毫秒的时间,因此更新操纵速度是很快的。由于这里每一条数据都是唯一数据,因此不测试批量更新

最后测试删除数据,将这20条数据全部删除,统共花费18毫秒

6,一亿条数据性能测试

数据通过多线程+批量插入的方式来到一亿条,存储大小15.5g,索引长度是6g
  1. db.archive.countDocuments()  //查询共有多少条数据
  2. 100082694
复制代码

接下来往内里重新插入一部分数据,往内里插入20条数据,大概花费160多ms,插入数据会导致索引重构,以是耗时久一些,批量插入性能会更快。重新插入的数据可以保证这条数据没被查过,并且知道parentId是什么
  1. db.archive.insertOne({parentId:"20240531101059",category:"score1",content:"abcdefghijklmnopqrstuvwxyabcdefghijklmnopqrstuvwxyabcdefghijklmnopqrstuvwxyabcdefghijklmnopqrstuvwxyabcdefghijklmnopqrstuvwxyabcdefghijklmnopqrstuvwxyabcdefghijklmnopqrstuvwxyabcdefghijklmnopqrstuvwxyabcdefghijklmnopqrstuvwxyabcdefghijklmnopqrstuvwxyabcdefghijklmnopqrstuvwxyabcdefghijklmnopqrstuvwxyabcdefghijklmnopqrstuvwxyabcdefghijklmnopqrstuvwxyabcdefghijklmnopqrstuvwxyabcdefghijklmnopqrstuvwxyabcdefghijklmnopqrstuvwxyabcdefghijklmnopqrstuvwxyabcdefghijklmnopqrstuvwxyabcdefghijklmnopqrstuvwxy"})
  2. ....
复制代码
接下来测试查询数据,只需要19ms
  1. db.archive.find({parentId:"20240531101054"},{parentId:1,category:1}) //只返回部分字段
  2. db.archive.find({parentId:"20240531101058"})
复制代码

更新数据如下,只需要10ms
  1. db.archive.updateOne(
  2.     { parentId: "20240531101059",category:"score1" },
  3.     { $set: { content: "cbasbsadhpasdbsaodgsscore" } }
  4. );
复制代码

7,压测

以下压测都是数据达到1亿之后进行测试的,并且都是使用的2核4g的服务器
在1s内同时1000个线程插入数据,每个线程插入20条数据,中位数24,吞吐量391

在1s内10000个线程插入数据,也是每个线程批量插入20条数据,可以发现就算是2核4g这么垃圾的轻量级服务器,10000qps也是毫无压力的

插入数据会破坏索引,相对于修改和查询是更慢的,接下来测试1s内10000个线程同时执行增改查,吞吐量可以达到2251.7

部分代码片段如下,让10000个线程随机的执行增改查的操纵,在1s内是毫无压力的

8,总结

通过上面的数据以及mongodb的相应来看,mongodb的性能还黑白常不错的。看看GPT对这种数据的评价,gpt也以为mongodb黑白常符合的。当然不管什么数据和业务,只要其本质是 json 数据,不管json内部布局多复杂,用mongodb都黑白常符合的。mongodb还适合存一些订单数据,地理数据,大数据等等,其应用范围黑白常广泛的


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

曂沅仴駦

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表