Spring Boot + Spring Batch 实现批处理任务,保姆级教程!(场景实战) ...

民工心事  金牌会员 | 2023-8-31 22:39:02 | 来自手机 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 919|帖子 919|积分 2757

来源:blog.csdn.net/qq_35387940/article/details/108193473
前言

概念词就不多说了,我简单地介绍下 , spring batch 是一个 方便使用的 较健全的 批处理 框架。
为什么说是方便使用的,因为这是 基于spring的一个框架,接入简单、易理解、流程分明。
为什么说是较健全的, 因为它提供了往常我们在对大批量数据进行处理时需要考虑到的 日志跟踪、事务粒度调配、可控执行、失败机制、重试机制、数据读写等。
正文

那么回到文章,我们该篇文章将会带来给大家的是什么?(结合实例讲解那是当然的)
从实现的业务场景来说,有以下两个:

  • 从  csv文件 读取数据,进行业务处理再存储
  • 从 数据库 读取数据,进行业务处理再存储
也就是平时经常遇到的数据清理或者数据过滤,又或者是数据迁移备份等等。大批量的数据,自己实现分批处理需要考虑的东西太多了,又不放心,那么使用 Spring Batch 框架 是一个很好的选择。
首先,在进入实例教程前,我们看看这次的实例里,我们使用springboot 整合spring batch 框架,要编码的东西有什么?
通过一张简单的图来了解:

可能大家看到这个图,是不是多多少少想起来定时任务框架?确实有那么点像,但是我必须在这告诉大家,这是一个批处理框架,不是一个schuedling 框架。但是前面提到它提供了可执行控制,也就是说,啥时候执行是可控的,那么显然就是自己可以进行扩展结合定时任务框架,实现你心中所想。
ok,回到主题,相信大家能从图中简单明了地看到我们这次实例,需要实现的东西有什么了。所以我就不在对各个小组件进行大批量文字的描述了。
那么我们事不宜迟,开始我们的实例教程。
首先准备一个数据库,里面建一张简单的表,用于实例数据的写入存储或者说是读取等等。
bloginfo表

相关建表sql语句:
  1. CREATE TABLE `bloginfo`  (
  2.   `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '主键',
  3.   `blogAuthor` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '博客作者标识',
  4.   `blogUrl` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '博客链接',
  5.   `blogTitle` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '博客标题',
  6.   `blogItem` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '博客栏目',
  7.   PRIMARY KEY (`id`) USING BTREE
  8. ) ENGINE = InnoDB AUTO_INCREMENT = 89031 CHARACTER SET = utf8 COLLATE = utf8_general_ci ROW_FORMAT = Dynamic;
复制代码
pom文件里的核心依赖:
  1. <dependency>
  2.     <groupId>org.springframework.boot</groupId>
  3.     <artifactId>spring-boot-starter-web</artifactId>
  4. </dependency>
  5. <dependency>
  6.     <groupId>org.springframework.boot</groupId>
  7.     <artifactId>spring-boot-starter-test</artifactId>
  8.     <scope>test</scope>
  9. </dependency>
  10. <dependency>
  11.     <groupId>org.springframework.boot</groupId>
  12.     <artifactId>spring-boot-starter-batch</artifactId>
  13. </dependency>
  14. <dependency>
  15.     <groupId>org.hibernate</groupId>
  16.     <artifactId>hibernate-validator</artifactId>
  17.     <version>6.0.7.Final</version>
  18. </dependency>
  19. <dependency>
  20.     <groupId>org.mybatis.spring.boot</groupId>
  21.     <artifactId>mybatis-spring-boot-starter</artifactId>
  22.     <version>2.0.0</version>
  23. </dependency>
  24. <dependency>
  25.     <groupId>mysql</groupId>
  26.     <artifactId>mysql-connector-java</artifactId>
  27.     <scope>runtime</scope>
  28. </dependency>
  29. <dependency>
  30.     <groupId>com.alibaba</groupId>
  31.     <artifactId>druid-spring-boot-starter</artifactId>
  32.     <version>1.1.18</version>
  33. </dependency>
复制代码
yml文件:
Spring Boot 基础就不介绍了,推荐看这个实战项目:
https://github.com/javastacks/spring-boot-best-practice
  1. spring:
  2.   batch:
  3.     job:
  4. #设置为 false -需要jobLaucher.run执行
  5.       enabled: false
  6.     initialize-schema: always
  7. #    table-prefix: my-batch
  8.   datasource:
  9.     druid:
  10.       username: root
  11.       password: root
  12.       url: jdbc:mysql://localhost:3306/hellodemo?useSSL=false&useUnicode=true&characterEncoding=UTF-8&serverTimezone=GMT%2B8&zeroDateTimeBehavior=convertToNull
  13.       driver-class-name: com.mysql.cj.jdbc.Driver
  14.       initialSize: 5
  15.       minIdle: 5
  16.       maxActive: 20
  17.       maxWait: 60000
  18.       timeBetweenEvictionRunsMillis: 60000
  19.       minEvictableIdleTimeMillis: 300000
  20.       validationQuery: SELECT 1 FROM DUAL
  21.       testWhileIdle: true
  22.       testOnBorrow: false
  23.       testOnReturn: false
  24.       poolPreparedStatements: true
  25.       maxPoolPreparedStatementPerConnectionSize: 20
  26.       useGlobalDataSourceStat: true
  27.       connectionProperties: druid.stat.mergeSql=true;druid.stat.slowSqlMillis=5000
  28. server:
  29.   port: 8665
复制代码

ps:这里我们用到了druid数据库连接池,其实有个小坑,后面文章会讲到。
因为我们这次的实例最终数据处理完之后,是写入数据库存储(当然你也可以输出到文件等等)。
所以我们前面也建了一张表,pom文件里面我们也整合的mybatis,那么我们在整合spring batch 主要编码前,我们先把这些关于数据库打通用到的简单过一下。
pojo 层

BlogInfo.java :
  1. /**
  2. * @Author : JCccc
  3. * @Description :
  4. **/
  5. public class BlogInfo {
  6.     private Integer id;
  7.     private String blogAuthor;
  8.     private String blogUrl;
  9.     private String blogTitle;
  10.     private String blogItem;
  11.     @Override
  12.     public String toString() {
  13.         return "BlogInfo{" +
  14.                 "id=" + id +
  15.                 ", blogAuthor='" + blogAuthor + '\'' +
  16.                 ", blogUrl='" + blogUrl + '\'' +
  17.                 ", blogTitle='" + blogTitle + '\'' +
  18.                 ", blogItem='" + blogItem + '\'' +
  19.                 '}';
  20.     }
  21.     public Integer getId() {
  22.         return id;
  23.     }
  24.     public void setId(Integer id) {
  25.         this.id = id;
  26.     }
  27.     public String getBlogAuthor() {
  28.         return blogAuthor;
  29.     }
  30.     public void setBlogAuthor(String blogAuthor) {
  31.         this.blogAuthor = blogAuthor;
  32.     }
  33.     public String getBlogUrl() {
  34.         return blogUrl;
  35.     }
  36.     public void setBlogUrl(String blogUrl) {
  37.         this.blogUrl = blogUrl;
  38.     }
  39.     public String getBlogTitle() {
  40.         return blogTitle;
  41.     }
  42.     public void setBlogTitle(String blogTitle) {
  43.         this.blogTitle = blogTitle;
  44.     }
  45.     public String getBlogItem() {
  46.         return blogItem;
  47.     }
  48.     public void setBlogItem(String blogItem) {
  49.         this.blogItem = blogItem;
  50.     }
  51. }
复制代码
mapper层

BlogMapper.java :
ps:可以看到这个实例我用的是注解的方式,哈哈为了省事,而且我还不写servcie层和impl层,也是为了省事,因为该篇文章重点不在这些,所以这些不好的大家不要学。
  1. import com.example.batchdemo.pojo.BlogInfo;
  2. import org.apache.ibatis.annotations.*;
  3. import java.util.List;
  4. import java.util.Map;
  5. /**
  6. * @Author : JCccc
  7. * @Description :
  8. **/
  9. @Mapper
  10. public interface BlogMapper {
  11.     @Insert("INSERT INTO bloginfo ( blogAuthor, blogUrl, blogTitle, blogItem )   VALUES ( #{blogAuthor}, #{blogUrl},#{blogTitle},#{blogItem}) ")
  12.     @Options(useGeneratedKeys = true, keyProperty = "id")
  13.     int insert(BlogInfo bloginfo);
  14.     @Select("select blogAuthor, blogUrl, blogTitle, blogItem from bloginfo where blogAuthor < #{authorId}")
  15.      List<BlogInfo> queryInfoById(Map<String , Integer> map);
  16. }
复制代码
接下来 ,重头戏,我们开始对前边那张图里涉及到的各个小组件进行编码。
首先创建一个 配置类, MyBatchConfig.java:
从我起名来看,可以知道这基本就是咱们整合spring batch 涉及到的一些配置组件都会写在这里了。
首先我们按照咱们上面的图来看,里面包含内容有:
  1. JobRepository job的注册/存储器
  2. JobLauncher job的执行器
  3. Job job任务,包含一个或多个Step
  4. Step 包含(ItemReader、ItemProcessor和ItemWriter)
  5. ItemReader 数据读取器
  6. ItemProcessor 数据处理器
  7. ItemWriter 数据输出器
复制代码
首先,在MyBatchConfig类前加入注解:
@Configuration 用于告诉spring,咱们这个类是一个自定义配置类,里面很多bean都需要加载到spring容器里面
@EnableBatchProcessing 开启批处理支持

然后开始往MyBatchConfig类里,编写各个小组件。
JobRepository

写在MyBatchConfig类里
  1. /**
  2. * JobRepository定义:Job的注册容器以及和数据库打交道(事务管理等)
  3. * @param dataSource
  4. * @param transactionManager
  5. * @return
  6. * @throws Exception
  7. */
  8. @Bean
  9. public JobRepository myJobRepository(DataSource dataSource, PlatformTransactionManager transactionManager) throws Exception{
  10.     JobRepositoryFactoryBean jobRepositoryFactoryBean = new JobRepositoryFactoryBean();
  11.     jobRepositoryFactoryBean.setDatabaseType("mysql");
  12.     jobRepositoryFactoryBean.setTransactionManager(transactionManager);
  13.     jobRepositoryFactoryBean.setDataSource(dataSource);
  14.     return jobRepositoryFactoryBean.getObject();
  15. }
复制代码
JobLauncher

写在MyBatchConfig类里
  1. /**
  2. * jobLauncher定义:job的启动器,绑定相关的jobRepository
  3. * @param dataSource
  4. * @param transactionManager
  5. * @return
  6. * @throws Exception
  7. */
  8. @Bean
  9. public SimpleJobLauncher myJobLauncher(DataSource dataSource, PlatformTransactionManager transactionManager) throws Exception{
  10.     SimpleJobLauncher jobLauncher = new SimpleJobLauncher();
  11.     // 设置jobRepository
  12.     jobLauncher.setJobRepository(myJobRepository(dataSource, transactionManager));
  13.     return jobLauncher;
  14. }
复制代码
Job

写在MyBatchConfig类里
  1. /**
  2. * 定义job
  3. * @param jobs
  4. * @param myStep
  5. * @return
  6. */
  7. @Bean
  8. public Job myJob(JobBuilderFactory jobs, Step myStep){
  9.     return jobs.get("myJob")
  10.             .incrementer(new RunIdIncrementer())
  11.             .flow(myStep)
  12.             .end()
  13.             .listener(myJobListener())
  14.             .build();
  15. }
复制代码
对于Job的运行,是可以配置监听器的
JobListener

写在MyBatchConfig类里
  1. /**
  2. * 注册job监听器
  3. * @return
  4. */
  5. @Bean
  6. public MyJobListener myJobListener(){
  7.     return new MyJobListener();
  8. }
复制代码
这是一个我们自己自定义的监听器,所以是单独创建的,MyJobListener.java:
  1. /**
  2. * @Author : JCccc
  3. * @Description :监听Job执行情况,实现JobExecutorListener,且在batch配置类里,Job的Bean上绑定该监听器
  4. **/
  5. public class MyJobListener implements JobExecutionListener {
  6.     private Logger logger = LoggerFactory.getLogger(MyJobListener.class);
  7.     @Override
  8.     public void beforeJob(JobExecution jobExecution) {
  9.         logger.info("job 开始, id={}",jobExecution.getJobId());
  10.     }
  11.     @Override
  12.     public void afterJob(JobExecution jobExecution) {
  13.         logger.info("job 结束, id={}",jobExecution.getJobId());
  14.     }
  15. }
复制代码
Step(ItemReader  ItemProcessor  ItemWriter)

step里面包含数据读取器,数据处理器,数据输出器三个小组件的的实现。
我们也是一个个拆解来进行编写。
文章前边说到,该篇实现的场景包含两种,一种是从csv文件读入大量数据进行处理,另一种是从数据库表读入大量数据进行处理。
从CSV文件读取数据

ItemReader

写在MyBatchConfig类里
  1. /**
  2. * ItemReader定义:读取文件数据+entirty实体类映射
  3. * @return
  4. */
  5. @Bean
  6. public ItemReader<BlogInfo> reader(){
  7.     // 使用FlatFileItemReader去读cvs文件,一行即一条数据
  8.     FlatFileItemReader<BlogInfo> reader = new FlatFileItemReader<>();
  9.     // 设置文件处在路径
  10.     reader.setResource(new ClassPathResource("static/bloginfo.csv"));
  11.     // entity与csv数据做映射
  12.     reader.setLineMapper(new DefaultLineMapper<BlogInfo>() {
  13.         {
  14.             setLineTokenizer(new DelimitedLineTokenizer() {
  15.                 {
  16.                     setNames(new String[]{"blogAuthor","blogUrl","blogTitle","blogItem"});
  17.                 }
  18.             });
  19.             setFieldSetMapper(new BeanWrapperFieldSetMapper<BlogInfo>() {
  20.                 {
  21.                     setTargetType(BlogInfo.class);
  22.                 }
  23.             });
  24.         }
  25.     });
  26.     return reader;
  27. }
复制代码
简单代码解析:

对于数据读取器 ItemReader ,我们给它安排了一个读取监听器,创建 MyReadListener.java :
  1. /**
  2. * @Author : JCccc
  3. * @Description :
  4. **/
  5. public class MyReadListener implements ItemReadListener<BlogInfo> {
  6.     private Logger logger = LoggerFactory.getLogger(MyReadListener.class);
  7.     @Override
  8.     public void beforeRead() {
  9.     }
  10.     @Override
  11.     public void afterRead(BlogInfo item) {
  12.     }
  13.     @Override
  14.     public void onReadError(Exception ex) {
  15.         try {
  16.             logger.info(format("%s%n", ex.getMessage()));
  17.         } catch (Exception e) {
  18.             e.printStackTrace();
  19.         }
  20.     }
  21. }
复制代码
ItemProcessor

写在MyBatchConfig类里
  1. /**
  2. * 注册ItemProcessor: 处理数据+校验数据
  3. * @return
  4. */
  5. @Bean
  6. public ItemProcessor<BlogInfo, BlogInfo> processor(){
  7.     MyItemProcessor myItemProcessor = new MyItemProcessor();
  8.     // 设置校验器
  9.     myItemProcessor.setValidator(myBeanValidator());
  10.     return myItemProcessor;
  11. }
复制代码
数据处理器,是我们自定义的,里面主要是包含我们对数据处理的业务逻辑,并且我们设置了一些数据校验器,我们这里使用 JSR-303的Validator来作为校验器。
校验器

写在MyBatchConfig类里
  1. /**
  2. * 注册校验器
  3. * @return
  4. */
  5. @Bean
  6. public MyBeanValidator myBeanValidator(){
  7.     return new MyBeanValidator<BlogInfo>();
  8. }
复制代码
创建MyItemProcessor.java :
ps:里面我的数据处理逻辑是,获取出读取数据里面的每条数据的blogItem字段,如果是springboot,那就对title字段值进行替换。
其实也就是模拟一个简单地数据处理场景。
  1. import com.example.batchdemo.pojo.BlogInfo;
  2. import org.springframework.batch.item.validator.ValidatingItemProcessor;
  3. import org.springframework.batch.item.validator.ValidationException;
  4. /**
  5. * @Author : JCccc
  6. * @Description :
  7. **/
  8. public class MyItemProcessor extends ValidatingItemProcessor<BlogInfo> {
  9.     @Override
  10.     public BlogInfo process(BlogInfo item) throws ValidationException {
  11.         /**
  12.          * 需要执行super.process(item)才会调用自定义校验器
  13.          */
  14.         super.process(item);
  15.         /**
  16.          * 对数据进行简单的处理
  17.          */
  18.         if (item.getBlogItem().equals("springboot")) {
  19.             item.setBlogTitle("springboot 系列还请看看我Jc");
  20.         } else {
  21.             item.setBlogTitle("未知系列");
  22.         }
  23.         return item;
  24.     }
  25. }
复制代码
创建MyBeanValidator.java:
  1. import org.springframework.batch.item.validator.ValidationException;
  2. import org.springframework.batch.item.validator.Validator;
  3. import org.springframework.beans.factory.InitializingBean;
  4. import javax.validation.ConstraintViolation;
  5. import javax.validation.Validation;
  6. import javax.validation.ValidatorFactory;
  7. import java.util.Set;
  8. /**
  9. * @Author : JCccc
  10. * @Description :
  11. **/
  12. public class MyBeanValidator<T> implements Validator<T>, InitializingBean {
  13.     private javax.validation.Validator validator;
  14.     @Override
  15.     public void validate(T value) throws ValidationException {
  16.         /**
  17.          * 使用Validator的validate方法校验数据
  18.          */
  19.         Set<ConstraintViolation<T>> constraintViolations =
  20.                 validator.validate(value);
  21.         if (constraintViolations.size() > 0) {
  22.             StringBuilder message = new StringBuilder();
  23.             for (ConstraintViolation<T> constraintViolation : constraintViolations) {
  24.                 message.append(constraintViolation.getMessage() + "\n");
  25.             }
  26.             throw new ValidationException(message.toString());
  27.         }
  28.     }
  29.     /**
  30.      * 使用JSR-303的Validator来校验我们的数据,在此进行JSR-303的Validator的初始化
  31.      * @throws Exception
  32.      */
  33.     @Override
  34.     public void afterPropertiesSet() throws Exception {
  35.         ValidatorFactory validatorFactory =
  36.                 Validation.buildDefaultValidatorFactory();
  37.         validator = validatorFactory.usingContext().getValidator();
  38.     }
  39. }
复制代码
ps:其实该篇文章没有使用这个数据校验器,大家想使用的话,可以在实体类上添加一些校验器的注解@NotNull @Max @Email等等。我偏向于直接在处理器里面进行处理,想把关于数据处理的代码都写在一块。
ItemWriter

写在MyBatchConfig类里
  1. /**
  2. * ItemWriter定义:指定datasource,设置批量插入sql语句,写入数据库
  3. * @param dataSource
  4. * @return
  5. */
  6. @Bean
  7. public ItemWriter<BlogInfo> writer(DataSource dataSource){
  8.     // 使用jdbcBcatchItemWrite写数据到数据库中
  9.     JdbcBatchItemWriter<BlogInfo> writer = new JdbcBatchItemWriter<>();
  10.     // 设置有参数的sql语句
  11.     writer.setItemSqlParameterSourceProvider(new BeanPropertyItemSqlParameterSourceProvider<BlogInfo>());
  12.     String sql = "insert into bloginfo "+" (blogAuthor,blogUrl,blogTitle,blogItem) "
  13.             +" values(:blogAuthor,:blogUrl,:blogTitle,:blogItem)";
  14.     writer.setSql(sql);
  15.     writer.setDataSource(dataSource);
  16.     return writer;
  17. }
复制代码
简单代码解析:

同样 对于数据读取器 ItemWriter ,我们给它也安排了一个输出监听器,创建 MyWriteListener.java:
[code]import com.example.batchdemo.pojo.BlogInfo;import org.slf4j.Logger;import org.slf4j.LoggerFactory;import org.springframework.batch.core.ItemWriteListener;import java.util.List;import static java.lang.String.format;/** * @Author : JCccc * @Description : **/public class MyWriteListener implements ItemWriteListener {    private Logger logger = LoggerFactory.getLogger(MyWriteListener.class);    @Override    public void beforeWrite(List

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

民工心事

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表