IT评测·应用市场-qidao123.com

标题: Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL天生数据 HDFS集群 Sqoop impor [打印本页]

作者: 刘俊凯 时间: 2024-7-15 05:33
标题: Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL天生数据 HDFS集群 Sqoop impor
章节内容

上节我们完成了：

Sqoop 先容
Sqoop 下载配置环境等
Sqoop 环境依靠：Hadoop、Hive、JDBC 等环境补全

配景先容

这里是三台公网云服务器，每台 2C4G，搭建一个Hadoop的学习环境，供我学习。
之前已经在 VM 假造机上搭建过一次，但是没留下条记，这次趁着前几天薅羊毛的3台机器，赶紧实验在公网上搭建体验一下。

2C4G 编号 h121
2C4G 编号 h122
2C2G 编号 h123

注意事项

Apache Sqoop 于 2021 年 6 月迁入 Attic。
Apache Sqoop 的任务是创建和维护与 Apache Hadoop 和结构化数据存储相关的大规模数据传输软件。
虽然项目已经大概过期，但是如果你的时间充裕的话，可以适本地学习一下，大概会对你有肯定的帮助的！！！
天生数据

创建新库

连接我们的MySQL数据库，执行如下的SQL，天生一些数据出来：

-- 用于在 Mysql 中生成测试数据
CREATE DATABASE sqoop;
use sqoop;
CREATE TABLE sqoop.goodtbl(
gname varchar(50),
serialNumber int,
price int,
stock_number int,
create_time date
);

复制代码

移除函数

防止遇到干扰，先移除之前大概存在的函数：

DROP FUNCTION IF EXISTS `rand_string`;
DROP PROCEDURE IF EXISTS `batchInsertTestData`;

复制代码

编写脚本

复制代码

执行脚本

运行脚本后：

检察数据

使用 SQL 检察，或者可视化检察，如下图：

依靠服务

请确保以下的服务都是正常运行的：

HDFS
YARN
MySQL

MySQL->HDFS 全量导入

运行脚本

sqoop import \
--connect jdbc:mysql://h122.wzk.icu:3306/sqoop \
--username hive \
--password hive@wzk.icu \
--table goodtbl \
--target-dir /root \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t"

复制代码

参数解释

上述参数的解释：

target-dir 将数据导入HDFS的路径
delete-target-dir 如果目标文件夹在HDFS上已经存在，那么再次运行就会报错。
num-mappers 启动多少个MapTask，默认启动4个
fields-terminated-by HDFS中数据的分隔符

分配任务

观察任务的分配过程

等待执行

可以观察到 Map -> Reduce 的过程

需要等待好一段时间，执行完成后结果如下图：

检察结果

到 HDFS 集群中检察数据，发现数据已经导入了：

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/)

Powered by Discuz! X3.4