MaxCompute+Hadoop搭建实践

打印 上一主题 下一主题

主题 828|帖子 828|积分 2486

本文以E-MapReduce的Hive为例,为您介绍在MaxCompute中如何创建外部项目,并查询Hadoop中的表数据。
利用限定



  • 仅华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华南1(深圳)、中国香港、新加坡和德国(法兰克福)地区支持构建湖仓一体本事。
  • MaxCompute与Hadoop集群所在的VPC必须部署在同一地区。
预备Hadoop数据源


  • 创建Hadoop集群,具体操作请参见开通阿里云EMR服务。
  • 进入Hive预备数据。
    利用Workbench方式登录集群主节点后,在终端界面输入如下下令:

    1. [has@emr-header-1 root]$ hive
    2. -- 创建库
    3. create database if not exists myhive;
    4. -- 切换库
    5. hive> use myhive;
    6. -- 非分区表
    7. hive> create table testtbl1(a string);
    8. hive> insert into table testtbl1 select "test1";
    9. hive> insert into table testtbl1 select "test2";
    10. hive> insert into table testtbl1 select "test3";
    11. hive> insert into table testtbl1 select "test4";
    12. hive> insert into table testtbl1 select "test5";
    13. hive> show tables;
    14. -- 查询表
    15. hive> select * from testtbl1;
    16. OK
    17. test1
    18. Time taken: 0.123 seconds, Fetched: 1 row(s)
    19. -- 分区表
    20. hive> create table testtbl_par(a string) partitioned by(b string);
    21. hive> alter table testtbl_par add if not exists partition(b='20230403') ;
    22. hive> insert into table testtbl_par partition(b='20230403') values('test1');
    23. -- 查询表
    24. hive> select * from testtbl_par;
    复制代码
MaxCompute创建外部项目


  • 创建网络毗连。
       

    • 登录MaxCompute控制台,在左上角选择地区后,在左侧导航栏单击租户管理 > 网络毗连
    • 单击新增网络毗连
    • 新增网络毗连对话框中,按下表填写参数后单击确定

           
      参数名称
      阐明
      毗连名称
      自定义网络毗连名称。格式如下:
               

      • 字母开头。
      • 只能包含字母、下划线(_)和数字。
      • 长度在1-63个字符。
      类型
      网络毗连类型。默以为直通链接(passthrough)
      阐明
      直通链接对应的便是专有网络毗连方案。
      区域
      MaxCompute支持的通过专有网络毗连方案开通网络毗连的地区。详情请参见开通地区。
      已选择VPC
      创建Hadoop集群时绑定的VPC实例ID。
      获取方式:进入Hadoop集群绑定的ECS实例的实例详情页面,在网络信息区域获取专有网络
      互换机
      创建Hadoop集群时绑定的互换机ID。
      获取方式:进入Hadoop集群绑定的ECS实例的实例详情页面,在网络信息区域获取捏造互换机
      安全组
      创建Hadoop集群时绑定的安全组ID。
      获取方式:进入Hadoop集群绑定的ECS实例的实例详情页面,在绑定资源区域获取安全组


  • 创建外部项目。
    具体操作请参考步调二:通过DataWorks构建湖仓一体,示例及参数阐明如下:

       

    • 创建数据仓库。
           
      参数
      阐明
      外部项目名称
      external_project。
      MaxCompute项目
      选择已创建的MaxCompute项目。例如:mc_test。

    • 创建外部数据湖毗连。
           
      参数
      阐明
      异构数据平台类型
      选择阿里云E-MapReduce/Hadoop集群
      网络毗连
      选择已创建的网络毗连。例如:test_net。
      选择外部数据源
      此处直接创建外部数据源,例如:foreign_data。参数详情请参见外部数据源参数阐明。
      阐明
               

      • 如果集群为高可用集群(即创建集群时,服务高可用置为开启状态),NameNode地址HMS服务地址必要配置两个master节点的内网IP。
      • 如果集群不是高可用集群,则NameNode地址HMS服务地址配置为一个master节点的内网IP。

    • 创建目标数据映射。
           
      参数
      阐明
      选择外部数据源对象
      默认与选择外部数据源同等。例如:foreign_data。
      映射目标数据库
      Hadoop集群目标数据库。例如:myhive。

    • 单击完成创建并预览
      阐明
      如果创建Hadoop集群时,选择的Hive组件为3.x版本,则会导致数据预览失败。

  • MaxCompute查询外部项目数据。
       

    • 登录DataWorks控制台,切换至目标地区后,单击左侧导航栏的数据建模与开发 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发
      阐明
      您必要在DataWorks工作空间中绑定已在MaxCompute控制台创建的项目,详情请参见绑定MaxCompute引擎。
    • 在DataWorks临时查询页面,查看外部项目数据。
      阐明
      DataWorks临时查询操作,详情请参见DataWorks临时查询。
           

      • 下令示例:

        1. select * from external_project.testtbl1;
        复制代码
      • 返回结果:




免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

正序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

南七星之家

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表