ToB企服应用市场:ToB评测及商务社交产业平台

标题: 二、数据离线处置惩罚场景化解决方案 [打印本页]

作者: 河曲智叟    时间: 2024-10-24 00:41
标题: 二、数据离线处置惩罚场景化解决方案
https://connect.huaweicloud.com/courses/learn/Learning/sp:cloudEdu_?courseNo=course-v1:HuaweiX+CBUCNXE147+Self-paced&courseType=1
1.离线处置惩罚方案

**业务场景-安平范畴**

业务场景-金融范畴

离线批处置惩罚常用组件

思考题
2.离线处置惩罚技术框架介绍

2.1. 数据存储-HDFS

`2024年9月26日21:18:26` HDFS 的概念

HDFS 的优势和劣势

HDFS 根本体系架构

常用 Shell 下令
** 下令类别 **** 下令 **** 下令阐明 **hdfs dfs
-cat显示文件内容-ls显示目录列表-rm删除文件-put上传目录/文件到 HDFS-get从 HDFS 下载目录/文件到本地-mkdir创建目录-chmod/-chown改变文件属组……hdfs dfsadmin
-safemode安全模式操纵-report报告服务状态 HDFS 回收站机制

  1. <property>
  2.   <name>fs.trash.interval</name>
  3.   <value>1440</value>
  4. </property>
复制代码
思考题
2.2 数据堆栈-Hive

2.2.1 数据堆栈-Hive

**Hive 的概述**
Hive 的架构

Hive 的数据存储模型

Hive 内部表和外部表的区别

关键字内部表外部表CREATE/LOAD数据移到堆栈目录数据位置不移动DROP元数据和数据会被一起删除只删除元数据
Hive 内置函数

Hive 自界说 UDF

UDF 开辟步调

Hive 调优

2.2.2 Hive SQL 下令

HQL 开辟

+ 场景阐明 - 假定用户开辟一个基于Hive的数据分析应用,用于分析企业雇员信息。 - 假定必要创建三张表: * 雇员信息表:"employees_info" * 雇员联络信息表:"employees_concat” * 雇员信息扩展表:"employees_info_extended" 雇员信息表

雇员联络信息表


统计要求

**统计要求**
创建雇员信息表

创建雇员接洽表

创建雇员信息扩展表

加载数据

查询 1
——检察薪水支付币种为美元的雇员接洽方式

查询 2
——查询入职时间为2019年的雇员编号、姓名和电话号码字段,并将查询结果加载进表employees_info_extended中的入职时间为2019的分区中。

查询 3

2.2.3 Hive 数据堆栈计划

**数据集市和数据堆栈的区别**
Hive 数据堆栈
数据堆栈分层:


分层的优点

思考题
2.3 离线分析-Spark SQL

2.3.1 离线分析-Spark SQL

**Spark 简介** ——Spark是基于内存的分布式批处置惩罚体系,它把任务拆分,然后分配到多个的CPU上举行处置惩罚,处置惩罚数据时产生的中间产物(盘算结果)存放在内存中,镌汰了对磁盘的I/O操纵,大大的提拔了数据的处置惩罚速率,在数据处置惩罚和数据发掘方面比力占优势。
Spark 应用场景

Spark 对比 MapReduce

RDD

Shuffle

窄依靠


stage

TransFormation

Action
——Action是RDD的算子,它的返回值不是一个RDD。Action操纵是返回结果大概将结果写入存储的操纵。Action是Spark应用启动执行的触发动作,得到RDD的相干盘算结果或将RDD保存到文件体系中。

SparkConf

SparkContext



2.3.2 Spark SQL 架构原理

**SparkSQL 简介**

SparkSQL 使用方式


SparkSQL 关键概念 DataSet

Spark SQL 简单查询

2.3.3 Spark SQL 开辟

**场景阐明:**
log1.txt:网民停留日记


开辟思绪

Scala 样例代码
  1. objectCollectFemaleInfo{
  2. //表结构,后面用来将文本数据映射为df
  3. case class FemaleInfo(name: String, gender: String, stayTime: Int)
  4. def main(args:Array[String]){
  5. //配置Spark应用名称
  6. val sparkConf =new SparkConf().setAppName("FemaleInfo")
  7. val ss = SparkSession.builder().config(sparkconf).getorCreate()
  8. val sc = ss.sparkContext
  9. sc.textFile(args(0) ).map(_.split(";")).map(p => FemaleInfo(p(0), p(1),
  10. importss.implicits·_//通过隐式转换,将RDD转换成DataFrame,然后注册表
  11. p(2).trim.toInt)).toDF.registerTempTable("FemaleInfoTable")
  12. val femaleTimeInfo=sqlContext.sql(
  13. //通过sql语句筛选女性上网时间数据,对相同名字行进行聚合
  14. select name,sum(stayTime) as stayTime from FemaleInfoTable where
  15. gender = 'female' group by name")
  16. //筛选出时间大于两个小时的女性网民信息,并输出
  17. val c= femaleTimeInfo.filter("stayTime >=120").collect()
  18. c.foreach(println)
  19. sc.stop()
复制代码

Yarn-cluster 作业提交

  1. ./spark-submit
  2. --master yarn-cluster
  3. --class com.huawei.bigdata.spark.CollectFemaleInfo
  4. ../lib/spark-examples.jar
  5. /user/logl.txt
复制代码
思考题
2.4 数据收罗工具

**常用收罗工具** ——由于大数据的数据源各种各样;6由此对数据收罗的挑衅变的尤为突出。这里介绍几款常用数据收罗工具:
——Sqoop
——Loader
Sqoop 简介


Sqoop 原理
Loader 简介



思考题
3.离线批处置惩罚实战

**场景阐明**

客户需求

据。
数据源
——数据来自于网站,网站通过在网页内代码埋点,用户每一次操纵,都会将相干信息传到日记服务器,日记收罗工具收罗日记服务器上的数据,然后会对数据举行简单的处置惩罚过滤,末了将数据按照日期存到HDFS上。
计划分析

方案架构-组件选取

方案架构-方案流程

效果展示

思考题

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4