IT评测·应用市场-qidao123.com

标题: Spark编程基础(Python版)林子雨期末复习 [打印本页]

作者: 西河刘卡车医    时间: 2024-7-14 18:40
标题: Spark编程基础(Python版)林子雨期末复习
第一章 大数据技术概述

大数据

大数据特征:


根本处理流程

大数据关键技术

盘算模式


Hadoop生态体系


名称节点:NameNode
数据节点:DataNode
Hadoop与Spark
spark的设计遵照:一个软件栈满足不同应用场景的理念

对比优点:
对比缺点:
spark与hadoop的同一摆设:可以在YARN上同一摆设各个盘算框架。
第二章 Spark的设计与运行原理

Spark:发展、特点

Spark最初由美国加州大学伯克利分校的AMP实行室于2009年开发,是基于内存盘算的大数据并行盘算框架,可用于构建大型的、低耽误的数据分析应用程序。
特点:
Spark生态体系

大数据处理3种范例:

spark的生态体系:
Spark运行框架

根本概念:

架构设计:


Spark采用Executor的优点:

Spark运行根本流程:Spark使命调度流程

spark的使命调度流程分为RDDObject、Stage、Task、Worker四个部分。
RDD的设计与运行原理:转换操作、举措操作、DAG、宽依赖、窄依赖


Spark摆设方式

四种不通范例的摆设方式:
StandAlone模式:利用Spark自带的集群资源管理器来管理整个CPU、内存资源调度。效率不高
Mesos模式:利用Mesos作为集群资源管理器。性能匹配好
Spark on Yarn:用的最多
第三章Spark环境和利用方法

Spark的根本环境设置

环境变量

Yarn-client模式和Yarn-cluster模式


Spark与Hadoop的相互关系

Hadoop(伪分布式)+Spark(Local),Hadoop和Spark可以相互协作,由Hadoop的HDFS、HBase等组件负责数据的存储和管理,由Spark进行盘算。
第四章RDD编程

1、RDD的创建:文件、并行集合

2、RDD的执行过程

①准备资源
②创建Driver和Executor节点
②然后将应用程序的数据处理逻辑分解成一个一个的盘算使命task。
③然后将使命task发到【已经分配资源】的盘算节点executor上, 按照指定的盘算模型进行数据盘算。最后得到盘算结果
3、RDD操作


4、分区的作用

增加并行度、淘汰通讯开
5、键值对RDD:创建、键值对转换操作reduceBykey、groupByKey、sortByKey、join等


第五章SparkSQL

1、Shark

shark提供了雷同于关系型SQL的查询语言-----HiveQL,用户可以通过HiveQL语句快速实现简单的MapReduce统计,Hive自身可以主动将HiveQL语句快速转换成MapReduce使命进行运行。
2、SparkSQL

用户需要从不通数据源执行各种操作,包罗结构化喝非结构化数据;其次用户需要执行高级分析,如机器学习和图处理,在实际大数据中,常常需要融合关系查询和复杂分析算法,但是,一直以来都缺少这样的体系。
3、DataFrame:创建、保存、常用操作

创建SparkSession对象

from pyspark import SparkContext,SparkConf
from pyspark.sql import SparkSession
spark = SparkSession.builder.config(conf = SparkConf()).getOrCreate()

4、从RDD转换得到DataFrame

利用反射机制推断RDD模式:利用反射机制来推断包罗特定范例对象的RDD的模式,实用于数据结构已知的RDD转换
利用编程方式界说RDD模式:利用编程接口构造一个模式,并将其应用在已知的RDD上,实用于数据结构未知的RDD转换
5、SparkSQL编程 113页的实行

第六章Spark Streaming

1、批量盘算与实时盘算

流盘算需求:

2、流盘算框架Storm和Spark Streaming的对比

Spark Streaming和Storm最大的区别在于,Spark Streaming无法实现毫秒级的流盘算,而storm可以实现毫秒级的流盘算
Spark Streaming难以满足实时性要求非常高的场景,但足以胜任其他实时盘算场景,相比之下,Storm处理数据单元为元组,只会产生极小的耽误。
Spark Streaming构建在Spark Core上,因为spark低耽误执行引擎可以用于实时盘算,相比于Strom,RDD数据集更易于进行高效的容错处理。
Spark Streaming采用小批量处理的方式,使得它可以同事兼容批量和实时数据处理的逻辑和算法,便于在一些需要历史数据和实时数据联合分析的特定应用场景利用。
3、编写Spark Streaming程序的根本步调

1.通过创建输入DStream来界说输入源
2.通过对DStream应用转换操作和输出操作来界说流盘算
3.通过StreamingContext对象的start()方法来开始接收数据和处理流程
4.通过调用StreamContext对象的awaitTermination()方法来等候流盘算常常结束,或者也可以通过调用StreamingContext对象的stop()对象来手动结束流盘算流程
4、根本数据源:文件流、套接字流(Scoket)和RDD队列流(编程方法)


5、高级数据源:Kafka及相关概念、Flume

Kafka及相关概念

6、Dstream转换操作

Dstream转换包罗无状态转换操作有状态转换操作

第七章Structured Streaming

1、Structured Streaming根本概念

Structured Streaming的关键思想是将实时数据流视为一张正在不停添加数据的表,这种新的流处理模型与批处理模型非常雷同。
2、Structured Streaming处理模式

1.微批处理模型
Structured Streaming默认利用微批处理模型,这意味着Spark流盘算引擎会定期查抄流数据源,并对自上一批次结束后到达的新数据执行批量查询。
2.持续处理模型
微批处理的数据耽误对于大多数实际的流式工作负载已经足够了,但一些场景确实需要更低的耽误
3、Structured Streaming编程根本步调

(1)导入pyspark模块
(2)创建SparkSession对象
(3)创建输入数据源
(4)界说流盘算过程
(5)启动流盘算并输出结果
4、SparkSQL、Spark Streaming、Structured Steaming的关系

Structured sreaming处理的数据与Spark Streaming一样,也是源源不停的数据流,它们之间的区别在于,Spark Streaming采用的数据抽象是DStream(本质上就是一系列RDD),而Structured Streaming采用的数据抽象是DataFrame。Structured Streaming可以利用Spark SQL的DataFrame/Dataset来处理数据流。虽然Spark SQL也是采用DataFrame作为数据抽象,但是,SparkSOL只能处理静态的数据,而Structured Steaming可以处理结构化的数据流。这样一来,Struetured Streaming就将Spark SQL和SparkStreaming二者的特性联合起来。Structured Streaming可以对DataFrame/Dataset应用前面章节提到的名种操作,包罗select、where、groupBy、map、filter、fatMap等。别的,Spark Streaming只能实现秒级的实时响应,而Stuctured Streaming由于采用了全新的设计方式,采用微批处理模型时可以实现 100毫秒级别的实时响应,采用持续处理模型时可以支持毫秒级的实时响应。
5、输入源:File源、Kafka源、Socket源、Rate源

File源

6、输出模式


第八章Spark MLib

1、MLib

算法工具:常用的学习算法,如分类、回归、聚类和协同过滤;
特征化工具:特征提取、转化、降维和选择工具;
流水线(Pipeline):用于构建、评估和调整机器学习工作流的工具;
长期性:保存和加载算法、模型和管道;
实用工具:线性代数、统计、数据处理等工具。
2、根本数据范例

当地向量分为稠密向量(DenseVector)和希罕向量(SparseVector)
标注点是一种带有标签的当地向量,可以是稠密向量也可以是希罕向量
当地矩阵具有整型的行、列索引值和双精度浮点型的元素值,并存储在单机上
3、机器学习流水线

1.DataFrame
2.转换器(Transformer)
3.评估器(Estimator)
4.流水线(Pipeline)
5.参数(Parameter)
4、特征提取、转换和选择

1.特征提取:从原始数据中抽取特征
2.特征转换:缩放、转换和修改特征
3.特征选择:从较大特征会合选取特征子集
5、分类、聚类

分类
逻辑斯蒂回归分类器
P(Y = 1|x)= exp(w * x+b)/1+exp(wx+b)
P(Y = 0|x)= 1/1+exp(w
x+b)
决议树分类器
1.信息增益:
G(D,A)=H(D)-H(D|A)
2.信息增益比
Gr(D,A)=G(D,A)/HA(d)
3.基尼指数:
Gini§=k=1,pk(1-pk)=1-k=1,pk2
聚类
1.每个蔟至少包罗一个数据对象
2.每个数据对象仅属于一个蔟
K-Means聚类算法
1.根据给定的k值,选取k个样本点作为初始划分中心。
2.盘算所有样本店到每一个划分中心的隔断,并将所有样本店划分到隔断最近的划分中心
3.盘算每个划分样本店的平均值,并将其作为新的中心
4.循环进行步调(2)和(3)至最大迭代次数,或划分中心的厘革小于某一预界说阈值
高斯混合模型(GMM)
P(x)=i=1,k++,wi*p(x|μi,累加i)
6、模型选择

1.待调优的算法或流水线
2.一系列参数表,是可选参数
3.评估模型拟合程度的准则和方法

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/) Powered by Discuz! X3.4