Hive SQL和Spark SQL的区别?

打印 上一主题 下一主题

主题 1845|帖子 1845|积分 5535

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
1    Hive     Hive  是基于  Hadoop  的一个数据堆栈工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将  sql  语句转换为  MapReduce  任务举行运行。其优点是学习成本低,可以通过类  SQL  语句快速实现简单的MapReduce  统计,不必开辟专门的  MapReduce  应用,非常适合数据堆栈的统计分析。     Hive  是建立在   Hadoop   上的数据堆栈根本构架。它提供了一系列的工具,可以用来举行数据提取转化加载(ETL)  ,这是一种可以存储、查询和分析存储在   Hadoop   中的大规模数据的机制。  Hive   定义了简单的类SQL 查询语言,称为   HQL  ,它允许熟悉   SQL   的用户查询数据。同时,这个语言也允许熟悉   MapReduce开辟者的开辟自定义的 mapper   和   reducer   来处理内建的   mapper   和   reducer   无法完成的复杂的分析工作。     2    Spark SQL     Spark SQL  主要用于结构化数据处理和对  Spark  数据实行类  SQL  的查询。通过  Spark SQL  ,可以针对差异格式的数据实行ETL  操作(如  JSON  ,  Parquet  ,数据库)然后完成特定的查询操作。一样平常来说,  Spark  每支持一种新的应用开辟,都会引入一个新的Context  及相应的  RDD  ,对于  SQL  这一特性来说,引入的就是SQLContext和  SchemaRDD  。     留意:在  Spark1.3  之后,  SchemaRDD  已经更名为  DataFrame  ,但它本质就类似一个  RDD  ,因为可以将DataFrame无缝的转换成一个  RDD  。     3  、比对     Hive  是基于  Hadoop  的一个数据堆栈工具,同时也是查询引擎,基于  Hadoop  做数据清洗(  ETL  )、报表、数据分析等。但是,对于实时插入、更新、删除数据,还要求强同等性和毫秒级相应,这个就不是Hive的优点,因为MapReduce  处理数据是一个个阶段举行的,每个阶段都要落盘,不能多个  map  串联使用。     对于  Spark  ,有  RDD  ,可以把  map  过程串起来,中间过程存在内存中,再做一些优化,官方给出的答案是比Hadoop  处理速度快乐  10-100  倍。     Hive  适合处理离线非实时数据、数据堆栈存储。     Spark SQL  适合实时性要求或者速度要求较高的场所。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

麻花痒

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表