从SQL到Hive,这些区别你记好
根据万字长文——最详Hive入门指南这篇博客,以下几个关键点是值得影象的,这些知识点不光有助于明白Hive的根本概念和使用场景,而且在口试中大概会被问到:扼要知识点
[*] Hive的本质和作用:
[*]Hive是一个创建在Hadoop生态体系之上的数据堆栈软件,它答应通过SQL-like的查询语言(HiveQL)对存储在HDFS上的数据举行查询、统计和分析。
[*]Hive将SQL语句转换成MapReduce、Tez或Spark作业举行实验。
[*] Hive与SQL的区别:
[*]Hive SQL得当于处理惩罚大数据集,而传统SQL更实用于小到中等规模的数据集。
[*]Hive使用Hadoop的HDFS作为存储体系,而传统SQL使用本地文件体系或专用的数据库存储。
[*]Hive的筹划初志是为了批量处理惩罚和分析大数据,因此它的实时查询本领不如传统SQL。
[*]Hive易于扩展存储和盘算本领,而传统SQL数据库在这方面大概不如Hive机动。
[*] Hive的表范例:
[*]Hive中的表可以是内部表或外部表,内部表的数据和元数据都由Hive管理,而外部表的数据存储在HDFS上,Hive只管理元数据。
[*] Hive的数据范例:
[*]Hive支持多种数据范例,包罗TINYINT、SMALLINT、INT、BIGINT、BOOLEAN、FLOAT、DOUBLE、STRING、TIMESTAMP和BINARY等。
[*] Hive的实验流程:
[*]从UI或Cli与Driver创建毗连,举行访问。
[*]编译过程中获取和查询元数据,然后由Execution Engine实验。
[*]任务终极发送给JobTracker举行调治和分发。
[*] Hive的分区和分桶:
[*]分区表根据业务需求将数据分配到差别的子表中,进步并发量和查询服从。
[*]分桶则是对数据举行更细粒度的分别,通过某列属性值的哈希值举行区分,进步join操纵和数据抽样的服从。
[*] Hive的优化战略:
[*]包罗淘汰查询数据量、使用压缩数据、公道控制reducer数目、使用Map join处理惩罚小表join大表等。
[*] Hive的数据倾斜标题:
[*]数据倾斜是Hive中常见的性能标题,可以通过对非常值赋予随机变量、使用map join或调解join序次等方法来办理。
区别(表格展示)
以下是一个简便的表格,展示了Hive和传统SQL(通常指关系型数据库管理体系中使用的SQL,如MySQL)的紧张区别:
特性Hive传统SQL (如MySQL)筹划目的大数据批量处理惩罚和分析结构化数据的存储、管理和查询数据存储基于Hadoop的HDFS本地或长途服务器的文件体系查询语言HiveQL(雷同SQL)SQL(结构化查询语言)数据处理惩罚模式批处理惩罚模式交互式查询和事件处理惩罚性能特点优化批量处理惩罚大数据优化快速随机读写和实时查询扩展性水平扩展,实用于大数据集通常须要更复杂的设置来处理惩罚大数据容错性高容错性,依靠数据副本通常依靠事件日志和备份实用场景数据堆栈、大数据分析在线事件处理惩罚、Web应用、企业体系并发处理惩罚通过MapReduce等框架实现内置的并发控制和事件处理惩罚实验引擎将HiveQL转换为MapReduce等作业实验使用优化器和实验引擎举行查询处理惩罚支持的数据范例包罗复杂的大数据范例紧张是基于关系模子的数据范例
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!qidao123.com:ToB企服之家,中国第一个企服评测及软件市场,开放入驻,技术点评得现金
页:
[1]