大数据技术Hadoop -- Hive的根本操纵

打印 上一主题 下一主题

主题 844|帖子 844|积分 2532

一、实验目标

(1)明白Hive作为数据堆栈在Hadoop体系布局中的脚色。
(2)熟练使用常用的HiveQL。

二、实验平台

操纵体系:Ubuntu18.04(或Ubuntu16.04)。

Hadoop版本:3.1.3。

Hive版本:3.1.2。

JDK版本:1.8。

三、实验过程、内容

(一)安装Hive

   $ sudo tar -zxvf ~/下载/apache-hive-3.1.2-bin.tar.gz -C /usr/local   # 解压到/usr/local中
  $ cd /usr/local/
  $ sudo mv apache-hive-3.1.2-bin hive       # 将文件夹名改为hive
  $ sudo chown -R hadoop:hadoop hive          # 修改文件权限
  
1.把hive下令加入到环境变量PATH中

   $ vim ~/.bashrc
  在该文件前面添加如下内容:
   export HIVE_HOME=/usr/local/hive
  export PATH=$PATHHIVE_HOME/bin
  
2.保存该文件并退出vim编辑器,然后,运行如下下令使得配置立即生效:

   $ source ~/.bashrc
  
将“/usr/local/hive/conf”目录下的hive-default.xml.template文件重命名为hive-default.xml,下令如下:

   $ cd /usr/local/hive/conf
  $ sudo mv hive-default.xml.template hive-default.xml
  
3.同时,使用vim编辑器新建一个文件hive-site.xml,下令如下:

   $ cd /usr/local/hive/conf
  $ vim hive-site.xml
  
在hive-site.xml中输入如下配置信息:
  1. <?xml version="1.0" encoding="UTF-8" standalone="no"?>
  2. <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
  3. <configuration>
  4.   <property>
  5.     <name>javax.jdo.option.ConnectionURL</name>
  6.     <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
  7.     <description>JDBC connect string for a JDBC metastore</description>
  8.   </property>
  9.   <property>
  10.     <name>javax.jdo.option.ConnectionDriverName</name>
  11.     <value>com.mysql.jdbc.Driver</value>
  12.     <description>Driver class name for a JDBC metastore</description>
  13.   </property>
  14.   <property>
  15.     <name>javax.jdo.option.ConnectionUserName</name>
  16.     <value>hive</value>
  17.     <description>username to use against metastore database</description>
  18.   </property>
  19.   <property>
  20.     <name>javax.jdo.option.ConnectionPassword</name>
  21.     <value>hive</value>
  22.     <description>password to use against metastore database</description>
  23.   </property>
  24. </configuration>
复制代码
4.下载MySQL JDBC驱动程序

   $ cd ~/下载
  $ tar -zxvf mysql-connector-java-5.1.40.tar.gz   #解压
  $ #下面将mysql-connector-java-5.1.40-bin.jar拷贝到/usr/local/hive/lib目录下
   $ cp mysql-connector-java-5.1.40/mysql-connector-java-5.1.40-bin.jar  /usr/local/hive/lib
  

5.启动MySQL,实行如下下令启动MySQL,并进入“mysql>”下令提示符状态:

   $ service mysql start  #启动MySQL服务
  $ mysql -u root -p   #登录MySQL数据库
  
6.在MySQL中为Hive新建数据库

   mysql> create database hive;
  
需要对MySQL举行权限配置,允许Hive毗连到MySQL。

   mysql> grant all on *.* to hive@localhost identified by 'hive';
  mysql> flush privileges; 
  
7. 启动Hive

   $ cd /usr/local/hadoop
  $ ./sbin/start-dfs.sh
  $ cd /usr/local/hive
  $ ./bin/hive
  
五、实验效果(运行效果截图)
进入你的 Downloads(下载)文件夹,右键解压刚下载的数据压缩包,进入 prog-hive-1st-ed-data 文件夹,右键打开终端:

   
cd ~/下载/prog-hive-1st-ed-data

  
sudo cp ./data/stocks/stocks.csv /usr/local/hive

  
sudo cp ./data/dividends/dividends.csv /usr/local/hive

  

进入 Hadoop 目录,启动 Hadoop:

   
cd /usr/local/hadoop

  
sbin/start-dfs.sh

  


启动 MySQL:

   
service mysql start

  

切换到 Hive 目录下,启动 MySQL 和 Hive:

   
cd /usr/local/hive

  
bin/hive

  

(1)创建一个内部表stocks,字段分隔符为英文逗号,表布局如表14-11所示。

表14-11 stocks表布局

col_name

data_type

exchange            

string              

symbol              

string              

ymd                 

string              

price_open          

float               

price_high          

float               

price_low           

float               

price_close         

float               

volume              

int                 

price_adj_close     

float  

  1. create table if not exists stocks(
  2. `exchange` string,
  3. `symbol` string,
  4. `ymd` string,
  5. `price_open` float,
  6. `price_high` float,
  7. `price_low` float,
  8. `price_close` float,
  9. `volume` int,
  10. `price_adj_close` float
  11. )row format delimited fields terminated by ',';
复制代码

(2)创建一个外部门区表dividends(分区字段为exchange和symbol),字段分隔符为英文逗号,表布局如表14-12所示。

表14-12 dividends表布局

col_name

data_type

ymd                 

string              

dividend            

float               

exchange            

string              

symbol              

string              


  1. create external table if not exists dividends
  2. (
  3. `ymd` string,
  4. `dividend` float
  5. )
  6. partitioned by(`exchange` string ,`symbol` string)
  7. row format delimited fields terminated by ',';
复制代码


(3)从stocks.csv文件向stocks表中导入数据。

   
load data local inpath '/usr/local/hive/stocks.csv' overwrite into table stocks;

  


(4) 创建一个未分区的外部表dividends_unpartitioned,并从dividends.csv向此中导入数据,表布局如表14-13所示。

表14-13 dividends_unpartitioned表布局

col_name

data_type

ymd                 

string              

dividend            

float               

exchange            

string              

symbol              

string              

  1. create external table if not exists dividends_unpartitioned
  2. (
  3. `exchange` string ,
  4. `symbol` string,
  5. `ymd` string,
  6. `dividend` float
  7. )
  8. row format delimited fields terminated by ',';
  9. load data local inpath '/usr/local/hive/dividends.csv' overwrite into table dividends_unpartitioned;
复制代码

(4)通过对dividends_unpartitioned的查询语句,利用Hive自动分区特性向分区表dividends各个分区中插入对应数据。

  1. set hive.exec.dynamic.partition=true;
  2. set hive.exec.dynamic.partition.mode=nonstrict;
  3. set hive.exec.max.dynamic.partitions.pernode=1000;
  4. insert overwrite table dividends partition(`exchange`,`symbol`) select `ymd`,`dividend`,`exchange`,`symbol` from dividends_unpartitioned;
复制代码
(6)查询IBM公司(symbol=IBM)从2000年起所有付出股息的交易日(dividends表中有对应记录)的收盘价(price_close)。

  1. select s.ymd,s.symbol,s.price_close
  2. from stocks s
  3. LEFT SEMI JOIN
  4. dividends d
  5. ON s.ymd=d.ymd and s.symbol=d.symbol
  6. where s.symbol='IBM' and year(ymd)>=2000;
复制代码

(7)查询苹果公司(symbol=AAPL)2008年10月每个交易日的涨跌情况,涨显示rise,跌显示fall,稳定显示unchange。

  1. select ymd,
  2. case
  3.     when price_close-price_open>0 then 'rise'
  4.     when price_close-price_open<0 then 'fall'
  5.     else 'unchanged'
  6. end as situation
  7. from stocks
  8. where symbol='AAPL' and substring(ymd,0,7)='2008-10';
复制代码

(8)查询stocks表中收盘价(price_close)比开盘价(price_open)高得最多的那条记录的交易所(exchange)、股票代码(symbol)、日期(ymd)、收盘价、开盘价及二者差价。

  1. select `exchange`,`symbol`,`ymd`,price_close,price_open,price_close-price_open as `diff`
  2. from
  3. (
  4.     select *
  5.     from stocks
  6.     order by price_close-price_open desc
  7.     limit 1
  8. )t;
复制代码

(9)从stocks表中查询苹果公司(symbol=AAPL)年匀称调整后收盘价(price_adj_close) 大于50美元的年份及年匀称调整后收盘价。

  1. select
  2.     year(ymd) as `year`,
  3.     avg(price_adj_close) as avg_price from stocks
  4. where `exchange`='NASDAQ' and symbol='AAPL'
  5. group by year(ymd)
  6. having avg_price > 50;
复制代码

查询每年年匀称调整后收盘价(price_adj_close)前三名的公司的股票代码及年匀称调整后收盘价。

  1. select t2.`year`,symbol,t2.avg_price
  2. from
  3. (
  4.     select
  5.         *,row_number() over(partition by t1.`year` order by t1.avg_price desc) as `rank`
  6.     from
  7.     (
  8.         select
  9.             year(ymd) as `year`,
  10.             symbol,
  11.             avg(price_adj_close) as avg_price
  12.         from stocks
  13.         group by year(ymd),symbol
  14.     )t1
  15. )t2
  16. where t2.`rank`<=3;
复制代码



四、实验心得和总结



  • (列出遇到的标题和办理办法,列出没有办理的标题,可以是个人相关知识点总结,要求150字以上)
标题一:启动hive时(./bin/hive)


办理方案:
一般是Hadoop中的guava的相关jar包与hive中的不适配,将hive中的删除,然后Hadoop中的guava-27.0-jre.jar,复制到hive里面就可以了,操纵如下:
$cd   /usr/local/hadoop/share/hadoop/common/lib

$rm  guava-40.jar

$cd   /usr/local/hadoop/share/hadoop/common/lib

$ cp -r guava-27.0-jre.jar /usr/local/hive/lib


标题二:在hive中在确保下令语句正确的前提下,创建数据库报错



决办法:手动初始化元数据库

$cd /usr/local/hadoop/share/hadoop/common/lib

$bin/schematool -dbType mysql -initSchema



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

乌市泽哥

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表