离线数据开发流程小案例-图书馆业务数据

打印 上一主题 下一主题

主题 245|帖子 245|积分 735

参考

https://blog.csdn.net/m53931422/article/details/103633452
https://www.cnblogs.com/jasonlam/p/7928179.html
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF
https://medium.com/@jackgoettle23/building-a-hive-user-defined-function-f6abe92f6e56
https://blog.csdn.net/qq_73339471/article/details/140763754
https://blog.csdn.net/cuichunchi/article/details/109772461
https://blog.csdn.net/weixin_35852328/article/details/86509506
https://cn.vuejs.org/
https://element.eleme.cn/#/zh-CN
https://echarts.apache.org/zh/index.html
https://spring.io/
https://baomidou.com/
本文的视频版本:https://www.bilibili.com/video/BV1itYLe1E8y,解说更具体

数据

图书外借数据图书预约数据读者入馆数据字段说明备注字段说明备注字段说明备注UNIVERSITY_ID学校代码10280UNIVERSITY_ID学校代码UNIVERSITY_ID学校代码10280PATRON_ID读者IDPATRON_ID读者IDPATRON_ID读者IDSTUDENT_GRADE学生年级STUDENT_GRADE学生年级STUDENT_GRADE学生年级PATRON_DEPT读者地点院系PATRON_DEPT读者地点院系PATRON_DEPT读者地点院系PATRON_TYPE读者类型PATRON_TYPE读者类型PATRON_TYPE读者类型LOAN_DATE外借日期20130422OPEN_DATE预约日期20131231VISIT_TIME入馆时间2013-03-2520:54:42LOAN_HOUR外借时间1506OPEN_HOUR预约时间1015VISIT_SUBLIBRARY入馆地点01、02、03、04 - 宝山校区05、06 - 延长校区07、08、09 - 嘉定校区DUE_DATE到期日期20130522REQUEST_DATE预约兴趣期开始日期20131231VISIT_TYPE出馆/入馆无该字段DUE_HOUR到期时间2400END_REQUEST_DATE预约兴趣期竣事日期20140228RETURNED_DATE归还日期20130427HOLD_DATE预约满意日期20140102RETURNED_HOUR归还时间1512END_HOLD_DATE预约保存日期20140109RETURNED_LOCATION归还地点无该字段RECALL_STATUS预约催还状态无该字段RENEWAL_NO续借次数RECALL_DATE催还日期无该字段LASTRENEW_DATE最后续借日期PROCESSING_DAYS满意时间长度无该字段RECALL_DATE催还日期EVENT_TYPE预约类型无该字段RECALL_DUE_DATE催还后应还日期FULFILLED预约需求是否满意Y - 等待中N - 已满意HOLD_DAYS外借天数无该字段PICKUP_LOCATION取书点详见附录1OVERDUE_DAYS逾期天数无该字段SUBLIBRARY图书地点分馆/馆藏地详见附录1SUBLIBRARY图书地点分馆/馆藏地详见附录1ITEM_ID单册唯一记载号ITEM_ID单册唯一记载号ITEM_STATUS单册状态详见附录2ITEM_STATUS单册状态详见附录2ITEM_CALLNO单册索书号ITEM_CALLNO单册索书号PUBLISH_YEAR图书出版年PUBLISH_YEAR图书出版年AUTHOR图书作者AUTHOR图书作者TITLE图书题名TITLE图书题名PRESS图书出版社PRESS图书出版社ISBN图书ISBN号ISBNISBN号ID自动生成序号,主键ID自动生成序号,主键

共 1.25G

共 512MB

共 22.4 MB
乱码和字段乱序缺失

2019 年的外借数据的字符集为非 UTF-8,
在 Linux 上:
  1. [jxd@102 lend_out]$ file -i lend_out_2019.csv
  2. lend_out_2019.csv: text/plain; charset=unknown-8bit
  3. vim 文件后,:set fileencoding=utf-8 设置文件的编码
  4. [jxd@102 lend_out]$ file -i lend_out_2019.csv
  5. lend_out_2019.csv: text/plain; charset=utf-8
复制代码
发现没有办理,不是 Linux 上的乱码,经过排查,其它所有文件在 windows 环境下都为 utf-8 格式,这个文件为 GB2312 编码,利用 notepad++ 打开,设置编码为 utf-8,拷贝全文,新建一个 csv 文件,粘贴,新的 csv 文件的格式就为 utf-8 了。
2019 年外借数据存在缺失 id 字段、字段乱序的情况,导入到 MySQL 中,添加 id 字段,并置为 null (id 字段没有用),以新的字段顺序查询并将依据效果创建新表,再将数据导出为 csv 即可。
2019 年预约数据存在字段乱序情况,用上面的方法处理即可。
csv 的表头问题

每一个 csv 文件的表头都是字段名,导入到 Hive 中会被当作数据,必要删除,在 Linux 中,利用如下命令删除文件的第一行:
  1. sed -i '1d' <fileName>
复制代码
建表以及加载数据

  1. create database shanghai_edu location '/warehouse/shanghai_edu';
  2. // 创建时间维度表
  3. CREATE EXTERNAL TABLE `dim_date`
  4. (
  5.     `date_key`      STRING COMMENT 'id',
  6.     `date_ymd`      STRING COMMENT '日期 yy-MM-dd',
  7.     `date_ch`       STRING COMMENT '中文日期',
  8.     `dim_year`      STRING COMMENT '年',
  9.     `quarter_id`    TINYINT COMMENT '季度数字',
  10.     `quarter_ch`    STRING COMMENT '中文季度',
  11.     `year_month`    STRING comment '年月',
  12.     `dim_month`     STRING comment '月份',
  13.     `dim_day`       STRING COMMENT '一年中的第几天',
  14.     `dim_month_day` STRING COMMENT '一个月中的第几天',
  15.     `dim_week`      STRING COMMENT '一年中的第几周 星期一是星期的第一天',
  16.     `year_week`     STRING COMMENT '年周',
  17.     `dim_week1`     STRING COMMENT '一年中的第几周 星期天是星期的第一天',
  18.     `dim_year1`     STRING COMMENT '对应 dim_week1 的年份',
  19.     `dim_weekday`   STRING COMMENT '一周的中的第几天',
  20.     `weekday_ch`    STRING COMMENT '星期几',
  21.     `holiday_name`  STRING COMMENT '节假日名称',
  22.     `is_day_off`    TINYINT COMMENT '是否放假 1表示放假,0表示不放假 2表示调班'
  23. ) COMMENT '时间维度表'
  24.     ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
  25.     location '/warehouse/shanghai_edu/dim/dim_date';
  26. load data local inpath '/opt/project/shanghai_edu/data/dim/dim_date.csv' into table shanghai_edu.dim_date;
  27. // 创建分场馆维度表
  28. CREATE EXTERNAL TABLE if not exists shanghai_edu.dim_sub_library
  29. (
  30.     `sub_library_or_pickup_location` STRING COMMENT 'sub_library 或 pickup_location',
  31.     `sub_library_location_name`      STRING COMMENT '分场馆所在地址'
  32. ) COMMENT '分场馆维度表'
  33. STORED AS PARQUET
  34. LOCATION '/warehouse/shanghai_edu/dim/dim_sub_library';
  35. // 创建一张存储格式为 csv 的临时表
  36. CREATE TABLE shanghai_edu.csv_table
  37. (
  38.     sub_library_or_pickup_location   STRING,
  39.     sub_library_location_name STRING
  40. )
  41. ROW FORMAT DELIMITED
  42.     FIELDS TERMINATED BY ','
  43.     LINES TERMINATED BY '\n'
  44. STORED AS TEXTFILE;
  45. // 将数据导入到临时表
  46. load data local inpath '/opt/project/shanghai_edu/data/dim/dim_sublibrary.csv' into table shanghai_edu.csv_table;
  47. INSERT overwrite TABLE shanghai_edu.dim_sub_library
  48. SELECT * FROM shanghai_edu.csv_table;
  49. drop table shanghai_edu.csv_table;
  50. // 创建入馆表
  51. CREATE external table `ods_enter`
  52. (
  53.     `university_id`     varchar(100) comment '学校代码 10280',
  54.     `patron_id`         varchar(100) comment '读者ID',
  55.     `student_grade`     varchar(100) comment '学生年级',
  56.     `patron_dept`       varchar(100) comment '读者所在院系',
  57.     `patron_type`       varchar(100) comment '读者类型',
  58.     `visit_time`        varchar(100) comment '入馆时间',
  59.     `visit_sub_library` varchar(100) comment '入馆地点'
  60. )
  61.     COMMENT '入馆表'
  62.     partitioned by (`year` string)
  63.     ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
  64.         WITH SERDEPROPERTIES (
  65.         "separatorChar" = ",",
  66.         "quoteChar" = """,
  67.         "escapeChar" = "\"
  68.         )
  69.     location '/warehouse/shanghai_edu/ods/ods_enter';
  70. load data local inpath '/opt/project/shanghai_edu/data/enter/enter_2013.csv' into table shanghai_edu.ods_enter partition (year = '2013');
  71. load data local inpath '/opt/project/shanghai_edu/data/enter/enter_2014.csv' into table shanghai_edu.ods_enter partition (year = '2014');
  72. load data local inpath '/opt/project/shanghai_edu/data/enter/enter_2015.csv' into table shanghai_edu.ods_enter partition (year = '2015');
  73. load data local inpath '/opt/project/shanghai_edu/data/enter/enter_2016.csv' into table shanghai_edu.ods_enter partition (year = '2016');
  74. load data local inpath '/opt/project/shanghai_edu/data/enter/enter_2017.csv' into table shanghai_edu.ods_enter partition (year = '2017');
  75. load data local inpath '/opt/project/shanghai_edu/data/enter/enter_2018.csv' into table shanghai_edu.ods_enter partition (year = '2018');
  76. load data local inpath '/opt/project/shanghai_edu/data/enter/enter_2019.csv' into table shanghai_edu.ods_enter partition (year = '2019');
  77. // 创建外借表
  78. CREATE external TABLE `ods_lend_out`
  79. (
  80.     `university_id`   varchar(100) comment '学校代码 10280',
  81.     `item_id`         varchar(100) comment '单册唯一记录号',
  82.     `loan_date`       varchar(100) comment '外借日期',
  83.     `sub_library`     varchar(100) comment '图书所在分馆/馆藏地',
  84.     `due_date`        varchar(100) comment '到期日期',
  85.     `loan_hour`       varchar(100) comment '外借时间',
  86.     `due_hour`        varchar(100) comment '到期时间',
  87.     `returned_date`   varchar(100) comment '归还日期',
  88.     `item_status`     varchar(100) comment '单册状态',
  89.     `returned_hour`   varchar(100) comment '归还时间',
  90.     `last_renew_date` varchar(100) comment '最后续借日期',
  91.     `renewal_no`      varchar(100) comment '续借次数',
  92.     `recall_date`     varchar(100) comment '催还日期',
  93.     `item_call_no`    varchar(100) comment '单册索书号',
  94.     `recall_due_date` varchar(100) comment '催还后应还日期',
  95.     `author`          varchar(100) comment '图书作者',
  96.     `publish_year`    varchar(100) comment '图书出版年',
  97.     `press`           varchar(100) comment '图书出版社',
  98.     `title`           varchar(100) comment '图书题名',
  99.     `ISBN`            varchar(100) comment 'isbn',
  100.     `patron_id`       varchar(100) comment '读者ID',
  101.     `patron_type`     varchar(100) comment '读者类型',
  102.     `student_grade`   varchar(100) comment '学生年级',
  103.     `id`              varchar(100) comment 'id',
  104.     `patron_dept`     varchar(100) comment '读者所在院系'
  105. )
  106.     COMMENT '外借表'
  107.     partitioned by (`year` string)
  108.     ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
  109.         WITH SERDEPROPERTIES (
  110.         "separatorChar" = ",",
  111.         "quoteChar" = """,
  112.         "escapeChar" = "\"
  113.         )
  114.     location '/warehouse/shanghai_edu/ods/ods_lend_out';
  115. load data local inpath '/opt/project/shanghai_edu/data/lend_out/lend_out_2013.csv' into table shanghai_edu.ods_lend_out partition (year = '2013');
  116. load data local inpath '/opt/project/shanghai_edu/data/lend_out/lend_out_2014.csv' into table shanghai_edu.ods_lend_out partition (year = '2014');
  117. load data local inpath '/opt/project/shanghai_edu/data/lend_out/lend_out_2015.csv' into table shanghai_edu.ods_lend_out partition (year = '2015');
  118. load data local inpath '/opt/project/shanghai_edu/data/lend_out/lend_out_2016.csv' into table shanghai_edu.ods_lend_out partition (year = '2016');
  119. load data local inpath '/opt/project/shanghai_edu/data/lend_out/lend_out_2017.csv' into table shanghai_edu.ods_lend_out partition (year = '2017');
  120. load data local inpath '/opt/project/shanghai_edu/data/lend_out/lend_out_2018.csv' into table shanghai_edu.ods_lend_out partition (year = '2018');
  121. load data local inpath '/opt/project/shanghai_edu/data/lend_out/lend_out_2019.csv' into table shanghai_edu.ods_lend_out partition (year = '2019');
  122. // 创建预约表
  123. CREATE external table ods_subscribe
  124. (
  125.     `university_id`    varchar(100) comment '学校代码 10280',
  126.     `open_date`        varchar(100) comment '预约日期',
  127.     `open_hour`        varchar(100) comment '预约时间',
  128.     `end_request_date` varchar(100) comment '预约兴趣期结束日期',
  129.     `request_date`     varchar(100) comment '预约兴趣期开始日期',
  130.     `end_hold_date`    varchar(100) comment '预约保留日期',
  131.     `hold_date`        varchar(100) comment '预约满足日期',
  132.     `pickup_location`  varchar(100) comment '取书点',
  133.     `item_status`      varchar(100) comment '单册状态',
  134.     `sub_library`      varchar(100) comment '图书所在分馆/馆藏地',
  135.     `fulfilled`        varchar(100) comment '预约需求是否满足',
  136.     `item_call_no`     varchar(100) comment '单册索书号',
  137.     `item_id`          varchar(100) comment '单册唯一记录号',
  138.     `author`           varchar(100) comment '图书作者',
  139.     `publish_year`     varchar(100) comment '图书出版年',
  140.     `press`            varchar(100) comment '图书出版社',
  141.     `title`            varchar(100) comment '图书题名',
  142.     `ISBN`             varchar(100) comment '图书 ISBN 号',
  143.     `patron_id`        varchar(100) comment '读者 ID',
  144.     `patron_type`      varchar(100) comment '读者类型',
  145.     `student_grade`    varchar(100) comment '学生年级',
  146.     `id`               varchar(100) comment 'id',
  147.     `patron_dept`      varchar(100) comment '读者所在院系'
  148. ) COMMENT '预约表'
  149.     partitioned by (`year` string)
  150.     ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
  151.         WITH SERDEPROPERTIES (
  152.         "separatorChar" = ",",
  153.         "quoteChar" = """,
  154.         "escapeChar" = "\"
  155.         )
  156.     location '/warehouse/shanghai_edu/ods/ods_subscribe';
  157. load data local inpath '/opt/project/shanghai_edu/data/subscribe/subscribe_2013.csv' into table shanghai_edu.ods_subscribe partition (year = '2013');
  158. load data local inpath '/opt/project/shanghai_edu/data/subscribe/subscribe_2014.csv' into table shanghai_edu.ods_subscribe partition (year = '2014');
  159. load data local inpath '/opt/project/shanghai_edu/data/subscribe/subscribe_2015.csv' into table shanghai_edu.ods_subscribe partition (year = '2015');
  160. load data local inpath '/opt/project/shanghai_edu/data/subscribe/subscribe_2016.csv' into table shanghai_edu.ods_subscribe partition (year = '2016');
  161. load data local inpath '/opt/project/shanghai_edu/data/subscribe/subscribe_2017.csv' into table shanghai_edu.ods_subscribe partition (year = '2017');
  162. load data local inpath '/opt/project/shanghai_edu/data/subscribe/subscribe_2018.csv' into table shanghai_edu.ods_subscribe partition (year = '2018');
  163. load data local inpath '/opt/project/shanghai_edu/data/subscribe/subscribe_2019.csv' into table shanghai_edu.ods_subscribe partition (year = '2019');
复制代码
利用 SQL 分析数据

外借次数、外借时间和用户类型的关系

  1. CREATE EXTERNAL TABLE if not exists shanghai_edu.adm_lo_cnt_time_with_type_dd
  2. (
  3.     `patron_type`      STRING COMMENT '读者类型',
  4.     `lend_out_cnt`     bigint COMMENT '借出数',
  5.     `avg_lend_out_cnt` double comment '平均借出数',
  6.     `min_duration`     double comment '最小借出时间',
  7.     `avg_duration`     double comment '平均借出时间',
  8.     `max_duration`     double comment '最大借出时间'
  9. ) COMMENT '外借次数、外借时间和用户类型的关系'
  10.     STORED AS PARQUET
  11.     LOCATION '/warehouse/shanghai_edu/adm/adm_lo_cnt_time_with_type_dd';
  12. insert overwrite table shanghai_edu.adm_lo_cnt_time_with_type_dd
  13. select patron_type
  14.      , count(*)                                         lend_out_cnt
  15.      , round(count(*) / count(DISTINCT (patron_id)), 2) avg_lend_out_cnt
  16.      , round(min((unix_timestamp(returned_date, 'yyyyMMdd') - unix_timestamp(loan_date, 'yyyyMMdd')) /
  17.                  (60 * 60 * 24)), 2)                    min_duration -- 单位为天
  18.      , round(AVG((unix_timestamp(returned_date, 'yyyyMMdd') - unix_timestamp(loan_date, 'yyyyMMdd')) /
  19.                  (60 * 60 * 24)), 2)                    avg_duration
  20.      , round(MAX((unix_timestamp(returned_date, 'yyyyMMdd') - unix_timestamp(loan_date, 'yyyyMMdd')) /
  21.                  (60 * 60 * 24)), 2)                    max_duration
  22. from shanghai_edu.ods_lend_out
  23. group by patron_type;
复制代码
入馆次数、预约次数和读者类型的关系

  1. CREATE EXTERNAL TABLE if not exists shanghai_edu.adm_ent_subscribe_cnt_with_type
  2. (
  3.     `patron_type`      STRING COMMENT '读者类型',
  4.     `enter_cnt`        bigint COMMENT '总入馆次数/预约次数',
  5.     `avg_lend_out_cnt` double comment '平均入馆次数/平均预约次数'
  6. ) COMMENT '入馆次数、预约次数和读者类型的关系'
  7.     partitioned by (stat_type STRING COMMENT '统计类型(enter/subscribe)')
  8.     STORED AS PARQUET
  9.     LOCATION '/warehouse/shanghai_edu/adm/adm_ent_subscribe_cnt_with_type';
  10. set hive.exec.dynamic.partition.mode=nonstrict;
  11. insert overwrite table shanghai_edu.adm_ent_subscribe_cnt_with_type partition (stat_type)
  12. select patron_type,
  13.        count(*)                                         enter_cnt,
  14.        round(count(*) / count(DISTINCT (patron_id)), 2) avg_enter_cnt,
  15.        'enter'                                          stat_type
  16. from shanghai_edu.ods_enter
  17. group by patron_type
  18. union all
  19. select patron_type,
  20.        count(*)                                         sub_cnt,
  21.        round(count(*) / count(DISTINCT (patron_id)), 2) avg_sub_cnt,
  22.        'subscribe'                                      stat_type
  23. from shanghai_edu.ods_subscribe
  24. group by patron_type
  25. ;
复制代码
各分馆各年份的预约不满意率

  1. CREATE EXTERNAL TABLE if not exists shanghai_edu.adm_subscribe_no_satisfy_lib_year_stat
  2. (
  3.     `no_fulfilled_ratio`        double COMMENT '预约不满足率',
  4.     `sub_library_location_name` string COMMENT '分馆位置',
  5.     `subscribe_year`            string comment '预约年份'
  6. ) COMMENT '各分馆各年份的预约不满足率统计表'
  7.     STORED AS PARQUET
  8.     LOCATION '/warehouse/shanghai_edu/adm/adm_subscribe_no_satisfy_lib_year_stat';
  9. insert overwrite table shanghai_edu.adm_subscribe_no_satisfy_lib_year_stat
  10. select round(sum(if(fulfilled = '不满足', 1, 0)) / count(1), 4) no_fulfilled_ratio
  11.      , sub_library_location_name
  12.      , subscribe_year
  13. from (
  14.          // @formatter:off
  15.         select
  16.             CASE
  17.                 WHEN fulfilled = 'N' THEN '不满足'
  18.                 WHEN fulfilled = 'Y' THEN '满足'
  19.                 ELSE '不知道'
  20.             END AS fulfilled
  21.             ,coalesce(b.sub_library_location_name, '-') sub_library_location_name
  22.             ,coalesce(substr(open_date, 1, 4), '-')  subscribe_year
  23.         from shanghai_edu.ods_subscribe a
  24.         left join shanghai_edu.dim_sub_library b
  25.         on a.sub_library = b.sub_library_or_pickup_location
  26.         // @formatter:on
  27.      ) tb_tmp
  28. GROUP BY sub_library_location_name, subscribe_year
  29. with cube;
复制代码
预约不到的 top10 书籍

  1. CREATE EXTERNAL TABLE if not exists shanghai_edu.adm_subscribe_no_satisfy_top
  2. (
  3.     `ISBN` string COMMENT 'isbn',
  4.     `cnt`  bigint COMMENT '预约不到次数'
  5. ) COMMENT '预约不到的 top10 书籍'
  6.     STORED AS PARQUET
  7.     LOCATION '/warehouse/shanghai_edu/adm/adm_subscribe_no_satisfy_top';
  8. insert overwrite table shanghai_edu.adm_subscribe_no_satisfy_top
  9. select
  10.     ISBN
  11.     ,count(1) cnt
  12. from shanghai_edu.ods_subscribe
  13. where fulfilled = 'N' and ISBN != ''
  14. group by ISBN
  15. order by cnt desc
  16. limit 10
  17. ;
复制代码
入馆时间分布

  1. CREATE FUNCTION parseHour AS 'com.jxd.udf.ParseHour' USING JAR 'hdfs:///udf/yelp-udf-1.0-SNAPSHOT.jar';
  2. reload function;
  3. show functions;
  4. drop function if exists formatVisitTime;
  5. DESCRIBE FUNCTION formatVisitTime;
  6. CREATE FUNCTION formatVisitTime AS 'com.jxd.udf.FormatVisitTime' USING JAR 'hdfs:///udf/yelp-udf-1.0-SNAPSHOT.jar';
  7. CREATE EXTERNAL TABLE if not exists shanghai_edu.adm_enter_time_stat
  8. (
  9.     `holiday_name` string COMMENT '节日名称',
  10.     `visit_hour`   string COMMENT '入馆时间(小时)',
  11.     `cnt`          bigint comment '入馆数量'
  12. ) COMMENT '入馆时间分布统计表'
  13. STORED AS PARQUET
  14. LOCATION '/warehouse/shanghai_edu/adm/adm_enter_time_stat';
  15. // @formatter:off
  16. insert overwrite table shanghai_edu.adm_enter_time_stat
  17. select holiday_name
  18.      , visit_hour
  19.      , count(1) cnt
  20. from
  21. (
  22.     select if(b.holiday_name is not null and b.holiday_name != '', b.holiday_name, '非节假日') holiday_name
  23.            , parseHour(a.visit_time)                                                         visit_hour
  24.     from shanghai_edu.ods_enter a
  25.     left join shanghai_edu.dim_date b on formatVisitTime(a.visit_time) = b.date_key
  26. ) tb_tmp
  27. GROUP BY holiday_name, visit_hour
  28. with cube;
  29. ;
复制代码
hive udf

利用 java 编写一个 hive 的 udf,打包。
将 jar 包上传到 hdfs 上:
  1. hadoop fs -mkdir /udf
  2. hadoop fs -put yelp-udf-1.0-SNAPSHOT.jar /udf/
复制代码
进入 hive 终端中,利用如下命令创建永久函数:
  1. CREATE FUNCTION upper_case_udf AS 'com.jxd.udf.UpperCaseUDF' USING JAR 'hdfs:///udf/yelp-udf-1.0-SNAPSHOT.jar';
复制代码
  hive 终端当前所处的数据库就是这个函数的默认存放数据库,例如:default,如果是在 default 数据库中创建的 udf,在 default 数据库中利用 udf 就可以不携带数据库前缀,如果是在其他数据库中利用这个函数,就必要利用指定这个函数地点的数据库前缀来利用这个函数,好比:select default.upper_case_udf(‘aaa’);
  upper_case_udf 是函数名,com.jxd.udf.UpperCaseUDF 是这个 udf 的类全限定名,最后是 jar 包对应的 hdfs 地址。
可以利用如下命令革新函数:
  1. RELOAD FUNCTION;
复制代码
利用如下命令查询某个 udf 的描述:
  1. DESCRIBE FUNCTION <function_name>;
复制代码
利用如下命令删除函数:
  1. DROP FUNCTION upper_case_udf;
复制代码
怎样在 datagrip 中更新函数:


  • 实行删除函数的命令:
  1. DROP FUNCTION upper_case_udf;
复制代码


  • 关闭项目,File -> Close Project
  • 重新创建函数
  1. CREATE FUNCTION upper_case_udf AS 'com.jxd.udf.UpperCaseUDF' USING JAR 'hdfs:///udf/yelp-udf-1.0-SNAPSHOT.jar';
复制代码
导出 hive 数据到 mysql

本次利用 sqoop 将数据导出到 mysql:
  1. bin/sqoop export \
  2. --connect "jdbc:mysql://node112:3306/shanghai_edu?useUnicode=true&characterEncoding=utf-8" \
  3. --username root \
  4. --password 123456 \
  5. --table adm_lo_cnt_time_with_type_dd \
  6. --num-mappers 1 \
  7. --hcatalog-database shanghai_edu \
  8. --hcatalog-table adm_lo_cnt_time_with_type_dd
  9. --hive-partition-key <partition_key> \
  10. --warehouse-dir <hdfs_path_to_hive_table>
复制代码
导出分区表的所有数据:
  1. bin/sqoop export \
  2. --connect "jdbc:mysql://node112:3306/shanghai_edu?useUnicode=true&characterEncoding=utf-8" \
  3. --username root \
  4. --password 123456 \
  5. --table adm_ent_subscribe_cnt_with_type \
  6. --num-mappers 1 \
  7. --hcatalog-database shanghai_edu \
  8. --hcatalog-table adm_ent_subscribe_cnt_with_type
  9. --hive-partition-key stat_type \
  10. --warehouse-dir /warehouse/shanghai_edu/adm/adm_ent_subscribe_cnt_with_type
复制代码
问题

windows 上的中文文件名的文件上传到 centos 后变成乱码

缘故原由在于,Windows 的文件名中文编码默认为 GBK,压缩或者上传后,文件名还会是 GBK 编码,而 Linux 中默认文件名编码为 UTF8,由于编码不一致以是导致了文件名乱码的问题,办理这个问题必要对文件名进行转码。
安装 convmv:
  1. yum install convmv
复制代码
利用 convmv 将当前文件夹下的所有文件名转为 udf-8 编码:
  1. convmv -f gbk -t utf-8 --notest -r ./
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

梦应逍遥

高级会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表