如何在CDH中部署及使用Kylin-CFANZ编程社区

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。

Fayson的github：https://github.com/fayson/cdhproject

提示：代码块部分可以左右滑动查看噢

1.文档编写目的

Apache Kylin是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

如何在CDH中部署及使用Kylin_hadoop

具体功能如下：

1.可扩展超快OLAP引擎:

- Kylin是为减少在Hadoop/Spark上百亿规模数据查询延迟而设计

2.Hadoop ANSI SQL 接口:

- Kylin为Hadoop提供标准SQL支持大部分查询功能

3.交互式查询能力:

- 通过Kylin，用户可以与Hadoop数据进行亚秒级交互，在同样的数据集上提供比Hive更好的性能

4.多维立方体（MOLAP Cube）:

- 用户能够在Kylin里为百亿以上数据集定义数据模型并构建立方体

5.与BI工具无缝整合:

- Kylin提供与BI工具的整合能力，如Tableau，PowerBI/Excel，MSTR，QlikSense，Hue和SuperSet

6.其他特性:

- Job管理与监控

- 压缩与编码

- 增量更新

- 利用HBase Coprocessor

- 基于HyperLogLog的Dinstinc Count近似算法

- 友好的web界面以管理，监控和使用立方体

- 项目及表级别的访问控制安全

- 支持LDAP、SSO

以上内容来自Kylin的Apache社区官网，具体参考：http://kylin.apache.org/cn/，本文主要描述如何在CDH集群中部署及使用Kylin。

内容概述

1.下载Kylin

2.部署Kylin

3.Demo1

4.Demo2

测试环境

1.RedHat7.4

2.CM/CDH5.13.3

3.Apache Kylin2.1.0

4.集群未启用Kerberos

前置条件

1.CDH集群正常运行

2.Hive，HBase服务运行正常

3.安装Kylin服务的节点已经部署Hive Gateway

2.下载Kylin

社区版kylin下载地址：https://archive.apache.org/dist/kylin/ ,本次测试使用apache-kylin-2.1.0

如何在CDH中部署及使用Kylin_hive_02

3.部署Kylin

这里测试只部署了一个节点，实际生产可以部署多个节点，kylin是无状态的，前端做负载均衡。

1.上传kylin包至服务器

如何在CDH中部署及使用Kylin_kylin_03

2.解压至/usr/local目录，并建软链接

[root@hadoop3 ~]# tar -zxvf apache-kylin-2.1.0-bin-cdh57.tar.gz -C /usr/local/
[root@hadoop3 ~]# cd /usr/local/
[root@hadoop3 local]# ln -s apache-kylin-2.1.0-bin-cdh57/ kylin

（可左右滑动）

如何在CDH中部署及使用Kylin_kylin_04

如何在CDH中部署及使用Kylin_hadoop_05

3.Kylin环境配置

主要配置kylin的home目录及java环境变量，配置如下：

[root@hadoop3 kylin]# vim ~/.bashrc 
export JAVA_HOME=/usr/java/jdk1.7.0_67-cloudera
export KYLIN_HOME=/usr/local/kylin
export PATH=$JAVA_HOME/bin:$PATH
[root@hadoop3 kylin]# source ~/.bashrc

（可左右滑动）

如何在CDH中部署及使用Kylin_hive_06

如何在CDH中部署及使用Kylin_hadoop_07

4.执行bin/check-env.sh检查kylin运行环境

如何在CDH中部署及使用Kylin_kylin_08

5.启动kylin服务，执行bin/kylin.sh start命令

如何在CDH中部署及使用Kylin_kylin_09

如何在CDH中部署及使用Kylin_hadoop_10

6.访问kylin的web UI，这里的地址是http://192.168.0.198:7070/kylin，默认账号密码为：ADMIN/KYLIN

如何在CDH中部署及使用Kylin_kylin_11

4.Demo1：Kylin自带

1.Kylin本身自带了一个测试例子，创建流程如下：

执行sample.sh脚本，这个主要是创建kylin的project、model、cube以及相关的hive表等。

如何在CDH中部署及使用Kylin_hadoop_12

如何在CDH中部署及使用Kylin_hadoop_13

查看Hive default库中的表,多了五张表

如何在CDH中部署及使用Kylin_hadoop_14

2.进入kylin Web界面reload metadata

如何在CDH中部署及使用Kylin_hive_15

3.查看导入模型

如何在CDH中部署及使用Kylin_kylin_16

4.构建cube

如何在CDH中部署及使用Kylin_hadoop_17

5.选择数据分区范围

如何在CDH中部署及使用Kylin_hive_18

6.点击monitor，查看正在构建cube的作业

如何在CDH中部署及使用Kylin_hive_19

如何在CDH中部署及使用Kylin_kylin_20

这一步会比较耗时，因为这步会进行预计算，默认是MapReduce作业。

7.查询构建完成的cube

先运行简单的count，可以看到耗时2.14s，再次执行基本在豪秒级，因为kylin支持缓存功能

select count(*) from KYLIN_SALES

（可左右滑动）

如何在CDH中部署及使用Kylin_hadoop_21

执行多表关联查询

select sum(KYLIN_SALES.PRICE) 
as price_sum,KYLIN_CATEGORY_GROUPINGS.META_CATEG_NAME,KYLIN_CATEGORY_GROUPINGS.CATEG_LVL2_NAME 
from KYLIN_SALES inner join KYLIN_CATEGORY_GROUPINGS
on KYLIN_SALES.LEAF_CATEG_ID = KYLIN_CATEGORY_GROUPINGS.LEAF_CATEG_ID and 
KYLIN_SALES.LSTG_SITE_ID = KYLIN_CATEGORY_GROUPINGS.SITE_ID
group by KYLIN_CATEGORY_GROUPINGS.META_CATEG_NAME,KYLIN_CATEGORY_GROUPINGS.CATEG_LVL2_NAME
order by KYLIN_CATEGORY_GROUPINGS.META_CATEG_NAME asc,KYLIN_CATEGORY_GROUPINGS.CATEG_LVL2_NAME desc

（可左右滑动）

如何在CDH中部署及使用Kylin_hive_22

如何在CDH中部署及使用Kylin_hadoop_23

耗时1.89s，查询支持多种展示方式，如：Line chart、bar chart、pie chart，可以点击Visualization查看可视化展示方式，并且可以选择不同的维度和度量字段。

5.Demo2

1.数据准备

如何在CDH中部署及使用Kylin_hive_24

下载地址：

https://github.com/fayson/cdhproject/tree/master/kylindemo

2.执行建表语句，执行以下命令

hdfs dfs -put employee.csv /tmp/data/kylin/
hdfs dfs -put employee.csv /tmp/data/kylin/
beeline -u "jdbc:hive2://hadoop2.macro.com:10000/default" -n hive -f create_table.sql

（可左右滑动）

如何在CDH中部署及使用Kylin_hadoop_25

如何在CDH中部署及使用Kylin_hive_26

如何在CDH中部署及使用Kylin_hive_27

3.创建project

如何在CDH中部署及使用Kylin_hadoop_28

如何在CDH中部署及使用Kylin_kylin_29

4.加载Hive表

如何在CDH中部署及使用Kylin_kylin_30

如何在CDH中部署及使用Kylin_hive_31

如何在CDH中部署及使用Kylin_hadoop_32

5.创建model，入project的名称和描述：

如何在CDH中部署及使用Kylin_kylin_33

6.选择事实表，并点击add Lookup Table查询表

如何在CDH中部署及使用Kylin_hive_34

如何在CDH中部署及使用Kylin_hive_35

7.选择维度字段

如何在CDH中部署及使用Kylin_hadoop_36

8.选择度量字段：

如何在CDH中部署及使用Kylin_hive_37

9.如果有分区选择分区表和列

如何在CDH中部署及使用Kylin_kylin_38

10.model创建完成

如何在CDH中部署及使用Kylin_kylin_39

11.创建cube

如何在CDH中部署及使用Kylin_kylin_40

12.选择model

如何在CDH中部署及使用Kylin_hadoop_41

13.选择维度，这里把model中设置的维度都勾选上

如何在CDH中部署及使用Kylin_hadoop_42

如何在CDH中部署及使用Kylin_hadoop_43

14.选择度量指标，可以添加，比如sum、Max等

如何在CDH中部署及使用Kylin_hadoop_44

如何在CDH中部署及使用Kylin_hadoop_45

如何在CDH中部署及使用Kylin_hadoop_46

15.默认，下一步

如何在CDH中部署及使用Kylin_hive_47

16.默认，下一步

如何在CDH中部署及使用Kylin_hive_48

如何在CDH中部署及使用Kylin_hive_49

17.cube创建完成

如何在CDH中部署及使用Kylin_hive_50

18.构建cube

如何在CDH中部署及使用Kylin_hive_51

19.查看构建cube的job，进入monitor

如何在CDH中部署及使用Kylin_hive_52

如何在CDH中部署及使用Kylin_kylin_53

20.查询

先执行简单查询，

查询语句：

select count(*) from EMPLOYEE和select max(salary) from EMPLOYEE

（可左右滑动）

如何在CDH中部署及使用Kylin_kylin_54

如何在CDH中部署及使用Kylin_hive_55

可以看到耗时分别在0.19s和0.11秒

21.统计各部门员工薪资总和，执行以下语句

select d.ID,sum(e.SALARY) as salary from EMPLOYEE as e left join DEPARTMENT as d on e.DEPTID=d.id group by d.ID order by salary desc

（可左右滑动）

如何在CDH中部署及使用Kylin_kylin_56

如何在CDH中部署及使用Kylin_hive_57

提示：代码块部分可以左右滑动查看噢

为天地立心，为生民立命，为往圣继绝学，为万世开太平。

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。

推荐关注Hadoop实操，第一时间，分享更多Hadoop干货，欢迎转发和分享。

如何在CDH中部署及使用Kylin_kylin_58

原创文章，欢迎转载，转载请注明：转载自微信公众号Hadoop实操