微信号:ApacheKylin

介绍:Apache Kylin 公众号,介绍Kylin的各种功能,特性以及相关的新闻,活动等.更多信息,请访问Kylin网站:http://kylin.io 相关技术问题,请订阅Apache Kylin邮件列表

【技术帖】使用 Hue 与 Apache Kylin 交互

2018-01-04 18:01 何京珂

在本文中,我们将介绍如何连接 Hue 与 Apache Kylin,快速实现海量数据分析




Apache Kylin 简介

Apache Kylin 是一个领先的开源分布式分析引擎,提供 Hadoop 之上超大规模的 SQL 查询接口及多维分析能力。在超大规模数据集上建立数据模型,构建支持多维分析的预计算 Cube,并开放通用的 ODBC、JDBC 或 Restful API 接口。这种独特的预计算 Cube 使 Apache Kylin 可以轻松应对超大数据集上的查询,并实现亚秒级响应。




Hue 简介

Hue 是一个简单易用的 SQL 编辑器,提供基于 Web 的开源图形用户界面,方便用户查询基于 Hadoop 的相关服务。SQL 是分析师最熟悉的查询语言,因此 Hue 可帮助他们轻松访问 Hadoop 上的大数据。

在本文中,我们将介绍如何连接 Hue 与 Apache Kylin,快速实现分析海量数据。




准备 Hue的Docker 镜像

注:此处是指包含 Apache Kylin 配置信息的 Hue的Docker 镜像。


01

准备 Hue 镜像


使用 Docker 拉取最新 Hue。

docker pull gethue/hue:latest


02

准备 Kylin JDBC 驱动程序


下载 Apache Kylin 安装包

wget -c http://mirror.bit.edu.cn/apache/kylin/apache-kylin-2.2.0/apache-kylin-2.2.0-bin-hbase1x.tar.gz


解压安装包

tar -zxvf apache-kylin-2.2.0-bin-hbase1x.tar.gz


使用 cp 命令复制 Kylin JDBC 驱动程序

cp apache-kylin-2.2.0-bin/lib/kylin-jdbc-2.2.0.jar .

hue$ ls

apache-kylin-2.2.0-bin  apache-kylin-2.2.0-bin-hbase1x.tar.gz  kylin-jdbc-2.2.0.jar


03

将 Hub 配置文件复制到主机


从 Docker 复制配置文件

docker run -it -d --name hue_tmp gethue/hue /bin/bash

cp hue_tmp:/hue/desktop/conf/pseudo-distributed.ini .

docker stop hue_tmp; docker rm hue_tmp


现在,在当前目录中可以看到 pseudo-distributed.ini文件。


在 pseudo-distributed.ini文件中配置Apache Kylin的连接。

vim pseudo-distributed.ini


将以下 Kylin 配置复制到该文件中,并根据你的Kylin集群信息修改具体的配置信息。

dbproxy_extra_classpath=/hue/kylin-jdbc-2.2.0.jar


[[[kylin]]]

      name=kylin JDBC

      interface=jdbc

      options='{"url": "jdbc:kylin://<your_host>:<port>/<project_name>","driver": "org.apache.kylin.jdbc.Driver", "user": "<username>", "password": "<password>"}'



例如,将以下配置添加到该文件中。

  dbproxy_extra_classpath=/hue/kylin-jdbc-2.2.0.jar

  # One entry for each type of snippet.

  [[interpreters]]

    # Define the name and how to connect and execute the language.

    [[[kylin]]]

      name=kylin JDBC

      interface=jdbc

      options='{"url": "jdbc:kylin://localhost:7070/learn_kylin","driver": "org.apache.kylin.jdbc.Driver", "user": "ADMIN", "password": "KYLIN"}'

    [[[hive]]]

      # The name of the snippet.

      name=Hive

      # The backend connection to use to communicate with the server.

      interface=hiveserver2


编辑 Dockerfile。

touch Dockerfile

vim Dockerfile


将以下脚本粘贴到 Dockerfile 中。

FROM gethue/hue:latest

COPY ./kylin-jdbc-2.2.0.jar /hue/kylin-jdbc-2.2.0.jar

COPY ./pseudo-distributed.ini /hue/desktop/conf/pseudo-distributed.ini

EXPOSE 8888


此配置会将 Kylin JDBC Jar 和 pseudo-distributed.ini 复制到 Docker 的 Hue 中。并在 Docker中暴露端口 8888。


04

构建并启动 Docker 容器


docker build -t hue-demo -f Dockerfile .

docker run -itd -p 8888:8888 --name hue hue-demo


Hue 已准备就绪,并在 localhost:8888 上运行。



现在可以从 Hue 中查询 Apache Kylin 的数据了。




在 AWS 上部署 Apache Kylin 和 Hue

下面我们将引导您在 AWS EMR 上部署 Apache Kylin 和 Hue。


01

在 AWS EMR 上安装 Apache Kylin


有关如何在 AWS EMR 上安装 Apache Kylin 的信息,可参考此文 :

http://kylin.apache.org/docs21/install/kylin_aws_emr.html


02

在 AWS EMR 上安装 Hue


注:此处指的是在已配置 Apache Kylin 的 AWS EMR 上安装 Hue


在 AWS EMR 上安装 Apache Kylin 后,可使用 bootstrap 文件在已配置Apache  Kylin 的 AWS EMR 上轻松部署 Hue。


1.    从这个 Github 上下载 download.sh 文件并上传到 一个S3 存储桶中;

 

2.    在 configurations.json 中,将 Apache Kylin 主机、端口号、项目 和 账号密码替换成您自己的信息,然后在 AWS Command-line  中运行以下脚本来创建 EMR 集群。


请确保转义符与以下 json 中保持一致。

[

  {

    "Classification": "hue-ini",

    "Properties": {},

    "Configurations": [

      {

        "Classification": "notebook",

        "Properties": {

          "dbproxy_extra_classpath": "/opt/kylin_jdbc/kylin-jdbc-2.2.0.jar"

        },

        "Configurations": [

          {

            "Classification": "interpreters",

            "Properties": {},

            "Configurations": [

              {

                "Classification": "kylin",

                "Properties": {

                  "name": "kylin JDBC",

                  "interface": "jdbc",

                  "options": "{\"url\": \"jdbc:kylin://<host>:<port>/<project>\", \"driver\": \"org.apache.kylin.jdbc.Driver\", \"user\": \"<username>\", \"password\": \"<password>\"}"

                },

                "Configurations": []

              }

            ]

          }

        ]

      }

    ]

  }

]



aws emr create-cluster --name "HUE Cluster" --release-label emr-5.10.0 \

--ec2-attributes KeyName=<keypair_name>,InstanceProfile=EMR_EC2_DefaultRole,SubnetId=<subnet_id> \

--service-role EMR_DefaultRole \

--applications Name=Hive Name=Hue Name=Pig \

--emrfs Consistent=true,RetryCount=5,RetryPeriod=30 \

--instance-count 1 --instance-type m3.xlarge \

--configurations file://configurations.json \

--bootstrap-action Path="s3://<your_bucket>/download.sh"



3.   集群状态变为 “Waiting” 后,在 Web 浏览器中输入:

http://<public_dns_of_master>:8888


可以看到含 Hue 的集群已准备就绪。




结论

在本文中,我们演示了如何轻松配置 Hue 来查询 Apache Kylin 中的数据。Hue 是一款便捷易用的开源 SQL 编辑器,可帮助您分析Apache Kylin 等基于Hadoop的服务的数据。Hue 和 Apache Kylin 均可在本地或云端部署,便于在任何地方组合使用。




Apache Kylin & Alluxio Meetup @上海开始报名啦!

限量200席位,快点击阅读原文报名参加吧


 "Apache and Apache Kylin are either registered trademarks or trademarks of The Apache Software Foundation in the US and/or other countries. No endorsement by The Apache Software Foundation is implied by the use of these marks."

您可能还会想看


【Meetup 预告】Apache Kylin & Alluxio Meetup @上海开始报名啦!

【Apache Kylin年终回顾】2017,感恩有你

【技术帖】Apache Kylin Cube优化方式

顶级项目孵化的故事系列——Kylin的心路历程

开源访谈 | 2.0 划时代版本后的 Apache Kylin ,前路何方?

【干货】AWS上Apache Kylin调度系统的设计

Kyligence Robot V1.5发布说明


 
apachekylin 更多文章 【Meetup 预告】Apache Kylin &amp; Alluxio&nb 【Apache Kylin年终回顾】2017,感恩有你 【技术帖】Apache Kylin Cube优化方式 顶级项目孵化的故事系列——Kylin的心路历程 开源访谈 | 2.0 划时代版本后的 Apache Kylin ,前
猜您喜欢 【开源】2md:将复制的内容、网页转成 markdown 我曾得到的最佳编程建议 【阿里聚安全·移动安全周刊】维基解密:iPhone刚出厂就可能被CIA安装间谍软件 交互设计不受追捧,产品经理就混不下去了? 为什么Android手机系统升级慢?