目前最流行的大数据查询引擎非hive莫属,它是基于MR的类SQL查询工具,会把输入的查询SQL解释为MapReduce,能极大的降低使用大数据查询的门槛, 让一般的业务人员也可以直接对大数据进行查询。但因其基于MR,运行速度是一个弊端,通常运行一个查询需等待很久才会有结果。对于此情况,创造了hive的facebook不负众望,创造了新神器---presto,其查询速度平均比hive快10倍,现在就来部署体验一下吧。
一、 准备工作
操作系统: centos7
JAVA: JDK8(155版本及以上),我使用的是jdk1.8.0_191
presto server:presto-server-0.221.tar.gz
presto client: presto-cli-0.221-executable.jar
注:
a)本次是基于hive来进行部署使用,因此相关节点已部署hadoop、hive;
b) presto官网地址为https://prestodb.github.io presto server、client及jdbc jar均可以从官网下载。
二、 部署阶段
1. 将jdk、 presto server presto client 上传至各服务器上
jdk包我上传至/usr/local 目录,并解压、配置软链接,配置环境变量,如不配置环境变量,也可在launcher里修改
presto server及client上传至 /opt/presto下,同时解压server包
2. 各节点信息如下
其中包含一个Coordinator节点及8个worker节点
3. 创建presto数据及日志目录
以下操作各节点均相同,只有配置文件处需根据各节点情况,对应修改
4. 创建etc目录
5. 创建所需的配置文件
1)创建并配置 config.properties
如果是Coordinator节点,建议如下配置(内存大小根据实际情况修改)
如果是worker 节点:
参数说明:
2) 配置 jvm.config
JVM配置文件包含启动Java虚拟机时的命令行选项。格式是每一行是一个命令行选项。此文件数据是由shell解析,所以选项中包含空格或特殊字符会被忽略。
3) 配置log.properties
日志级别有四种,DEBUG, INFO, WARN and ERROR
4) 配置node.properties
参数说明:
5) 配置catalog及hive.properties
创建 catalog目录,因本次使用的hive,因此在此目录下创建hive.properties 并配置对应参数
至此 相关配置文件配置完成。
三、 启动presto-server并连接
进入/opt/presto/presto-server-0.221/bin,有launcher命令
如果需要配置JAVA等环境变量也可以在此文件里修改。在此处修改的好处在于可以与不同版本的jdk共存 而不影响原有业务。
1. 启动presto-server
此时如果/data/presto/var日志生成,且无报错信息,代表启动正常。
2. presto-cli 连接
把下载的jar包:presto-cli-0.221-executable.jar 重命名为:presto 并且赋予权限
此时可以查看到hive里的库及表
查看web界面
192.168.11.22:8080/ui/可查看整体状态。
至此,presto部署就完成了。其与hive的性能对比及使用建议等后续有机会再介绍。