hive 统计百亿数据 hive查询数据量

日期：2024-11-10 移动：http://changmeillh.xhstdz.com/mobile/quote/63151.html

目前最流行的大数据查询引擎非hive莫属，它是基于MR的类SQL查询工具，会把输入的查询SQL解释为MapReduce，能极大的降低使用大数据查询的门槛，让一般的业务人员也可以直接对大数据进行查询。但因其基于MR，运行速度是一个弊端，通常运行一个查询需等待很久才会有结果。对于此情况，创造了hive的facebook不负众望，创造了新神器---presto，其查询速度平均比hive快10倍，现在就来部署体验一下吧。

一、准备工作

操作系统： centos7

JAVA: JDK8（155版本及以上），我使用的是jdk1.8.0_191

presto server：presto-server-0.221.tar.gz

presto client： presto-cli-0.221-executable.jar

注：

a）本次是基于hive来进行部署使用,因此相关节点已部署hadoop、hive;

b) presto官网地址为https://prestodb.github.io presto server、client及jdbc jar均可以从官网下载。

二、部署阶段

1. 将jdk、 presto server presto client 上传至各服务器上

jdk包我上传至/usr/local 目录，并解压、配置软链接，配置环境变量，如不配置环境变量，也可在launcher里修改

hive 统计百亿数据 hive查询数据量_大数据

presto server及client上传至 /opt/presto下，同时解压server包

hive 统计百亿数据 hive查询数据量_hadoop_02

2. 各节点信息如下

其中包含一个Coordinator节点及8个worker节点

3. 创建presto数据及日志目录

以下操作各节点均相同，只有配置文件处需根据各节点情况，对应修改

4. 创建etc目录

5. 创建所需的配置文件

hive 统计百亿数据 hive查询数据量_presto_03

1）创建并配置 config.properties

如果是Coordinator节点，建议如下配置（内存大小根据实际情况修改）

如果是worker 节点：

参数说明:

2) 配置 jvm.config

JVM配置文件包含启动Java虚拟机时的命令行选项。格式是每一行是一个命令行选项。此文件数据是由shell解析，所以选项中包含空格或特殊字符会被忽略。

3）配置log.properties

日志级别有四种，DEBUG, INFO, WARN and ERROR

4) 配置node.properties

参数说明：

5）配置catalog及hive.properties

创建 catalog目录，因本次使用的hive,因此在此目录下创建hive.properties 并配置对应参数

至此相关配置文件配置完成。

三、启动presto-server并连接

进入/opt/presto/presto-server-0.221/bin，有launcher命令

hive 统计百亿数据 hive查询数据量_hadoop_04

如果需要配置JAVA等环境变量也可以在此文件里修改。在此处修改的好处在于可以与不同版本的jdk共存而不影响原有业务。

1. 启动presto-server

此时如果/data/presto/var日志生成，且无报错信息，代表启动正常。

2. presto-cli 连接

把下载的jar包：presto-cli-0.221-executable.jar 重命名为：presto 并且赋予权限

此时可以查看到hive里的库及表

hive 统计百亿数据 hive查询数据量_hive 统计百亿数据_05

查看web界面

192.168.11.22:8080/ui/可查看整体状态。

hive 统计百亿数据 hive查询数据量_hadoop_06

至此，presto部署就完成了。其与hive的性能对比及使用建议等后续有机会再介绍。

本文地址：http://changmeillh.xhstdz.com/quote/63151.html 物流园资讯网 http://changmeillh.xhstdz.com/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

0 条相关评论

相关最新动态

推荐最新动态

点击排行