安装和配置Hive

栏目: 服务器 · 发布时间: 6年前

内容简介：直接通过MapReduce来对存储在Hadoop HDFS上的数据进行查询和分析比较繁琐而且还需要编程。Hive是一个数据仓库系统，构建在HDFS之上，它提供了类似SQL的语法（HQL），可以将HQL翻译成MapReduce作业进行查询，使得对数据的管理和检索更为便利。这篇文章记录了如何在linux上安装hive。因为hive基于Hadoop，所以需要先安装Hadoop，如果你还没有安装Hadoop，可以参考前往Apache的官方下载地址：

直接通过MapReduce来对存储在Hadoop HDFS上的数据进行查询和分析比较繁琐而且还需要编程。Hive是一个数据仓库系统，构建在HDFS之上，它提供了类似 SQL 的语法（HQL），可以将HQL翻译成MapReduce作业进行查询，使得对数据的管理和检索更为便利。

这篇文章记录了如何在 linux 上安装hive。因为hive基于Hadoop，所以需要先安装Hadoop，如果你还没有安装Hadoop，可以参考 linux上安装和配置Hadoop(单节点) 进行安装。

下载和安装hive

前往Apache的官方下载地址： https://hive.apache.org/downloads.html ，经历两个二级下载页后，获得到最终的下载地址。

登录linux系统，进入~/downloads文件夹，使用wget命令，下载安装包。这里安装的是次新版本2.3.3。

# wget https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-2.3.3/apache-hive-2.3.3-bin.tar.gz

使用tar命令安装至/opt文件夹

# tar zxvf apache-hive-2.3.3-bin.tar.gz -C /opt

配置PATH环境变量

使用vim编辑~/.bashrc，加入HIVE_HOME环境变量，将下面的语句复制到~/.bashrc的底部。

export HIVE_HOME=/opt/apache-hive-2.3.3-bin export PATH=$PATH:$HIVE_HOME/bin

启动Hive命令行

直接在控制台输入hive，即可启动hive。

# hive Logging initialized using configuration in jar:file:/opt/hive/apache-hive-2.3.3-bin/lib/hive-common-2.3.3.jar!/hive-log4j2.properties Async: true Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases. hive>

完成后进入到hive的命令行界面。输入 exit; 或者按Ctrl+C则可以退出。

可以看到上面有一句话：Hive-on-MR is deprecated in Hive 2 ...，意思是说Hive 2版本之后可以使用新的计算引擎（例如spark和tez），Hive默认的计算引擎仍然是MapReduce，大家都知道MapReduce的执行速度是非常慢的。

执行第一个Hive查询

使用下面的命令，查看现有的数据库：

# show databases; OK default Time taken: 0.042 seconds, Fetched: 1 row(s)

会看到有一个默认的default数据库。

异常：Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

执行 show databases; 后，你可能会遇到这个异常。解决办法是：1、先退出hive，然后删掉metastore_db文件夹，可以使用下面的命令找出metastore_db的位置：

# find / -name metastore_db /root/metastore_db

我是以root用户安装的hive，在我的主机上，这个目录位于/root下。使用rm命令删除之：

# rm -fR /root/metastore_db

这个metastore_db出现的位置为你执行hive命令的当前文件夹。所以每次执行hive时最好进入同一个文件夹，否则就会创建很多个metastore_db，然后再次出现上面的异常。

2、进入/root文件夹（或者是刚才find命令找出的metastore_db的上级目录），使用schematool工具重建metastore_db：

# schematool -initSchema -dbType derby Metastore connection URL: jdbc:derby:;databaseName=metastore_db;create=true Metastore Connection Driver : org.apache.derby.jdbc.EmbeddedDriver Metastore connection User: APP Starting metastore schema initialization to 2.3.0 Initialization script hive-schema-2.3.0.derby.sql Initialization script completed schemaTool completed

执行完成后会重新创建一个metasotre_db文件夹。

metasotre_db保存了hive的元信息，也就是使用hive创建了哪些数据库、每个库中包含哪些表，诸如此类。

重新进入hive命令行，再次执行 show databases; ，正常的话可以看到返回结果。

默认情况下hive使用derby数据库将元信息保存在本地，一种更常见的做法是保存到 mysql 数据库，具体操作可以查看这里：配置Hive使用MySql存储元数据。

通过Hadoop HDFS查看数据库文件

除了使用default默认库以外，HIVE提供了很多DDL语句对数据结构进行创建、更改和删除。具体可以参看： LanguageManual DDL 。

下面使用create database 命令创建一个叫做tglog_aw_2018的新数据库：

hive>> create database tglog_aw_2018; OK Time taken: 0.191 seconds

那么这个数据库文件创建到哪里去了呢？可以查看 $HIVE_HOME/conf/下的hive-default.xml.template，它是Hive的默认配置文件。如果想要重写配置，则可以在$HIVE_HOME/conf下新建一个hive-site.xml文件。在hive-default.xml.template中搜索hive.metastore.warehouse.dir配置项，可以看到如下的配置：

<property> <name>hive.metastore.warehouse.dir</name> <value>/user/hive/warehouse</value> <description>location of default database for the warehouse</description> </property>

说明我们的数据库文件位于/user/hive/warehouse文件夹下。

hive-default.xml.template这个文件很大，有5959行，如果在linux上使用cat命令输出会很难阅读，可以使用FTP工具下载到windows系统上，然后选择自己喜欢的编辑器进行查看。

需要注意的是：这个/user/hive/warehouse并不是linux系统上的文件夹，而是位于HDFS上。因此如果要查看这个文件夹，可以通过下面的命令：

# hdfs dfs -ls /user/hive/warehouse Found 1 items drwxrwxrwx - root supergroup 0 2018-07-17 20:16 /user/hive/warehouse/tglog_aw_2018.db

也可以通过HDFS NameNode的Web UI进行查看：

至此，就可以通过命令行来对Hive进行操作管理了。接下来，需要深入地去学习Hive的“SQL语句”，除此以外，还要掌握通过编程的方式对Hive进行操作。

感谢阅读，希望这篇文章能给你带来帮助！

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

C++编程思想（第1卷）

[美] Bruce Eckel / 刘宗田、袁兆山、潘秋菱 / 机械工业出版社 / 2002-9 / 59.00元

《C++编程思考》第2版与第1版相比，在章节安排上有以下改变。增加了两章：“对象的创建与使用”和“C++中的C”，前者与“对象导言”实际上是第1版“对象的演化”一章的彻底重写，增加了近几年面向对象方法和编程方法的最瓣研究与实践的有效成果，后者的添加使不熟悉C的读者可以直接使用这本书。删去了四章：“输入输出流介绍”、“多重继承”、“异常处理”和“运行时类型识别”，删去的内容属于C++中较复杂的主题，......一起来看看《C++编程思想（第1卷）》这本书的介绍吧!

码农工具