Apache Hive中如何进行分区

栏目: 服务器 · 发布时间: 8年前

内容简介：Apache Hive中如何进行分区

Apache Hive中如何进行分区

译者：CY2

Hive 是用于大数据集查询的好工具 —— 特别是当数据集需要全表扫描时。但用户经常需要对某个列的值进行过滤，这时候分区就非常有效。分区是一个包含数据块的目录。当我们做分区的时候，会为某个列的唯一值创建一个分区。

让我们来运行一个简单的示例来了解分区特性。创建分区表的语法是：

create table tablename(colname type) partitioned by(colname type);

如果 hive.exec.dynamic.partition.mode 设置为 strict，那么你至少需要一个静态分区。而 non-stric 模式下，所有的分区都是动态的。

Apache Hive中如何进行分区

这里我们创建了一个名为 emp_info 的表，包含两个字段 name 和 address。我们通过列 ID (类型 nt)对表进行分区，然后往表里插入数据。重点需要考虑的时候分区的列的基数(也就是该列包含唯一值的个数)。选择基数很高的列来做分区会导致数据严重的碎片化。不要对数据过分的分区。如果有太多的小分区，那么对这么多的分区目录进行扫描代价也是比较高的，甚至可能比全表扫描还高。

下面是插入 values 的语法：

insert into partition values();

首先我们插入一个 id=1 的记录，然后插入 id=2 的另外一条记录。

Apache Hive中如何进行分区

现在，进入 Hadoop 文件系统的 /user/hive/warehouse/default/empinfo 目录。

Apache Hive中如何进行分区

正如我们所看到的，这里有两个分区：一个名是 id=1 ，另外一个 id=2。当我们执行带 where 语句的查询时，就不会进行全表扫描，而只是扫描所需的分区。

Apache Hive中如何进行分区

如果你尝试对一个未分区的大数据集表，就会花很长时间，因为要进行全表的扫描。

希望这篇文章对你有用。祝编码快乐!

End.

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Inside Larry's and Sergey's Brain

Richard Brandt / Portfolio / 17 Sep 2009 / USD 24.95

You’ve used their products. You’ve heard about their skyrocketing wealth and “don’t be evil” business motto. But how much do you really know about Google’s founders, Larry Page and Sergey Brin? Inside......一起来看看《Inside Larry's and Sergey's Brain》这本书的介绍吧!

码农工具

HTML 压缩/解压工具

在线压缩/解压 HTML 代码

XML、JSON 在线转换

在线XML、JSON转换工具