Apache Hive中如何进行分区

栏目: 服务器 · 发布时间: 8年前

内容简介：Apache Hive中如何进行分区

Apache Hive中如何进行分区

译者：CY2

Hive 是用于大数据集查询的好工具 —— 特别是当数据集需要全表扫描时。但用户经常需要对某个列的值进行过滤，这时候分区就非常有效。分区是一个包含数据块的目录。当我们做分区的时候，会为某个列的唯一值创建一个分区。

让我们来运行一个简单的示例来了解分区特性。创建分区表的语法是：

create table tablename(colname type) partitioned by(colname type);

如果 hive.exec.dynamic.partition.mode 设置为 strict，那么你至少需要一个静态分区。而 non-stric 模式下，所有的分区都是动态的。

Apache Hive中如何进行分区

这里我们创建了一个名为 emp_info 的表，包含两个字段 name 和 address。我们通过列 ID (类型 nt)对表进行分区，然后往表里插入数据。重点需要考虑的时候分区的列的基数(也就是该列包含唯一值的个数)。选择基数很高的列来做分区会导致数据严重的碎片化。不要对数据过分的分区。如果有太多的小分区，那么对这么多的分区目录进行扫描代价也是比较高的，甚至可能比全表扫描还高。

下面是插入 values 的语法：

insert into partition values();

首先我们插入一个 id=1 的记录，然后插入 id=2 的另外一条记录。

Apache Hive中如何进行分区

现在，进入 Hadoop 文件系统的 /user/hive/warehouse/default/empinfo 目录。

Apache Hive中如何进行分区

正如我们所看到的，这里有两个分区：一个名是 id=1 ，另外一个 id=2。当我们执行带 where 语句的查询时，就不会进行全表扫描，而只是扫描所需的分区。

Apache Hive中如何进行分区

如果你尝试对一个未分区的大数据集表，就会花很长时间，因为要进行全表的扫描。

希望这篇文章对你有用。祝编码快乐!

End.

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

设计模式之禅

秦小波 / 机械工业出版社 / 2010年3月 / 69.00元

如果说“四人帮”的《设计模式》是设计模式领域的“圣经”，那么之后出版的各种关于设计模式的书都可称之为“圣经”的“注释版”或“圣经的故事”。本书是得道者对“圣经”的“禅悟”，它既不像“圣经”那样因为惜字如金、字字珠玑而深奥、晦涩和难懂，又比“圣经”的“注释版”更深刻和全面、更通俗和生动、更接近开发者遇到的实践场景，更具指导性。本书兼收并蓄、博采众长，也许是设计模式领域里的下一个里程碑之作。全......一起来看看《设计模式之禅》这本书的介绍吧!

码农工具

Apache Hive中如何进行分区

设计模式之禅

在线进制转换器

Base64 编码/解码

正则表达式在线测试