内容简介:Apache Hive中如何进行分区
译者:CY2
Hive 是用于大数据集查询的好工具 —— 特别是当数据集需要全表扫描时。但用户经常需要对某个列的值进行过滤,这时候分区就非常有效。分区是一个包含数据块的目录。当我们做分区的时候,会为某个列的唯一值创建一个分区。
让我们来运行一个简单的示例来了解分区特性。创建分区表的语法是:
create table tablename(colname type) partitioned by(colname type);
如果 hive.exec.dynamic.partition.mode 设置为 strict,那么你至少需要一个静态分区。而 non-stric 模式下,所有的分区都是动态的。
这里我们创建了一个名为 emp_info 的表,包含两个字段 name 和 address。我们通过列 ID (类型 nt)对表进行分区,然后往表里插入数据。重点需要考虑的时候分区的列的基数(也就是该列包含唯一值的个数)。选择基数很高的列来做分区会导致数据严重的碎片化。不要对数据过分的分区。如果有太多的小分区,那么对这么多的分区目录进行扫描代价也是比较高的,甚至可能比全表扫描还高。
下面是插入 values 的语法:
insert into partition values();
首先我们插入一个 id=1 的记录,然后插入 id=2 的另外一条记录。
现在,进入 Hadoop 文件系统的 /user/hive/warehouse/default/empinfo 目录。
正如我们所看到的,这里有两个分区:一个名是 id=1 ,另外一个 id=2。当我们执行带 where 语句的查询时,就不会进行全表扫描,而只是扫描所需的分区。
如果你尝试对一个未分区的大数据集表,就会花很长时间,因为要进行全表的扫描。
希望这篇文章对你有用。 祝编码快乐!
End.
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- Apache Hive中如何进行分区
- db2 定义分区表和分区键
- HBase漫谈 | HBase分区过多影响&合理分区数量
- 大数据开发学习之Hive的静态分区与动态分区
- 好程序员大数据培训之掌握Hive的静态分区与动态分区
- Oracle 12r2 数据库之间传输表,分区或子分区
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Spring揭秘
王福强 / 人民邮电出版社 / 2009.8 / 99.00元
没有教程似的训导,更多的是说故事般的娓娓道来,本书是作者在多年的工作中积累的第一手Spring框架使用经验的总结,深入剖析了Spring框架各个模块的功能、出现的背景、设计理念和设计原理,揭开了Spring框架的神秘面纱,使你“知其然,更知其所以然”。每部分的扩展篇帮助读者活学活用Spring框架的方方面面,同时可以触类旁通,衍生出新的思路和解决方案。 本书内容全面,论述深刻入理,必将成为每......一起来看看 《Spring揭秘》 这本书的介绍吧!