Hive元数据管理

栏目: 服务器 · 发布时间: 5年前

内容简介:众所周知,hive表中的数据是HDFS上的文件,可是hive怎么知道这些文件的内容都对应哪个字段,对应哪个分区呢?就是hive的元数据管理着这一切。通常在hive-site.xml中的元数据库配置成MySQL,替换Derby。下面我们进MySQL看看元数据的表具体有哪些。

众所周知,hive表中的数据是HDFS上的文件,可是hive怎么知道这些文件的内容都对应哪个字段,对应哪个分区呢?

就是hive的元数据管理着这一切。通常在hive-site.xml中的元数据库配置成MySQL,替换Derby。

<property>
        <name>javax.jdo.option.ConnectionUserName</name>
        <value>root</value>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionPassword</name>
        <value>root</value>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionURL</name>
        <value>jdbc:mysql:///metastore?createDatabaseIfNotExists=true</value>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionDriverName</name>
        <value>com.mysql.jdbc.Driver</value>
    </property>

下面我们进 MySQL 看看元数据的表具体有哪些。

1.VERSION

这个存hive版本,有且仅有一条数据

Hive元数据管理

如果多了,会报错

Caused by: MetaException(message:Metastore contains multiple versions (2)

2.库相关表

Hive元数据管理

DBS是数据库主表,字段名顾名思义,样例数据如下

Hive元数据管理

DATABASE_PARAMS是创建数据库 WITH DBPROPERTIES (property_name=property_value, …)指定的参数

Hive元数据管理

FUNCS是函数表

Hive元数据管理

FUNC_RU是函数在哪个jar包中

Hive元数据管理

3.表相关表

Hive元数据管理

PS:调整里半天位置来截个图,感觉像站队合影一样……哈哈

TBLS是表的主表,存放hive所有表的主要信息,其中 TBL_TYPE 是表类型, MANAGED_TABLE 表示内部表, EXTERNAL_TABLE 表示外部表

Hive元数据管理

TABLE_PARAMS是表参数,类似DATABASE_PARAMS

TBL_PRIVS,TBL_COL_PRIVS分别是表权限与列权限

PARTITION_KEYS是分区信息表, INTEGER_IDX 是分区字段序号

Hive元数据管理

PARTITIONS是具体的分区记录,当某表添加新的分区时,会增加一条记录

Hive元数据管理

4.存储相关表

Hive元数据管理

SDS是存储主表,包含数据文件的输入输出格式,所在HDFS路径,是否压缩等

Hive元数据管理

COLUMNS_V2是列的信息,INTEGER_IDX是列的下标,对应文件的内容顺序

Hive元数据管理

SD_PARAMS是在创建表时候使用STORED BY ‘storage.handler.class.name’ [WITH SERDEPROPERTIES (…)指定

SERDES是序列化使用类的表

Hive元数据管理

SERDE_PARAMS存储列分隔符,行分隔符等

Hive元数据管理

在序列化参数表中记录列的分隔符,意味着Hive的存储是对每个字段各自序列化的。


以上所述就是小编给大家介绍的《Hive元数据管理》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

云计算安全与隐私

云计算安全与隐私

Tim Mather、Subra Kumaraswamy、Shahed Latif / 刘戈舟、杨泽明、刘宝旭 / 机械工业出版社华章公司 / 2011-6 / 65.00元

《云计算安全与隐私》可以使你明白当把数据交付给云计算时你所面临的风险,以及为了保障虚拟基础设施和网络应用程序的安全可以采取的行动。本书是由信息安全界知名专家所著,作者在书中给出许多中肯的忠告和建议。本书的读者对象包括:IT职员、信息安全和隐私方面的从业人士、业务经理、服务提供商,以及投资机构等。阅读本书你会了解直到现在还严重匮乏的云计算安全方面的详尽信息。 《云计算安全与隐私》主要内容包括:......一起来看看 《云计算安全与隐私》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具