学习 Parquet(二):Java API

栏目: Java · 发布时间: 5年前

内容简介:编辑 pom.xml 文件,添加依赖:Parquet 是结构化的文件结构,需要先定义 Schema。以定义Schema 支持的类型,定义在枚举

依赖

编辑 pom.xml 文件,添加依赖:

<dependency>  
  <groupId>org.apache.parquet</groupId>
  <artifactId>parquet-avro</artifactId>
  <version>1.10.1</version>
</dependency>

写入

Schema

Parquet 是结构化的文件结构,需要先定义 Schema。以定义 id long, name string 结构的 Schema 为例:

List<Schema.Field> fields = new ArrayList<>(2);  
fields.add(new Schema.Field("id", Schema.create(Schema.Type.LONG), "id", null));  
fields.add(new Schema.Field("name", Schema.create(Schema.Type.STRING), "name", null));  
Schema schema = Schema.createRecord(fields);

Schema 支持的类型,定义在枚举 org.apache.avro.Schema.Type 中:

public enum Type {  
  RECORD, ENUM, ARRAY, MAP, UNION, FIXED, STRING, BYTES,
    INT, LONG, FLOAT, DOUBLE, BOOLEAN, NULL;
  private String name;
  private Type() { this.name = this.name().toLowerCase(Locale.ENGLISH); }
  public String getName() { return name; }
}

其中, RECORDENUMARRAYMAPUNIONFIXED 是复合类型, STRINGBYTESINTLONGFLOATBOOLEANNULL 是基本类型。

Writer

有了 Schema 之后,就可以写入文件了:

ParquetWriter<GenericData.Record> writer = AvroParquetWriter.<GenericData.Record>builder(path)  
    .withSchema(schema)
    .build();

GenericData.Record record = new GenericData.Record(schema);  
record.put(0, 0);  
record.put(1, "this is a test.");  
writer.write(record);

writer.close();

读取

ParquetReader<GenericData.Record> reader = AvroParquetReader.<GenericData.Record>builder(path).build();  
GenericData.Record record = reader.read();  
reader.close();

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

网络英雄传

网络英雄传

郭羽、刘波 / 江苏凤凰文艺出版社 / 2018-6 / 59.80元

“商战鬼才郭羽、营销奇才刘波强强联手,凝集十年实战经验,倾力打造商战巨作。” 这是一个商业竞争和资本激战交织的惊心动魄的创业交锋故事。 由郭天宇、刘帅共同创立的在线旅游公司万全天盛凭借其出色的商业模式异军突起,与老牌巨头“51旅游网”两强相争,但国际巨头通远来势汹汹,国内在线旅游市场进入战火纷飞的“三国杀”时代,分踞杭、沪、京三地互相“搏杀”。中国新兴的互联网公司面对国际巨头的入侵,毫不退缩......一起来看看 《网络英雄传》 这本书的介绍吧!

SHA 加密
SHA 加密

SHA 加密工具

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试