Hadoop 文件格式

栏目: 服务器 · 发布时间: 7年前

内容简介:Hadoop 文件格式

CSV

CSV(Comma-Separated Value 逗号分隔值)

特性

  • 文本文件
  • 面向行
  • 记录被分隔符分隔为字段
  • 记录有着相同的字段序列

场景

易于解析,适用于从 Sqoop 导入到 HDFS 或从 HDFS 导出到数据库的文件格式

提示

  1. 文本编码
  2. 保证记录中的字段不包含分隔符(使用不常用的字符作为分隔符或者替换字段中的分隔符)
  3. 使用 Apache Commons Lang 3 项目的 StringUtils.splitPreserveAllTokens 替换 Java String 自带的 string.split 解析 CSV

JSON

JSON(JavaScript Object Notation JavaScript 对象标记)

特性

  • 文本文件
  • 面向行

场景

可读性好,适用于调试

Avro

Apache Avro

特性

  • 序列化框架
  • 自描述 Schema
  • 面向行
  • 可分片
  • 支持内部压缩

场景

空间利用率高,适用于归档数据

Parquet

Apache Parquet

特性

  • 自描述 Schema
  • 面向列
  • 可分片
  • 支持内部压缩

场景

列式存储,适用于结构化查询

Kudu

Apache Kudu

特性

  • 面向列

场景

列式存储,适用于流处理


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

编程匠艺

编程匠艺

(美)古德利弗(Goodliffe, P.)著 / 韩江,陈玉译 / 电子工业出版社 / 2008-9 / 79.00元

如果你可以编写出合格的代码,但是想更进一步、创作出组织良好而且易于理解的代码,并希望成为一名真正的编程专家或提高现有的职业技能,那么《编程匠艺——编写卓越的代码》都会为你给出答案。本书的内容遍及编程的各个要素,如代码风格、变量命名、错误处理和安全性等。此外,本书还对一些更广泛的编程问题进行了探讨,如有效的团队合作、开发过程和文档编写,等等。本书各章的末尾均提供一些思考问题,这些问题回顾了各章中的一......一起来看看 《编程匠艺》 这本书的介绍吧!

XML、JSON 在线转换
XML、JSON 在线转换

在线XML、JSON转换工具

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器

html转js在线工具
html转js在线工具

html转js在线工具