Kettle 7.1 连接Hadoop集群

栏目: 编程工具 · 发布时间: 6年前

内容简介：在Tools -> Hadoop Distribution 中选择 “HortonWorks HDP 2.5.x”。复制 Hadoop 环境下的的 core-site.xml 文件到 kettle 安装目录下的 “plugins/pentaho-big-data-plugin/hadoop-configurations/hdp25” 目录下。做完上面两步后，重新启动 Kettle。

设置Hadoop环境

在Tools -> Hadoop Distribution 中选择 “HortonWorks HDP 2.5.x”。

复制core-site.xml文件

复制 Hadoop 环境下的的 core-site.xml 文件到 kettle 安装目录下的 “plugins/pentaho-big-data-plugin/hadoop-configurations/hdp25” 目录下。

做完上面两步后，重新启动 Kettle。

测试Hadoop集群连接

添加一个Transformations。

在 View -> Transformations -> Hadoop clusters 添加一个新的 Hadoop 集群。配置大致如下：（修改后可以测试一下）

Cluster Name: myhdfs
Storage: HDFS
HDFS: (可以参考core-site.xml文件)
  Hostname: <ip>
  Port: 8020
  Username: <user>
  Password: <password>
JobTracker:
  Hostname: <ip>
  Port: 8032
Zookeeper:
  Hostname: <ip>
  Port: 2181

在工作区，拖拽一个 “Hadoop File Input” 和 “Hadoop File Output”，并建立关联。

修改“Hadoop File Input”

Environment: myhdfs
File/Folder: /tmp/users.dat

修改“Hadoop File Output”

Hadoop cluster: myhdfs
Folder/File: /tmp/users_new.dat

运行Transformations，然后检查结果。

以上所述就是小编给大家介绍的《Kettle 7.1 连接Hadoop集群》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

从零开始学微信公众号运营推广

叶龙 / 清华大学出版社 / 2017-6-1 / 39.80

本书是丛书的第2本，具体内容如下。第1章运营者入门——选择、注册和认证第2章变现和赚钱——如何从0到100万第3章决定打开率——标题的取名和优化第4章决定美观度——图片的选取和优化第5章决定停留率——正文的编辑和优化第6章决定欣赏率——版式的编辑和优化第7章数据的分析——用户内容的精准营销书中从微信运营入门开始，以商业变......一起来看看《从零开始学微信公众号运营推广》这本书的介绍吧!

码农工具