内容简介:Apache Pig的一些基础概念及用法总结(2)
转载必须注明出处: http://www.codelast.com/
本文可以让刚接触pig的人对一些基础概念有个初步的了解。
本文的大量实例都是作者Darran Zhang(website: codelast.com)在工作、学习中总结的经验或解决的问题,并且添加了较为详尽的说明及注解,此外,作者还在不断地添加本文的内容,希望能帮助一部分人。
要查看Pig系列教程,请点击
【这里】
。
Apache pig
是用来处理大规模数据的高级查询语言,配合Hadoop使用,可以在处理海量数据时达到事半功倍的效果,比使用Java,C++等语言编写大规模数据处理程序的难度要小N倍,实现同样的效果的代码量也小N倍。Twitter就大量使用pig来处理海量数据——有兴趣的,可以看Twitter工程师写的
这个PPT
。
但是,刚接触pig时,可能会觉得里面的某些概念以及程序实现方法与想像中的很不一样,甚至有些莫名,所以,你需要仔细地研究一下基础概念,这样在写pig程序的时候,才不会觉得非常别扭。
本文基于以下环境:
pig 0.8.1
先给出两个链接:
pig参考手册1
,
pig参考手册2
。本文的部分内容来自这两个手册,但涉及到翻译的部分,也是我自己翻译的,因此可能理解与英文有偏差,如果你觉得有疑义,可参考英文内容。
(1)
LIMIT操作并不会减少读入的数据量
如果你只需要输出一个小数据集,通常你可以使用LIMIT来实现,例如:
A = LOAD '1.txt' AS (col1: int, col2: chararray); B = LIMIT A 5; DUMP B;
Pig会只加载5条记录,就不再读取其他的记录了吗?答案是:不会。Pig将读取数据文件中的所有记录,然后再从中挑5条。这是Pig可以做优化、却没有做的一点。
【更新】
Pig 0.10已经有了这功能了:
Push Limit into LoaderPig optimizes limit query by pushing limit automatically to the loader, thus requiring only a fraction of the entire input to be scanned.
文章来源:
http://www.codelast.com/
(2)
使用UDF不一定要在Pig脚本中REGISTER,也可以在命令行指定
大家知道,使用UDF需要在Pig脚本中REGISTER该UDF的jar包,但你可能不知道,你也可以不在Pig脚本中REGISTER它,而是通过命令行指定:
pig -Dpig.additional.jars=/home/codelast/a.jar:/home/codelast/b.jar:/home/codelast/c.jar test.pig
以上命令告诉了我们几件事:
①
我们让Pig执行了test.pig脚本;
②
我们向Pig传入了“pig.additional.jars”这样一个参数,此参数的作用相当于在Pig脚本中REGISTER jar包;
③
如果你要REGISTER多个jar包,只需像上面的例子一样,用分号(:)把多个jar包路径隔开即可;
④
test.pig必须写在最后,而不能写成“
pig test.pig -Dpig.additional.jars=XXX
”这样,否则Pig直接报错:
ERROR 2999: Unexpected internal error. Encountered unexpected arguments on command line – please check the command line.
当然,为了可维护性好,你最好把REGISTER jar包写在Pig脚本中,不要通过命令行传入。
(3)
使用ORDER排序时,null会比所有值都小
用ORDER按一个字段排序,如果该字段的所有值中有null,那么null会比其他值都小。
(4)
如何按指定的几个字段来去重
去重,即去除重复的记录。通常,我们使用DISTINCT来去除整行重复的记录,但是,如果我们只想用几个字段来去重,怎么做?
假设有以下数据文件:
[root@localhost ~]$ cat 1.txt 1 2 3 4 uoip 1 2 3 4 jklm 9 7 5 3 sdfa 8 8 8 8 dddd 9 7 5 3 qqqq 8 8 8 8 sfew
我们要按第1、2、3、4个字段来去重,也就是说,去重结果应为:
1 2 3 4 uoip 9 7 5 3 sdfa 8 8 8 8 dddd
那么,我们可以这样做:
A = LOAD '1.txt' AS (col1: chararray, col2: chararray, col3: chararray, col4: chararray, col5: chararray); B = GROUP A BY (col1, col2, col3, col4); C = FOREACH B { D = LIMIT A 1; GENERATE FLATTEN(D); }; DUMP C;
文章来源:
http://www.codelast.com/
输出结果为:
(1,2,3,4,uoip) (8,8,8,8,dddd) (9,7,5,3,sdfa)
代码很简单,就是利用了GROUP时会自动对group的key去重的功能,这里不用多解释大家应该也能看懂。
(5)
如何设置Pig job的名字,使得在Hadoop jobtracker中可以清晰地识别出来
在Pig脚本中的一开始处,写上这一句:
set job.name 'This is my job';
将使得Pig job name被设置为“This is my job”,从而在Hadoop jobtracker的web界面中可以很容易地找到你的job。如果不设置的话,其名字将显示为“ PigLatin:DefaultJobName ”。
(6)
“
scalar has more than one row in the output
”错误的一个原因
遇到了这个错误?我来演示一下如何复现这个错误。
假设有两个文件:
[root@localhost ~]$ cat a.txt 1 2 3 4 [root@localhost ~]$ cat b.txt 3 4 5 6
现在我们来做一个JOIN:
A = LOAD 'a.txt' AS (col1: int, col2: int); B = LOAD 'b.txt' AS (col1: int, col2: int); C = JOIN A BY col1, B BY col1; D = FOREACH C GENERATE A.col1; DUMP D;
这段代码是必然会fail的,错误提示为:
org.apache.pig.backend.executionengine.ExecException: ERROR 0: Scalar has more than one row in the output. 1st : (1,2), 2nd :(3,4)
文章来源:
http://www.codelast.com/
乍一看,似乎代码简单得一点问题都没有啊?其实仔细一看,“
A.col1
”的写法根本就是错误的,应该写成“
A::col1
”才对,因为你只要 DESCRIBE 一下 C 的schema就明白了:
C: {A::col1: int,A::col2: int,B::col1: int,B::col2: int}
Pig的这个错误提示得很不直观,在 这个链接 中也有人提到过了。
(7)
如何将数据保存为LZO压缩格式的文本文件
还是借助于elephant-bird,可以轻易完成这个工作:
A =LOAD 'input'; STORE A INTO 'output' USING com.twitter.elephantbird.pig.store.LzoPigStorage();
结果就会得到一堆名称类似于“
part-m-00000.lzo
”的文件。
注意以上省略了一堆的“
REGISTER XXX.jar
”代码,你需要自己添加上你的jar包路径。
有人说,那加载LZO压缩的文本文件呢?很简单:
A = LOAD 'output' USING com.twitter.elephantbird.pig.store.LzoPigStorage(',');
这表示指定了分隔符为逗号,如果不想指定,省略括号中的内容即可。
(未完待续)
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- ElasticSearch重要概念及简单用法
- Apache Pig的一些基础概念及用法总结(2)
- Apache Pig的一些基础概念及用法总结(2)
- Go学习日志:基本概念及通道
- 喧哗的背后:Serverless 的概念及挑战
- Python类、模块、包的概念及区别
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Python网络编程基础
John Goerzen / 莫迟 等 / 电子工业出版社 / 2007 / 68.00元
《Python网络编程基础》可以作为各层次Python、Web和网络程序的开发人员的参考书,在实际工作中使用书中的技术,效果更佳。一起来看看 《Python网络编程基础》 这本书的介绍吧!