内容简介:=, !=, <, >, IS NULL, ...+, -, *, /, ...AND, OR, IN, ...
operators
=, !=, <, >, IS NULL, ...
+, -, *, /, ...
AND, OR, IN, ...
UDF(User Defined Functions)
hive内置的udf函数 (1 -> 1): **
math: round, floor, ceil, exp, log, ...
date: to_date, from_unixtimestamp, ...
conditional: if, isnull, case, coalsce, ...
string: char, concat, lower, trim, repeat, ...
自定义的UDF实现方法:
- 继承UDF类
- 重写evaluate方法
- 将该 java 文件编译成jar
UDAF(User Defined Aggregate Functions)
hive内置的udaf函数 (n -> 1):
count, sum, min, max, corr, ....
自定义的UDAF实现方法:
1,用户的UDAF必须继承了org.apache.hadoop.hive.ql.exec.UDAF;
2,用户的UDAF必须包含至少一个实现了org.apache.hadoop.hive.ql.exec的静态类,诸如实现了 UDAFEvaluator
3,一个计算函数必须实现的5个方法的具体含义如下:
init():主要是负责初始化计算函数并且重设其内部状态,一般就是重设其内部字段。一般在静态类中定义一个内部字段来存放最终的结果。
iterate():每一次对一个新值进行聚集计算时候都会调用该方法,计算函数会根据聚集计算结果更新内部状态。当输 入值合法或者正确计算了,则 就返回true。
terminatePartial():Hive需要部分聚集结果的时候会调用该方法,必须要返回一个封装了聚集计算当前状态的对象。
merge():Hive进行合并一个部分聚集和另一个部分聚集的时候会调用该方法。
terminate():Hive最终聚集结果的时候就会调用该方法。计算函数需要把状态作为一个值返回给用户。
UDTF(User Defined Tabular Functions)
hive内置的udtf函数 (1 -> n):
explode, posexplode, parse_url_tuple, ...
自定义的实现方法:
- 继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF
2.initialize():UDTF首先会调用initialize方法,此方法返回UDTF的返回行的信息(返回个数,类型)
3.process:初始化完成后,会调用process方法,真正的处理过程在process函数中,在process中,每一次forward() 调用产生一行;如果产生多列 可以将多个列的值放在一个数组中,然后将该数组传入到forward()函数
4.最后close()方法调用,对需要清理的方法进行清理
PTF(Partitioned table Function, Window Functions)
hive内置的ptf函数 (n -> m):
ROW_NUMBER(), RANK(), DENSE_RANK()
ROW_NUMBER() : 给分区每一行分别编号
RANK() :分区排名
DENSE_RANK() : 分区排名(紧密连续的名次)
e.g.
Usage
hive> show functions;
hive> desc function funcName;
hive> desc function extended funcName; // describe function with some example
customize:
- develop UD[.*]F
- compile to *.jar
- deploy to cluster
hive> add jar /path/to/lib.jar;
hive> create temporary function xxxx as "java.class.name";
hive> select xxxx(...) ...;
hive> drop temporary function xxxx;
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- Python 拓展之特殊函数(lambda 函数,map 函数,filter 函数,reduce 函数)
- Python 函数调用&定义函数&函数参数
- python基础教程:函数,函数,函数,重要的事说三遍
- C++函数中那些不可以被声明为虚函数的函数
- 017.Python函数匿名函数
- 纯函数:函数式编程入门
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
数据驱动设计
[美]罗谢尔·肯(RochelleKing)、[美]伊丽莎白F.邱吉尔(Elizabeth F Churchill)、Caitlin Tan / 傅婕 / 机械工业出版社 / 2018-8 / 69.00元
本书旨在帮你了解数据引导设计的基本原则,了解数据与设计流程整合的价值,避免常见的陷阱与误区。本书重点关注定量实验与A/B测试,因为我们发现,数据分析与设计实践在此鲜有交集,但相对的潜在价值与机会缺大。本书提供了一些关于在组织中开展数据实践的观点。通过阅读这本书,你将转变你的团队的工作方式,从数据中获得大收益。后希望你可以在衡量指标的选择、佳展示方式与展示时机、测试以及设计意图增强方面,自信地表达自......一起来看看 《数据驱动设计》 这本书的介绍吧!