Hive中的UDF、UDTF、UDAF是三种不同类型的用户自定义函数,以下是它们的详细介绍:
UDF(User Defined Function)
- 定义与特点:对单个输入行进行处理,并生成单个输出行,输入输出关系为1:1。常用于处理数据转换、计算等简单操作,比如字符串处理、日期计算、数据格式化等。
- 实现方法
- 继承
org.apache.hadoop.hive.ql.exec.UDF
类或者org.apache.hadoop.hive.ql.udf.generic.GenericUDF
类,建议使用后者,因为GenericUDF
提供了更多功能。 - 对于继承
GenericUDF
的类,需要重写initialize
、evaluate
、getDisplayString
等方法;对于继承UDF
的类,需要手动提供evaluate
方法,且方法名必须为evaluate
。
- 继承
- 使用示例
- 先将Java代码打包成jar包上传到服务器。
- 在Hive命令行中添加jar包到Hive Classpath:
ADD JAR /home/admin/original-arc-hive-1.0.jar
。 - 创建临时函数:
CREATE TEMPORARY FUNCTION str_len_1 AS 'com.arc.hive.udf.MyStringLengthFunction'
。 - 可在查询中使用:
SELECT str_len_1(column_name) FROM table_name
。
UDAF(User Defined Aggregation Function)
- 定义与特点:用于对多行数据进行聚合操作,产生一个输出行,输入输出关系为n:1。通常用于计算诸如平均值、总和、计数、最大值、最小值等聚合结果。
- 实现方法
- 用户的UDAF必须继承
org.apache.hadoop.hive.ql.exec.UDAF
,且包含至少一个实现了org.apache.hadoop.hive.ql.exec.UDAFEvaluator
的静态类。 - 实现
UDAFEvaluator
接口中的init
、iterate
、terminatePartial
、merge
、terminate
这5个方法。
- 用户的UDAF必须继承
- 使用示例
- 编写Java代码实现自定义的
UDAF
类。 - 打包成jar包并添加到Hive的classpath。
- 创建函数并在查询中使用,如计算平均成绩:
SELECT myAVG(score) FROM student_table
。
- 编写Java代码实现自定义的
UDTF(User Defined Table Generating Function)
- 定义与特点:对单个输入行进行处理,产生多个输出行,输入输出关系为1:n。常用于将复杂数据结构如数组、Map等展开成多行数据,或者进行数据的拆分、转换等操作。
- 实现方法
- 继承
org.apache.hadoop.hive.ql.udf.generic.GenericUDTF
类。 - 实现
initialize
、process
、close
三个方法。
- 继承
- 使用示例
- 编写Java代码实现自定义的
UDTF
类。 - 打包上传后在Hive命令行创建函数。
- 使用时一般需要结合
lateral view
,如SELECT id, names, score FROM udtf_test lateral view split_udtf(name, ',') temp as names
。
- 编写Java代码实现自定义的