Hive自訂函數

來源:互聯網
上載者:User

當Hive提供的內建函數無法滿足你的業務處理需要時,此時就可以考慮使用使用者自訂函數(UDF:user-defined function)。

Hive目前只支援用java語言書寫自訂函數。如果需要採用其他語言,比如Python,可以考慮上一節提到的transform文法來實現。

Hive支援三種自訂函數,我們逐個講解。

UDF

這是普通的使用者自訂函數。接受單行輸入,併產生單行輸出。

編寫java代碼如下:

package com.oserp.hiveudf;

 

import org.apache.hadoop.hive.ql.exec.UDF;

import org.apache.hadoop.io.Text;

 

public classPassExam extendsUDF {

   

    publicText evaluate(Integer score)

    {

        Text result = new Text();

       

        if(score < 60)

            result.set("Failed");

        else

            result.set("Pass");

       

        return result;    

    }

}

然後,打包成.jar檔案,比如hiveudf.jar。

執行以下語句:

add jar /home/user/hadoop_jar/hiveudf.jar;

create temporary function pass_scorecom.oserp.hiveudf.PassExam;

select stuNo,pass_score(score) from student;

輸出結果為:

N0101      Pass

N0102      Failed

N0201      Pass

N0103      Pass

N0302      Pass

N0202      Pass

N0203      Pass

N0301      Failed

N0306      Pass

第一個語句註冊jar檔案;第二個語句為自訂函數取別名;第三個語句調用自訂函數。

Java代碼中,自訂函數的類繼承自UDF類,且提供了一個evaluate方法。這個方法接受一個整數值作為參數,並返回字串。結構十分明了。其中的evaluate方法並沒有作為interface提供,因為實際使用時,函數的參數個數及類型是多變的。

以上UDF名稱是不區分大小寫,比如調用時寫成PASS_SCORE也是可以的(因為它是hive中的別名,不是java類名)。

 

使用完成後,可調用以下語句刪除函數別名:

Drop temporary function pass_score;

UDAF

使用者定義聚集合函式(User-defined aggregate function)。接受多行輸入,併產生單行輸出。比如MAX,COUNT函數。

編寫以下Java代碼:

packagecom.oserp.hiveudf;

 

importorg.apache.hadoop.hive.ql.exec.UDAF;

importorg.apache.hadoop.hive.ql.exec.UDAFEvaluator;

importorg.apache.hadoop.hive.serde2.io.DoubleWritable;

importorg.apache.hadoop.io.IntWritable;

 

publicclass HiveAvgextends UDAF { 

   

    public staticclass AvgEvaluate implements UDAFEvaluator

    {

        public staticclass PartialResult

        {

            public intcount;

            public doubletotal;     

           

            public PartialResult()

            {

                count = 0;

                total = 0;

            }

        }

       

        private PartialResultpartialResult;  

 

        @Override

        public voidinit() {

            partialResult = new PartialResult();

        }

       

        public booleaniterate(IntWritable value)

        {              

            // 此處一定要判斷partialResult是否為空白,否則會報錯

            // 原因就是init函數只會被調用一遍,不會為每個部分聚集操作去做初始化

            //此處如果不加判斷就會出錯

            if (partialResult==null)

            {

                partialResult =new PartialResult();

            }

           

            if (value !=null)

            {

                partialResult.total =partialResult.total +value.get();

                partialResult.count=partialResult.count + 1;

            }

           

            return true;          

        }

       

        public PartialResult terminatePartial()

        {

            returnpartialResult;

        }

       

        public booleanmerge(PartialResult other)

        {  

            partialResult.total=partialResult.total + other.total;

            partialResult.count=partialResult.count + other.count;

           

            return true;

        }

       

        public DoubleWritable terminate()

        {

            return newDoubleWritable(partialResult.total /partialResult.count);

        }

    }

}

然後打包成jar檔案,比如hiveudf.jar。

執行以下語句:

add jar/home/user/hadoop_jar/hiveudf.jar; 

create temporary function avg_udf as'com.oserp.hiveudf.HiveAvg';

select classNo, avg_udf(score) from studentgroup by classNo;  

輸出結果如下:

C01 68.66666666666667

C02 80.66666666666667

C03 73.33333333333333

 

參照以示(來自Hadoop權威教程)我們來看看各個函數:

l  Init在類似於建構函式,用於UDF的初始化。

注意中紅色框中的init函數。在實際運行中,無論hive將記錄集劃分了多少個部分去做(比如中的file1和file2兩個部分),init函數僅被調用一次。所以中的樣本是有歧義的。這也是為什麼上面的代碼中加了特別的注釋來說明。或者換一句話說,init函數中不應該用於初始化部分聚集值相關的邏輯,而應該處理全域的一些資料邏輯。

l  Iterate函數用於彙總。當每一個新的值被彙總時,此函數被調用。

l  TerminatePartial函數在部分彙總完成後被調用。當hive希望得到部分記錄的彙總結果時,此函數被調用。

l  Merge函數用於合并先前得到的部分彙總結果(也可以理解為分塊記錄的彙總結果)。

l  Terminate返回最終的彙總結果。

 

我們可以看出merge的輸入參數類型和terminatePartial函數的返回值類型必須是一致的。

UDTF

使用者定義表產生函數(User-defined table-generating function)。接受單行輸入,併產生多行輸出(即一個表)。不是特別常用,此處不詳述。

相關文章

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.