Hive函式——日期函式，正則表示式和排序函式

作者：由丁點兒印記發表于旅遊時間：2020-04-12

1。日期函式

2。正則表示式

3。排序操作

本文主要分享下Hive中日期函式，正則表示式函式，以及排序函式的使用方法和特點。

1.日期函式

Hive中日期函式功能不是很強大，其實是加減函式只能對天操作，無法直接取n個月前的日期，或n年前的日期。即不支援

add_months（）

函式和

interval

關鍵詞。

/* 往前推兩個月 */

select

cast

（

add_months

（

date

‘2020-03-31’

，

）

date

format

‘yyyy-dd-mm’

）

——2020-01-31

/* 往前推1年*/

select

cast

（

date

‘2020-04-01’

interval

years

）

——2019-04-01

——ps：上述語法為TD資料庫，而且注意一點是interval關鍵詞遇到閏年會報錯

select

cast

（

date

‘2020-02-29’

interval

years

）

——結果不會是2019-02-28 而是error

——推薦使用add_months（）

select

cast

（

add_months

（

date

‘2020-02-29’

，

）

date

format

‘yyyy-dd-mm’

）

——2020-02-28

Hive中常用的三個函式如下：

日期減n天

select

date_sub

（

current_date

，

）

select

date_sub

（

‘2020-03-20’

，

）

——2020-03-19`

日期加n天

select

date_add

（

‘2020-03-19’

，

）

——2020-03-21

日期差

select

datediff

（

‘2020-03-22’

，

‘2020-03-20’

）

——2

2.正則表示式

Hive中正則表達函式有3個

regexp(string,pattern) --返回值布林型別 true false

主要在where中作篩選條件

select

regexp

（

‘ab。ge’

，

‘［0-9］’

）

——false

——同時包含數字和字母的正則表示式：‘^（？！［0-9］+$）［0-9a-zA-z］。*？$’

regexp_extract(string,pattern,int index) --返回值 string

int index 取值為[0-n],n不大於正則項pattern的組成個數，正則項由多部分組合每部分在()內包含。

ps： index = 0返回與符合正則的整個原表示式，index預設等於1 ；

select

regexp_extract

（

‘6a9d0b’

，

‘［0-9a-zA-Z］+’

，

）

—— 返回 6a9d0b

index 必須且只能設定為0 預設是1 會報錯，因為正則項pattern是一個整體，不是幾個部分組成；

正則項： '([0-9]+)(.*?)([0-9]+)'

這個正則項就是三部分組成第一部分是數字（［0-9］+）第二部分是字元的貪婪匹配，第三部分是字母。

——取滿足正則項的整體字串

select

regexp_extract

（

‘［“84745554”，“asDd”］’

，

‘（［0-9］+）（。*？）（［a-zA-Z］+）’

，

）；

——84745554“，”asDd

——取滿足正則項的第一部分子字串

select

regexp_extract

（

‘［“84745554”，“asDd”］’

，

‘（［0-9］+）（。*？）（［a-zA-Z］+）’

，

）；

——

——84745554

——取滿足正則項的第二部分子字串

select

regexp_extract

（

‘［“84745554”，“asDd”］’

，

‘（［0-9］+）（。*？）（［a-zA-Z］+）’

，

）；

——“，”

——取滿足正則項的第三部分子字串

select

regexp_extract

（

‘［“84745554”，“asDd”］’

，

‘（［0-9］+）（。*？）（［a-zA-Z］+）’

，

）；

——asDd

主要在select語句中篩選子字串

select

regexp_extrct

（

‘trx_txt’

，

‘［0-9］’

，

）

regexp_replace(string,pattern,replace string) --返回值 string

主要在select語句中作替換

select

regexp_replace

（

‘adci892’

，

‘［0-9］’

，

‘v’

）

——adcivvv

3.排序操作

order by

會對輸入做全域性排序，因此只有一個reducer（多個reducer無法保證全域性有序），

只有一個reducer，會導致當輸入規模較大時，需要較長的計算時間。

sort by

不是全域性排序，其在資料進入reducer前完成排序，

sort by 的資料只能保證在同一reduce中的資料可以按指定欄位排序。

distribute by

按照指定的欄位對資料進行劃分到不同的輸出reduce / 檔案中

cluster by

除了具有 distribute by 的功能外還兼具 sort by 的功能。

歡迎關注【丁點兒印記】，謝謝支援

標簽： 2020 正則 03 za Extract

上一篇:糾結在花都買房還是佛山？

下一篇：楚喬傳：元淳被士兵糟蹋，乃燕洵授意，你看他對元淳的稱呼是啥？

Hive函式——日期函式，正則表示式和排序函式

猜你喜歡

兔媽孕婦裝行業觀察：2020下半年母嬰行業發展解讀

金韓彬一直知道自己可能會被爆料出來那他這幾年是怎麼過的以何種心情?

【中短線每日持倉圖】2020年8月12日

Kéza語的虛實標記及疑問詞的用法

扎頭髮和披頭髮，對女生外表有什麼影響？

Hive函式——日期函式，正則表示式和排序函式

猜你喜歡

兔媽孕婦裝行業觀察：2020下半年母嬰行業發展解讀

金韓彬一直知道自己可能會被爆料出來那他這幾年是怎麼過的以何種心情?

【中短線每日持倉圖】2020年8月12日​

Kéza語的虛實標記及疑問詞的用法

扎頭髮和披頭髮，對女生外表有什麼影響？

【中短線每日持倉圖】2020年8月12日