Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法

這篇文章主要講解了“Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法”，文中的講解內(nèi)容簡(jiǎn)單清晰，易于學(xué)習(xí)與理解，下面請(qǐng)大家跟著小編的思路慢慢深入，一起來(lái)研究和學(xué)習(xí)“Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法”吧！

我們提供的服務(wù)有：網(wǎng)站制作、網(wǎng)站設(shè)計(jì)、微信公眾號(hào)開(kāi)發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認(rèn)證、廉江ssl等。為上1000家企事業(yè)單位解決了網(wǎng)站和推廣的問(wèn)題。提供周到的售前咨詢(xún)和貼心的售后服務(wù)，是有科學(xué)管理、有技術(shù)的廉江網(wǎng)站制作公司

數(shù)據(jù)傾斜成因：由于數(shù)據(jù)分布不均勻，造成數(shù)據(jù)大量的集中到一點(diǎn)，造成數(shù)據(jù)熱點(diǎn)。具體為某一個(gè)reduce接收到的數(shù)據(jù)是其他reduce的n倍，導(dǎo)致明顯的木桶效應(yīng)。

癥狀：

1，對(duì)表做select count(1) from tb group by key，看表中是否有大量相同的key。

2，查看監(jiān)控界面，任務(wù)進(jìn)度長(zhǎng)時(shí)間維持在99%（或100%），只有少量（1個(gè)或幾個(gè)）reduce子任務(wù)未完成或某幾個(gè)reduce子任務(wù)是平均reduce時(shí)長(zhǎng)的n倍；

Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法

上圖的其中的一個(gè)job的reduce時(shí)間遠(yuǎn)遠(yuǎn)超出其他reduce時(shí)長(zhǎng)，表明該reduce處理的數(shù)據(jù)遠(yuǎn)超出其他的reduce，可見(jiàn)此次統(tǒng)計(jì)發(fā)生數(shù)據(jù)傾斜。

解決方案

參數(shù)調(diào)優(yōu)：

1，set hive.groupby.skewindata=true：這個(gè)參數(shù)的意思是做Reduce操作的時(shí)候，拿到的key并不是所有相同值給同一個(gè)Reduce，而是隨機(jī)分發(fā)，然后Reduce做聚合，做完之后再做一輪MR，拿前面聚合過(guò)的數(shù)據(jù)再算結(jié)果。所以這個(gè)參數(shù)其實(shí)跟Hive.Map.aggr做的是類(lèi)似的事情，只是拿到Reduce端來(lái)做，而且要額外啟動(dòng)一輪Job，所以其實(shí)不怎么推薦用，效果不明顯。

2，set hive.skewjoin.key=100000：這個(gè)是join的鍵對(duì)應(yīng)的記錄條數(shù)超過(guò)這個(gè)值則會(huì)進(jìn)行優(yōu)化。

3，set mapred.reduce.tasks=500：增加Reducer個(gè)數(shù)，通常數(shù)據(jù)(KV數(shù)值對(duì)）Shuffle到某個(gè)Reducer是根據(jù)Key進(jìn)行Hash然后對(duì)Reducer個(gè)數(shù)進(jìn)行取模。

HQL語(yǔ)句優(yōu)化：

1，小表join大表：

將小表放在join左邊，減少oom的幾率；

使用mapjoin，小表數(shù)據(jù)最好在1000條以?xún)?nèi)。select /*+mapjoin(a)*/ count(1) from tb_a a left outer join tb_b b on a.uid=b.uid；

2，大表join大表：

把空值的key變成一個(gè)字符串加上隨機(jī)數(shù)，把傾斜的數(shù)據(jù)分到不同的reduce上，由于null值關(guān)聯(lián)不上，處理后并不影響最終結(jié)果。

select * from tb_a a left outer join tb_b b on (case when a.userid is null then concact('xxx', rand()) else a.userid end = b.userid);

3，不同數(shù)據(jù)類(lèi)型關(guān)聯(lián)產(chǎn)生數(shù)據(jù)傾斜，在join之前先轉(zhuǎn)換數(shù)據(jù)類(lèi)型：

select * from users a left outer join logs b on a.usr_id = cast(b.user_id as string);

4，count distinct優(yōu)化

采用sum() group by的方式來(lái)替換count(distinct )進(jìn)行計(jì)算

原語(yǔ)句：select a， count(distinct b) as c from tbl group by a;

改寫(xiě)后：select a， count(*) as c from (select distinct a， b from tbl) group by a;

另外，count distinct時(shí)，將值為空的情況單獨(dú)處理，如果是計(jì)算count distinct，可以不用處理，直接過(guò)濾，在最后結(jié)果中加1。如果還有其他計(jì)算，需要進(jìn)行g(shù)roup by，可以先將值為空的記錄單獨(dú)處理，再和其他計(jì)算結(jié)果進(jìn)行union。

感謝各位的閱讀，以上就是“Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法”的內(nèi)容了，經(jīng)過(guò)本文的學(xué)習(xí)后，相信大家對(duì)Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法這一問(wèn)題有了更深刻的體會(huì)，具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是創(chuàng)新互聯(lián)，小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章，歡迎關(guān)注！

當(dāng)前文章：Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法
當(dāng)前URL：http://aaarwkj.com/article38/pdissp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供微信小程序、網(wǎng)站維護(hù)、、電子商務(wù)、網(wǎng)站設(shè)計(jì)、網(wǎng)站收錄

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話(huà)：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法