這篇文章主要講解了“Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來(lái)研究和學(xué)習(xí)“Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法”吧!
我們提供的服務(wù)有:網(wǎng)站制作、網(wǎng)站設(shè)計(jì)、微信公眾號(hào)開(kāi)發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認(rèn)證、廉江ssl等。為上1000家企事業(yè)單位解決了網(wǎng)站和推廣的問(wèn)題。提供周到的售前咨詢(xún)和貼心的售后服務(wù),是有科學(xué)管理、有技術(shù)的廉江網(wǎng)站制作公司
數(shù)據(jù)傾斜成因:由于數(shù)據(jù)分布不均勻,造成數(shù)據(jù)大量的集中到一點(diǎn),造成數(shù)據(jù)熱點(diǎn)。具體為某一個(gè)reduce接收到的數(shù)據(jù)是其他reduce的n倍,導(dǎo)致明顯的木桶效應(yīng)。
癥狀:
1,對(duì)表做select count(1) from tb group by key,看表中是否有大量相同的key。
2,查看監(jiān)控界面,任務(wù)進(jìn)度長(zhǎng)時(shí)間維持在99%(或100%),只有少量(1個(gè)或幾個(gè))reduce子任務(wù)未完成或某幾個(gè)reduce子任務(wù)是平均reduce時(shí)長(zhǎng)的n倍;
上圖的其中的一個(gè)job的reduce時(shí)間遠(yuǎn)遠(yuǎn)超出其他reduce時(shí)長(zhǎng),表明該reduce處理的數(shù)據(jù)遠(yuǎn)超出其他的reduce,可見(jiàn)此次統(tǒng)計(jì)發(fā)生數(shù)據(jù)傾斜。
解決方案
參數(shù)調(diào)優(yōu):
1,set hive.groupby.skewindata=true:這個(gè)參數(shù)的意思是做Reduce操作的時(shí)候,拿到的key并不是所有相同值給同一個(gè)Reduce,而是隨機(jī)分發(fā),然后Reduce做聚合,做完之后再做一輪MR,拿前面聚合過(guò)的數(shù)據(jù)再算結(jié)果。所以這個(gè)參數(shù)其實(shí)跟Hive.Map.aggr做的是類(lèi)似的事情,只是拿到Reduce端來(lái)做,而且要額外啟動(dòng)一輪Job,所以其實(shí)不怎么推薦用,效果不明顯。
2,set hive.skewjoin.key=100000:這個(gè)是join的鍵對(duì)應(yīng)的記錄條數(shù)超過(guò)這個(gè)值則會(huì)進(jìn)行優(yōu)化。
3,set mapred.reduce.tasks=500:增加Reducer個(gè)數(shù),通常數(shù)據(jù)(KV數(shù)值對(duì))Shuffle到某個(gè)Reducer是根據(jù)Key進(jìn)行Hash然后對(duì)Reducer個(gè)數(shù)進(jìn)行取模。
HQL語(yǔ)句優(yōu)化:
1,小表join大表:
將小表放在join左邊,減少oom的幾率;
使用mapjoin,小表數(shù)據(jù)最好在1000條以?xún)?nèi)。select /*+mapjoin(a)*/ count(1) from tb_a a left outer join tb_b b on a.uid=b.uid;
2,大表join大表:
把空值的key變成一個(gè)字符串加上隨機(jī)數(shù),把傾斜的數(shù)據(jù)分到不同的reduce上,由于null值關(guān)聯(lián)不上,處理后并不影響最終結(jié)果。
select * from tb_a a left outer join tb_b b on (case when a.userid is null then concact('xxx', rand()) else a.userid end = b.userid);
3,不同數(shù)據(jù)類(lèi)型關(guān)聯(lián)產(chǎn)生數(shù)據(jù)傾斜,在join之前先轉(zhuǎn)換數(shù)據(jù)類(lèi)型:
select * from users a left outer join logs b on a.usr_id = cast(b.user_id as string);
4,count distinct優(yōu)化
采用sum() group by的方式來(lái)替換count(distinct )進(jìn)行計(jì)算
原語(yǔ)句:select a, count(distinct b) as c from tbl group by a;
改寫(xiě)后:select a, count(*) as c from (select distinct a, b from tbl) group by a;
另外,count distinct時(shí),將值為空的情況單獨(dú)處理,如果是計(jì)算count distinct,可以不用處理,直接過(guò)濾,在最后結(jié)果中加1。如果還有其他計(jì)算,需要進(jìn)行g(shù)roup by,可以先將值為空的記錄單獨(dú)處理,再和其他計(jì)算結(jié)果進(jìn)行union。
感謝各位的閱讀,以上就是“Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法”的內(nèi)容了,經(jīng)過(guò)本文的學(xué)習(xí)后,相信大家對(duì)Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法這一問(wèn)題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!
當(dāng)前文章:Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法
當(dāng)前URL:http://aaarwkj.com/article38/pdissp.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供微信小程序、網(wǎng)站維護(hù)、、電子商務(wù)、網(wǎng)站設(shè)計(jì)、網(wǎng)站收錄
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)