欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法

這篇文章主要講解了“Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來(lái)研究和學(xué)習(xí)“Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法”吧!

我們提供的服務(wù)有:網(wǎng)站制作、網(wǎng)站設(shè)計(jì)、微信公眾號(hào)開(kāi)發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認(rèn)證、廉江ssl等。為上1000家企事業(yè)單位解決了網(wǎng)站和推廣的問(wèn)題。提供周到的售前咨詢(xún)和貼心的售后服務(wù),是有科學(xué)管理、有技術(shù)的廉江網(wǎng)站制作公司

數(shù)據(jù)傾斜成因:由于數(shù)據(jù)分布不均勻,造成數(shù)據(jù)大量的集中到一點(diǎn),造成數(shù)據(jù)熱點(diǎn)。具體為某一個(gè)reduce接收到的數(shù)據(jù)是其他reduce的n倍,導(dǎo)致明顯的木桶效應(yīng)。

癥狀:

1,對(duì)表做select count(1) from tb group by key,看表中是否有大量相同的key。

2,查看監(jiān)控界面,任務(wù)進(jìn)度長(zhǎng)時(shí)間維持在99%(或100%),只有少量(1個(gè)或幾個(gè))reduce子任務(wù)未完成或某幾個(gè)reduce子任務(wù)是平均reduce時(shí)長(zhǎng)的n倍;

Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法

上圖的其中的一個(gè)job的reduce時(shí)間遠(yuǎn)遠(yuǎn)超出其他reduce時(shí)長(zhǎng),表明該reduce處理的數(shù)據(jù)遠(yuǎn)超出其他的reduce,可見(jiàn)此次統(tǒng)計(jì)發(fā)生數(shù)據(jù)傾斜。

解決方案

參數(shù)調(diào)優(yōu):

1,set hive.groupby.skewindata=true:這個(gè)參數(shù)的意思是做Reduce操作的時(shí)候,拿到的key并不是所有相同值給同一個(gè)Reduce,而是隨機(jī)分發(fā),然后Reduce做聚合,做完之后再做一輪MR,拿前面聚合過(guò)的數(shù)據(jù)再算結(jié)果。所以這個(gè)參數(shù)其實(shí)跟Hive.Map.aggr做的是類(lèi)似的事情,只是拿到Reduce端來(lái)做,而且要額外啟動(dòng)一輪Job,所以其實(shí)不怎么推薦用,效果不明顯。

2,set hive.skewjoin.key=100000:這個(gè)是join的鍵對(duì)應(yīng)的記錄條數(shù)超過(guò)這個(gè)值則會(huì)進(jìn)行優(yōu)化。

3,set mapred.reduce.tasks=500:增加Reducer個(gè)數(shù),通常數(shù)據(jù)(KV數(shù)值對(duì))Shuffle到某個(gè)Reducer是根據(jù)Key進(jìn)行Hash然后對(duì)Reducer個(gè)數(shù)進(jìn)行取模。

HQL語(yǔ)句優(yōu)化:

1,小表join大表:

將小表放在join左邊,減少oom的幾率;

使用mapjoin,小表數(shù)據(jù)最好在1000條以?xún)?nèi)。select /*+mapjoin(a)*/ count(1) from tb_a a left outer join tb_b b on a.uid=b.uid;

2,大表join大表:

把空值的key變成一個(gè)字符串加上隨機(jī)數(shù),把傾斜的數(shù)據(jù)分到不同的reduce上,由于null值關(guān)聯(lián)不上,處理后并不影響最終結(jié)果。

select * from tb_a a left outer join tb_b b on (case when a.userid is null then concact('xxx', rand()) else a.userid end = b.userid);

3,不同數(shù)據(jù)類(lèi)型關(guān)聯(lián)產(chǎn)生數(shù)據(jù)傾斜,在join之前先轉(zhuǎn)換數(shù)據(jù)類(lèi)型:

select * from users a left outer join logs b on a.usr_id = cast(b.user_id as string);

4,count distinct優(yōu)化

采用sum() group by的方式來(lái)替換count(distinct )進(jìn)行計(jì)算

原語(yǔ)句:select a, count(distinct b) as c from tbl group by a;

改寫(xiě)后:select a, count(*) as c from (select distinct a, b from tbl) group by a;

另外,count distinct時(shí),將值為空的情況單獨(dú)處理,如果是計(jì)算count distinct,可以不用處理,直接過(guò)濾,在最后結(jié)果中加1。如果還有其他計(jì)算,需要進(jìn)行g(shù)roup by,可以先將值為空的記錄單獨(dú)處理,再和其他計(jì)算結(jié)果進(jìn)行union。

感謝各位的閱讀,以上就是“Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法”的內(nèi)容了,經(jīng)過(guò)本文的學(xué)習(xí)后,相信大家對(duì)Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法這一問(wèn)題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!

當(dāng)前文章:Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法
當(dāng)前URL:http://aaarwkj.com/article38/pdissp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供微信小程序、網(wǎng)站維護(hù)、電子商務(wù)、網(wǎng)站設(shè)計(jì)、網(wǎng)站收錄

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

成都app開(kāi)發(fā)公司
国产精品国产三级国av麻豆| 国产在线第一页第二页| 色婷婷综合激情一区二区| 亚洲一区二区三区熟女av| 日韩中文字幕 在线播放| 国产又粗又长又大无遮挡| 欧美午夜一级特黄大片| 久久尤物av天堂日日综合| 精品国产亚洲av剧情| 国产精品一品二区三区在线观看| 国产成人三级在线影院| av影片免费网址大全| 国产白丝精品爽爽久久| 有码国内精品人妻少妇| 天天干夜夜操天天射| 极品大胸美女被啪啪的高潮| 日本熟妇中文字幕系列| 日韩精品国产专区一区| 日日夜夜天天操天天干| 国产精品国产精品三级在线观看 | 亚洲毛片高清一区二区三区| 日本一区不卡二区高清| 囗交囗爆吞精在线视频| 国产日韩欧美另类综合| 国产欧美日韩综合激情| 日韩精品中文女同在线播放| 丰满少妇在线观看网站| 国产又粗又长又爽网站| 国产精品神马午夜福利| 下载一个日韩暴力黄色录像| 色婷婷精品综合久久狠狠| 成人免费视频国产免费| 91午夜福利视频在线观看| 精品亚洲韩国一区二区三区| 国产视频传媒一区二区| 久久午夜视频在线观看| 精品人妻一区二区三区乱码| 久久免费少妇高潮99精品| 日本成人在线播放网站| 欧美国内日本一区二区| 精品国产50部农村老熟女av|