欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

Shuffle的洗牌過程是什么

本篇內容介紹了“Shuffle的洗牌過程是什么”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!

10年積累的成都網(wǎng)站制作、成都網(wǎng)站設計、外貿營銷網(wǎng)站建設經驗,可以快速應對客戶對網(wǎng)站的新想法和需求。提供各種問題對應的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡服務。我雖然不認識你,你也不認識我。但先網(wǎng)站設計制作后付款的網(wǎng)站建設流程,更有荊門免費網(wǎng)站建設讓你可以放心的選擇與我們合作。

Shuffle的正常意思是洗牌或弄亂

 Shuffle的洗牌過程是什么

Shuffle描述著數(shù)據(jù)從map task輸出到reduce task輸入的這段過程。.

大部分map task與reduce task的執(zhí)行是在不同的節(jié)點上。當然很多情況下Reduce執(zhí)行時需要跨節(jié)點去拉取其它節(jié)點上的map task結果。

我們對Shuffle過程的期望可以有:

完整地從map task端拉取數(shù)據(jù)到reduce 端。在跨節(jié)點拉取數(shù)據(jù)時,盡可能減少對帶寬的不必要消耗。減少磁盤IO對task執(zhí)行的影響。

 Shuffle的洗牌過程是什么

Shuffle解釋

每個map task都有一個內存緩沖區(qū),存儲著map的輸出結果,當緩沖區(qū)快滿的時候需要將緩沖區(qū)的數(shù)據(jù)以一個臨時文件的方式存放到磁盤,當整個map task結束后再對磁盤中這個map task產生的所有臨時文件做合并,生成最終的正式輸出文件,然后等待reduce task來拉數(shù)據(jù)。

1、在map task執(zhí)行時,它的輸入數(shù)據(jù)來源于HDFS的block,當然在MapReduce概念中,map task只讀取split。Split與block的對應關系可能是多對一,默認是一對一。

2、在經過mapper類的運行后,我們得知mapper的輸出是這樣一個k/v鍵值

對。在這只做統(tǒng)計,reduce才做合并。

3.Partitioner接口,它的作用就是根據(jù)key或value及reduce的數(shù)量來決定當前的這對輸出數(shù)據(jù)最終應該交由哪個reduce task處理。默認對key hash后再以reduce task數(shù)量取模。默認的取模方式只是為了平均reduce的處理能力,如果用戶自己對Partitioner有需求,可以訂制并設置到job.set(..)。

4(Memory Buffer)接下來我們將數(shù)據(jù)寫入到內存緩沖區(qū)中,緩沖區(qū)的作用是批量收集map結果,減少磁盤IO的影響。我們的key/value對以及Partition的結果都會被寫入緩沖區(qū)。當然寫入之前,key與value值都會被序列化成字節(jié)數(shù)組。

5內存緩沖區(qū)是有大小限制的,默認是100MB。當map task 的輸出結果大于這個內存緩沖區(qū)的閥值是(buffer size * spill percent = 100MB * 0.8 = 80MB)

溢寫線程啟動,把這80M在緩沖區(qū)的數(shù)據(jù)寫入到磁盤中,Map task向剩下20MB在內存中,互補影響。這個從內存往磁盤寫數(shù)據(jù)的過程被稱為Spill

當溢寫線程啟動后,需要對這80MB空間內的key做排序(Sort)。排序是MapReduce模型默認的行為,這里的排序也是對序列化的字節(jié)做的排序。

圖上也可以看到寫到磁盤中的溢寫文件是對不同的reduce端的數(shù)值做過合并。所以溢寫過程一個很重要的細節(jié)在于,如果有很多個key/value 對需要發(fā)送到某個reduce端去,那么需要將這些key/value值拼接到一塊,減少與partition相關的索引記錄。

6.如果client設置過Combiner,那么現(xiàn)在就是使用Combiner的時候了。將有相同key的key/value對的value加起來,減少溢 寫到磁盤的數(shù)據(jù)量。Combiner會優(yōu)化MapReduce的中間結果,所以它在整個模型中會多次使用。那哪些場景才能使用Combiner呢?從這里 分析,Combiner的輸出是Reducer的輸入,Combiner絕不能改變最終的計算結果。所以從我的想法來看,Combiner只應該用于那種 Reduce的輸入key/value與輸出key/value類型完全一致,且不影響最終結果的場景。比如累加,最大值等。Combiner的使用一定 得慎重,如果用好,它對job執(zhí)行效率有幫助,反之會影響reduce的最終結果。

7.每次溢寫會在磁盤上產生一個溢寫文件,Map 輸出結果很大時,會有多次這樣的溢寫文件到磁盤上,當 Map task 結束完成時,內存緩沖區(qū)的數(shù)據(jù)同樣也會溢寫到磁盤上,結果磁盤會有一個或多個溢出的文件,同時合并溢出的文件。(如果map輸出的結果很少,map完成時,溢出的文件只有一個)合并這個過程就叫做Merge{墨跡}

merge是將多個溢寫文件合并到一個文件,所以可能也有相同的key存在,在這個過程中如果client設置過Combiner,也會使用Combiner來合并相同的key。

此時,map端的工作都已結束,最終生成的文件也存放在Task Tracker本地目錄內,每個reduce task 不斷的通過RPC 從JOBTracker哪里獲取 map task 是否完成,如果reduce task 得到通知,通知到某臺Task Tracker 上的map task執(zhí)行完成,shuffle的reducece開始拉去map Task完成的數(shù)據(jù)

 Shuffle的洗牌過程是什么

Reducer真正運行之前,所有的時間都是在拉取數(shù)據(jù),做merge,且不斷重復地在做。如前面的方式一樣,分段地描述reduce 端的Shuffle細節(jié)

1.copy 過程,就是拉取數(shù)據(jù)。Reduce進程啟動一些copy線程,通過Http方式請求 map task 所在的TaskTracker獲取map task的輸出文件。應為map task 已經結束,這文件就歸TaskTracker管理了,管理在本地磁盤中。

2.copy過來的數(shù)據(jù)會先儲存在內存緩沖區(qū)中(Memory Buffer),這里的緩沖區(qū)要比map端的更加靈活,它基于JVM的heap size 的設置,因為shuffle階段rduce不運行,所以把大部分的內存給shuffle來用,

這里和map中內存溢出一樣,當內存中的數(shù)據(jù)達到一定的閥值,就會啟動內存到磁盤的溢出....合并Merge   。這個過程我們設置Combiner,也會啟用的,然后在磁盤中生成很多一些文件。值到map端沒有數(shù)據(jù)才結束。然后啟動第三種磁盤到磁盤的merge方式生成最終的那個文件。

3.Reduce的輸入文件,不斷的合并后(merge),最后會生成一個“最終文件”,這個文件可能存在磁盤上也能在內存中(內存需要設置并且優(yōu)化),默認在磁盤中,當Reducer的輸入文件已定,整個Shuffle才最終結束。然后就是Reducer執(zhí)行,把結果放到HDFS上。

“Shuffle的洗牌過程是什么”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關的知識可以關注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質量的實用文章!

標題名稱:Shuffle的洗牌過程是什么
路徑分享:http://aaarwkj.com/article18/pdejdp.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供用戶體驗關鍵詞優(yōu)化、Google、建站公司企業(yè)網(wǎng)站制作、營銷型網(wǎng)站建設

廣告

聲明:本網(wǎng)站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站建設網(wǎng)站維護公司
日韩欧美国产一区二区精品| 欧美日韩亚洲激情一区| 91日本在线免费观看视频| 另类视频在线免费观看| 蜜臀一二区免费在线视频| 久久国产亚洲欧美一区| 高潮的毛片激情久久精品| 亚洲毛片高清一区二区三区| 蜜桃在线视频在线观看| 亚洲欧美日韩不卡一区二区| 日韩欧美黄色三级视频| 日本在线看片一区二区| 草逼免费在线观看视频| 国产精品无遮挡猛进猛出| 热精品韩国毛久久久久久| 国产专区亚洲精品欧美| 狼人综合狼人综合网站| 欧美日韩加勒比综合在线| 日韩黄片大全在线观看| 不卡视频一区中文字幕| 91黄色国产在线播放| 国产精品久久久av大片| 亚洲欧美中文日韩二区一区| 日韩精品一区二区三区电影在线播放| 我要看国产一级内射片| 91久久亚洲综合精品日本| 亚洲av成人精品日韩一区麻豆| 久久视热频这里只有精品| av免费观看日韩永久| 国产在线视频不卡福利片| 色婷婷一区二区三区四| av天堂午夜在线观看| 变态另类专区一区二区三区| 色婷婷久久综合中文久久| 国产欧美日韩精品国产| 免费一区二区三区精品| 国产怡红院在线视频观看| 在线亚洲av不卡一区二区三区| 韩国黄色理论片一区二区麻豆| 亚洲国产视频中文字幕| 日韩欧美中文字幕在线等|