這篇文章將為大家詳細(xì)講解有關(guān)什么是mapreduce編程以及原理是什么,文章內(nèi)容質(zhì)量較高,因此小編分享給大家做個(gè)參考,希望大家閱讀完這篇文章后對(duì)相關(guān)知識(shí)有一定的了解。
我們注重客戶提出的每個(gè)要求,我們充分考慮每一個(gè)細(xì)節(jié),我們積極的做好成都網(wǎng)站制作、成都網(wǎng)站設(shè)計(jì)服務(wù),我們努力開(kāi)拓更好的視野,通過(guò)不懈的努力,成都創(chuàng)新互聯(lián)公司贏得了業(yè)內(nèi)的良好聲譽(yù),這一切,也不斷的激勵(lì)著我們更好的服務(wù)客戶。 主要業(yè)務(wù):網(wǎng)站建設(shè),網(wǎng)站制作,網(wǎng)站設(shè)計(jì),微信小程序,網(wǎng)站開(kāi)發(fā),技術(shù)開(kāi)發(fā)實(shí)力,DIV+CSS,PHP及ASP,ASP.Net,SQL數(shù)據(jù)庫(kù)的技術(shù)開(kāi)發(fā)工程師。
相信關(guān)于Hadoop中MapReduce的相關(guān)文章會(huì)很多,這里只簡(jiǎn)單介紹一下MapReduce的相關(guān)知識(shí)。
Hadoop的MapReduce來(lái)源于Google公司的三篇論文中的MapReduce,其核心思想是“分而治之”。Map負(fù)責(zé)“分”,即把復(fù)雜的任務(wù)分解為若干個(gè)“簡(jiǎn)單的任務(wù)”來(lái)并行處理??梢赃M(jìn)行拆分的前提是這些小任務(wù)可以并行計(jì)算,彼此間幾乎沒(méi)有依賴(lài)關(guān)系。Reduce負(fù)責(zé)“合”,即對(duì)map階段的結(jié)果進(jìn)行全局匯總。
現(xiàn)階段MapReduce一般運(yùn)行在Hadoop2.x版本的yarn資源平臺(tái)上,具體運(yùn)行過(guò)程后面會(huì)有詳細(xì)說(shuō)明。
MapReduce編程規(guī)范
MapReduce 的開(kāi)發(fā)一共有八個(gè)步驟, 其中 Map 階段分為 2 個(gè)步驟,Shuffle 階段 4 個(gè)步驟,Reduce 階段分為 2 個(gè)步驟
Map 階段 2 個(gè)步驟
1)設(shè)置 InputFormat 類(lèi), 將數(shù)據(jù)切分為 Key-Value(K1和V1) 對(duì), 輸入到第二步;
2)自定義 Map 邏輯, 將第一步的結(jié)果轉(zhuǎn)換成另外的 Key-Value(K2和V2)對(duì), 輸出結(jié)果;
Shuffle 階段 4 個(gè)步驟
3)對(duì)輸出的 Key-Value 對(duì)進(jìn)行分區(qū);
4)對(duì)不同分區(qū)的數(shù)據(jù)按照相同的 Key 排序;
5)(可選) 對(duì)分組過(guò)的數(shù)據(jù)初步規(guī)約, 降低數(shù)據(jù)的網(wǎng)絡(luò)拷貝;
6)對(duì)數(shù)據(jù)進(jìn)行分組, 相同 Key 的 Value 放入一個(gè)集合中;
Reduce 階段 2 個(gè)步驟
7)對(duì)多個(gè) Map 任務(wù)的結(jié)果進(jìn)行排序以及合并, 編寫(xiě) Reduce 函數(shù)實(shí)現(xiàn)自己的邏輯, 對(duì)輸入的 Key-Value 進(jìn)行處理, 轉(zhuǎn)為新的 Key-Value(K3和V3)輸出;
8)設(shè)置 OutputFormat 處理并保存 Reduce 輸出的 Key-Value 數(shù)據(jù);
yarn資源調(diào)度
yarn是hadoop集群當(dāng)中的資源管理系統(tǒng)模塊,從hadoop2.0開(kāi)始引入yarn模塊,yarn可為各類(lèi)計(jì)算框架提供資源的管理和調(diào)度,主要用于管理集群當(dāng)中的資源(主要是服務(wù)器的各種硬件資源,包括CPU,內(nèi)存,磁盤(pán),網(wǎng)絡(luò)IO等)以及調(diào)度運(yùn)行在yarn上面的各種任務(wù)。
相比于hadoop1.x版本,yarn核心出發(fā)點(diǎn)是為了分離資源管理與作業(yè)監(jiān)控,實(shí)現(xiàn)分離的做法是擁有一個(gè)全局的資源管理ResourceManager(RM),以及每個(gè)應(yīng)用程序?qū)?yīng)一個(gè)的應(yīng)用管理器ApplicationMaster(AM)。
總結(jié)一句話就是說(shuō):yarn主要就是為了調(diào)度資源,管理任務(wù)。
YARN總體上是Master/Slave結(jié)構(gòu),主要由ResourceManager、NodeManager、 ApplicationMaster和Container等幾個(gè)組件構(gòu)成。
ResourceManager(RM) 負(fù)責(zé)處理客戶端請(qǐng)求,對(duì)各NM上的資源進(jìn)行統(tǒng)一管理和調(diào)度。給ApplicationMaster分配空閑的Container 運(yùn)行并監(jiān)控其運(yùn)行狀態(tài)。主要由兩個(gè)組件構(gòu)成:調(diào)度器和應(yīng)用程序管理器:
調(diào)度器(Scheduler):調(diào)度器根據(jù)容量、隊(duì)列等限制條件,將系統(tǒng)中的資源分配給各個(gè)正在運(yùn)行的應(yīng)用程序。調(diào)度器僅根據(jù)各個(gè)應(yīng)用程序的資源需求進(jìn)行資源分配,而資源分配單位是Container。Shceduler不負(fù)責(zé)監(jiān)控或者跟蹤應(yīng)用程序的狀態(tài)??傊?,調(diào)度器根據(jù)應(yīng)用程序的資源要求,以及集群機(jī)器的資源情況,為應(yīng)用程序分配封裝在Container中的資源。
應(yīng)用程序管理器(Applications Manager):應(yīng)用程序管理器負(fù)責(zé)管理整個(gè)系統(tǒng)中所有應(yīng)用程序,包括應(yīng)用程序提交、與調(diào)度器協(xié)商資源以啟動(dòng)ApplicationMaster 、監(jiān)控ApplicationMaster運(yùn)行狀態(tài)并在失敗時(shí)重新啟動(dòng)等,跟蹤分給的Container的進(jìn)度、狀態(tài)也是其職責(zé)。
NodeManager (NM) NodeManager:NodeManager (NM) NodeManager 是每個(gè)節(jié)點(diǎn)上的資源和任務(wù)管理器。它會(huì)定時(shí)地向ResourceManager匯報(bào)本節(jié)點(diǎn)上的資源使用情況和各個(gè)Container的運(yùn)行狀態(tài);同時(shí)會(huì)接收并處理來(lái)自ApplicationMaster 的Container 啟動(dòng)/停止等請(qǐng)求。
ApplicationMaster (AM): 用戶提交的應(yīng)用程序均包含一個(gè)ApplicationMaster ,負(fù)責(zé)應(yīng)用的監(jiān)控,跟蹤應(yīng)用執(zhí)行狀態(tài),重啟失敗任務(wù)等。ApplicationMaster是應(yīng)用框架,它負(fù)責(zé)向ResourceManager協(xié)調(diào)資源,并且與NodeManager協(xié)同工作完成Task的執(zhí)行和監(jiān)控。
Container: Container是YARN中的資源抽象,它封裝了某個(gè)節(jié)點(diǎn)上的多維度資源,如內(nèi)存、CPU、磁盤(pán)、網(wǎng)絡(luò)等,當(dāng)ApplicationMaster向ResourceManager申請(qǐng)資源時(shí),ResourceManager為ApplicationMaster 返回的資源便是用Container 表示的。
yarn的架構(gòu)和工作流程
1. 客戶端通過(guò)命令(hadoop jar xxx.jar)提交上傳任務(wù)到主節(jié)點(diǎn)ResourceManager(RM)中的ApplicationManager進(jìn)程;
2. 主節(jié)點(diǎn)RM判斷集群狀態(tài),選擇一臺(tái)NodeManager(NM),開(kāi)啟一塊資源Container,用來(lái)開(kāi)啟AppMaster進(jìn)程;
3. AppMaster進(jìn)程獲取RM接收的任務(wù)請(qǐng)求,進(jìn)行任務(wù)分配;
4. AppMaster根據(jù)任務(wù)情況向RM中的ResourceScheduler索要資源分配方案;
5. AppMaster根據(jù)資源分配方案找到到各個(gè)NodeManager從節(jié)點(diǎn);
6. 在從節(jié)點(diǎn)上開(kāi)啟資源Container,并運(yùn)行任務(wù)Task;
7. AppMaster獲取各個(gè)Task上傳的任務(wù)執(zhí)行進(jìn)度和結(jié)果;
8. AppMaster將任務(wù)執(zhí)行的結(jié)果返回給ApplicationManager。
關(guān)于什么是mapreduce編程以及原理是什么就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到。
網(wǎng)站欄目:什么是mapreduce編程以及原理是什么
瀏覽路徑:http://aaarwkj.com/article16/gjgpdg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供虛擬主機(jī)、外貿(mào)建站、網(wǎng)站排名、網(wǎng)站內(nèi)鏈、品牌網(wǎng)站設(shè)計(jì)、App設(shè)計(jì)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)