本篇內(nèi)容主要講解“Spark的核心原理及架構(gòu)”,感興趣的朋友不妨來(lái)看看。本文介紹的方法操作簡(jiǎn)單快捷,實(shí)用性強(qiáng)。下面就讓小編來(lái)帶大家學(xué)習(xí)“Spark的核心原理及架構(gòu)”吧!
公司主營(yíng)業(yè)務(wù):做網(wǎng)站、成都網(wǎng)站設(shè)計(jì)、移動(dòng)網(wǎng)站開(kāi)發(fā)等業(yè)務(wù)。幫助企業(yè)客戶真正實(shí)現(xiàn)互聯(lián)網(wǎng)宣傳,提高企業(yè)的競(jìng)爭(zhēng)能力。成都創(chuàng)新互聯(lián)公司是一支青春激揚(yáng)、勤奮敬業(yè)、活力青春激揚(yáng)、勤奮敬業(yè)、活力澎湃、和諧高效的團(tuán)隊(duì)。公司秉承以“開(kāi)放、自由、嚴(yán)謹(jǐn)、自律”為核心的企業(yè)文化,感謝他們對(duì)我們的高要求,感謝他們從不同領(lǐng)域給我們帶來(lái)的挑戰(zhàn),讓我們激情的團(tuán)隊(duì)有機(jī)會(huì)用頭腦與智慧不斷的給客戶帶來(lái)驚喜。成都創(chuàng)新互聯(lián)公司推出銀州免費(fèi)做網(wǎng)站回饋大家。
RDD(Resilient Distributed Datasets),彈性分布式數(shù)據(jù)集,它是對(duì)分布式數(shù)據(jù)集的一種內(nèi)存抽象,通過(guò)受限的共享內(nèi)存方式來(lái)提供容錯(cuò)性,同時(shí)這種內(nèi)存模型使得計(jì)算比傳統(tǒng)的數(shù)據(jù)流模型要高效。RDD具有5個(gè)重要的特性,如下圖所示:
1.一組分區(qū),數(shù)據(jù)集的基本組成單位。
2.計(jì)算每一個(gè)數(shù)據(jù)分區(qū)的函數(shù)。
3.對(duì)parent RDD的依賴,這個(gè)依賴描述了RDD之間的lineage(血統(tǒng))。
4.可選,對(duì)于鍵值對(duì)RDD,有一個(gè)Partitioner(通常是HashPartitioner,RangePartitioner)。
5.可選,一組Preferred location信息(例如,HDFS文件的Block所在location信息)。
用戶在提交任務(wù)給Spark處理時(shí),以下兩個(gè)參數(shù)共同決定了Spark的運(yùn)行方式。 · –master MASTER_URL :決定了Spark任務(wù)提交給哪種集群處理。 · –deploy-mode DEPLOY_MODE:決定了Driver的運(yùn)行方式,可選值為Client或者Cluster。
Spark 運(yùn)行架構(gòu)的特點(diǎn)
每個(gè)Application獲取專屬的executor進(jìn)程,該進(jìn)程在Application期間一直駐留,并以多線程方式運(yùn)行Tasks。這種Application隔離機(jī)制有其優(yōu)勢(shì)的,無(wú)論是從調(diào)度角度看(每個(gè)Driver調(diào)度它自己的任務(wù)),還是從運(yùn)行角度看(來(lái)自不同Application的Task運(yùn)行在不同的JVM中)。當(dāng)然,這也意味著Spark Application不能跨應(yīng)用程序共享數(shù)據(jù),除非將數(shù)據(jù)寫(xiě)入到外部存儲(chǔ)系統(tǒng)。
Spark與資源管理器無(wú)關(guān),只要能夠獲取Executor進(jìn)程,并能夠保持相互通信就可以了。
提交SparkContext的Client應(yīng)該靠近Worker節(jié)點(diǎn)(運(yùn)行Executor的節(jié)點(diǎn)),最好是在同一個(gè)機(jī)架里,因?yàn)镾park Application運(yùn)行過(guò)程中SparkContext和Executor之間有大量的信息交換;如果想在遠(yuǎn)程集群中運(yùn)行,最好使用RPC將SparkContext提交給集群,不要遠(yuǎn)離Worker運(yùn)行SparkContext。
專屬名稱:
Application:每一個(gè)Spark程序,稱之為一個(gè)Application。
Driver:每個(gè)Spark程序運(yùn)行一個(gè)Driver進(jìn)程,用來(lái)協(xié)調(diào),統(tǒng)計(jì)任務(wù)進(jìn)度。
Worker:每個(gè)Spark程序運(yùn)行多個(gè)Worker進(jìn)程,可以運(yùn)行在一個(gè)節(jié)點(diǎn)或多個(gè)節(jié)點(diǎn)上,包含多個(gè)Executor子進(jìn)程。
Executor:每個(gè)Spark程序運(yùn)行多個(gè)Executor進(jìn)程,具體承擔(dān)計(jì)算任務(wù)。
Standalone 運(yùn)行模式
Spark Standalone模式,即獨(dú)立模式,自帶完整的服務(wù),可單獨(dú)部署到一個(gè)集群中,無(wú)需依賴其他資源管理系統(tǒng)(資源管理+資源調(diào)度)。在該模式下,用戶可以通過(guò)手動(dòng)啟動(dòng)Master和Worker來(lái)啟動(dòng)一個(gè)獨(dú)立的集群。其中,Master充當(dāng)了資源管理的角色,Workder充當(dāng)了計(jì)算節(jié)點(diǎn)的角色。在該模式下,Spark Driver程序在客戶端Client運(yùn)行,而Executor則在Worker節(jié)點(diǎn)上運(yùn)行。
Standalone 組件分析 整個(gè)集群分為Master節(jié)點(diǎn)和Worker節(jié)點(diǎn),其中Driver程序運(yùn)行在客戶端。
.Master節(jié)點(diǎn)負(fù)責(zé)為任務(wù)分配Worker節(jié)點(diǎn)上的計(jì)算資源,兩者會(huì)通過(guò)相互通信來(lái)同步資源狀態(tài),見(jiàn)途中紅色雙向箭頭。
.客戶端啟動(dòng)任務(wù)后會(huì)運(yùn)行Driver程序,Driver程序中會(huì)完成SparkContext對(duì)象的初始化,并向Master進(jìn)行注冊(cè)。
.每個(gè)Workder節(jié)點(diǎn)上會(huì)存在一個(gè)或者多個(gè)ExecutorBackend進(jìn)程。每個(gè)進(jìn)程包含一個(gè)Executor對(duì)象,該對(duì)象持有一個(gè)線程池,每個(gè)線程池可以執(zhí)行一個(gè)任務(wù)task。ExecutorBackend進(jìn)程還負(fù)責(zé)跟客戶端節(jié)點(diǎn)上的Driver程序進(jìn)行通信,上報(bào)任務(wù)狀態(tài)。
Spark Standalone任務(wù)運(yùn)行過(guò)程
上面的過(guò)程反映了Spark在standalone模式下,整體上客戶端、Master和Workder節(jié)點(diǎn)之間的交互。對(duì)于一個(gè)任務(wù)的具體運(yùn)行過(guò)程需要更細(xì)致的分解,分解運(yùn)行過(guò)程見(jiàn)圖中的小字。
1.用戶通過(guò)bin/spark-submit部署工具或者bin/spark-class啟動(dòng)應(yīng)用程序的Driver進(jìn)程,Driver進(jìn)程會(huì)初始化SparkContext對(duì)象,并向Master節(jié)點(diǎn)進(jìn)行注冊(cè)。
2.Master節(jié)點(diǎn)接受Driver程序的注冊(cè),檢查它所管理的Worker節(jié)點(diǎn),為該Driver程序分配需要的計(jì)算資源Executor。Worker節(jié)點(diǎn)完成Executor的分配后,向Master報(bào)告Executor的狀態(tài)。
3.Worker節(jié)點(diǎn)上的ExecutorBackend進(jìn)程啟動(dòng)后,向Driver進(jìn)程注冊(cè)。
4.Driver進(jìn)程內(nèi)部通過(guò)DAG Schaduler,Stage Schaduler,Task Schaduler等過(guò)程完成任務(wù)的劃分后,向Worker節(jié)點(diǎn)上的ExecutorBackend分配TASK。
5.ExecutorBackend進(jìn)行TASK計(jì)算,并向Driver報(bào)告TASK狀態(tài),直至結(jié)束。
6.Driver進(jìn)程在所有TASK都處理完成后,向Master注銷。
Spark Standalone 模式總結(jié)
Spark能夠以standalone模式運(yùn)行,這是Spark自身提供的運(yùn)行模式,用戶可以通過(guò)手動(dòng)啟動(dòng)master和worker進(jìn)程來(lái)啟動(dòng)一個(gè)獨(dú)立的集群,也可以在一臺(tái)機(jī)器上運(yùn)行這些守護(hù)進(jìn)程進(jìn)行測(cè)試。standalone模式可以用在生產(chǎn)環(huán)境,它有效的降低了用戶學(xué)習(xí)、測(cè)試Spark框架的成本。
standalone模式目前只支持跨應(yīng)用程序的簡(jiǎn)單FIFO調(diào)度。然而,為了允許多個(gè)并發(fā)用戶,你可以控制每個(gè)應(yīng)用使用的資源的最大數(shù)。默認(rèn)情況下,它會(huì)請(qǐng)求使用集群的全部CPU內(nèi)核。
缺省情況下,standalone任務(wù)調(diào)度允許worker的失?。ㄔ谶@種情況下它可以將失敗的任務(wù)轉(zhuǎn)移給其他的worker)。但是,調(diào)度器使用master來(lái)做調(diào)度,這會(huì)產(chǎn)生一個(gè)單點(diǎn)問(wèn)題:如果master崩潰,新的應(yīng)用不會(huì)被創(chuàng)建。為了解決這個(gè)問(wèn)題,可以zookeeper的選舉機(jī)制在集群中啟動(dòng)多個(gè)master,也可以使用本地文件實(shí)現(xiàn)單節(jié)點(diǎn)恢復(fù)。
Spark Cluster模式任務(wù)運(yùn)行過(guò)程
1.用戶通過(guò)bin/spark-submit部署工具或者bin/spark-class向Yarn集群提交應(yīng)用程序。
2.Yarn集群的Resource Manager為提交的應(yīng)用程序選擇一個(gè)Node Manager節(jié)點(diǎn)并分配第一個(gè)container,并在該節(jié)點(diǎn)的container上啟動(dòng)SparkContext對(duì)象。
3.SparkContext對(duì)象向Yarn集群的Resource Manager申請(qǐng)資源以運(yùn)行Executor。
.Yarn集群的Resource Manager分配container給SparkContext對(duì)象,SparkContext和相關(guān)的Node Manager通訊,在獲得的container上啟動(dòng)ExecutorBackend守護(hù)進(jìn)程,ExecutorBackend啟動(dòng)后開(kāi)始向SparkContext注冊(cè)并申請(qǐng)Task。
5.SparkContext分配Task給ExecutorBackend執(zhí)行。
6.ExecutorBackend開(kāi)始執(zhí)行Task,并及時(shí)向SparkContext匯報(bào)運(yùn)行狀況。
7.Task運(yùn)行完畢,SparkContext歸還資源給Node Manager,并注銷退。
Spark Cluster 模式總結(jié)
Spark能夠以集群的方式運(yùn)行,這里的可選集群有Yarn和Mesos。在集群模式下,Spark的Driver程序可能被調(diào)度到任何一個(gè)節(jié)點(diǎn),任務(wù)執(zhí)行完成后,集群分配的資源將被回收。
到此,相信大家對(duì)“Spark的核心原理及架構(gòu)”有了更深的了解,不妨來(lái)實(shí)際操作一番吧!這里是創(chuàng)新互聯(lián)網(wǎng)站,更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢,關(guān)注我們,繼續(xù)學(xué)習(xí)!
網(wǎng)站欄目:Spark的核心原理及架構(gòu)
網(wǎng)址分享:http://aaarwkj.com/article46/jesseg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供電子商務(wù)、品牌網(wǎng)站設(shè)計(jì)、用戶體驗(yàn)、移動(dòng)網(wǎng)站建設(shè)、軟件開(kāi)發(fā)、商城網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)