1.1.1core-site.xml(工具模塊)
讓客戶(hù)滿(mǎn)意是我們工作的目標(biāo),不斷超越客戶(hù)的期望值來(lái)自于我們對(duì)這個(gè)行業(yè)的熱愛(ài)。我們立志把好的技術(shù)通過(guò)有效、簡(jiǎn)單的方式提供給客戶(hù),將通過(guò)不懈努力成為客戶(hù)在信息化領(lǐng)域值得信任、有價(jià)值的長(zhǎng)期合作伙伴,公司提供的服務(wù)項(xiàng)目有:域名注冊(cè)、網(wǎng)絡(luò)空間、營(yíng)銷(xiāo)軟件、網(wǎng)站建設(shè)、開(kāi)平網(wǎng)站維護(hù)、網(wǎng)站推廣。
包括Hadoop常用的工具類(lèi),由原來(lái)的Hadoopcore部分更名而來(lái)。主要包括系統(tǒng)配置工具Configuration、遠(yuǎn)程過(guò)程調(diào)用RPC、序列化機(jī)制和Hadoop抽象文件系統(tǒng)FileSystem等。它們?yōu)樵谕ㄓ糜布洗罱ㄔ朴?jì)算環(huán)境提供基本的服務(wù),并為運(yùn)行在該平臺(tái)上的軟件開(kāi)發(fā)提供了所需的API。
?
1.1.2hdfs-site.xml(數(shù)據(jù)存儲(chǔ)模塊)
分布式文件系統(tǒng),提供對(duì)應(yīng)用程序數(shù)據(jù)的高吞吐量,高伸縮性,高容錯(cuò)性的訪問(wèn)。是Hadoop體系中數(shù)據(jù)存儲(chǔ)管理的基礎(chǔ)。它是一個(gè)高度容錯(cuò)的系統(tǒng),能檢測(cè)和應(yīng)對(duì)硬件故障,用于在低成本的通用硬件上運(yùn)行。HDFS簡(jiǎn)化了文件的一致性模型,通過(guò)流式數(shù)據(jù)訪問(wèn),提供高吞吐量應(yīng)用程序數(shù)據(jù)訪問(wèn)功能,適合帶有大型數(shù)據(jù)集的應(yīng)用程序。
namenode+ datanode + secondarynode
?
1.1.3mapred-site.xml(數(shù)據(jù)處理模塊)
基于YARN的大型數(shù)據(jù)集并行處理系統(tǒng)。是一種計(jì)算模型,用以進(jìn)行大數(shù)據(jù)量的計(jì)算。Hadoop的MapReduce實(shí)現(xiàn),和Common、HDFS一起,構(gòu)成了Hadoop發(fā)展初期的三個(gè)組件。MapReduce將應(yīng)用劃分為Map和Reduce兩個(gè)步驟,其中Map對(duì)數(shù)據(jù)集上的獨(dú)立元素進(jìn)行指定的操作,生成鍵-值對(duì)形式中間結(jié)果。Reduce則對(duì)中間結(jié)果中相同“鍵”的所有“值”進(jìn)行規(guī)約,以得到最終結(jié)果。MapReduce這樣的功能劃分,非常適合在大量計(jì)算機(jī)組成的分布式并行環(huán)境里進(jìn)行數(shù)據(jù)處理。
?
1.1.4yarn-site.xml(作業(yè)調(diào)度+資源管理平臺(tái))
?任務(wù)調(diào)度和集群資源管理
???????resourcemanager + nodemanager
?
1.2hadoop 五大節(jié)點(diǎn):
1.2.1NameNode(管理節(jié)點(diǎn))
?Namenode 管理著文件系統(tǒng)的命令空間(Namespace)。它維護(hù)著文件系統(tǒng)樹(shù)(filesystemtree)以及文件樹(shù)中所有的文件和文件夾的元數(shù)據(jù)(metadata),元數(shù)據(jù)包括編輯日志(edits)和鏡像文件(fsimage)。管理這些信息的文件有兩個(gè),分別是Namespace 鏡像文件(fsimage)和編輯日志文件(edits),編輯日志主要是記錄對(duì)hdfs進(jìn)行的修改.鏡像文件主要是記錄hdfs的文件樹(shù)形結(jié)構(gòu).這些信息被Cache在RAM中,當(dāng)然,這兩個(gè)文件也會(huì)被持久化存儲(chǔ)在本地硬盤(pán)。Namenode記錄著每個(gè)文件中各個(gè)塊所在的數(shù)據(jù)節(jié)點(diǎn)的位置信息,但是他并不持久化存儲(chǔ)這些信息,因?yàn)檫@些信息會(huì)在系統(tǒng)啟動(dòng)時(shí)從數(shù)據(jù)節(jié)點(diǎn)重建。
?
1.2.2DataNode(工作節(jié)點(diǎn))
?Datanode是文件系統(tǒng)的工作節(jié)點(diǎn),他們根據(jù)客戶(hù)端或者是namenode的調(diào)度存儲(chǔ)和檢索數(shù)據(jù),并且定期向namenode發(fā)送他們所存儲(chǔ)的塊(block)的列表。
?沒(méi)有namenode,文件系統(tǒng)是無(wú)法使用的.事實(shí)上,如果運(yùn)行namenode服務(wù)的服務(wù)器壞掉,文件系統(tǒng)上的所有文件將會(huì)丟失.因?yàn)槲覀儾恢廊绾胃鶕?jù)DataNode的塊進(jìn)行重建文件.所有,對(duì)NameNode進(jìn)行容錯(cuò)冗余機(jī)制是非常重要的.
?集群中的從節(jié)點(diǎn)服務(wù)器都運(yùn)行一個(gè)DataNode后臺(tái)程序,這個(gè)后臺(tái)程序負(fù)責(zé)把HDFS數(shù)據(jù)塊讀寫(xiě)到本地的文件系統(tǒng)。當(dāng)需要通過(guò)客戶(hù)端讀/寫(xiě)某個(gè)數(shù)據(jù)時(shí),先由NameNode告訴客戶(hù)端去哪個(gè)DataNode進(jìn)行具體的讀/寫(xiě)操作,然后,客戶(hù)端直接與這個(gè)DataNode服務(wù)器上的后臺(tái)程序進(jìn)行通信,并且對(duì)相關(guān)的數(shù)據(jù)塊進(jìn)行讀/寫(xiě)操作。
?
1.2.3secondary NameNode(相當(dāng)于MySQL數(shù)據(jù)庫(kù)中主從復(fù)制的從節(jié)點(diǎn))
?Secondary? NameNode是一個(gè)用來(lái)監(jiān)控HDFS狀態(tài)的輔助后臺(tái)程序。和NameNode一樣,每個(gè)集群都有一個(gè)Secondary? NameNode,并且部署在一個(gè)單獨(dú)的服務(wù)器上。Secondary? NameNode不同于NameNode,它不接受或者記錄任何實(shí)時(shí)的數(shù)據(jù)變化,但是,它會(huì)與NameNode進(jìn)行通信,以便定期地保存HDFS元數(shù)據(jù)的快照。由于NameNode是單點(diǎn)的,通過(guò)Secondary? NameNode的快照功能,可以將NameNode的宕機(jī)時(shí)間和數(shù)據(jù)損失降低到最小。同時(shí),如果NameNode發(fā)生問(wèn)題,Secondary? NameNode可以及時(shí)地作為備用NameNode使用。
?
1.2.4ResourceManager
?ResourceManage 即資源管理,在YARN中,ResourceManager負(fù)責(zé)集群中所有資源的統(tǒng)一管理和分配,它接收來(lái)自各個(gè)節(jié)點(diǎn)(NodeManager)的資源匯報(bào)信息,并把這些信息按照一定的策略分配給各個(gè)應(yīng)用程序(實(shí)際上是ApplicationManager)。
????RM包括Scheduler(定時(shí)調(diào)度器)和ApplicationManager(應(yīng)用管理器)。Schedular負(fù)責(zé)向應(yīng)用程序分配資源,它不做監(jiān)控以及應(yīng)用程序的狀態(tài)跟蹤,并且不保證會(huì)重啟應(yīng)用程序本身或者硬件出錯(cuò)而執(zhí)行失敗的應(yīng)用程序。ApplicationManager負(fù)責(zé)接受新的任務(wù),協(xié)調(diào)并提供在ApplicationMaster容器失敗時(shí)的重啟功能.每個(gè)應(yīng)用程序的AM負(fù)責(zé)項(xiàng)Scheduler申請(qǐng)資源,以及跟蹤這些資源的使用情況和資源調(diào)度的監(jiān)控
?
1.2.5Nodemanager
?NM是ResourceManager在slave機(jī)器上的代理,負(fù)責(zé)容器管理,并監(jiān)控它們的資源使用情況,以及向ResourceManager/Scheduler提供資源使用報(bào)告
HDFS文件存儲(chǔ)機(jī)制:
HDFS集群分為兩大角色:NameNode、DataNode、(secondary NameNode)
NameNode負(fù)責(zé)管理整個(gè)文件系統(tǒng)的元數(shù)據(jù)
DataNode負(fù)責(zé)管理用戶(hù)的文件數(shù)據(jù)塊
文件會(huì)按照固定的大小切成若干塊后分布式存儲(chǔ)在若干臺(tái)DataNode上
每一個(gè)文件塊可以有多個(gè)副本,并存放在不同的DataNode上
DataNode會(huì)定期向NameNode匯報(bào)自身所保存的文件block信息,而NameNode則會(huì)負(fù)責(zé)保持文件的副本數(shù)量
HDFS的內(nèi)部工作機(jī)制對(duì)客戶(hù)端保持透明,客戶(hù)端請(qǐng)求訪問(wèn)HDFS都是通過(guò)向NameNode申請(qǐng)來(lái)進(jìn)行
分享題目:好程序員大數(shù)據(jù)學(xué)習(xí)路線分享hadoop常用四大模塊文件
文章源于:http://aaarwkj.com/article24/igepce.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供動(dòng)態(tài)網(wǎng)站、定制開(kāi)發(fā)、小程序開(kāi)發(fā)、響應(yīng)式網(wǎng)站、網(wǎng)站導(dǎo)航、網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)