Hadoop管理正在成為大數(shù)據(jù)用戶和供應(yīng)商首先考慮的分部署處理框架,它在企業(yè)的業(yè)務(wù)運(yùn)營(yíng)中扮演著越來越重要的角色。
Comcast公司的IT團(tuán)隊(duì)在對(duì)Hadoop數(shù)據(jù)湖泊進(jìn)行性能管理時(shí),考慮的十分周全。
數(shù)據(jù)湖泊是一個(gè)大量信息的集合體,此外還包括成千上萬的CPU和超過30 pb級(jí)的存儲(chǔ)容量。為了保證其平穩(wěn)運(yùn)行,IT團(tuán)隊(duì)實(shí)現(xiàn)了主動(dòng)Hadoop監(jiān)測(cè)和數(shù)據(jù)治理過程,此外還包括一系列集群管理工具。
“為確保Comcast'的Hadoop用戶可以正常的運(yùn)行應(yīng)用程序,我們開始使用數(shù)據(jù)治理功能,”Michael Fagan說道,他是位于Philadelphia的電視電影集團(tuán)的首席大數(shù)據(jù)架構(gòu)師。管理工作主要包括服務(wù)協(xié)議,用于限制業(yè)務(wù)單元的Hadoop資源利用率,此外還包括自動(dòng)化的執(zhí)行機(jī)制和月度審核機(jī)制,用來評(píng)估Hadoop的性
對(duì)Hadoop集群使用和數(shù)據(jù)存儲(chǔ)的管理是一個(gè)很熱門的話題,在San Jose, Calif舉辦的Hadoop 2016峰會(huì)上,這個(gè)話題被廣泛討論。Fagan 和其他演講者認(rèn)為,對(duì)于那些試圖從大數(shù)據(jù)中獲益的企業(yè)來說,有效的Hadoop管理是必須的。一些供應(yīng)商正在開發(fā)新技術(shù),旨在實(shí)現(xiàn)集群監(jiān)控、管理和治理任務(wù)的自動(dòng)化。
舉例來說,會(huì)議的組織者Hortonworks發(fā)布了一個(gè)Hadoop的預(yù)覽版,它集成了Atlas 和Ranger。Apache開源技術(shù)可用于給數(shù)據(jù)配置元數(shù)據(jù),加強(qiáng)用戶訪問權(quán)限控制。Hortonworks數(shù)據(jù)平臺(tái)(HDP)2.5版本,將于本月晚些時(shí)候發(fā)布,它增加了系統(tǒng)日志的搜索功能,通過使用Apache Ambari(一個(gè)開源的Hadoop管理工具),提供了基于角色的訪問控制功能。
Hortonworks的競(jìng)爭(zhēng)對(duì)手MapR Technologies推出了Spyglass Initiative項(xiàng)目的第一個(gè)組件——Spyglass Initiative項(xiàng)目旨在創(chuàng)建可定制的儀表板,監(jiān)控大數(shù)據(jù)平臺(tái)。此外,MapR還將發(fā)布更新各種開源工具,作為其平臺(tái)季度更新“包”的一部分,以簡(jiǎn)化部署流程;第一個(gè)MapR Ecosystem Pack 和MapR Monitoring儀表板都將在本月發(fā)布。與此同時(shí),數(shù)據(jù)集成和分析軟件供應(yīng)商Pentaho發(fā)布了連接到Hadoop數(shù)據(jù)湖泊的基礎(chǔ)設(shè)施參考藍(lán)圖。
Hadoop管理的多個(gè)方面
Comcast 在它的數(shù)據(jù)湖泊上運(yùn)行HDP和Cloudera的Hadoop分布平臺(tái)——在集群管理方面,它使用了集成Ambari的Hortonworks,Cloudera Manager,以及Pepperdata提供的Hadoop性能管理軟件。為了在Hadoop監(jiān)測(cè)數(shù)據(jù)上完成更高級(jí)的聚合,該公司還建立了一個(gè)本地管理控制臺(tái),稱為Comcast Command Center。
“雖然我們可以從不同的工具中得到很多答案,但我們很難得到一致的答案,”Ray Harrison,Comcast Hadoop平臺(tái)團(tuán)隊(duì)的一員說道。
數(shù)據(jù)湖泊是一個(gè)多租戶的數(shù)據(jù)環(huán)境,各種用戶“聚集到一起,在同一個(gè)一沙盒里操作數(shù)據(jù),”Harrison說。但是這種方法給性能管理帶來了一定的挑戰(zhàn)。Hadoop團(tuán)隊(duì)今年部署500個(gè)節(jié)點(diǎn)的集群,為公司數(shù)據(jù)科學(xué)家的高級(jí)分析應(yīng)用程序服務(wù),但這是必須的,因?yàn)檫@些科學(xué)家正在大型數(shù)據(jù)集努力尋找“未知的未知”,這需要強(qiáng)大的計(jì)算能力,現(xiàn)有的資源難以應(yīng)付,Harrison說道。
為了跟上集群變化的節(jié)奏,Comcast 特意更新了其資源使用的治理策略,“且在過去的一年內(nèi)更新了數(shù)次,”Fagan說到。下一步是數(shù)據(jù)治理:Hadoop團(tuán)隊(duì)開始推進(jìn)數(shù)據(jù)治理項(xiàng)目,依靠Atlas技術(shù)來確保每個(gè)用戶所使用信息的一致性。
治理為要,科技次之
數(shù)據(jù)治理是Blue Cross Blue Shield of Michigan的首要任務(wù),該大數(shù)據(jù)平臺(tái)將于五月上線。在會(huì)議的另一次會(huì)談中,Detroit一家公司的分析主管,數(shù)據(jù)工程師和數(shù)據(jù)管理者Beata Puncevic說道,她的團(tuán)隊(duì)在2015年4月,項(xiàng)目初期就首先開始著手制定新的數(shù)據(jù)治理流程和策略,而真正開始實(shí)施技術(shù)細(xì)節(jié)已經(jīng)是五個(gè)月之后的事了。
“如果你在部署大數(shù)據(jù)工具之前,沒有制定一個(gè)強(qiáng)有力的數(shù)據(jù)治理過程,你很有可能會(huì)步履維艱”Puncevic說道。數(shù)據(jù)治理涉及如下步驟,根據(jù)常見數(shù)據(jù)定義,創(chuàng)建業(yè)務(wù)術(shù)語表,制定數(shù)據(jù)使用的新規(guī)則,解決數(shù)據(jù)質(zhì)量和元數(shù)據(jù)管理的問題。“上面說的這些都很無聊”她開玩笑道。“我們一開始做的這些工作與具體技術(shù)無關(guān)。”
原始數(shù)據(jù)被輸入到Hortonworks-based Hadoop集群,然后根據(jù)數(shù)據(jù)治理機(jī)制進(jìn)行精煉,以供分析。該系統(tǒng)最初被用來支持的分析應(yīng)用程序包括用藥和臨床病例記錄系統(tǒng),Puncevic補(bǔ)充說,這可能需要額外三到五年才能完全建立起大數(shù)據(jù)架構(gòu)。
Hadoop監(jiān)測(cè)和治理在University of Texas MD Anderson Cancer Center的大數(shù)據(jù)待辦事項(xiàng)上優(yōu)先級(jí)很高 ,他們?cè)?月份將一個(gè)運(yùn)行HDP的Hadoop集群投入了生產(chǎn)環(huán)境。這家位于Houston的癌癥治療和研究機(jī)構(gòu)使用集群存儲(chǔ)一些重要的統(tǒng)計(jì)數(shù)據(jù),這些數(shù)據(jù)收集于病人的床邊傳感器;大數(shù)據(jù)平臺(tái)的其他用途還包括對(duì)不同實(shí)驗(yàn)室數(shù)據(jù)系統(tǒng)的集成,這些實(shí)驗(yàn)室在以前是完全獨(dú)立的,沒有任何聯(lián)系。
傳統(tǒng)的IT管理,治理和安全實(shí)踐仍然適用于大數(shù)據(jù)環(huán)境,Vamshi Punugoti,MD Anderson負(fù)責(zé)信息系統(tǒng)研究的副主任表示。
“從我們的角度來看,沒理由做例外的事,”他說,我們雖然剛剛開始大數(shù)據(jù)的旅程,但這并不意味著我們能以隨意的方式去做。”
本文標(biāo)題:想要從大數(shù)據(jù)中獲益?請(qǐng)先做好Hadoop管理
路徑分享:http://aaarwkj.com/article34/chhhse.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供微信小程序、做網(wǎng)站、網(wǎng)站設(shè)計(jì)、手機(jī)網(wǎng)站建設(shè)、網(wǎng)站改版、品牌網(wǎng)站制作
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)