企業(yè)可以利用Hadoop以及所有與它相關的技術設計大數(shù)據(jù)環(huán)境,以滿足其特定的需求。但把所有的技術集成在一起并不是一件容易的事。
IT團隊尋求構建大數(shù)據(jù)架構時有大量的技術可供選擇,他們可以混合搭配各種技術以滿足數(shù)據(jù)處理和分析需求。但是有一個問題存在:把所有需要的技術框架組合到一起是一項艱巨的任務。
在不斷擴展的Hadoop生態(tài)系統(tǒng)中,選擇和部署合適的大數(shù)據(jù)技術是一個長期反復的過程,周期要以年計。除非公司管理者愿花大量財力和資源來加速推動項目。選擇技術的過程中有失誤判斷是很常見的,一家公司的架構藍圖不一定適用于另一家組織,即便是完全相同的行業(yè)也不行。
Bryan Lari是美國德克薩斯州大學MD安德森癌癥研究中心(位于休斯頓)研究分析主任,他說:“我經(jīng)常跟人說,這不是像你在亞馬遜下個訂單或者從蘋果商店買個東西那么簡單的事。這是一件復雜的事,它需要一個過程。我們在半年或者一年之內是做不完的。這也不是可以套用公式就能應用的技術,盡管有很多案例或者用戶有成功經(jīng)驗,但我們也可能用不同的工具來滿足我們的需求。”
MD安德森的大數(shù)據(jù)環(huán)境集中在Hadoop集群中,在三月份的時候投入了生產(chǎn)環(huán)境,初步打算用來處理病人房間監(jiān)視設備傳輸回來的重要信號數(shù)據(jù)。不過,數(shù)據(jù)湖平臺還包括HBase(與Hadoop配合的NoSQL數(shù)據(jù)庫),Hive(Hadoop支持SQL的軟件),還有各種其他Apache開源技術,例如:Pig、Sqoop、Oozie和Zookeeper。此外,這家癌癥治療和研究組織還部署了Oracle數(shù)據(jù)倉庫作為信息庫來支持分析和報表應用,還有IBM的Watson認知計算系統(tǒng)提供自然語言處理和機器學習功能。未來出現(xiàn)新的數(shù)據(jù)可視化、治理和安全工具也必然會參與進來。
MD安德森癌癥中心的IT團隊在2015年初就開始使用Hadoop。為了演示可能的應用情況同時熟悉該技術,該中心首先使用基本的Apache Hadoop軟件構建了試點集群環(huán)境。后來,他們部署了Hadoop Hortonworks分布式架構用于生產(chǎn)環(huán)境。
Vamshi Punugoti是MD安德森癌癥中興研究信息系統(tǒng)的副主任,他說從這次試點項目中得到的經(jīng)驗可以使他們處理架構調整更容易。隨著新的大數(shù)據(jù)工具出現(xiàn),總會有調整架構的可能性,一定需要功能增強或者替換組件。Punugoti說:“這是個持續(xù)更新的過程,包括我們收集到的數(shù)據(jù)都在不斷變化著。如果我們認為(現(xiàn)有架構)可以處理一切那就太天真了。”
演進更好的架構
Uber平臺工程師團隊花了大約一年時間設計了多層大數(shù)據(jù)架構,但是這么多技術組件搭建的有點倉促。Uber公司Hadoop團隊高級工程師Vinoth Chandar說,該公司的現(xiàn)有系統(tǒng)跟不上業(yè)務運營帶來的快速增長的數(shù)據(jù)量。結果,大部分數(shù)據(jù)不能進行實時分析,Chandar認為這對于Uber公司倡導實質性“實時叫車”理念來說是個大問題。
為了幫助運營經(jīng)理實現(xiàn)數(shù)據(jù)驅動,Chandar和他的同事們搭建了Hadoop數(shù)據(jù)湖環(huán)境,其中包括HBase、Hive、Spark處理引擎、Kafka消息隊列系統(tǒng),還有其它一些技術。其中一些技術是內部構建的,例如:有一款數(shù)據(jù)提取工具Streamific。
有了該架構之后,Uber公司將追趕大數(shù)據(jù)和分析的藝術狀態(tài)。但是,這并不是容易做到的。他半開玩笑地補充說:“為了把這些技術組件整合到一起,我們十個人幾乎一年沒有睡覺。”
架構的挑戰(zhàn)對于組織來說可不是鬧著玩的。Gartner咨詢公司預測,到2018年,70%的Hadoop部署將無法實現(xiàn)他們節(jié)約成本和收入增長的目標,主要原因是技能不足和技術整合困難。Gartner公司分析師Merv Adrian說,整合障礙還在加劇,Hadoop分發(fā)商與大數(shù)據(jù)技術有關的數(shù)字還在穩(wěn)步攀升,這代表了部署Hadoop的公司對Hadoop技術支持的需求量趨勢。
在2016年太平洋西北地區(qū)BI峰會上,Adrian列舉了46種Hadoop相關的開源技術創(chuàng)新,這些產(chǎn)品都是由一家或者多家分發(fā)商提供支持服務的。但是,要把這些組件放到大數(shù)據(jù)架構中卻是留給使用方的工作。“大多數(shù)Hadoop項目都像是藝術工作,我們都要把這些技術組件整合到一起使用。”
執(zhí)行過程中的變化
這種整合拼湊工作是非常艱巨的任務,即便Hadoop不是框架中的一部分。Celtra公司提供了一個平臺可以設計在線顯示和視頻廣告,有幾部分已經(jīng)在基于云的處理架構中陸續(xù)部署了,現(xiàn)在正把Spark及其SQL模塊整合到Amazon簡單存儲服務(S3)、MySQL關系型數(shù)據(jù)庫和Snowflake計算的數(shù)據(jù)倉庫系統(tǒng)。
Grega Kespret是這家波士頓公司的分析總監(jiān),他說:“我們經(jīng)歷了許多嘗試和錯誤。比較有挑戰(zhàn)的是要設計一套架構滿足業(yè)務需求,但還不能過度設計。”他提醒說,如果你做了,可能會以一片混亂而告終。
最開始的時候,Celtra公司通過網(wǎng)站訪問者和S3中的其它可跟蹤事件收集廣告交互數(shù)據(jù),然后使用Spark作為ETL引擎(抽取、轉換和加載)聚合信息,分析MySQL中的運營數(shù)據(jù)用于報表。但是,原始的事件數(shù)據(jù)是很難分析的。Celtra公司增加了一套獨立的基于Spark的分析系統(tǒng),但是仍然需要該公司的數(shù)據(jù)分析師們團結一致去清理和驗證事件數(shù)據(jù),這個過程的工作是很容易出錯的。
在2015年底的時候,Kespret和他的團隊經(jīng)過各種嘗試最終放棄了其它技術,選擇了Snowflake作為事件數(shù)據(jù)存儲系統(tǒng),然后把數(shù)據(jù)按用戶會話進行組織之后會存儲到MySQL,這樣數(shù)據(jù)分析師用起來更方便。
Snowflake系統(tǒng)在去年四月份投入生產(chǎn)使用,比該軟件軟發(fā)布較早一點。Kespret說,下一步是要在Snowflake中存儲數(shù)據(jù),評估第二步ETL過程,然后處理數(shù)據(jù)存儲到另一套MySQL數(shù)據(jù)庫中。
大數(shù)據(jù)開發(fā)的“狂野西部日”
Hadoop合作設計者Doug Cutting認為,技術選擇方案過多導致了構建大數(shù)據(jù)架構過程的復雜化。對于許多希望利用Hadoop及其同生技術的用戶組織,“這真像是狂野西部時期的泡沫”。Cutting現(xiàn)在是Hadoop供應商Cloudera公司的首席架構師。
不過Cutting認為,大數(shù)據(jù)系統(tǒng)的益處也正體現(xiàn)于此——這種多樣性帶來了架構靈活性,支持各種新的分析應用,而且IT成本更低。因此,費一番周折實現(xiàn)集成也是值得的。他認為大多數(shù)問題是因為對這些開源軟件的開發(fā)和部署流程不熟悉引起的。他說:“Hadoop很快就不會令人生畏,人們會習慣使用它的。”
或許是這樣吧,不過雅虎公司(據(jù)聲稱是大的Hadoop用戶群)的IT經(jīng)理們表示,他們并沒有完全消除壓力。Cutting曾在雅虎總部工作(位于美國加州Sunnyvale),那時候Hadoop在2006年剛啟動。雅虎這家web搜索和互聯(lián)網(wǎng)服務公司是該技術的第一家生產(chǎn)環(huán)境用戶。目前,該公司(雅虎)的大數(shù)據(jù)環(huán)境有40個集群,混雜了HBase、Spark、Storm實時處理引擎和其它Hadoop相關技術。
Sumeet Singh是雅虎公司負責云計算和大數(shù)據(jù)平臺產(chǎn)品開發(fā)的高級總監(jiān)。他說,總的來說,圍繞Hadoop建立的巨大技術生態(tài)體系對用戶是有利的。Singh表示,Hadoop這個開源框架加速了技術開發(fā)的步伐,使IT團隊可以集中精力規(guī)劃和創(chuàng)造對他們公司有用的工具,而不必自己完成所有工作。“我知道有許多開源項目,不過不是每個人都能廣泛接觸采納,這其中會有真正明確獲益的贏家。”
大數(shù)據(jù)的世界并不總是陽光明媚的,Singh說:“總會有各種問題隨之而來”,他的頭腦快要被各種開源框架和大數(shù)據(jù)框架涉及的數(shù)不清的技術撐爆了。
網(wǎng)站標題:大數(shù)據(jù)架構面臨技術集成的巨大障礙
網(wǎng)站地址:http://aaarwkj.com/article40/soioeo.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供用戶體驗、網(wǎng)站策劃、網(wǎng)站內鏈、外貿建站、小程序開發(fā)、建站公司
聲明:本網(wǎng)站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)