互聯(lián)網(wǎng)IDC圈6月12日報道,“ 數(shù)據(jù)湖 ”相當于一個中心位置來存儲你所有的數(shù)據(jù),它無需考慮數(shù)據(jù)來源和格式。它通常是用‘Hadoop’來建立。數(shù)據(jù)可以是結構化的或者非結構化的。你可以使用大量的存儲,分析和處理工具快速提取數(shù)據(jù)的價值來做出重要的組織決策。
目前創(chuàng)新互聯(lián)建站已為近千家的企業(yè)提供了網(wǎng)站建設、域名、網(wǎng)頁空間、網(wǎng)站托管維護、企業(yè)網(wǎng)站設計、貢井網(wǎng)站維護等服務,公司將堅持客戶導向、應用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長,共同發(fā)展。因為所有的數(shù)據(jù)都是受歡迎的,對于傳統(tǒng)的企業(yè)數(shù)據(jù)倉庫來說,‘數(shù)據(jù)湖’算得上是一個功能強大的替代品或補充品。另外,隨著更多的企業(yè)向基于云服務的應用開發(fā)和物聯(lián)網(wǎng)轉(zhuǎn)型,‘數(shù)據(jù)湖’也是一個主要的選擇。
在早期的使用案例中,企業(yè)頻繁的將數(shù)據(jù)裝載到“數(shù)據(jù)湖”而不嘗試去管理它。隨著‘數(shù)據(jù)湖’越來越成熟而且對企業(yè)來說更具戰(zhàn)略意義,僅僅將數(shù)據(jù)裝載到“數(shù)據(jù)湖”已經(jīng)不再足夠了而是需要做更好的打算。
“數(shù)據(jù)湖”具有靈活性,可擴展性,低成本性三個特征。并且它還具有傳統(tǒng)的數(shù)據(jù)倉庫(EDW)的大部分特征,當你要增加 數(shù)據(jù)管理 和支配能力,如:數(shù)據(jù)質(zhì)量,元數(shù)據(jù)管理,安全,轉(zhuǎn)換和拆分與組合數(shù)據(jù)的能力。如果正確的管理“數(shù)據(jù)湖”,它可以改進你現(xiàn)在的數(shù)據(jù)管理措施并且能啟用新的數(shù)據(jù)管理措施。建立“數(shù)據(jù)湖”的時候,你的公司可以選擇下列4種方式中的一種:
選擇1:延后支配
第一種選擇在加載數(shù)據(jù)到數(shù)據(jù)湖的時候就忽略數(shù)據(jù)的支配和管理。然而,當你需要篩選出數(shù)據(jù)中有用的部分的時候,你將不得不用工具來清理這些數(shù)據(jù),例如機器學習技術。然而這種方法是真正存在風險的,即使是最智能的推理引擎也需要從‘數(shù)據(jù)湖’大量的數(shù)據(jù)中的某個地方開始,不可避免的就是在‘數(shù)據(jù)湖’中部分數(shù)據(jù)將被忽略,變得滯后,孤立,并且其中的數(shù)據(jù)幾乎不具有結構化,即使是最智能的自動化工具或者人工分析,都不知道從什么地方開始。
選擇2:適應已經(jīng)存在的遺留工具
你可以利用最初為數(shù)據(jù)倉庫設計的應用和過程。當你準備導入數(shù)據(jù)到數(shù)據(jù)倉庫時你可以用軟件工具來執(zhí)行ETL過程。你可以用這些工具來導出數(shù)據(jù)到數(shù)據(jù)湖,然而那樣做代價很高,而且只能解決部分你所需要的管理和支配功能。另外一個缺點就是ELT是不包含在在Hadoop集群內(nèi)的,那樣會減慢操作速度和增加消耗,因為每次查詢都必須將數(shù)據(jù)從集群中移除。
選擇3:編寫定制腳本
在第三種選擇中,你用定制腳本創(chuàng)建了一個工作流來連接進程,應用,質(zhì)量檢查和數(shù)據(jù)轉(zhuǎn)換從而來滿足管理的需要。這是一個很常見的選擇但是最不可靠和最耗資源的。你需要在Hadoop和它的生態(tài)系統(tǒng)方面有很強的分析能力從而來利用開源工具,而且他們需要編寫腳本來把各部分連接起來。隨著你必須不斷修改復雜的代碼和工作流來更新‘數(shù)據(jù)湖’,這個過程是很費時間和資源的。
選擇4:配置一個完整的“數(shù)據(jù)湖”管理平臺
第四個選擇是配置一個用來汲取和管理大量不同的數(shù)據(jù)的“數(shù)據(jù)湖”管理平臺。 Zaloni’s Bedrock 提供了這項功能。他允許你為數(shù)據(jù)編排目錄,利用元數(shù)據(jù)并且支持正在進行中的以確保數(shù)據(jù)質(zhì)量,數(shù)據(jù)沿襲和自動化工作流的進程。這種方法是解決“數(shù)據(jù)湖”管理和支配的最佳辦法。
當你向“數(shù)據(jù)湖”轉(zhuǎn)變的時候,選擇一個完全整合的數(shù)據(jù)湖管理平臺將會使你對數(shù)據(jù)充滿信心,并且會合并更多的用戶和用戶案例使之有益于商業(yè)。歸根結底,這就是數(shù)據(jù)存在的意義,用來告知和提高組織的決策過程,用嶄新的并且激動人心的方式來幫助您的業(yè)務增長。
網(wǎng)頁題目:“數(shù)據(jù)湖”中數(shù)據(jù)管理的4種方式
當前網(wǎng)址:http://aaarwkj.com/article12/sdhcgc.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供建站公司、微信小程序、網(wǎng)站設計公司、虛擬主機、域名注冊、全網(wǎng)營銷推廣
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)