零基礎學習Hadoop該如何下手,很多同學是通過學習hadoop來學習大數(shù)據(jù)的,學習資料可能是以圖書為主要參考方向,《hadoop權威指南》的確是一本很好的入門大數(shù)據(jù)圖書,但大數(shù)據(jù)系統(tǒng)本身是分布式系統(tǒng),所以我以為分布式系統(tǒng)的相關概念才是掌握大數(shù)據(jù)各類框架、知識的基礎。
網(wǎng)站建設哪家好,找創(chuàng)新互聯(lián)!專注于網(wǎng)頁設計、網(wǎng)站建設、微信開發(fā)、微信小程序定制開發(fā)、集團企業(yè)網(wǎng)站建設等服務項目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了王益免費建站歡迎大家使用!
1?入門:
hadoop框架是集存儲(hdfs)、計算(mr計算模型)、資源管理(yarn)等于一體的綜合框架,當然它是一個歷史的階段產(chǎn)物,刨除此因我們來看看大家所熟知的wordcount的具體做法(mr)是什么場景下如何進行計算的?
1-1?分布式系統(tǒng)
首先wordcount程序放到傳統(tǒng)單機模式下也可以處理,這里大家一定會想到多線程、文件切割等實現(xiàn)方式,簡單來說并行計算的想法由來已久,隨著硬件的不斷進步、性能不斷提升,多核計算也已發(fā)展多年了,與此同時這個世界產(chǎn)生的數(shù)據(jù)更是增長飛速,那么原來單機下多任務多線程的計算方式與其后的多核并行都遇到了一個處理速度與處理數(shù)據(jù)間嚴重不匹配的問題,如何提高計算能力是發(fā)展的必然,那么集群方式解決了計算資源水平擴展的能力并同時具有并行性,這是目前的核心思想,我們可以理解目前的集群(一個黑盒子)類比于傳統(tǒng)單機方式,集群中的節(jié)點間并行計算涉及到了主從架構、集群管理、消息通訊、容錯處理等等方面,然后這些都是分布式系統(tǒng)所要考慮和解決的問題,因為它本身就是分布式系統(tǒng)。
1-2?分布式存儲
剛才簡單提到了分布式系統(tǒng),說到了計算方面,其實還有一個隱含的問題是要計算必須有數(shù)據(jù),必然涉及到存儲,所以存儲才是根本,那么如何使用分布式存儲系統(tǒng)(hdfs)就必須了解其的組成部分(如什么是塊、文件系統(tǒng)、分布式文件系統(tǒng))、使用方式(讀寫HDFS),但由于大部分同學都是相對熟悉關系型數(shù)據(jù)庫及它的使用方式SQL,這些都是應用層面的事情具體底層的各種情況并不了解,或者沒有參與數(shù)據(jù)庫軟件的開發(fā)、對于文件類的學習工作經(jīng)驗相對較少,對其中提到的文件IO操作、序列化、壓縮、內置或自定義文件讀寫格式、讀寫方式有種陌生,因為hdfs本質是文件系統(tǒng)。
1-3?分布式計算
mr計算模型也是之前接觸較少,沒有具體的實際經(jīng)驗感受,比如mr具體能做什么、什么場景下使用等等,因為之前大家接觸的是OLTP(聯(lián)機事務處理【OLTP Online Transaction Processing】
聯(lián)機事務處理,表示事務性非常高的系統(tǒng),一般都是高可用的在線系統(tǒng),以小的事務以及小的查詢?yōu)橹?,以傳統(tǒng)的關系型數(shù)據(jù)庫為主要應用,主要是基本的、日常的事務處理,主要為業(yè)務數(shù)據(jù),例如銀行交易)操作,而大數(shù)據(jù)起初是用來進行數(shù)據(jù)挖掘的它更多的是一個OLAP(聯(lián)機分析處理【OLAP Online Analytical Processing】:
?
聯(lián)機分析處理,有的時候也叫DSS決策支持系統(tǒng),就是我們說的數(shù)據(jù)倉庫,重點主要是面向分析,會產(chǎn)生大量的查詢,一般很少涉及增刪改。)操作,mr計算模型的map操作和reduce操作是我們經(jīng)常遇到的需求,map操作負責數(shù)據(jù)清洗、轉換,reduce操作負責數(shù)據(jù)聚合,同時sql里的select子句和group by子句不也對應了這類實際需求嗎,只是方式方法不同而已。
?
?
2?進階
?
2-1?建議以分布式系統(tǒng)的角度來看待大數(shù)據(jù)中的各類框架,了解下分布式理論如CAP理論、主從架構方式等等
?
2-2?當然由于這些框架所處理的不是同一方向的問題,所以我們首先框架分類,參考如下
技術架構
?
```
1?數(shù)據(jù)采集:flume、logstash
2?數(shù)據(jù)存儲:hdfs、hbase、alluxio、es、neo4j、janusGraph、redis、MongoDB、tidb
3?數(shù)據(jù)計算:hive、impala、spark、flink、druid
4?數(shù)據(jù)通道:kafka、pulsar
5?任務調度:azkaban、airflow
6?多維數(shù)據(jù)模型
7?數(shù)據(jù)同步:sqoop、datax、canal
8?數(shù)據(jù)格式:parquet?、orc?、csv?、json
9?協(xié)調服務:zookeeper
10?監(jiān)控:zabbix、prometheus
?
3?推薦
?
3.1?大數(shù)據(jù)的各類框架 官網(wǎng)永遠是第一手資源,一定要看
?
3.2?大量的公眾號、stackoverflow、github等
?
3.3 google查詢資源
?
分享題目:好程序員大數(shù)據(jù)分享零基礎學習Hadoop該如何下手
網(wǎng)站鏈接:http://aaarwkj.com/article10/peiedo.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站建設、微信小程序、建站公司、App開發(fā)、網(wǎng)站收錄、面包屑導航
聲明:本網(wǎng)站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)