一、大數(shù)據(jù)
大數(shù)據(jù):解決海量數(shù)據(jù)問題的技術(shù)。大數(shù)據(jù)由巨型數(shù)據(jù)集組成,把數(shù)據(jù)集合并進(jìn)行分析可得出許多額外的信息和數(shù)據(jù)關(guān)系性。
大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。
大數(shù)據(jù)技術(shù)是指從各種各樣類型的數(shù)據(jù)中,快速獲得有價值信息的能力,適用于大數(shù)據(jù)的技術(shù),包括大數(shù)據(jù)技術(shù)包括大規(guī)模并行處理數(shù)據(jù)庫,數(shù)據(jù)挖掘電網(wǎng),分布式文件系統(tǒng),分布式數(shù)據(jù)庫,云計算平臺,互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)。
大數(shù)據(jù)的特性:
大體量:可從數(shù)百TB到數(shù)十?dāng)?shù)百PB、甚至EB的規(guī)模
多樣性:大數(shù)據(jù)包括各種形式的形態(tài)的數(shù)據(jù)
時效性:需要在一定的時間限度下得到及時的處理
準(zhǔn)確性:處理的結(jié)果要保證一定的準(zhǔn)確性
大價值:大數(shù)據(jù)包含很多深度的價值,大數(shù)據(jù)分析挖掘和利用將帶來巨大的商業(yè)價值
二、Hadoop
hadoop是一種分析和處理海量數(shù)據(jù)的軟件平臺,是一款開源軟件,使用Java開發(fā),可以提供一個分布式基礎(chǔ)架構(gòu)
hadoop特點:高可靠性、高擴展性、高效性、高容錯性、低成本
hadoop常用組件:
-HDFS(Hadoop分布式文件系統(tǒng))
-Mapreduce(分布式計算框架)
-Zookeeper(分布式協(xié)作服務(wù))
-Hbase(分布式列存數(shù)據(jù)庫)
-Hive(基于Hadoop的數(shù)據(jù)倉庫)
-Sqoop(數(shù)據(jù)同步工具)
-Pig(基于Hadoop的數(shù)據(jù)流系統(tǒng))
-Mahout(數(shù)據(jù)挖掘算法庫)
-Flume(日志收集工具)
hadoop核心組件:
-HDFS:分布式文件系統(tǒng)
-Yarn:集群資源管理系統(tǒng)
-MapReduce:分布式計算框架
HDFS角色及概念
-NameNode:Master節(jié)點,管理HDFS的名稱空間和數(shù)據(jù)塊映射信息,配置副本策略,處理所有客戶端請求。
-Secondary NameNode:定期合幵 fsimage 和fsedits,推送給NameNode,緊急情況下,可輔助恢復(fù)NameNode
-DataNode:數(shù)據(jù)存儲節(jié)點,存儲實際的數(shù)據(jù),匯報存儲信息給NameNode。
-Client:切分文件,訪問HDFS,與NameNode交互,獲取文件位置信息,與DataNode交互,讀取和寫入數(shù)據(jù)。
Hadoop的部署模式有三種:
-單機
-偽分布式(所有角色裝一臺機器上)
-完全分布式(不同角色裝不同機器)
三、單機模式:
1.獲取軟件
http://hadoop.apache.org
下載:hadoop-2.7.6.tar.gz
解壓:tar -xf hadoop-2.7.6.tar.gz
安裝:mv hadoop-2.7.6
2.安裝java環(huán)境,jps工具
yum -y install java-1.8.0-openjdk
yum -y install java-1.8.0-openjdk-devel
3.設(shè)置環(huán)境變量
vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh
export JAVA_HOME="/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.131-11.b12.el7.x86_64/jre"
export HADOOP_CONF_DIR="/usr/local/hadoop/etc/hadoop"
分析單詞出現(xiàn)的次數(shù)
./bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount oo xx
四、完全分布式:
-分布式文件系統(tǒng):是指文件系統(tǒng)管理的物理存儲資源不一定直接連接在本地節(jié)點上,而是通過計算機網(wǎng)絡(luò)節(jié)點相連,分布式文件系統(tǒng)的設(shè)計基于客戶機/服務(wù)器模式;分布式文件系統(tǒng)可以有效解決數(shù)據(jù)的存儲和管理難題,將固定于某個地點的某個文件系統(tǒng),擴展到任意多個地點/多個文件系統(tǒng),眾多的節(jié)點組成一個文件系統(tǒng)網(wǎng)絡(luò),每個節(jié)點可以分布在不同的地點,通過網(wǎng)絡(luò)進(jìn)行節(jié)點間的通信和數(shù)據(jù)傳輸。
集群組建條件:
配置文件格式
<property>
<name></name>
<value></value>
<description></description>
</property>
配置文件參考網(wǎng)址http://hadoop.apache.org
cd /usr/local/hadoop/etc/hadoop
1.配置環(huán)境變量文件hadoop-env.sh(參見三、3)
2.核心配置文件core-site.xml
vim core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs:///nn01:9000</value>
<description></description>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/var/hadoop</value>
<description></description>
</property>
</configuration>
在所有主機上創(chuàng)建/var/hadoop
2.完全分布式配置hdfs-site.xml
vim hdfs-site.xml
<configuration>
<property>
<name>dfs.datanode.http-address</name>
<value>nn01:50070</value>
<description></description>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>nn01:50090</value>
<description></description>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
<description></description>
</property>
</configuration>
3.配置slaves
vim slaves
node01
node02
node03
4.同步配置到所有主機
5.格式化 namenode (nn01上操作)
./bin/hdfs namenode -format
6.啟動集群 (nn01上操作)
./sbin/start-dfs.sh
停止集群可以使用 ./sbin/stop-dfs.sh
7.驗證角色 jps (所有主機操作)
8.驗證集群是否組建成功 (nn01上操作)
./bin/hdfs dfsadmin -report
服務(wù)啟動日志路徑 /usr/local/hadoop/logs
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。
當(dāng)前題目:大數(shù)據(jù)之hadoop-創(chuàng)新互聯(lián)
分享鏈接:http://aaarwkj.com/article10/gopdo.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站營銷、服務(wù)器托管、網(wǎng)站設(shè)計公司、網(wǎng)站改版、全網(wǎng)營銷推廣、品牌網(wǎng)站制作
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容