本文小編為大家詳細(xì)介紹“CentOS中如何搭建Hadoop”,內(nèi)容詳細(xì),步驟清晰,細(xì)節(jié)處理妥當(dāng),希望這篇“CentOS中如何搭建Hadoop”文章能幫助大家解決疑惑,下面跟著小編的思路慢慢深入,一起來學(xué)習(xí)新知識吧。
專注于為中小企業(yè)提供做網(wǎng)站、網(wǎng)站制作服務(wù),電腦端+手機(jī)端+微信端的三站合一,更高效的管理,為中小企業(yè)尼木免費(fèi)做網(wǎng)站提供優(yōu)質(zhì)的服務(wù)。我們立足成都,凝聚了一批互聯(lián)網(wǎng)行業(yè)人才,有力地推動了近千家企業(yè)的穩(wěn)健成長,幫助中小企業(yè)通過網(wǎng)站建設(shè)實(shí)現(xiàn)規(guī)模擴(kuò)充和轉(zhuǎn)變。
軟件環(huán)境:
虛擬機(jī):vmware pro14
linux:centos-6.4(,下載dvd版本即可)
jdk:openjdk1.8.0 (強(qiáng)力建議不要使用 oracle 公司的 linux 版本的 jdk)
hadoop:2.6.5()
虛擬機(jī)的安裝和linux系統(tǒng)的安裝這里就省略了,可以參照網(wǎng)上的教程安裝,一般沒什么大問題,需要注意的是記住這里你輸入的用戶密碼,下面還要用,如下圖所示。
設(shè)置用戶密碼.jpg
用戶選擇
使用虛擬機(jī)安裝好系統(tǒng)后,可以看到登錄界面,如下圖所示。
選擇 other ,在 username 輸入框中輸入 root ,回車,再在 password 輸入框中輸入你創(chuàng)建用戶時(shí)密碼。root 用戶是安裝 centos 自動創(chuàng)建的超級用戶,但密碼和你安裝系統(tǒng)時(shí)創(chuàng)建的普通用戶密碼是一樣的。
平時(shí)在使用 centos 時(shí),并不推薦使用 root 用戶,因?yàn)樵撚脩艟哂姓麄€(gè)系統(tǒng)的最高權(quán)限,使用該用戶可能會導(dǎo)致嚴(yán)重的后果,但前提是你對 linux 很熟,才會誤操作。搭建 hadoop 的大數(shù)據(jù)平臺,使用普通用戶,很多命令需要 sudo 命令來獲取 root 用戶的權(quán)限,比較麻煩,所以索性直接使用 root 用戶。
安裝ssh
集群、單節(jié)點(diǎn)模式都需要用到 ssh 登陸(類似于遠(yuǎn)程登陸,你可以登錄某臺 linux 主機(jī),并且在上面運(yùn)行命令)。
首先確保你的 centos 系統(tǒng)可以正常的上網(wǎng),你可以查看桌面右上角的網(wǎng)絡(luò)圖標(biāo),若顯示紅叉則表明未聯(lián)網(wǎng),可點(diǎn)擊選擇可用網(wǎng)絡(luò),也可以使用桌面左上角的火狐瀏覽器輸入網(wǎng)址驗(yàn)證是否網(wǎng)絡(luò)連接正常。如果還是無法上網(wǎng),檢查虛擬機(jī)的設(shè)置,選用 nat 模式,或者上網(wǎng)百度解決。
檢查網(wǎng)絡(luò)狀況.jpg
確定網(wǎng)絡(luò)連接正常后,打開 centos 的終端,可在 centos 的桌面點(diǎn)擊鼠標(biāo)右鍵,選擇 open in terminal ,如下圖所示。
打開終端.jpg
一般情況下,centos 默認(rèn)已安裝了 ssh client、ssh server,可打開終端執(zhí)行如下命令進(jìn)行檢驗(yàn):
rpm -qa | grep ssh
如果返回的結(jié)果如下圖所示,包含了 ssh client 跟 ssh server,則不需要再安裝。
查看ssh是否已安裝.jpg
如果需要安裝,則可以通過 yum 這個(gè)包管理器進(jìn)行安裝。(安裝過程中會讓你輸入 [y/n],輸入 y 即可)
注意:命令是單條執(zhí)行的,不是直接把兩條命令粘貼過去。
終端中的粘貼可通過鼠標(biāo)點(diǎn)擊右鍵選擇 paste 粘貼,也可通過快捷鍵 【shift + insert】粘貼。
yum install openssh-clients yum install openssh-server
ssh安裝完成后,執(zhí)行如下命令測試一下 ssh 是否可用(ssh首次登陸提示 yes/no 信息,輸入 yes 即可,然后按照提示輸入 root 用戶的密碼,這樣就登錄到本機(jī)了),如下圖所示。
首次登錄ssh.jpg
但這樣登陸需要每次都輸入密碼,我們需要配置成ssh無密碼登陸比較方便。
首先輸入 exit
退出剛才的 ssh,就回到了我們原先的終端窗口,然后利用 ssh-keygen 生成密鑰,并將密鑰加入到授權(quán)中。
exit # 退出剛才的 ssh localhost cd ~/.ssh/ # 若提示沒有該目錄,請先執(zhí)行一次ssh localhost ssh-keygen -t rsa # 會有提示,都按回車即可 cat id_rsa.pub >> authorized_keys # 加入授權(quán) chmod 600 ./authorized_keys # 修改文件權(quán)限
此時(shí)再用 ssh localhost
命令,無需輸入密碼就可以直接登陸了,如下圖所示。
再次登錄ssh.jpg
安裝 java 環(huán)境
java 環(huán)境可選擇 oracle 的 jdk,或是 openjdk(可看作 jdk 的開源版本),現(xiàn)在一般 linux 系統(tǒng)默認(rèn)安裝的基本是 openjdk,這里安裝的是 openjdk1.8.0版本的。
有的 centos 6.4 默認(rèn)安裝了 openjdk 1.7,這里我們可以使用命令檢查一下,和 windows 下的命令一樣,還可以查看 java_home 這個(gè)環(huán)境變量的值。
java -version # 查看 java 的版本 javac -version # 查看編譯命令 javac 的版本 echo $java_home # 查看 $java_home 這個(gè)環(huán)境變量的值
如果系統(tǒng)沒有安裝 openjdk,我們可以通過 yum 包管理器來安裝。(安裝過程中會讓輸入 [y/n],輸入 y 即可)
復(fù)制代碼 代碼如下:
yum install java-1.8.0-openjdk java-1.8.0-openjdk-devel #安裝 openjdk1.8.0
通過上述命令安裝 openjdk,默認(rèn)安裝位置為 /usr/lib/jvm/java-1.8.0,下面配置 java_home 時(shí)就使用這個(gè)位置。
接著需要配置一下 java_home 環(huán)境變量,為了方便,直接在 ~/.bashrc 中進(jìn)行設(shè)置,相當(dāng)于配置的是 windows 的用戶環(huán)境變量,只對單個(gè)用戶生效,當(dāng)用戶登錄后,每次打開 shell 終端,.bashrc 文件都會被讀取。
修改文件,可以直接使用 vim 編輯器打開文件,也可以使用類似于 windows 記事本的 gedit 文本編輯器。
下面命令任選其一。
vim ~/.bashrc # 使用 vim 編輯器在終端中打開 .bashrc 文件 gedit ~/.bashrc # 使用 gedit 文本編輯器打開 .bashrc 文件
在文件最后面添加如下單獨(dú)一行(指向 jdk 的安裝位置),并 保存 。
配置java_home環(huán)境變量.jpg
接著還需要讓該環(huán)境變量生效,執(zhí)行如下命令。
source ~/.bashrc # 使變量設(shè)置生效
設(shè)置好后我們來檢驗(yàn)一下是否設(shè)置正確,如下圖所示。
echo $java_home # 檢驗(yàn)變量值 java -version javac -version $java_home/bin/java -version # 與直接執(zhí)行 java -version 一樣
檢查java_home環(huán)境變量是否配置正確.jpg
這樣,hadoop 所需的 java 運(yùn)行環(huán)境就安裝好了。
安裝 hadoop
在前面 軟件環(huán)境 已經(jīng)給出了 hadoop2.6.5 的下載地址,可以直接通過火狐瀏覽器打開下載,默認(rèn)下載位置是在用戶的 home 中的 downloads 文件夾下,如下圖所示。
下載hadoop.jpg
下載完成后,我們將 hadoop 解壓到 /usr/local/ 中。
tar -zxf ~/下載/hadoop-2.6.5.tar.gz -c /usr/local # 解壓到/usr/local目錄中 cd /usr/local/ # 切換當(dāng)前目錄為 /usr/local 目錄 mv ./hadoop-2.6.5/ ./hadoop # 將文件夾名改為hadoop chown -r root:root ./hadoop # 修改文件權(quán)限,root 是當(dāng)前用戶名
hadoop 解壓后即可使用,輸入如下命令來檢查 hadoop 是否可用,成功則會顯示 hadoop 版本信息。
cd /usr/local/hadoop # 切換當(dāng)前目錄為 /usr/local/hadoop 目錄 ./bin/hadoop version # 查看 hadoop 的版本信息
或者直接輸入 hadoop version
命令也可以查看。
hadoop version # 查看 hadoop 的版本信息
查看hadoop版本信息.jpg
hadoop 安裝方式有三種,分別是單機(jī)模式,偽分布式模式,分布式模式。
單機(jī)模式:hadoop 默認(rèn)模式為非分布式模式(本地模式),無需進(jìn)行其他配置即可運(yùn)行。非分布式即單 java 進(jìn)程,方便進(jìn)行調(diào)試。
偽分布式模式:hadoop 可以在單節(jié)點(diǎn)上以偽分布式的方式運(yùn)行,hadoop 進(jìn)程以分離的 java 進(jìn)程來運(yùn)行,節(jié)點(diǎn)既作為 namenode 也作為 datanode,同時(shí),讀取的是 hdfs 中的文件。
分布式模式:使用多個(gè)節(jié)點(diǎn)構(gòu)成集群環(huán)境來運(yùn)行hadoop,需要多臺主機(jī),也可以是虛擬主機(jī)。
hadoop 偽分布式配置
現(xiàn)在我們就可以來使用 hadoop 運(yùn)行一些例子,hadoop 附帶了很多的例子,可以運(yùn)行 hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.5.jar
看到所有的例子。
我們這里來運(yùn)行一個(gè)查詢的例子,將 input 文件夾作為輸入文件夾,篩選當(dāng)中符合正則表達(dá)式 dfs[a-z.]+
的單詞,統(tǒng)計(jì)它的次數(shù),將篩選結(jié)果輸出到 output 文件夾中。
cd /usr/local/hadoop # 切換當(dāng)前目錄為 /usr/local/hadoop 目錄 mkdir ./input # 在當(dāng)前目錄下創(chuàng)建 input 文件夾 cp ./etc/hadoop/*.xml ./input # 將 hadoop 的配置文件復(fù)制到新建的輸入文件夾 input 中 ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep ./input ./output 'dfs[a-z.]+' cat ./output/* # 查看輸出結(jié)果
通過命令 cat ./output/*
查看結(jié)果,符合正則的單詞 dfsadmin 出現(xiàn)了 1次。
運(yùn)行測試hadoop例子.jpg
若運(yùn)行出錯,如出現(xiàn)如下圖提示。
運(yùn)行hadoop例子出錯.jpg
若出現(xiàn)提示 “warn util.nativecodeloader: unable to load native-hadoop library for your platform… using builtin-java classes where applicable”,該 warn 提示可以忽略,不影響 hadoop 正常運(yùn)行。
注意:hadoop 默認(rèn)不會覆蓋結(jié)果文件,因此再次運(yùn)行上面實(shí)例會提示出錯,需要先將 output 文件夾刪除。
rm -rf ./output # 在 /usr/local/hadoop 目錄下執(zhí)行
測試我們的 hadoop 安裝沒有問題,我們可以開始設(shè)置 hadoop 的環(huán)境變量,同樣在 ~/.bashrc 文件中配置。
gedit ~/.bashrc # 使用 gedit 文本編輯器打開 .bashrc 文件
在 .bashrc 文件最后面增加如下內(nèi)容,注意 hadoop_home 的位置對不對,如果都是按照前面的配置,這部分可照抄。
# hadoop environment variables export hadoop_home=/usr/local/hadoop export hadoop_install=$hadoop_home export hadoop_mapred_home=$hadoop_home export hadoop_common_home=$hadoop_home export hadoop_hdfs_home=$hadoop_home export yarn_home=$hadoop_home export hadoop_common_lib_native_dir=$hadoop_home/lib/native export path=$path:$hadoop_home/sbin:$hadoop_home/bin
hadoop環(huán)境變量的配置.jpg
保存后記得關(guān)掉 gedit 程序,否則會占用終端,無法執(zhí)行下面的命令,可以按 【ctrl + c】鍵終止該程序。
保存后,不要忘記執(zhí)行如下命令使配置生效。
source ~/.bashrc
hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 下,偽分布式需要修改2個(gè)配置文件 core-site.xml 和 hdfs-site.xml 。hadoop的配置文件是 xml 格式,每個(gè)配置以聲明 property 的 name 和 value 的方式來實(shí)現(xiàn)。
修改配置文件 core-site.xml (通過 gedit 編輯會比較方便,輸入命令, gedit ./etc/hadoop/core-site.xml
)。
在 <configuration></configuration>
中間插入如下的代碼。
<configuration> <property> <name>hadoop.tmp.dir</name> <value>file:/usr/local/hadoop/tmp</value> <description>abase for other temporary directories.</description> </property> <property> <name>fs.defaultfs</name> <value>hdfs://localhost:9000</value> </property> </configuration>
同樣的,修改配置文件 hdfs-site.xml , gedit ./etc/hadoop/hdfs-site.xml
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/data</value> </property> </configuration>
配置完成后,執(zhí)行 namenode 的格式化。(hadoop 首次啟動需要該命令)
hdfs namenode -format
成功的話,會看到 “successfully formatted” 和 “exitting with status 0” 的提示,若為 “exitting with status 1” 則是出錯。
namenode格式化.jpg
接下來啟動 hadoop。
start-dfs.sh # 開啟 namenode 和 datanode 進(jìn)程
若出現(xiàn)如下 ssh 的提示 “are you sure you want to continue connecting”,輸入 yes 即可。
啟動hadoop注意事項(xiàng).jpg
啟動完成后,可以通過命令 jps
來判斷是否成功啟動,若出現(xiàn)下面 namenode、datanode、secondarynamenode、jps 四個(gè)進(jìn)程,則 hadoop 啟動成功。
jps # 查看進(jìn)程判斷 hadoop 是否啟動成功
判斷hadoop是否啟動成功.jpg
成功啟動后,也可以訪問 web 界面 http://localhost:50070 查看 namenode 和 datanode 信息,還可以在線查看 hdfs 中的文件。
hadoop正常啟動web界面.jpg
啟動yarn
yarn 是從 mapreduce 中分離出來的,負(fù)責(zé)資源管理與任務(wù)調(diào)度。yarn 運(yùn)行于 mapreduce 之上,提供了高可用性、高擴(kuò)展性。(偽分布式不啟動 yarn 也可以,一般不會影響程序執(zhí)行)
上述通過 start-dfs.sh
命令啟動 hadoop,僅僅是啟動了 mapreduce 環(huán)境,我們可以啟動 yarn ,讓 yarn 來負(fù)責(zé)資源管理與任務(wù)調(diào)度。
首先修改配置文件 mapred-site.xml ,需要先將 mapred-site.xml.template 文件的重命名為 mapred-site.xml。
mv ./etc/hadoop/mapred-site.xml.template ./etc/hadoop/mapred-site.xml # 文件重命名 gedit ./etc/hadoop/mapred-site.xml # 用gedit 文本編輯器打開
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
接著修改配置文件 yarn-site.xml 。
gedit ./etc/hadoop/yarn-site.xml # 用gedit 文本編輯器打開
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
然后就可以啟動 yarn 了,執(zhí)行 start-yarn.sh
命令。
注意:在啟動 yarn 之前,要確保 dfs hadoop 已經(jīng)啟動,也就是執(zhí)行過 start-dfs.sh
。
start-yarn.sh # 啟動yarn mr-jobhistory-daemon.sh start historyserver # 開啟歷史服務(wù)器,才能在web中查看任務(wù)運(yùn)行情況
開啟后通過 jps
查看,可以看到多了 nodemanager 和 resourcemanager 兩個(gè)進(jìn)程,如下圖所示。
啟動yarn.jpg
啟動 yarn 之后,運(yùn)行實(shí)例的方法還是一樣的,僅僅是資源管理方式、任務(wù)調(diào)度不同。啟動 yarn 有個(gè)好處是可以通過 web 界面查看任務(wù)的運(yùn)行情況: http://localhost:8088/cluster 如下圖所示。
yarn的web界面.jpg
yarn 主要是為集群提供更好的資源管理與任務(wù)調(diào)度,如果不想啟動 yarn,務(wù)必把配置文件 mapred-site.xml 重命名,改成 mapred-site.xml.template,需要用時(shí)改回來就行。否則在該配置文件存在,而未開啟 yarn 的情況下,運(yùn)行程序會提示 “retrying connect to server: 0.0.0.0/0.0.0.0:8032” 的錯誤,這也是為何該配置文件初始文件名為 mapred-site.xml.template。
關(guān)閉 yarn 的命令如下,開啟是 start,關(guān)閉是 stop。
stop-yarn.sh mr-jobhistory-daemon.sh stop historyserver
讀到這里,這篇“CentOS中如何搭建Hadoop”文章已經(jīng)介紹完畢,想要掌握這篇文章的知識點(diǎn)還需要大家自己動手實(shí)踐使用過才能領(lǐng)會,如果想了解更多相關(guān)內(nèi)容的文章,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。
本文標(biāo)題:CentOS中如何搭建Hadoop
轉(zhuǎn)載來源:http://aaarwkj.com/article4/igiiie.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供移動網(wǎng)站建設(shè)、網(wǎng)站改版、用戶體驗(yàn)、定制開發(fā)、服務(wù)器托管、網(wǎng)站排名
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)