==> Spark 集群體系結構
創(chuàng)新互聯(lián)成立十年來,這條路我們正越走越好,積累了技術與客戶資源,形成了良好的口碑。為客戶提供做網(wǎng)站、網(wǎng)站設計、網(wǎng)站策劃、網(wǎng)頁設計、域名與空間、網(wǎng)絡營銷、VI設計、網(wǎng)站改版、漏洞修補等服務。網(wǎng)站是否美觀、功能強大、用戶體驗好、性價比高、打開快等等,這些對于網(wǎng)站建設都非常重要,創(chuàng)新互聯(lián)通過對建站技術性的掌握、對創(chuàng)意設計的研究為客戶提供一站式互聯(lián)網(wǎng)解決方案,攜手廣大客戶,共同發(fā)展進步。
--->
==> Spark安裝與部署
Spark 的安裝部署有四種模式:Standalone, YARN, Mesos, Amazon EC2, 這里主要講解Standalone 方式
---> 環(huán)境部署準備工作:(此處不作詳細講解)
---- 四臺 Linux 主機(虛擬機)
---- 修改主機名
---- 免密碼登陸
---- 安裝 JDK 環(huán)境
---> Spark Standalone 偽分布的部署
wget tar zxf spark-2.2.1-bin-hadoop2.7.tgz -C /app cd /app/spark-2.2.1-bin-hadoop2.7/conf cp spark-env.sh.template spark-env.sh cp slaves.template slaves ----------------------------------------------------------------------------------- vim spark-env.sh export JAVA_HOME=/app/java/jdk1.8.0_102 export SPARK_MASTER_HOST=bigdata0 export SPARK_MASTER_PORT=7077 ----------------------------------------------------------------------------------- vim slaves bigdata0
---> Spark Standalone 全分布的部署
---- 環(huán)境架構:
Master | bigdata1 | ||
Worker | bigdata2 | bigdata3 | bigdata4 |
---- 主節(jié)點部署:
wget http://mirrors.hust.edu.cn/apache/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz tar zxf spark-2.2.1-bin-hadoop2.7.tgz -C /app cd /app/spark-2.2.1-bin-hadoop2.7/conf cp spark-env.sh.template spark-env.sh cp slaves.template slaves ----------------------------------------------------------------------------------- vim spark-env.sh export JAVA_HOME=/app/java/jdk1.8.0_102 export SPARK_MASTER_HOST=bigdata0 export SPARK_MASTER_PORT=7077 ----------------------------------------------------------------------------------- vim slaves bigdata2 bigdata3 bigdata4
---- 將主節(jié)點的安裝目錄 cp 到其它從節(jié)點上即可
scp -r spark-2.2.1-bin-hadoop2.7/ bigdata2:/app & scp -r spark-2.2.1-bin-hadoop2.7/ bigdata3:/app & scp -r spark-2.2.1-bin-hadoop2.7/ bigdata4:/app &
---- 啟動
start-all.sh
==> Spark HA 的實現(xiàn)
Spark HA 有兩種實現(xiàn)方式:
---> 基于文件系統(tǒng)的單點故障恢復:只有一個主節(jié)點、只能用于開發(fā)測試
---- 特點:把 Spark 的運行信息入到一個本地的恢復目錄,如果Master死掉,恢復 master 的時候從恢復目錄上讀取之前的信息
---- 配置:在 standalone 的基礎上修改 spark-env.sh 文件,文件內容為:
vim spark-env.sh export JAVA_HOME=/app/java/jdk1.8.0_102 export SPARK_MASTER_HOST=bigdata0 export SPARK_MASTER_PORT=7077 export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=FILESYSTEM -Dspark.deploy.recoveryDirectory=/data/spark_recovery"
---- 參數(shù)講解:
--- spark.deploy.recoveryMode
=> 此參數(shù)默認值為:None ,
=> 基于文件系統(tǒng)的單點故障修復: FILESYSTEM
=> 基于 Zookeeper 實現(xiàn) Standby 的 Master: ZOOKEEPER
--- spark.deploy.recoveryDirectory 指定恢復目錄
---- 測試:bin/spark-shell --master spark://bigdata1:7077
---> 基于 ZooKeeper 實現(xiàn) Standby 的 Master
---- 特點:
Zookeeper 提供了一個 Leader Election 機制,利用這個機制可以保證雖然集群存在多個 Master, 但是只有一個是Active 的,其他的都是 Standby , 當 Active 的 Master 出現(xiàn)故障時,另外的一個 Standby Master 會被選舉出來。 由于集群的信息包括 Worker, Driver 和 Application 的信息都已經(jīng)持久化到 Zookeeper , 因此在切換的過程中只會影響新的 Job 的提交 , 對于正在進行 Job 沒有任何的影響 |
---- 配置:在 standalone 的基礎上修改 spark-env.sh 文件,文件內空為:
vim spark-env.sh export JAVA_HOME=/app/java/jdk1.8.0_102 export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=bigdata2:2181,bigdata3:2181,bigdata4:2181 -Dspark.deploy.zookeeper.dir=/spark"
---- 測試:
bigdata1: sbin/start-all.sh bigdata2: sbin/start-master.sh
文章題目:Spark環(huán)境部署
分享URL:http://aaarwkj.com/article0/pdesio.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供營銷型網(wǎng)站建設、App開發(fā)、移動網(wǎng)站建設、企業(yè)網(wǎng)站制作、響應式網(wǎng)站、網(wǎng)站維護
聲明:本網(wǎng)站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)