官方下載地址:http://spark.apache.org/downloads.html ,選擇 Spark 版本和對應(yīng)的 Hadoop 版本后再下載:
解壓安裝包:
# tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz
# vim /etc/profile
添加環(huán)境變量:
export SPARK_HOME=/usr/app/spark-2.2.3-bin-hadoop2.6
export PATH=${SPARK_HOME}/bin:$PATH
使得配置的環(huán)境變量立即生效:
# source /etc/profile
Local 模式是最簡單的一種運行方式,它采用單節(jié)點多線程方式運行,不用部署,開箱即用,適合日常測試開發(fā)。
# 啟動spark-shell
spark-shell --master local[2]
進入 spark-shell 后,程序已經(jīng)自動創(chuàng)建好了上下文 SparkContext
,等效于執(zhí)行了下面的 Scala 代碼:
val conf = new SparkConf().setAppName("Spark shell").setMaster("local[2]")
val sc = new SparkContext(conf)
安裝完成后可以先做一個簡單的詞頻統(tǒng)計例子,感受 spark 的魅力。準(zhǔn)備一個詞頻統(tǒng)計的文件樣本 wc.txt
,內(nèi)容如下:
hadoop,spark,hadoop
spark,flink,flink,spark
hadoop,hadoop
在 scala 交互式命令行中執(zhí)行如下 Scala 語句:
val file = spark.sparkContext.textFile("file:///usr/app/wc.txt")
val wordCounts = file.flatMap(line => line.split(",")).map((word => (word, 1))).reduceByKey(_ + _)
wordCounts.collect
執(zhí)行過程如下,可以看到已經(jīng)輸出了詞頻統(tǒng)計的結(jié)果:
同時還可以通過 Web UI 查看作業(yè)的執(zhí)行情況,訪問端口為 4040
:
Spark 是基于 Scala 語言進行開發(fā)的,分別提供了基于 Scala、Java、Python 語言的 API,如果你想使用 Scala 語言進行開發(fā),則需要搭建 Scala 語言的開發(fā)環(huán)境。
Scala 的運行依賴于 JDK,所以需要你本機有安裝對應(yīng)版本的 JDK,最新的 Scala 2.12.x 需要 JDK 1.8+。
IDEA 默認(rèn)不支持 Scala 語言的開發(fā),需要通過插件進行擴展。打開 IDEA,依次點擊 File => settings=> plugins 選項卡,搜索 Scala 插件 (如下圖)。找到插件后進行安裝,并重啟 IDEA 使得安裝生效。
在 IDEA 中依次點擊 File => New => Project 選項卡,然后選擇創(chuàng)建 Scala—IDEA
工程:
此時看到 Scala SDK
為空,依次點擊 Create
=> Download
,選擇所需的版本后,點擊 OK
按鈕進行下載,下載完成點擊 Finish
進入工程。
方式一是 Scala 官方安裝指南里使用的方式,但下載速度通常比較慢,且這種安裝下并沒有直接提供 Scala 命令行工具。所以個人推薦到官網(wǎng)下載安裝包進行安裝,下載地址:https://www.scala-lang.org/download/
這里我的系統(tǒng)是 Windows,下載 msi 版本的安裝包后,一直點擊下一步進行安裝,安裝完成后會自動配置好環(huán)境變量。
由于安裝時已經(jīng)自動配置好環(huán)境變量,所以 IDEA 會自動選擇對應(yīng)版本的 SDK。
在工程 src
目錄上右擊 New => Scala class 創(chuàng)建 Hello.scala
。輸入代碼如下,完成后點擊運行按鈕,成功運行則代表搭建成功。
在日常的開發(fā)中,由于對應(yīng)軟件(如 Spark)的版本切換,可能導(dǎo)致需要切換 Scala 的版本,則可以在 Project Structures
中的 Global Libraries
選項卡中進行切換。
在 IDEA 中有時候重新打開項目后,右擊并不會出現(xiàn)新建 scala
文件的選項,或者在編寫時沒有 Scala 語法提示,此時可以先刪除 Global Libraries
中配置好的 SDK,之后再重新添加:
另外在 IDEA 中以本地模式運行 Spark 項目是不需要在本機搭建 Spark 和 Hadoop 環(huán)境的。
更多大數(shù)據(jù)系列文章可以參見 GitHub 開源項目: 大數(shù)據(jù)入門指南
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。
本文名稱:Spark系列(二)——Spark開發(fā)環(huán)境搭建-創(chuàng)新互聯(lián)
URL網(wǎng)址:http://aaarwkj.com/article48/jcghp.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供Google、營銷型網(wǎng)站建設(shè)、App設(shè)計、品牌網(wǎng)站制作、建站公司、網(wǎng)頁設(shè)計公司
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容