欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

Sparkshell詞頻統(tǒng)計和統(tǒng)計PV的心得是什么-創(chuàng)新互聯(lián)

這期內容當中小編將會給大家?guī)碛嘘PSpark shell 詞頻統(tǒng)計和統(tǒng)計PV的心得是什么,文章內容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。

10余年的善左網(wǎng)站建設經(jīng)驗,針對設計、前端、開發(fā)、售后、文案、推廣等六對一服務,響應快,48小時及時工作處理。全網(wǎng)營銷推廣的優(yōu)勢是能夠根據(jù)用戶設備顯示端的尺寸不同,自動調整善左建站的顯示方式,使網(wǎng)站能夠適用不同顯示終端,在瀏覽器中調整網(wǎng)站的寬度,無論在任何一種瀏覽器上瀏覽網(wǎng)站,都能展現(xiàn)優(yōu)雅布局與設計,從而大程度地提升瀏覽體驗。成都創(chuàng)新互聯(lián)從事“善左網(wǎng)站設計”,“善左網(wǎng)站推廣”以來,每個客戶項目都認真落實執(zhí)行。

所有過程按本人實驗并以本人能夠接受的方式理解的。

樣本數(shù)據(jù)

[hadoop@h301 ~]$ cat hh.txt

hello,world

hello,hadoop

hello,oracle

hadoop,oracle

hello,world

hello,hadoop

hello,oracle

hadoop,oracle

詞頻統(tǒng)計,及其按單詞數(shù)量倒序排序過程及其詳解

1.將文件加載成RDD

Scala>  var file=sc.textFile(“hdfs://h301:9000/hh.txt”)

2.將每行按逗號拆分,結果裝載到一個數(shù)組中,每次提取一個單詞, _代表每次輸入內容的占位符

Scala>  val  h2=file.flatMap(_.split(“,”))

3. 將數(shù)組中的每個元素裝載到map方法中執(zhí)行統(tǒng)一的處理任務,將輸入的每個單詞返回成k,v 鍵值對,reduceByKey()方法只對value只運行括號內的方法進行迭代計算_+_ 代表累加,返回的是k和進行過迭代計算的v 鍵值對

Scala>  val  h3=h2.map(x=>(x,1)).reduceByKey(_+_)

4. 再用第二個map接收上一步的k,v鍵值對進行交換位置輸出例如:

輸入的是(“hello”,5)變成(5,”hello”)

Scala>  val  h4=h3.map(_.2,_.1)

5. 將結果按key值排序

Scala>  val  h5=h5.sortByKey(false)      false=倒序 true=升序

6. 在使用map函數(shù)將拍好序的鍵值對進行交換例如:

(5,”hello”) (4,”hadoop”)   變成(“hello”,5)(“hadoop”,4)

Scala> val  h6=h5.map(_.2,_.1)

7. 到此已經(jīng)完成了詞頻統(tǒng)計并按照單詞數(shù)量的降序進行了排列已經(jīng)完成下一步可以將結果輸出到文件夾中,注意是一個目錄

Scala>  h6.saveAsTextFile("hdfs://h201:9000/output1")

上述所有操作拆分為了方便理解,可以將所有操作合成一條代碼:如下

Scala > val wc = file.flatMap(_.split(",")).map(x=>(x,1)).reduceByKey(_+_).map(x=>(x._2,x._1)).sortByKey(false).map(x=>(x._2,x._1)).saveAsTextFile(“hdfs://h301:9000/output1”)

 

flatMap() 與 map() 的區(qū)別

flatMap() 與 map() 都是對輸入的每行內容做同樣的操作但是產(chǎn)生的結果不相同;

例如樣本:

hello,world

hello,hadoop

hello,oracle

將文件導入成RDD  =》var file=sc.textFile(“hdfs://xxx:9000/xx.txt”)

同樣是用split方法按逗號分隔

Var fm=file.flatMap(_.split(“,”))   每行按逗號分隔后產(chǎn)生的結果解將每個單詞放在一個集合中,下面如果使用fm中的內容是每次只會導入一個單詞:

用java表示就是{‘hello’,’world’,’hello’,’hadoop’,’hello’,’oracle’} 相當于一維數(shù)組

Var m=file.map(_.split(“,”))   每行按逗號分隔后產(chǎn)生的結果是將每行的變成一個字符串數(shù)組,再放到一個大的結果集中,下面如果使用m中的內容每次導入一個數(shù)組:

用java表示就是{{‘hello’,’world’},{‘hello’,’hadoop’},{‘hello’,’oracle’}} 相當于二維數(shù)組

這在使用Apache日志統(tǒng)計PV時很有用例如日志格式如下:

123.23.4.5 - - xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

23.12.4.5 - - xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

我們只需要取出按空格分隔的第一個列即可 這是使用flatMap就不合適了我們可以用map

Salca > var file=sc.textFile(“hdfs://h301:9000/access.log”)

Salca> var h2=file.map(_.split(“ ”,2))      #按空格分隔最多兩列

Salca> var h3=h2.map(x=>(x(0),1))       #輸入的數(shù)組去第0列,即可取出IP

Salca> var h4=h3.reduceByKey(_+_)      #統(tǒng)計每個鏈接的登錄次數(shù)

下面就是排序和保存在這里就不在重復了。

上述就是小編為大家分享的Spark shell 詞頻統(tǒng)計和統(tǒng)計PV的心得是什么了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關知識,歡迎關注創(chuàng)新互聯(lián)行業(yè)資訊頻道。

另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。

文章名稱:Sparkshell詞頻統(tǒng)計和統(tǒng)計PV的心得是什么-創(chuàng)新互聯(lián)
當前路徑:http://aaarwkj.com/article10/dsjpgo.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供關鍵詞優(yōu)化、移動網(wǎng)站建設定制開發(fā)、標簽優(yōu)化、網(wǎng)站內鏈、網(wǎng)頁設計公司

廣告

聲明:本網(wǎng)站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

微信小程序開發(fā)
熟女人妻视频一区二区| 国产欧美日韩精品av| 久久精品亚洲精品国产| 草草在线成年免费视频| 91在线人妻一区二区三区| 欧美激情中文字幕日韩精品| 粉嫩欧美一区二区三区| 日本在线视频精品一区| 色婷婷亚洲一区二区三区| 门国产av一区二区三区| 亚洲综合一区国产精品| 午夜福利影片免费观看| 亚洲伦理av在线观看| 中文字幕国产精品资源| 女同三人按摩高潮喷出| av天堂男人站在线观看| 国产精品一级在线播放| 亚洲香蕉在线视频免费| 最近日本免费高清完整版| 色婷婷久久综合中文久久| 国产老妇伦国产熟女高清| 囗交囗爆吞精在线视频| 欧美日韩精品乱码在线观看| 日韩熟女av中文字幕| 精品久久激情中文字幕| 国产精品传媒成人免费| 欧美aⅴ精品一区二区三区| 国产三级三级在线观看| 偷拍视频一区二区三区| 欧美日韩一区中文字幕| 国产黄色一区二区三区四区| 亚洲成人av网址大全| 亚洲狠狠爱一区二区三区| 蜜桃人妻av一区二区三区| 日韩av人妻一区二区三区| 久久热在线视频精品视频| 中文字幕日韩欧美第一页| 青青草原精品资源视频| 黄色免费av片在线观看| 亚洲乱码精品一区二区| 国产乱子一区二区三区|