欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

創(chuàng)建RDD的方式有哪些-創(chuàng)新互聯(lián)

這篇文章主要講解了“創(chuàng)建RDD的方式有哪些”,文中的講解內(nèi)容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“創(chuàng)建RDD的方式有哪些”吧!

邯山ssl適用于網(wǎng)站、小程序/APP、API接口等需要進行數(shù)據(jù)傳輸應用場景,ssl證書未來市場廣闊!成為成都創(chuàng)新互聯(lián)的ssl證書銷售渠道,可以享受市場價格4-6折優(yōu)惠!如果有意向歡迎電話聯(lián)系或者加微信:18980820575(備注:SSL證書合作)期待與您的合作!

1.從集合中創(chuàng)建RDD

 val conf = new SparkConf().setAppName("Test").setMaster("local")
      val sc = new SparkContext(conf)
      //這兩個方法都有第二參數(shù)是一個默認值2  分片數(shù)量(partition的數(shù)量)
      //scala集合通過makeRDD創(chuàng)建RDD,底層實現(xiàn)也是parallelize
      val rdd1 = sc.makeRDD(Array(1,2,3,4,5,6))
     //scala集合通過parallelize創(chuàng)建RDD
      val rdd2 = sc.parallelize(Array(1,2,3,4,5,6))

2.從外部存儲創(chuàng)建RDD

 //從外部存儲創(chuàng)建RDD
 val rdd3 = sc.textFile("hdfs://hadoop01:8020/word.txt")

RDD編程API

RDD支持兩種操作:轉(zhuǎn)化操作和行動操作。RDD 的轉(zhuǎn)化操作是返回一個新的 RDD的操作,比如 map()和 filter(),而行動操作則是向驅(qū)動器程序返回結(jié)果或把結(jié)果寫入外部系統(tǒng)的操作。比如 count() 和 first()。

Spark采用惰性計算模式,RDD只有第一次在一個行動操作中用到時,才會真正計算。Spark可以優(yōu)化整個計算過程。默認情況下,Spark 的 RDD 會在你每次對它們進行行動操作時重新計算。如果想在多個行動操作中重用同一個 RDD,可以使用 RDD.persist() 讓 Spark 把這個 RDD 緩存下來。

Transformation算子

RDD中的所有轉(zhuǎn)換都是延遲加載的,也就是說,它們并不會直接計算結(jié)果。相反的,它們只是記住這些應用到基礎(chǔ)數(shù)據(jù)集(例如一個文件)上的轉(zhuǎn)換動作。只有當發(fā)生一個要求返回結(jié)果給Driver的動作時,這些轉(zhuǎn)換才會真正運行。這種設(shè)計讓Spark更加有效率地運行。

轉(zhuǎn)換

含義

map(func)

返回一個新的RDD,該RDD由每一個輸入元素經(jīng)過func函數(shù)轉(zhuǎn)換后組成

filter(func)

返回一個新的RDD,該RDD由經(jīng)過func函數(shù)計算后返回值為true的輸入元素組成

flatMap(func)

類似于map,但是每一個輸入元素可以被映射為0或多個輸出元素(所以func應該返回一個序列,而不是單一元素)

mapPartitions(func)

類似于map,但獨立地在RDD的每一個分片上運行,因此在類型為T的RDD上運行時,func的函數(shù)類型必須是Iterator[T] => Iterator[U]

mapPartitionsWithIndex(func)

類似于mapPartitions,但func帶有一個整數(shù)參數(shù)表示分片的索引值,因此在類型為T的RDD上運行時,func的函數(shù)類型必須是(Int, Iterator[T]) => Iterator[U]

sample(withReplacement, fraction, seed)

根據(jù)fraction指定的比例對數(shù)據(jù)進行采樣,可以選擇是否使用隨機數(shù)進行替換,seed用于指定隨機數(shù)生成器種子

union(otherDataset)

對源RDD和參數(shù)RDD求并集后返回一個新的RDD

intersection(otherDataset)

對源RDD和參數(shù)RDD求交集后返回一個新的RDD

distinct([numTasks]))

對源RDD進行去重后返回一個新的RDD

groupByKey([numTasks])

在一個(K,V)的RDD上調(diào)用,返回一個(K, Iterator[V])的RDD

reduceByKey(func, [numTasks])

在一個(K,V)的RDD上調(diào)用,返回一個(K,V)的RDD,使用指定的reduce函數(shù),將相同key的值聚合到一起,與groupByKey類似,reduce任務的個數(shù)可以通過第二個可選的參數(shù)來設(shè)置

aggregateByKey(zeroValue)(seqOp, combOp, [numTasks])

相同的Key值進行聚合操作,在聚合過程中同樣使用了一個中立的初始值zeroValue:中立值,定義返回value的類型,并參與運算seqOp:用來在同一個partition中合并值combOp:用來在不同partiton中合并值

sortByKey([ascending], [numTasks])

在一個(K,V)的RDD上調(diào)用,K必須實現(xiàn)Ordered接口,返回一個按照key進行排序的(K,V)的RDD

sortBy(func,[ascending], [numTasks])

與sortByKey類似,但是更靈活

join(otherDataset, [numTasks])

在類型為(K,V)和(K,W)的RDD上調(diào)用,返回一個相同key對應的所有元素對在一起的(K,(V,W))的RDD

cogroup(otherDataset, [numTasks])

在類型為(K,V)和(K,W)的RDD上調(diào)用,返回一個(K,(Iterable,Iterable))類型的RDD

cartesian(otherDataset)

笛卡爾積

pipe(command, [envVars])

將一些shell命令用于Spark中生成新的RDD

coalesce(numPartitions)

重新分區(qū)

repartition(numPartitions)

重新分區(qū)

repartitionAndSortWithinPartitions(partitioner)

重新分區(qū)和排序

 Action算子

在RDD上運行計算,并返回結(jié)果給Driver或?qū)懭胛募到y(tǒng)

動作

含義

reduce(func)

通過func函數(shù)聚集RDD中的所有元素,這個功能必須是可交換且可并聯(lián)的

collect()

在驅(qū)動程序中,以數(shù)組的形式返回數(shù)據(jù)集的所有元素

count()

返回RDD的元素個數(shù)

first()

返回RDD的第一個元素(類似于take(1))

take(n)

返回一個由數(shù)據(jù)集的前n個元素組成的數(shù)組

takeSample(withReplacement,num, [seed])

返回一個數(shù)組,該數(shù)組由從數(shù)據(jù)集中隨機采樣的num個元素組成,可以選擇是否用隨機數(shù)替換不足的部分,seed用于指定隨機數(shù)生成器種子

takeOrdered(n, [ordering])

takeOrdered和top類似,只不過以和top相反的順序返回元素

saveAsTextFile(path)

將數(shù)據(jù)集的元素以textfile的形式保存到HDFS文件系統(tǒng)或者其他支持的文件系統(tǒng),對于每個元素,Spark將會調(diào)用toString方法,將它裝換為文件中的文本

saveAsSequenceFile(path)

將數(shù)據(jù)集中的元素以Hadoop sequencefile的格式保存到指定的目錄下,可以使HDFS或者其他Hadoop支持的文件系統(tǒng)。

saveAsObjectFile(path)


countByKey()

針對(K,V)類型的RDD,返回一個(K,Int)的map,表示每一個key對應的元素個數(shù)。

foreach(func)

在數(shù)據(jù)集的每一個元素上,運行函數(shù)func進行更新。

RDD支持兩種操作:轉(zhuǎn)化操作和行動操作。RDD 的轉(zhuǎn)化操作是返回一個新的 RDD的操作,比如 map()和 filter(),而行動操作則是向驅(qū)動器程序返回結(jié)果或把結(jié)果寫入外部系統(tǒng)的操作。比如 count() 和 first()。

Spark采用惰性計算模式,RDD只有第一次在一個行動操作中用到時,才會真正計算。Spark可以優(yōu)化整個計算過程。默認情況下,Spark 的 RDD 會在你每次對它們進行行動操作時重新計算。如果想在多個行動操作中重用同一個 RDD,可以使用 RDD.persist() 讓 Spark 把這個 RDD 緩存下來。

Transformation算子****

RDD中的所有轉(zhuǎn)換都是延遲加載的,也就是說,它們并不會直接計算結(jié)果。相反的,它們只是記住這些應用到基礎(chǔ)數(shù)據(jù)集(例如一個文件)上的轉(zhuǎn)換動作。只有當發(fā)生一個要求返回結(jié)果給Driver的動作時,這些轉(zhuǎn)換才會真正運行。這種設(shè)計讓Spark更加有效率地運行。

轉(zhuǎn)換含義
map(func)返回一個新的RDD,該RDD由每一個輸入元素經(jīng)過func函數(shù)轉(zhuǎn)換后組成
filter(func)返回一個新的RDD,該RDD由經(jīng)過func函數(shù)計算后返回值為true的輸入元素組成
flatMap(func)類似于map,但是每一個輸入元素可以被映射為0或多個輸出元素(所以func應該返回一個序列,而不是單一元素)
mapPartitions(func)類似于map,但獨立地在RDD的每一個分片上運行,因此在類型為T的RDD上運行時,func的函數(shù)類型必須是Iterator[T] => Iterator[U]
mapPartitionsWithIndex(func)類似于mapPartitions,但func帶有一個整數(shù)參數(shù)表示分片的索引值,因此在類型為T的RDD上運行時,func的函數(shù)類型必須是(Int, Iterator[T]) => Iterator[U]
sample(withReplacement, fraction, seed)根據(jù)fraction指定的比例對數(shù)據(jù)進行采樣,可以選擇是否使用隨機數(shù)進行替換,seed用于指定隨機數(shù)生成器種子
union(otherDataset)對源RDD和參數(shù)RDD求并集后返回一個新的RDD
intersection(otherDataset)對源RDD和參數(shù)RDD求交集后返回一個新的RDD
distinct([numTasks]))對源RDD進行去重后返回一個新的RDD
groupByKey([numTasks])在一個(K,V)的RDD上調(diào)用,返回一個(K, Iterator[V])的RDD
reduceByKey(func, [numTasks])在一個(K,V)的RDD上調(diào)用,返回一個(K,V)的RDD,使用指定的reduce函數(shù),將相同key的值聚合到一起,與groupByKey類似,reduce任務的個數(shù)可以通過第二個可選的參數(shù)來設(shè)置
aggregateByKey(zeroValue)(seqOp, combOp, [numTasks])相同的Key值進行聚合操作,在聚合過程中同樣使用了一個中立的初始值zeroValue:中立值,定義返回value的類型,并參與運算seqOp:用來在同一個partition中合并值combOp:用來在不同partiton中合并值
sortByKey([ascending], [numTasks])在一個(K,V)的RDD上調(diào)用,K必須實現(xiàn)Ordered接口,返回一個按照key進行排序的(K,V)的RDD
sortBy(func,[ascending], [numTasks])與sortByKey類似,但是更靈活
join(otherDataset, [numTasks])在類型為(K,V)和(K,W)的RDD上調(diào)用,返回一個相同key對應的所有元素對在一起的(K,(V,W))的RDD
cogroup(otherDataset, [numTasks])在類型為(K,V)和(K,W)的RDD上調(diào)用,返回一個(K,(Iterable,Iterable))類型的RDD
cartesian(otherDataset)笛卡爾積
pipe(command, [envVars])將一些shell命令用于Spark中生成新的RDD
coalesce(numPartitions)重新分區(qū)
repartition(numPartitions)重新分區(qū)
repartitionAndSortWithinPartitions(partitioner)重新分區(qū)和排序

** Action算子**

在RDD上運行計算,并返回結(jié)果給Driver或?qū)懭胛募到y(tǒng)

動作含義
reduce(func)通過func函數(shù)聚集RDD中的所有元素,這個功能必須是可交換且可并聯(lián)的
collect()在驅(qū)動程序中,以數(shù)組的形式返回數(shù)據(jù)集的所有元素
count()返回RDD的元素個數(shù)
first()返回RDD的第一個元素(類似于take(1))
take(n)返回一個由數(shù)據(jù)集的前n個元素組成的數(shù)組
takeSample(withReplacement,num, [seed])返回一個數(shù)組,該數(shù)組由從數(shù)據(jù)集中隨機采樣的num個元素組成,可以選擇是否用隨機數(shù)替換不足的部分,seed用于指定隨機數(shù)生成器種子
takeOrdered(n, [ordering])takeOrdered和top類似,只不過以和top相反的順序返回元素
saveAsTextFile(path)將數(shù)據(jù)集的元素以textfile的形式保存到HDFS文件系統(tǒng)或者其他支持的文件系統(tǒng),對于每個元素,Spark將會調(diào)用toString方法,將它裝換為文件中的文本
saveAsSequenceFile(path)將數(shù)據(jù)集中的元素以Hadoop sequencefile的格式保存到指定的目錄下,可以使HDFS或者其他Hadoop支持的文件系統(tǒng)。
saveAsObjectFile(path)
countByKey()針對(K,V)類型的RDD,返回一個(K,Int)的map,表示每一個key對應的元素個數(shù)。
foreach(func)在數(shù)據(jù)集的每一個元素上,運行函數(shù)func進行更新。

感謝各位的閱讀,以上就是“創(chuàng)建RDD的方式有哪些”的內(nèi)容了,經(jīng)過本文的學習后,相信大家對創(chuàng)建RDD的方式有哪些這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識點的文章,歡迎關(guān)注!

分享文章:創(chuàng)建RDD的方式有哪些-創(chuàng)新互聯(lián)
當前網(wǎng)址:http://aaarwkj.com/article22/cchhjc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供手機網(wǎng)站建設(shè)做網(wǎng)站、品牌網(wǎng)站建設(shè)、品牌網(wǎng)站設(shè)計、網(wǎng)站建設(shè)、關(guān)鍵詞優(yōu)化

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

手機網(wǎng)站建設(shè)
成人精品亚洲一区二区| 亚洲av综合日韩精品久久| 不卡视频一区中文字幕| 成人av在线免费播放| 免费在线观看97视频| 免费亚洲一区二区三区| 国产精品久久中文字幕亚洲| 囗交囗爆吞精在线视频| 国产精品_国产精品_k频道| 欧美aⅴ一区二区三区| 国产欧美日韩亚洲精品区| 中文字幕的国产在线播放| 亚洲天堂免费在线播放| 蜜臀在线免费观看av| 日韩毛片资源在线观看| 国产精品黄色av一区二区| 99热精品这里只有精品| 91九色国产原创在线观看| 熟女人妻精品一二三四| 日日淫夜夜操熟女视频| 日日添夜夜添天天操| 中文字幕国产精品专区| 亚洲精品入口一区二区| 国产精品国产三级国产普通话99| 久久久精品国产亚洲av日韩| 欧美成人午夜精品一区二区| 日韩精品a区二区在线电影| 亚洲福利一区福利三区| 中文字幕在线不卡精品视频| 国产欧美日韩另类视频| 日韩有码中文字幕一区| 亚洲成av在线免费不卡| 青青草原在线视频观看| av一区二区三区三| 成人av男人天堂东京热| 十八禁真人无摭挡观看| 91伊人手机在线观看| 国产三级三级在线观看| 清纯美女爱爱高潮av| 免费观看黄片视频在线播放| 欧美国产日韩激情在线|