這篇文章給大家介紹spark中怎么實(shí)現(xiàn)二次排序,內(nèi)容非常詳細(xì),感興趣的小伙伴們可以參考借鑒,希望對大家能有所幫助。
專注于為中小企業(yè)提供成都網(wǎng)站設(shè)計(jì)、成都網(wǎng)站制作服務(wù),電腦端+手機(jī)端+微信端的三站合一,更高效的管理,為中小企業(yè)昭蘇免費(fèi)做網(wǎng)站提供優(yōu)質(zhì)的服務(wù)。我們立足成都,凝聚了一批互聯(lián)網(wǎng)行業(yè)人才,有力地推動了超過千家企業(yè)的穩(wěn)健成長,幫助中小企業(yè)通過網(wǎng)站建設(shè)實(shí)現(xiàn)規(guī)模擴(kuò)充和轉(zhuǎn)變。
import org.apache.spark._ import SparkContext._ object SecondarySort { def main(args: Array[String]) { val sparkConf = new SparkConf().setAppName(" Secondary Sort ") sparkConf.set("mapreduce.framework.name", "yarn"); sparkConf.set("spark.rdd.compress", "true"); sparkConf.set("spark.serializer","org.apache.spark.serializer.KryoSerializer"); sparkConf.set("spark.storage.memoryFraction", "0.5"); sparkConf.set("spark.akka.frameSize", "100"); sparkConf.set("spark.default.parallelism", "1"); val sc = new SparkContext(sparkConf) val file = sc.textFile("hdfs://namenode:9000/test/secsortdata") val rdd = file.map(line => line.split("\t")). map(x => (x(0),x(1))).groupByKey(). sortByKey(true).map(x => (x._1,x._2.toList.sortWith(_>_))) val rdd2 = rdd.flatMap{ x => val len = x._2.length val array = new Array[(String,String)](len) for(i <- 0 until len) { array(i) = (x._1,x._2(i)) } array } sc.stop() } }
關(guān)于spark中怎么實(shí)現(xiàn)二次排序就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,可以學(xué)到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
文章題目:spark中怎么實(shí)現(xiàn)二次排序
網(wǎng)頁地址:http://aaarwkj.com/article6/gjdhig.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供云服務(wù)器、ChatGPT、網(wǎng)站設(shè)計(jì)、企業(yè)建站、做網(wǎng)站、外貿(mào)建站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)