欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

如何編寫MapReudce程序

本篇內容介紹了“如何編寫MapReudce程序”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!

成都創(chuàng)新互聯公司10多年成都企業(yè)網站建設服務;為您提供網站建設,網站制作,網頁設計及高端網站定制服務,成都企業(yè)網站建設及推廣,對電動窗簾等多個方面擁有豐富設計經驗的網站建設公司。

5.Combiner編程

Combiner實質上就是不同上下文的Reducer的功能是差不多的.所以說它本質上就是一個Reducer.每一個map可能會產生大量的輸出,combiner的作用就是在map端對輸出先做一次合并,以減少傳輸到reducer的數據量。combiner最基本是實現本地key的歸并,combiner具有類似本地的reduce功能。如果不用combiner,那么,所有的結果都是reduce完成,效率會相對低下(會消耗較多的網絡IO)。使用combiner,先完成的map會在本地聚合,提升速度.

  1. 實現本地key的聚合,對map的輸出的key排序,value進行迭代.

  2. 本地reduce功能.

案例3:在wordcount的基礎上,實現Combiner編程

  1. 編寫Combiner實現類,直接繼承Reduce,編寫內容與ruduce差不多.

package cn.itcast.yun10;
import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
public class WordcountCombiner extends
		Reducer<Text, LongWritable, Text, LongWritable> {
	@Override
	protected void reduce(Text key, Iterable<LongWritable> values,
			Context context) throws IOException, InterruptedException {
		// accept 
		// the same as reduce
		String word = key.toString();
		long count = 0L;
		for (LongWritable v : values) {
			count += v.get();
		}
		context.write(new Text(word), new LongWritable(count));
	}
}

     2.指定Combiner

   如何編寫MapReudce程序

使用Combiner編程的兩點注意:

          a.不要以為在寫MapReduce程序時設置了Combiner就認為Combiner一定會起作用,實際情況是這樣的嗎?答案是否定的。hadoop文檔中也有說明Combiner可能被執(zhí)行也可能不被執(zhí)行。那么在什么情況下不執(zhí)行呢?如果當前集群在很繁忙的情況下job就是設置了也不會執(zhí)行Combiner.

         b.Combiner的輸出是Reducer的輸入,所以添加Combiner絕不能改變最終的計算結果。所以Combiner只應該用于那種Reduce的輸入key/value與輸出key/value類型完全一致,且不影響最終結果的場景。比如累加,最大值等。但是并不適用于求平均值類似的操作.

至于Combiner的執(zhí)行時機,待分析完Shuffle之后再來說...?????

6.Shuffle過程分析

MapReduce確保每個Reducer的輸入都按鍵排序.系統(tǒng)執(zhí)行排序的過程在map輸出之后,而在reducer輸入之前完成。稱為Shuffle---洗牌.觀察shuffle如何工作的,有助于我們理解工作機制例如(優(yōu)化MapReduce程序).shuffle屬于不斷被優(yōu)化和改進的代碼庫的一部分.它會隨著版本的不同而隨時改變.在Hadoop里有這么一句話,說shuffle是MapReduce的心臟,是奇跡發(fā)生的地方.

Map端:map函數之后.

    map函數開始產生輸出時,并不是簡單地將它寫到磁盤中。這個過程是很復雜的。它會利用緩沖區(qū)的方式寫到內存。而且處于效率會考慮進行預先排序.

    每個map任務都有一個環(huán)形內存緩沖區(qū),用于存儲任務的輸出。默認的情況下,緩沖區(qū)的大小為100MB,可以通過io.sort.mb的屬性來指定。一旦緩沖區(qū)達到閥值(io.sort.spill.percent,默認情況下是80%),就有一個后臺線程開始把內容寫到spill磁盤中。在寫磁盤過程中,map輸出繼續(xù)被寫到緩沖區(qū),但如果在此期間緩沖區(qū)被填滿,map輸出就會被阻塞直到寫磁盤過程完成。而寫磁盤將按輪詢方式寫到 mapred.local.dir 屬性指定的作業(yè)特定子目錄中的目錄中.在這個目錄下新建一個溢出寫文件。

    在寫磁盤之前,要partition,sort(數據先分區(qū),然后再排序)。如果有combiner,combiner排序后數據。combiner待榷商。

     在寫磁盤的時候會采用壓縮格式。Hadoop中的壓縮庫由 mapred.map.output.compression.codec指定.以后會做詳細的說明.

    等最后記錄寫完,合并全部溢出寫文件為一個分區(qū)且排序的文件.配置屬性 io.sort.factor控制著一次最多能合并多少流,默認大小為10.這就是merge合并了.

   實際上,Conbiner函數的執(zhí)行時機可能會在map的merge操作完成之前,也可能在merge之后執(zhí)行,這個時機由配置參數min.num.spill.for.combine(該值默認為3),也就是說在map端產生的spill溢出文件最少有min.num.spill.for.combine的時候,Conbiner函數會在(merge操作合并最終的本機結果文件之前)執(zhí)行,否則在merge之后執(zhí)行。通過這種方式,就可以在spill文件很多并且需要做conbiner的時候,減少寫入本地磁盤的數據量,同樣也減少了對磁盤的讀寫頻率,可以起到優(yōu)化作業(yè)的目的。--------也就是說spill出的而文件個數達到三,就可以執(zhí)行Combiner函數.然后再meger.

     reducer會通過HTTP方式得到上述執(zhí)行的結果(輸出文件的分區(qū)) (map中),用于文件分區(qū)的工作線程的數量由任務的tracker.http.threads屬性控制.默認值是40.

Reducer端:reduce函數之前

      在運行reduce任務之前,需要集群中多個map任務的輸出作為分區(qū)材料。但是每個map任務的完成時間很有可能是不同的。所以只要有個map任務完成,reduce就會復制COPY它的輸出。這就是復制階段。在reduce端會開啟幾個復制的線程去COPY。該數字有mapred.reduce.parallel.copies屬性決定。默認值為5.

      復制到reduce的話,是有可能到內存,也有可能到磁盤上.這是內存緩沖區(qū)大小有mapred.job.shuffle.input.buffer.percenet屬性控制。占堆空間的百分比。一旦緩沖區(qū)達到閥值的大小,則會合并后溢出到磁盤。隨著磁盤文件復制文件越來越多。就會合并更大的文件。

      然后進入排序階段。準確來說是合并階段,因為排序在map端已經完成。合并時循環(huán)進行的。這個合并也是比較復雜的。

      最后將得到的數據輸入reduce函數.最后合并可能來自內存也有可能來自磁盤.最后來幾個圖吧。

如何編寫MapReudce程序

如何編寫MapReudce程序

7.自定義的排序編程---倒排索引

案例4:存在兩個文件a.txt,b.txt.兩者里面的內容如下:

a.txt文件

--------------------------------

hello world

hello tom

how are you 

how do you do

-----------------------------------

b.txt文件

hello is fool

i say hi

how do you think

---------------------------------------

c.txt文件

you are all handsome

i am the superman

how do you think

---------------------------------------

在上述文件中建立倒排索引,就像如下格式:

hello --> a.txt,2    b.txt,1

how --->a.txt,2    b.txt,1   c.txt,1

思路如下:通過兩次MapReduce執(zhí)行出想要的結果.

如何編寫MapReudce程序

代碼省略.....

實驗結果:

如何編寫MapReudce程序

8.常見的MapReduce算法

   單詞計數,數據去重,排序,Top K,選擇,投影,分組,多表連接,單表關聯.都可以通過MapReduce完成。熟悉這些的話,對于后面的Hive學習有很大的用處.

    在這里就拿多表連接來做一個案例.

    案例5:存在兩個表A,B.兩表之間存在關系。假設兩個表都是以文本文件的形式存儲,SQL語句:select a.id,b.name from a,b where a.id = b.id,得到結果輸出到文件.

如何編寫MapReudce程序

如何編寫MapReudce程序

思路如下:

如何編寫MapReudce程序

代碼省略.

9.Split原理及源碼分析

split的作用就是決定mapper的數量,hadoop將mapreduce的輸入數據劃分成等長的小數據塊。稱為輸入分片(input split).在前面的mapreduce輸入類InputFormat中有講到過.這些小數據塊稱為分片。一個分片對應著一個map任務.關于分片的大小,經驗來說,趨向于一個HDFS的默認塊大小.

如何編寫MapReudce程序

如何編寫MapReudce程序

如何編寫MapReudce程序

如何編寫MapReudce程序

如何編寫MapReudce程序

如何編寫MapReudce程序

如何編寫MapReudce程序

這樣的話,就可以獲取分片的大小啦......

“如何編寫MapReudce程序”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關的知識可以關注創(chuàng)新互聯網站,小編將為大家輸出更多高質量的實用文章!

網站欄目:如何編寫MapReudce程序
網站URL:http://aaarwkj.com/article24/pjchce.html

成都網站建設公司_創(chuàng)新互聯,為您提供小程序開發(fā)、品牌網站建設、電子商務、動態(tài)網站、網站收錄、外貿建站

廣告

聲明:本網站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯

成都app開發(fā)公司
午夜毛片免费在线播放| 亚洲综合色一区二区三区小说| 国产精品区一区二区三区| 欧美v日韩v亚洲综合国产高清| 午夜精品四季av日日骚| 欧美一区二区三区午夜| 人妻中字幕出轨中文字幕| 国产婷婷成人久久av免费高清 | 亚洲国产丁香综合激情啪| 国产丝袜在线精品丝袜不卡| 欧美激情网页一区三区| 亚洲中文字幕永久免费| 日韩成人在线视频观看| 夫妻过性生活视频播放| 欧美激情性国产精品潮| 欧美日韩在线一区2区| 一级黄片视频免费下载| 亚洲另类熟女国产精品老| 亚洲黄色成人在线观看| 亚洲综合另类视频在线观看| 亚洲日本韩国一区二区| 亚洲中文字幕一区乱码| 国产在线观看不卡视频| 人人妻人人澡人人爽的视频| 久久好大好爽要死了欧美| 免费观看日本成人午夜大片| 日韩欧美国产精品一区二区| 91在线人妻一区二区三区| 亚洲午夜一区二区三区精品影院| 黄片免费在线播放欧美| 人妻熟女一区二区视频| 成人性生活黄色三级视频| 日本人妻在线不卡视频| 日本午夜视频一区二区| 中文成人无字幕乱码精品| 国产三级黄在线观看| 国产91白丝在线观看| 国产一区二区三区精品女同| 中文字幕制服日韩久久一区| 久热精品视频在线观看| 色婷婷丝袜一区网站|