欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

如何實現(xiàn)用PHP和Shell寫Hadoop的MapReduce程序-創(chuàng)新互聯(lián)

本篇內(nèi)容主要講解“如何實現(xiàn)用PHP和Shell寫Hadoop的MapReduce程序”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“如何實現(xiàn)用PHP和Shell寫Hadoop的MapReduce程序”吧!

創(chuàng)新互聯(lián)公司-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設、高性價比西固網(wǎng)站開發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫,直接使用。一站式西固網(wǎng)站制作公司更省心,省錢,快速模板網(wǎng)站建設找我們,業(yè)務覆蓋西固地區(qū)。費用合理售后完善,十余年實體公司更值得信賴。

使得任何支持標準IO (stdin, stdout)的可執(zhí)行程序都能成為hadoop的mapper或者 reducer。例如:


復制代碼 代碼如下:

hadoop jar hadoop-streaming.jar -input SOME_INPUT_DIR_OR_FILE -output SOME_OUTPUT_DIR -mapper /bin/cat -reducer /usr/bin/wc


在這個例子里,就使用了Unix/Linux自帶的cat和wc工具來作為mapper / reducer,是不是很神奇?

如果你習慣了使用一些動態(tài)語言,用動態(tài)語言來寫mapreduce吧,跟之前的編程沒有任何不同,hadoop只是運行它的一個框架,下面我演示一下用PHP來實現(xiàn)Word Counter的mapreduce。

一、找到Streaming jar

Hadoop根目錄下是沒有hadoop-streaming.jar的,因為streaming是一個contrib,所以要去contrib下面找,以hadoop-0.20.2為例,它在這里:

復制代碼 代碼如下:

$HADOOP_HOME/contrib/streaming/hadoop-0.20.2-streaming.jar

二、寫Mapper

新建一個wc_mapper.php,寫入如下代碼:

復制代碼 代碼如下:

#!/usr/bin/php
<?php
$in = fopen(“php://stdin”, “r”);
$results = array();
while ( $line = fgets($in, 4096) )
{
$words = preg_split(‘/\W/', $line, 0, PREG_SPLIT_NO_EMPTY);
foreach ($words as $word)
$results[] = $word;
}
fclose($in);
foreach ($results as $key => $value)
{
print “$value\t1\n”;
}


這段代碼的大致意思是:把輸入的每行文本中的單詞找出來,并以”
hello 1
world 1″
這樣的形式輸出出來。

和之前寫的PHP基本沒有什么不同,對吧,可能稍微讓你感到陌生有兩個地方:

PHP作為可執(zhí)行程序

第一行的“#!/usr/bin/php”告訴linux,要用/usr/bin/php這個程序作為以下代碼的解釋器。寫過linux shell的人應該很熟悉這種寫法了,每個shell腳本的第一行都是這樣: #!/bin/bash, #!/usr/bin/python

有了這一行,保存好這個文件以后,就可以像這樣直接把wc_mapper.php當作cat, grep一樣的命令執(zhí)行了:./wc_mapper.php

使用stdin接收輸入

PHP支持多種參數(shù)傳入的方法,大家最熟悉的應該是從$_GET, $_POST超全局變量里面取通過Web傳遞的參數(shù),次之是從$_SERVER['argv']里取通過命令行傳入的參數(shù),這里,采用的是標準輸入stdin

它的使用效果是:

在linux控制臺輸入 ./wc_mapper.php

wc_mapper.php運行,控制臺進入等候用戶鍵盤輸入狀態(tài)

用戶通過鍵盤輸入文本

用戶按下Ctrl + D終止輸入,wc_mapper.php開始執(zhí)行真正的業(yè)務邏輯,并將執(zhí)行結果輸出

那么stdout在哪呢?print本身已經(jīng)就是stdout啦,跟我們以前寫web程序和CLI腳本沒有任何不同。

三、寫Reducer

新建一個wc_reducer.php,寫入如下代碼:


復制代碼 代碼如下:

#!/usr/bin/php
<?php
$in = fopen(“php://stdin”, “r”);
$results = array();
while ( $line = fgets($in, 4096) )
{
list($key, $value) = preg_split(“/\t/”, trim($line), 2);
$results[$key] += $value;
}
fclose($in);
ksort($results);
foreach ($results as $key => $value)
{
print “$key\t$value\n”;
}


這段代碼的大意是統(tǒng)計每個單詞出現(xiàn)了多少次,并以”
hello 2
world 1″
這樣的形式輸出。

四、用Hadoop來運行

上傳要統(tǒng)計的示例文本


復制代碼 代碼如下:

hadoop fs -put *.TXT /tmp/input


以Streaming方式執(zhí)行PHP mapreduce程序

復制代碼 代碼如下:

hadoop jar hadoop-0.20.2-streaming.jar -input /tmp/input -output /tmp/output -mapper wc_mapper.php的絕對路徑 -reducer wc_reducer.php的絕對路徑


注意:

input和output目錄是在hdfs上的路徑

mapper和reducer是在本地機器的路徑,一定要寫絕對路徑,不要寫相對路徑,以免到時候hadoop報錯說找不到mapreduce程序。

查看結果


復制代碼 代碼如下:

hadoop fs -cat /tmp/output/part-00000

五、shell版的Hadoop MapReduce程序

復制代碼 代碼如下:

#!/bin/bash -

# 加載配置文件
source './config.sh'

# 處理命令行參數(shù)
while getopts "d:" arg
do
 case $arg in
  d)
   date=$OPTARG

  ?)
            echo "unkonw argument"
   exit 1

    esac
done

# 默認處理日期為昨天
default_date=`date -v-1d +%Y-%m-%d`

# 最終處理日期. 如果日期格式不對, 則退出執(zhí)行
date=${date:-${default_date}}
if ! [[ "$date" =~ [12][0-9]{3}-(0[1-9]|1[12])-(0[1-9]|[12][0-9]|3[01]) ]]
then
 echo "invalid date(yyyy-mm-dd): $date"
 exit 1
fi

# 待處理文件
log_files=$(${hadoop_home}bin/hadoop fs -ls ${log_file_dir_in_hdfs} | awk '{print $8}' | grep $date)

# 如果待處理文件數(shù)目為零, 則退出執(zhí)行
log_files_amount=$(($(echo $log_files | wc -l) + 0))
if [ $log_files_amount -lt 1 ]
then
 echo "no log files found"
 exit 0
fi

# 輸入文件列表
for f in $log_files
do
 input_files_list="${input_files_list} $f"
done

function map_reduce () {
 if ${hadoop_home}bin/hadoop jar ${streaming_jar_path} -input${input_files_list} -output ${mapreduce_output_dir}${date}/${1}/ -mapper "${mapper} ${1}" -reducer "${reducer}" -file "${mapper}"
 then
  echo "streaming job done!"
 else
  exit 1
 fi
}

# 循環(huán)處理每一個bucket
for bucket in ${bucket_list[@]}
do
 map_reduce $bucket
done


到此,相信大家對“如何實現(xiàn)用PHP和Shell寫Hadoop的MapReduce程序”有了更深的了解,不妨來實際操作一番吧!這里是創(chuàng)新互聯(lián)建站,更多相關內(nèi)容可以進入相關頻道進行查詢,關注我們,繼續(xù)學習!

網(wǎng)頁名稱:如何實現(xiàn)用PHP和Shell寫Hadoop的MapReduce程序-創(chuàng)新互聯(lián)
鏈接地址:http://aaarwkj.com/article2/cocgoc.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供外貿(mào)建站、云服務器、虛擬主機、Google定制開發(fā)、響應式網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

外貿(mào)網(wǎng)站建設
精品一区二区在线不卡| 欧美特黄在线免费观看| 国产一区丝袜高跟在线| 久久国产精品欧美熟妇| 国产传媒视频在线观看| 日本一区二区在线观看视频| 精品亚洲综合一区二区| 日本一级二级三级在线看| 精品人妻少妇免费久久蜜臀av| 黄片视频免费在线播放大全| 丁香婷婷深情五月亚洲天堂| 国产麻豆91精品女同性恋| 一二区中文字幕在线观看| 欧美中日韩一区二区三区| 久久综合婷婷亚洲五月| 亚洲av色香蕉一区二区| 热门精品一区二区三区| 在线最新亚洲日本韩国| 福利福利视频一区二区| 国产精品三级国产精品高| 色哟哟亚洲精品在线视频| 手机在线看国产后入| 国产一区二区三区婷婷 | 亚洲欧美日韩国产一区二区三区| 四虎免费在线高清观看| 日韩欧美亚洲另类视频| 国产精品推荐不卡一区| 免费在线av一区二区| 五月婷婷六月丁香综合激情| 成年人午夜看片免费网站| 国产成人大片中文字幕在线| 99久久婷婷免费国产综合精品| 日韩三级成人在线视频| 欧美日韩国产另类一区二区| 久久99热最新地址获取| 国内成人免费在线视频| 女厕所偷拍一区二区三区| 国产午夜精品福利爽爽| 国产成人精品久久一区二区三区 | 日韩欧美午夜福利在线视频| 欧美丰满熟妇视频在线|