1.大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)類型包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和___非結(jié)構(gòu)化數(shù)據(jù)____。
站在用戶的角度思考問題,與客戶深入溝通,找到北湖網(wǎng)站設(shè)計(jì)與北湖網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗(yàn),讓設(shè)計(jì)與互聯(lián)網(wǎng)技術(shù)結(jié)合,創(chuàng)造個(gè)性化、用戶體驗(yàn)好的作品,建站類型包括:成都做網(wǎng)站、成都網(wǎng)站制作、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣、申請(qǐng)域名、網(wǎng)絡(luò)空間、企業(yè)郵箱。業(yè)務(wù)覆蓋北湖地區(qū)。2.大數(shù)據(jù)的4V10是(只填英文)__數(shù)據(jù)量大__Volume____、_數(shù)據(jù)類型多_Variety____、_處理速度快_Velocity____、__價(jià)值密度低_Value____和___On-Line____。(5.0分)
4.四種大數(shù)據(jù)分析處理系統(tǒng)是批量數(shù)據(jù)處理(如Hadoop_______)、流式數(shù)據(jù)處理(如????? Storm_____)、交互式數(shù)據(jù)處理(如Spark________)和圖數(shù)據(jù)處理(如Trinity)。
5.Tableau是一個(gè)功能強(qiáng)大的__可視化_____數(shù)據(jù)分析軟件。
6.相比Hadoop1.0,Hadoop2.0引入___Yarn___,用于管理資源和調(diào)度任務(wù)。
7.HDFS是Hadoop的__分布式文件__系統(tǒng),負(fù)責(zé)__存儲(chǔ)____和管理數(shù)據(jù)。
9、分布式文件系統(tǒng)HDFS由以下組成(只填英文):
1客戶端Client,負(fù)責(zé)把文件切分成小的Block,獲取文件的位置信息,讀取或者寫入數(shù)據(jù)等等。
2文件目錄營理節(jié)點(diǎn)___NameNode___,負(fù)責(zé)整個(gè)分布式文件系統(tǒng)的元數(shù)據(jù)(MetaData)管理。
3.文件存儲(chǔ)節(jié)點(diǎn)___DataNode___,負(fù)責(zé)文件數(shù)據(jù)的存儲(chǔ)和讀寫操作,HDFS將文件數(shù)據(jù)分割成若干塊
(block),每個(gè)文件存儲(chǔ)節(jié)點(diǎn)存儲(chǔ)一部分block,這樣文件就分布存儲(chǔ)在整個(gè)HDFS服務(wù)器集群中。
4檢查點(diǎn)節(jié)點(diǎn)____SecondaryNamenode____,是文件存儲(chǔ)節(jié)點(diǎn)的冷備份,輔助、分擔(dān)文件目錄管理節(jié)點(diǎn)工作量。在HA架構(gòu)里它不存在了,取而代之是熱備份,提供高可用性,解決單點(diǎn)故障問題。
10MapReduce采用分而治之的思想,___Maper___是一個(gè)映射函數(shù),對(duì)列表的
每一個(gè)元素進(jìn)行指定的操作。____Reducer____是一個(gè)化簡函數(shù),對(duì)列表的元素進(jìn)行合并、歸約。
11.NoSQL的四種類型:___鍵值___存儲(chǔ),如Redis;___列___存儲(chǔ),如HBase;___面向文檔___存儲(chǔ),如MongoDB;___圖形___存儲(chǔ),如Neo4J。
12相比Hadoop1.0,Hadoop2.0引入___Yarn___,用于營理資源和調(diào)度任務(wù)。
13.HDFS是Hadoop的___分布式文件___系統(tǒng),負(fù)責(zé)___存儲(chǔ)___和管理數(shù)據(jù)。
14.HBase是Hadoop的數(shù)據(jù)庫,是利用Hadoop的___HDFS___作為其文件存儲(chǔ)系統(tǒng),利用Hadoop的___MapReduce___處理Hbase中的海量數(shù)據(jù)。利用___Zookeeper___作為其協(xié)調(diào)工具。HBase的體系結(jié)構(gòu)是一個(gè)主從式的結(jié)構(gòu),主節(jié)點(diǎn)___HMaster___在整個(gè)集群當(dāng)中只有—個(gè)在運(yùn)行,從節(jié)點(diǎn)HRegionServer有很多個(gè)在運(yùn)行。
15.Spark尤其適合__迭代____運(yùn)算和交互式數(shù)據(jù)分析,能夠提升大數(shù)據(jù)處理的實(shí)時(shí)性和準(zhǔn)確性,一個(gè)主要原因是沒有用HDFS,而是用__內(nèi)存____存儲(chǔ)中間結(jié)果。
16.HBase是Hadoop的數(shù)據(jù)庫,是利用Hadoop的______作為其文件存儲(chǔ)系統(tǒng),利用Hadoop的______來處理Hbase中的海量數(shù)據(jù)。利用______作為其協(xié)調(diào)工具HBase的體系結(jié)構(gòu)是一個(gè)主從式的結(jié)構(gòu),主節(jié)點(diǎn)______在整個(gè)集群當(dāng)中只有一個(gè)在運(yùn)行,從節(jié)點(diǎn)HRegionServer有很多個(gè)在運(yùn)行。
17CAP原則又稱CAP定理,指的是在一個(gè)分布式系統(tǒng)中有三個(gè)特性(填中文):___一致性___(Consistency)、___可用性___??? (Availability)????? ___分區(qū)容錯(cuò)性___(Partition tolerance)。CAP原則指的是,這三個(gè)要素最多只能同時(shí)實(shí)現(xiàn)___兩___個(gè),不可能三者兼顧。
18Spark室用三種編程語言、和___Scala___,___Java___和__Python____。
19.RDD執(zhí)行過程為一個(gè)DAG,根據(jù)RDD之間的依賴關(guān)系將DAG圖劃分為不同的階段,RDD之間的依賴關(guān)系分為:___窄依賴___和___寬依賴___。
20在HadoopMapReduce1.0,jobtracker負(fù)責(zé)資源管理和job掉度/監(jiān)視,2.0采用Yarn架構(gòu),將jobtracker的功能拆分成兩個(gè)部分(只填英文)__ResourceManager____(英文),負(fù)責(zé)資源管理,和ApplicationMaster,負(fù)責(zé)管理整個(gè)任務(wù)的生命周期。另外,將TaskTracker用___NodeManager___(英文)取代,負(fù)責(zé)管理集群中單個(gè)計(jì)算節(jié)點(diǎn)的任務(wù)。
21創(chuàng)建HDFS的路徑/aa,從本地當(dāng)前目錄上傳文件abc.txt到HDFS的路徑/aa下,SHELL命令
Hdfs dfs-mkdir______/aa
hdfsdfs-put___abc.txt___/aa
22Hive的___元數(shù)據(jù)___信息存儲(chǔ)在MySQL上,另一部分實(shí)際的數(shù)據(jù)文件存放在HDFS上。
二解答題:15從本地當(dāng)前目錄上傳文件abc.txt到HDFS的路徑/aa下,SHELL命令是:?? (10.0分)
____hdfs__dfs-put abc.txt/aa
或者
Hdfs dfs-copyFromLocal______abc.txt/aa
16運(yùn)行scala程序計(jì)算SPARK_HOME路徑下的README文件中包含"a"的行數(shù)和包含"b"的行數(shù)。
寫出scala程序,并上傳運(yùn)行結(jié)果截圖。
17補(bǔ)充程序,實(shí)現(xiàn)把本地某目錄下的文件abc.txt上傳到HDFS某個(gè)目錄下。
public class HDFSUpload{
private static InputStream input
private static OutputStream output;
public static void main(String[] args)throws IOException{
//創(chuàng)建HDFS連接對(duì)象client
Configuration conf=new Configuration();
conf.set("fs.defaultFS","hdfs://bigdata128:9000"); FileSystem client=FileSystem.get(_conf__);
//創(chuàng)建本地文件的輸入流
input=new FileinputStream(“c:\hdfs\abc.txt”);
//創(chuàng)建HDFS的輸出流
output=client._create__(new Path("/adir/aaout.txt"));
//寫文件到HDFS
IOUtils.copy(input,output);
//防止輸出數(shù)據(jù)不完整
output.flush();
//關(guān)閉輸入輸出流
input.close();
output.close();
}
}
第一章
1.4V1O:數(shù)據(jù)量大(Volume)、數(shù)據(jù)類型繁多(Variety)、處理速度快(Velocity)、價(jià)值密度低(Value)。On-Line。
2.大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)類型包括:結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)
3.大數(shù)據(jù)關(guān)鍵技術(shù):數(shù)據(jù)采集與預(yù)處理、數(shù)據(jù)存儲(chǔ)和管理、數(shù)據(jù)處理與分析、數(shù)據(jù)安全和隱私保護(hù)。
4.大數(shù)據(jù)預(yù)處理方法:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約。
6.四種大數(shù)據(jù)分析處理系統(tǒng)是批量數(shù)據(jù)處理(如Hadoop)、流式數(shù)據(jù)處理(如Storm)、交互式數(shù)據(jù)處理(如Spark)和圖數(shù)據(jù)處理(如Trinity)。
第二章
6.Hadoop是基于Java語言開發(fā)的。
7.Tableau是一個(gè)功能強(qiáng)大的可視化數(shù)據(jù)分析軟件。
8.Hadoop的特性:高可靠性、高效性、高擴(kuò)展性、高容錯(cuò)性、成本低、運(yùn)行在Linux操作系統(tǒng)上、支持多種編程語言。
9.Hadoop的核心是分布式文件系統(tǒng)(HDFS)和MapReduce。HDFS負(fù)責(zé)存儲(chǔ)和管理數(shù)據(jù)。
10.MapReduce采用分而治之的思想,Maper是一個(gè)映射函數(shù),對(duì)列表的每一個(gè)元素進(jìn)行指定的操作。Reducer是一個(gè)化簡函數(shù),對(duì)列表的元素進(jìn)行合并、歸約。
11.Hadoop生態(tài)系統(tǒng):HDFS、Hbase、MapReduce、Hive、Pig、Mahout、ZooKeeper、Flume、Sqoop、Ambari。
12.谷歌的三駕馬車:GFS、MapReduce、BigTable。
13. Hadoop偽分布式運(yùn)行啟動(dòng)后所具有的進(jìn)程:NodeManager、 Jps NameNode 、DataNode、 SecondaryNameNode、 ResourceManager
第三章
14.Client客戶端,HDFS的主節(jié)點(diǎn)Master Node,名稱節(jié)點(diǎn)NameNode,
從節(jié)點(diǎn)Slave Node,數(shù)據(jù)節(jié)點(diǎn)DataNode。
塊64MB
第四章
15.Hbase表由行和列組成,列分為若干個(gè)列族。表由若干行組成,每個(gè)行由行鍵標(biāo)識(shí)。
16.行鍵,列族,列限定符,時(shí)間戳
17.訪問表中的行三種方法:通過單個(gè)行鍵訪問、通過一個(gè)行鍵的區(qū)間來訪問,全表掃描
18.Hbase三級(jí)尋址:首先訪問ZooKeeper,獲取-ROOT-表的位置信息;訪問-ROOT-表,獲得.META表的信息;訪問.META表,找到所需的Region位于哪個(gè)Region服務(wù)器,到該服務(wù)器讀取數(shù)據(jù)(用戶數(shù)據(jù)表)
19.Hbase系統(tǒng)架構(gòu):客戶端、ZooKeeper服務(wù)器、Master主服務(wù)器、Region服務(wù)器。HDFS為底層數(shù)據(jù)存儲(chǔ)系統(tǒng)
第七章
20.MapReduce:工作流程:Map任務(wù)運(yùn)行在數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)上,Map任務(wù)結(jié)束,生成中間結(jié)果,中間結(jié)果分發(fā)到Reduce任務(wù),相同key的
21. MapReduce各個(gè)執(zhí)行階段:InputFormatàInputSplitàRecordReader(RR)àMapàShuffleàReduceàOutputFormat
第八章
22.Hadoop1.0不足
(1)抽象層次低(2)表達(dá)能力有限(3)開發(fā)者自己管理作業(yè)之間的依賴關(guān)系(4)難以看到程序整體邏輯(5)執(zhí)行迭代操作效率低(6)資源浪費(fèi)(7)實(shí)時(shí)性差
23. Hadoop1.0問題
HDFS(1)單一名稱節(jié)點(diǎn),存在單點(diǎn)失效問題(2)單一命名空間,無法實(shí)現(xiàn)資源隔離
MaoReduce(3)資源管理效率低
Hadoop2.0改進(jìn)
HDFS(1)HDFS HA,提供名稱節(jié)點(diǎn)熱備份機(jī)制(2)HDFS聯(lián)邦,管理多個(gè)命名空間
MapReduce(3)設(shè)計(jì)了新的資源管理框架Yarn
第九章
24.Hive系統(tǒng)架構(gòu)主要由三個(gè)模塊組成:用戶接口模塊、驅(qū)動(dòng)模塊以及元數(shù)據(jù)存儲(chǔ)模塊(Metastore)
第十章
25.Spark生態(tài)系統(tǒng)包含Spark Core、Spark SQL、Spark Streaming、Structured Streaming、MLlib、GraphX
26.Spark架構(gòu):集群管理器Cluster Manager、工作節(jié)點(diǎn)Work Node、任務(wù)控制節(jié)點(diǎn)Driver、執(zhí)行進(jìn)程Executor
27.RDD依賴關(guān)系:窄依賴和寬依賴
第十一章
28.數(shù)據(jù)分為靜態(tài)數(shù)據(jù)和流數(shù)據(jù),靜態(tài)數(shù)據(jù)用批量計(jì)算,流數(shù)據(jù)用實(shí)時(shí)計(jì)算
29.流計(jì)算:高性能、海量式、實(shí)時(shí)性、分布式、易用性、可靠性
30.流計(jì)算框架:IBM InfoSphere Streams商業(yè)級(jí)高級(jí)計(jì)算平臺(tái)、IBM StreamBase商業(yè)流計(jì)算系統(tǒng)。
開源流計(jì)算框架Twitter Storm、Yahoo!S4.
公司為支持自身業(yè)務(wù)開發(fā)的流計(jì)算框架:DStream(百度開發(fā))、銀河流數(shù)據(jù)處理平臺(tái)(淘寶)、Super Mario
第十二章
31.大數(shù)據(jù)Lambda架構(gòu):批處理層(MapReduce,Spark),實(shí)時(shí)處理層(Storm,Spark Streaming)
32.Flink核心組件棧:物理部署層、Runtime核心層、API&Libraries層
33.Flink體系架構(gòu)JobManager,TaskManager
Flink編程模型:SQL,Table API,DataStream/DataSet API(核心API),有狀態(tài)數(shù)據(jù)流處理
你是否還在尋找穩(wěn)定的海外服務(wù)器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機(jī)房具備T級(jí)流量清洗系統(tǒng)配攻擊溯源,準(zhǔn)確流量調(diào)度確保服務(wù)器高可用性,企業(yè)級(jí)服務(wù)器適合批量采購,新人活動(dòng)首月15元起,快前往官網(wǎng)查看詳情吧
當(dāng)前題目:林子雨大數(shù)據(jù)技術(shù)原理與運(yùn)用期末復(fù)習(xí)-創(chuàng)新互聯(lián)
網(wǎng)站網(wǎng)址:http://aaarwkj.com/article16/gjggg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供關(guān)鍵詞優(yōu)化、Google、網(wǎng)頁設(shè)計(jì)公司、建站公司、微信公眾號(hào)、品牌網(wǎng)站制作
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容