欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

第57課:SparkSQLonHive配置及實(shí)戰(zhàn)

1,首先需要安裝hive,參考http://lqding.blog.51cto.com/9123978/1750967

創(chuàng)新互聯(lián)建站從2013年創(chuàng)立,是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項目成都網(wǎng)站制作、成都做網(wǎng)站、外貿(mào)營銷網(wǎng)站建設(shè)網(wǎng)站策劃,項目實(shí)施與項目整合能力。我們以讓每一個夢想脫穎而出為使命,1280元南海做網(wǎng)站,已為上家服務(wù),為南海各地企業(yè)和個人服務(wù),聯(lián)系電話:18980820575

2,在spark的配置目錄下添加配置文件,讓Spark可以訪問hive的metastore。

root@spark-master:/usr/local/spark/spark-1.6.0-bin-hadoop2.6/conf# vi hive-site.xml
<configuration>
<property>
  <name>hive.metastore.uris</name>
  <value>thrift://spark-master:9083</value>
  <description>Thrift uri for the remote metastore. Used by metastore client to connect to remote metastore.</description>
</property>
</configuration>

3,將MySQL jdbc驅(qū)動copy到spark的lib目錄下

root@spark-master:/usr/local/hive/apache-hive-1.2.1/lib# cp mysql-connector-java-5.1.36-bin.jar /usr/local/spark/spark-1.6.0-bin-hadoop2.6/lib/

4,啟動Hive的metastore服務(wù)

root@spark-master:/usr/local/hive/apache-hive-1.2.1/bin# ./hive --service metastore &
[1] 20518
root@spark-master:/usr/local/hive/apache-hive-1.2.1/bin# SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/usr/local/hadoop/hadoop-2.6.0/share/hadoop/common/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/usr/local/spark/spark-1.6.0-bin-hadoop2.6/lib/spark-assembly-1.6.0-hadoop2.6.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
Starting Hive Metastore Server
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/usr/local/hadoop/hadoop-2.6.0/share/hadoop/common/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/usr/local/spark/spark-1.6.0-bin-hadoop2.6/lib/spark-assembly-1.6.0-hadoop2.6.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]

5,啟動spark-shell

root@spark-master:/usr/local/spark/spark-1.6.0-bin-hadoop2.6/bin# ./spark-shell --master spark://spark-master:7077

生成hiveContext

scala> val hc = new org.apache.spark.sql.hive.HiveContext(sc);

執(zhí)行sql

scala> hc.sql("show tables").collect.foreach(println)
[sougou,false]
[t1,false]
scala> hc.sql("select count(*) from sougou").collect.foreach(println)
16/03/14 23:15:58 INFO parse.ParseDriver: Parsing command: select count(*) from sougou
16/03/14 23:16:00 INFO parse.ParseDriver: Parse Completed
16/03/14 23:16:01 INFO Configuration.deprecation: mapred.map.tasks is deprecated. Instead, use mapreduce.job.maps
16/03/14 23:16:02 INFO storage.MemoryStore: Block broadcast_0 stored as values in memory (estimated size 474.9 KB, free 474.9 KB)
16/03/14 23:16:02 INFO storage.MemoryStore: Block broadcast_0_piece0 stored as bytes in memory (estimated size 41.6 KB, free 516.4 KB)
16/03/14 23:16:02 INFO storage.BlockManagerInfo: Added broadcast_0_piece0 in memory on 192.168.199.100:41635 (size: 41.6 KB, free: 517.4 MB)
16/03/14 23:16:02 INFO spark.SparkContext: Created broadcast 0 from collect at <console>:30
16/03/14 23:16:03 INFO mapred.FileInputFormat: Total input paths to process : 1
16/03/14 23:16:03 INFO spark.SparkContext: Starting job: collect at <console>:30
16/03/14 23:16:03 INFO scheduler.DAGScheduler: Registering RDD 5 (collect at <console>:30)
16/03/14 23:16:03 INFO scheduler.DAGScheduler: Got job 0 (collect at <console>:30) with 1 output partitions
16/03/14 23:16:03 INFO scheduler.DAGScheduler: Final stage: ResultStage 1 (collect at <console>:30)
16/03/14 23:16:03 INFO scheduler.DAGScheduler: Parents of final stage: List(ShuffleMapStage 0)
16/03/14 23:16:04 INFO scheduler.DAGScheduler: Missing parents: List(ShuffleMapStage 0)
16/03/14 23:16:04 INFO scheduler.DAGScheduler: Submitting ShuffleMapStage 0 (MapPartitionsRDD[5] at collect at <console>:30), which has no missing parents
16/03/14 23:16:04 INFO storage.MemoryStore: Block broadcast_1 stored as values in memory (estimated size 13.8 KB, free 530.2 KB)
16/03/14 23:16:04 INFO storage.MemoryStore: Block broadcast_1_piece0 stored as bytes in memory (estimated size 6.9 KB, free 537.1 KB)
16/03/14 23:16:04 INFO storage.BlockManagerInfo: Added broadcast_1_piece0 in memory on 192.168.199.100:41635 (size: 6.9 KB, free: 517.4 MB)
16/03/14 23:16:04 INFO spark.SparkContext: Created broadcast 1 from broadcast at DAGScheduler.scala:1006
16/03/14 23:16:04 INFO scheduler.DAGScheduler: Submitting 2 missing tasks from ShuffleMapStage 0 (MapPartitionsRDD[5] at collect at <console>:30)
16/03/14 23:16:04 INFO scheduler.TaskSchedulerImpl: Adding task set 0.0 with 2 tasks
16/03/14 23:16:04 INFO scheduler.TaskSetManager: Starting task 0.0 in stage 0.0 (TID 0, spark-worker2, partition 0,NODE_LOCAL, 2152 bytes)
16/03/14 23:16:04 INFO scheduler.TaskSetManager: Starting task 1.0 in stage 0.0 (TID 1, spark-worker1, partition 1,NODE_LOCAL, 2152 bytes)
16/03/14 23:16:05 INFO storage.BlockManagerInfo: Added broadcast_1_piece0 in memory on spark-worker2:55899 (size: 6.9 KB, free: 146.2 MB)
16/03/14 23:16:05 INFO storage.BlockManagerInfo: Added broadcast_1_piece0 in memory on spark-worker1:38231 (size: 6.9 KB, free: 146.2 MB)
16/03/14 23:16:09 INFO storage.BlockManagerInfo: Added broadcast_0_piece0 in memory on spark-worker1:38231 (size: 41.6 KB, free: 146.2 MB)
16/03/14 23:16:10 INFO storage.BlockManagerInfo: Added broadcast_0_piece0 in memory on spark-worker2:55899 (size: 41.6 KB, free: 146.2 MB)
16/03/14 23:16:16 INFO scheduler.TaskSetManager: Finished task 1.0 in stage 0.0 (TID 1) in 12015 ms on spark-worker1 (1/2)
16/03/14 23:16:16 INFO scheduler.DAGScheduler: ShuffleMapStage 0 (collect at <console>:30) finished in 12.351 s
16/03/14 23:16:16 INFO scheduler.TaskSetManager: Finished task 0.0 in stage 0.0 (TID 0) in 12341 ms on spark-worker2 (2/2)
16/03/14 23:16:16 INFO scheduler.DAGScheduler: looking for newly runnable stages
16/03/14 23:16:16 INFO scheduler.DAGScheduler: running: Set()
16/03/14 23:16:16 INFO scheduler.DAGScheduler: waiting: Set(ResultStage 1)
16/03/14 23:16:16 INFO scheduler.DAGScheduler: failed: Set()
16/03/14 23:16:16 INFO scheduler.DAGScheduler: Submitting ResultStage 1 (MapPartitionsRDD[8] at collect at <console>:30), which has no missing parents
16/03/14 23:16:16 INFO scheduler.TaskSchedulerImpl: Removed TaskSet 0.0, whose tasks have all completed, from pool 
16/03/14 23:16:16 INFO storage.MemoryStore: Block broadcast_2 stored as values in memory (estimated size 12.9 KB, free 550.1 KB)
16/03/14 23:16:16 INFO storage.MemoryStore: Block broadcast_2_piece0 stored as bytes in memory (estimated size 6.4 KB, free 556.5 KB)
16/03/14 23:16:16 INFO storage.BlockManagerInfo: Added broadcast_2_piece0 in memory on 192.168.199.100:41635 (size: 6.4 KB, free: 517.4 MB)
16/03/14 23:16:16 INFO spark.SparkContext: Created broadcast 2 from broadcast at DAGScheduler.scala:1006
16/03/14 23:16:16 INFO scheduler.DAGScheduler: Submitting 1 missing tasks from ResultStage 1 (MapPartitionsRDD[8] at collect at <console>:30)
16/03/14 23:16:16 INFO scheduler.TaskSchedulerImpl: Adding task set 1.0 with 1 tasks
16/03/14 23:16:16 INFO scheduler.TaskSetManager: Starting task 0.0 in stage 1.0 (TID 2, spark-worker1, partition 0,NODE_LOCAL, 1999 bytes)
16/03/14 23:16:16 INFO storage.BlockManagerInfo: Added broadcast_2_piece0 in memory on spark-worker1:38231 (size: 6.4 KB, free: 146.1 MB)
16/03/14 23:16:17 INFO spark.MapOutputTrackerMasterEndpoint: Asked to send map output locations for shuffle 0 to spark-worker1:43568
16/03/14 23:16:17 INFO spark.MapOutputTrackerMaster: Size of output statuses for shuffle 0 is 158 bytes
16/03/14 23:16:18 INFO scheduler.DAGScheduler: ResultStage 1 (collect at <console>:30) finished in 1.288 s
16/03/14 23:16:18 INFO scheduler.TaskSetManager: Finished task 0.0 in stage 1.0 (TID 2) in 1279 ms on spark-worker1 (1/1)
16/03/14 23:16:18 INFO scheduler.TaskSchedulerImpl: Removed TaskSet 1.0, whose tasks have all completed, from pool 
16/03/14 23:16:18 INFO scheduler.DAGScheduler: Job 0 finished: collect at <console>:30, took 14.285673 s
[1000000]

跟Hive相比,速度是有所提升的。如果是復(fù)雜的語句,相比hive速度將更加的快。

scala> hc.sql("select word,count(*) cnt  from sougou group by word order by cnt desc limit 5").collect.foreach(println)
....

16/03/14 23:19:16 INFO scheduler.DAGScheduler: ResultStage 3 (collect at <console>:30) finished in 11.900 s
16/03/14 23:19:16 INFO scheduler.DAGScheduler: Job 1 finished: collect at <console>:30, took 17.925094 s
16/03/14 23:19:16 INFO scheduler.TaskSetManager: Finished task 195.0 in stage 3.0 (TID 200) in 696 ms on spark-worker2 (200/200)
16/03/14 23:19:16 INFO scheduler.TaskSchedulerImpl: Removed TaskSet 3.0, whose tasks have all completed, from pool 
[百度,7564]
[baidu,3652]
[人體藝術(shù),2786]
[館陶縣縣長閆寧的父親,2388]
[4399小游戲,2119]

之前使用Hive需要跑將近110s,而使用Spark SQL僅需17s

分享標(biāo)題:第57課:SparkSQLonHive配置及實(shí)戰(zhàn)
標(biāo)題來源:http://aaarwkj.com/article24/ipdsje.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站設(shè)計、App開發(fā)、網(wǎng)站制作、靜態(tài)網(wǎng)站網(wǎng)站內(nèi)鏈、網(wǎng)站維護(hù)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站建設(shè)
91精品免费播放在线观看| 国产精品日韩经典中文字幕| 一区二区三区日韩电影在线| 国产高清在线a视频大全| 日本高清有码中文字幕| 欧美日本在线区一区二| 日韩一二三区免费不卡视频| 内射极品美女在线观看| 日本亚洲一级中文字幕| 综合激情四射亚洲激情| 国产日韩欧美视频在线观看| 三级日本一区二区三区| 91黄色国产在线播放| 国产又大又长又粗又硬又猛| 人人妻人人澡人人爽久久av| 精品国产一区二区av麻豆| 国产一区二区黄色录像| 日韩欧美国产综合一区二区| 久久99热这里只频精品| 欧美精品中出一区二区三区| 国产精品伊人久久综合网| 日本一区二区三在线观看| 日韩色图在线观看视频| 日本精品国产一区二区在线| 国产91福利视频在线| 国产精品久久午夜伦鲁鲁| 久久久久久狠狠亚洲综合| 成人激情在线免费电影| 中文字慕日韩精品欧美一区| 日韩欧美短视频在线观看| 久草尤物视频在线观看| 丁香六月五月色婷婷网| 久久免费国产精品电影| 中文字幕在线视频黄字幕| 午夜麻豆影网在线观看| 国产精精精精品欧美日韩| av一区二区三区高潮| 2021亚洲精品午夜精品国产| 日韩高清视频 一区二区| 欧美日韩亚洲一区在线| 日韩一区精品视频一区二区|