Spark有什么用-創(chuàng)新互聯(lián)

小編給大家分享一下Spark有什么用，相信大部分人都還不怎么了解，因此分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后大有收獲，下面讓我們一起去了解一下吧！

蘭坪ssl適用于網站、小程序/APP、API接口等需要進行數據傳輸應用場景，ssl證書未來市場廣闊！成為創(chuàng)新互聯(lián)的ssl證書銷售渠道，可以享受市場價格4-6折優(yōu)惠！如果有意向歡迎電話聯(lián)系或者加微信：18982081108（備注：SSL證書合作）期待與您的合作！

SPARK

Apache Spark 是專為大規(guī)模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用并行框架，Spark，擁有Hadoop MapReduce所具有的優(yōu)點；但不同于MapReduce的是Job中間輸出結果可以保存在內存中，從而不再需要讀寫HDFS，因此Spark能更好地適用于數據挖掘與機器學習等需要迭代的MapReduce的算法。

Spark 是一種與 Hadoop 相似的開源集群計算環(huán)境，但是兩者之間還存在一些不同之處，這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優(yōu)越，換句話說，Spark 啟用了內存分布數據集，除了能夠提供交互式查詢外，它還可以優(yōu)化迭代工作負載。

Spark 是在 Scala 語言中實現的，它將 Scala 用作其應用程序框架。與 Hadoop 不同，Spark 和 Scala 能夠緊密集成，其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數據集。

盡管創(chuàng)建 Spark 是為了支持分布式數據集上的迭代作業(yè)，但是實際上它是對 Hadoop 的補充，可以在 Hadoop 文件系統(tǒng)中并行運行。通過名為 Mesos 的第三方集群框架可以支持此行為。Spark 由加州大學伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發(fā)，可用來構建大型的、低延遲的數據分析應用程序。

Apache Spark是專為大規(guī)模數據處理而設計的快速通用的計算引擎 ?，F在形成一個高速發(fā)展應用廣泛的生態(tài)系統(tǒng)。

學習大數據的起點

Spark 主要有三個特點：

首先，高級 API 剝離了對集群本身的關注，Spark 應用開發(fā)者可以專注于應用所要做的計算本身。

其次，Spark 很快，支持交互式計算和復雜算法。

最后，Spark 是一個通用引擎，可用它來完成各種各樣的運算，包括 SQL 查詢、文本處理、機器學習等，而在 Spark 出現之前，我們一般需要學習各種各樣的引擎來分別處理這些需求。

性能特點

更快的速度

內存計算下，Spark 比 Hadoop 快100倍。

易用性

Spark 提供了80多個高級運算符。

通用性

Spark 提供了大量的庫，包括SQL、DataFrames、MLlib、GraphX、Spark Streaming。開發(fā)者可以在同一個應用程序中無縫組合使用這些庫。

支持多種資源管理器

Spark 支持 Hadoop YARN，Apache Mesos，及其自帶的獨立集群管理器

Spark生態(tài)系統(tǒng)

Shark：Shark基本上就是在Spark的框架基礎上提供和Hive一樣的HiveQL命令接口，為了大程度的保持和Hive的兼容性，Shark使用了Hive的API來實現query Parsing和 Logic Plan generation，最后的PhysicalPlan execution階段用Spark代替HadoopMapReduce。通過配置Shark參數，Shark可以自動在內存中緩存特定的RDD，實現數據重用，進而加快特定數據集的檢索。同時，Shark通過UDF用戶自定義函數實現特定的數據分析學習算法，使得SQL數據查詢和運算分析能結合在一起，大化RDD的重復使用。

SparkR：SparkR是一個為R提供了輕量級的Spark前端的R包。 SparkR提供了一個分布式的data frame數據結構，解決了 R中的data frame只能在單機中使用的瓶頸，它和R中的data frame 一樣支持許多操作，比如select,filter,aggregate等等。（類似dplyr包中的功能）這很好的解決了R的大數據級瓶頸問題。 SparkR也支持分布式的機器學習算法，比如使用MLib機器學習庫。 SparkR為Spark引入了R語言社區(qū)的活力，吸引了大量的數據科學家開始在Spark平臺上直接開始數據分析之旅。

基本原理

Spark Streaming：構建在Spark上處理Stream數據的框架，基本的原理是將Stream數據分成小的時間片斷（幾秒），以類似batch批量處理的方式來處理這小部分數據。Spark Streaming構建在Spark上，一方面是因為Spark的低延遲執(zhí)行引擎（100ms+），雖然比不上專門的流式數據處理軟件，也可以用于實時計算，另一方面相比基于Record的其它處理框架（如Storm），一部分窄依賴的RDD數據集可以從源數據重新計算達到容錯處理目的。此外小批量處理的方式使得它可以同時兼容批量和實時數據處理的邏輯和算法。方便了一些需要歷史數據和實時數據聯(lián)合分析的特定應用場合。

計算方法

Bagel: Pregel on Spark，可以用Spark進行圖計算，這是個非常有用的小項目。Bagel自帶了一個例子，實現了Google的PageRank算法。

當下Spark已不止步于實時計算，目標直指通用大數據處理平臺，而終止Shark，開啟SparkSQL或許已經初見端倪。

近幾年來，大數據機器學習和數據挖掘的并行化算法研究成為大數據領域一個較為重要的研究熱點。早幾年國內外研究者和業(yè)界比較關注的是在 Hadoop 平臺上的并行化算法設計。然而， HadoopMapReduce 平臺由于網絡和磁盤讀寫開銷大，難以高效地實現需要大量迭代計算的機器學習并行化算法。隨著 UC Berkeley AMPLab 推出的新一代大數據平臺 Spark 系統(tǒng)的出現和逐步發(fā)展成熟，近年來國內外開始關注在 Spark 平臺上如何實現各種機器學習和數據挖掘并行化算法設計。為了方便一般應用領域的數據分析人員使用所熟悉的 R 語言在 Spark 平臺上完成數據分析，Spark 提供了一個稱為 SparkR 的編程接口，使得一般應用領域的數據分析人員可以在 R 語言的環(huán)境里方便地使用 Spark 的并行化編程接口和強大計算能力。

以上是“Spark有什么用”這篇文章的所有內容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內容對大家有所幫助，如果還想學習更多知識，歡迎關注創(chuàng)新互聯(lián)行業(yè)資訊頻道！

標題名稱：Spark有什么用-創(chuàng)新互聯(lián)
文章轉載：http://aaarwkj.com/article2/ccjhoc.html

成都網站建設公司_創(chuàng)新互聯(lián)，為您提供云服務器、微信小程序、軟件開發(fā)、網站導航、網站策劃、關鍵詞優(yōu)化

聲明：本網站發(fā)布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內容

欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

Spark有什么用-創(chuàng)新互聯(lián)