欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

為什么Spark在數(shù)據(jù)科學(xué)界這么紅?

2021-02-08    分類: 網(wǎng)站建設(shè)

為什么 Spark 在數(shù)據(jù)科學(xué)界這么紅?

今天是2019年,要是有誰說有十年大數(shù)據(jù)工作經(jīng)驗,我是不信的。因為 Spark 正式應(yīng)用才多少年?看過下面文章的你,應(yīng)該就知道了,2012 年移交 Apache Spark, 就算他是 Spark 的 Committer, 滿打滿算才 7 年。

如果是 2006 年 Hadoop 一代長老呢,那肯定有 10 年大數(shù)據(jù)經(jīng)驗了,但依然只能說是半吊子的大數(shù)據(jù)工程師,因為真正有實時大數(shù)據(jù)平臺的年代,要從 2012 年 Apache Spark 正式推出算起。

Spark 是 Apache 的頂級項目,一舉一動都在整個社區(qū)的矚目之下。凡是由 Apache 推動的項目,自然大概率是比較成功的?;叵?Google 當(dāng)年沒將 Big Table, Map Reduce, GFS 及時的推廣到 Apache 落地,反而被后來者 Hadoop 奪得了頭魁,甚為惋惜。想知道Google 錯過這段好時機(jī),可以看我的這篇文章《繼螞蟻金服OceanBase之后,騰訊也祭出了大殺技》

最初時,Spark 孵化于加利福尼亞大學(xué)(University of California) 伯克利分校(Berkeley)的大數(shù)據(jù)實驗室( AMPLab).說起這個實驗室,還有兩個巨頭產(chǎn)品, Apache Mesos 和 Alluxio. 看官可能對這兩產(chǎn)品不是很了解,沒關(guān)系,這里也不打算講,以后再細(xì)說。

2006 年, Hadoop 基于 Google 的三駕馬車,先于 GCP 而被世人所知。除了分布式存儲擴(kuò)充了商業(yè)關(guān)系型數(shù)據(jù)庫的存儲容量外,Map Reduce 更是一大創(chuàng)舉,讓分布式計算取得了開創(chuàng)新的進(jìn)展。但 Map Reduce 的原理注定了它的致命缺陷,中間數(shù)據(jù)集要存盤,以致于丟失了性能上的戰(zhàn)略牌。被 Spark 的內(nèi)存式彈性分布數(shù)據(jù)集(Resilient Distributed Dataset)撿了個漏。于是 Spark 于 2009 年橫空出世,彌補(bǔ)了 Hadoop 性能上的缺陷,由此也搶到了一塊市場。

Hadoop 本來被期望很高,直指機(jī)器學(xué)習(xí)與人工智能,科學(xué)家已經(jīng)嘗試在 Hadoop 上研發(fā)機(jī)器學(xué)習(xí)的軟件庫,但由于中間數(shù)據(jù)要存盤的這一致命缺陷,導(dǎo)致最終很多實時計算項目爛尾,而科學(xué)家們在另外一個項目,叫做 Mesos(分布式集群管理) 上取得長足進(jìn)展,索性在 Mesos 上建立 Spark(分布式計算) 來替代 Hadoop.

由此可見,Hadoop 之所以會被 Spark 打敗,完全是市場新興的訴求(機(jī)器學(xué)習(xí)與人工智能)使然。Spark 的出生,就是為了解決機(jī)器學(xué)習(xí)的困境。

當(dāng)然,說 Spark 打敗 Hadoop 有些不嚴(yán)謹(jǐn),就像說 Apple 的 iOS 打敗 Google 的 Andriod 一樣,兩者是補(bǔ)充,滿足了不同的市場需求而已。Spark 與 Hadoop 在應(yīng)用場景上,只是互相補(bǔ)充罷了,畢竟實現(xiàn) Spark 的硬件要求比 Hadoop 要高很多,成本也就不一樣了。這些都是廠商不會直接告訴你的。

Hadoop 先于 Spark 3 年出世,那么做為 Spark 如何快速從 Hadoop 中奪取屬于自己的市場呢?從頭建立自己的分布式管理,還是利用 Hadoop 已有市場,與 Hadoop 兼容 ,只拋出自己的分布式計算引擎呢?很顯然, 聰明人都會選后者,沒必要從頭建立一個輪子啊。所以很快的,社區(qū)對于 Spark 的接受也相當(dāng)輕松。社區(qū)的推廣在很大程度上也助推了 Spark 的應(yīng)用鋪貨。

Spark 流行的基礎(chǔ)原因說的差不多了,那再說點(diǎn)高級應(yīng)用。軟件發(fā)生到現(xiàn)在這個時間段,真不是哪家軟件能解決某個問題而已了,而是哪家軟件能提供一整套應(yīng)用鏈,就用那家。所以開放性就決定了軟件體系能走多遠(yuǎn)。

就跟編程語言一樣的,原本的 Visual FoxPro, Visual Basic, Delphi 本是解決 MIS 系統(tǒng)的最有效編程工具,但隨著 web, mobile 應(yīng)用需求的出現(xiàn),這些工具再也跟不上需求發(fā)展的步伐了,逐漸就被市場給拋棄了。

縱觀 現(xiàn)在主流的編程語言,Java, Python, 哪一個不是包羅萬象,既可以玩的了 C/S 傳統(tǒng)開發(fā),又駕馭的了 B/S 的潮流,甚至在 mobile 應(yīng)用上也能對付。Spark 也一樣,除了能玩轉(zhuǎn)數(shù)據(jù) CRUD(Create, Retrieve, Update, Delete), 更能匹配當(dāng)下數(shù)據(jù)科學(xué)的潮流,比如批量,實時 ETL, 比如集成各種數(shù)據(jù)分析,數(shù)據(jù)挖掘的算法,高效的去完成機(jī)器學(xué)習(xí)。

Spark 在擁抱內(nèi)存式分布計算的同時,順應(yīng)時勢間接容納了 Spark Streaming, Spark Machine Learning(MLlib)Spark SQL 和 Spark GraphX, 這些組件是當(dāng)下互聯(lián)網(wǎng)生態(tài)需求的大綜合,可以說整個數(shù)據(jù)應(yīng)用鏈,Spark 都好的提供了解決方案,那么它不紅,都沒理由了!

網(wǎng)站標(biāo)題:為什么Spark在數(shù)據(jù)科學(xué)界這么紅?
瀏覽路徑:http://aaarwkj.com/news32/99782.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供全網(wǎng)營銷推廣、網(wǎng)站內(nèi)鏈搜索引擎優(yōu)化、App開發(fā)、用戶體驗網(wǎng)站設(shè)計

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

h5響應(yīng)式網(wǎng)站建設(shè)
国产亚洲日本精品二区| 十八禁一区二区在线观看| 在线最新亚洲日本韩国| 国产精品日韩经典中文字幕| 乱码日本欧美一区二区| 激情网站免费在线观看| 国产亚洲高清一区二区| 亚洲av在线视频免费播放| 韩国av高清在线观看| 亚洲精品一区二区三区高清| 色婷婷综合激情一区二区| 日韩一区不卡在线观看| 国产精品久久护士96| 一级黄片国产精品久久| 中文日韩av在线免费播放| 中文字幕一区二区av| 成人av男人天堂东京热| av资源天堂第一区第二区第三区| 久久婷婷av一区二区三区| 国产传媒视频在线观看| 国产一区黄片视频在线观看| 欧美精品色精品免费观看| av剧情免费在线观看| 日本亚洲一区二区在线观看| 偷拍丝袜美腿亚洲超碰| 日本一欧美一欧美一亚洲| 成年人免费在线观看毛片| 日韩欧美一级性生活片| 国产午夜精品一区二区三区| 久久99久久久久久精品| 欧美日韩精品免费在线观看| 日韩最新视频一区二区三| 亚洲天堂免费观看av| 日本不卡一区二区视频| 亚洲情欲一级片日韩欧美| 亚洲成人久久久av一区| 老牛av一区二区三区| 日韩黄色免费在线观看| 日韩成人在线高清视频| 91精品日日躁夜夜躁欧美| 国产精品一区二区在线观看|