大牛用三年譜寫出大數(shù)據(jù)互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理新樂章-創(chuàng)新互聯(lián)

眾所周知，移動互聯(lián)網(wǎng)、社交媒體、電子商務(wù)和各種傳感器的運用產(chǎn)生了超大數(shù)據(jù)集，挖掘這些數(shù)據(jù)可以提煉出有用的信息。

本篇以大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘和機器學(xué)習(xí)為重點，全面介紹了實踐中行之有的數(shù)據(jù)處理算法，是在校學(xué)生和相關(guān)從業(yè)人員的必備讀物。主要內(nèi)容包括10大內(nèi)容:

文成ssl適用于網(wǎng)站、小程序/APP、API接口等需要進(jìn)行數(shù)據(jù)傳輸應(yīng)用場景，ssl證書未來市場廣闊！成為成都創(chuàng)新互聯(lián)的ssl證書銷售渠道，可以享受市場價格4-6折優(yōu)惠！如果有意向歡迎電話聯(lián)系或者加微信：028-86922220（備注：SSL證書合作）期待與您的合作！

◆分布式文件系統(tǒng)以及MapReduce工具;
◆相似性搜索;
◆數(shù)據(jù)流處理以及針對易丟失數(shù)據(jù)等特殊情況的專用處理算法;
◆搜索引擎技術(shù)，如谷歌的PageRank;
◆頻繁項集挖掘;
◆大規(guī)模高維數(shù)據(jù)集的聚類算法;
◆Web應(yīng)用中的關(guān)鍵問題一廣告管理和推薦系統(tǒng);
◆社會網(wǎng)絡(luò)圖挖掘;
◆降維處理，如SVD分解和CUR分解;
◆大規(guī)模機器學(xué)習(xí)。

數(shù)據(jù)挖掘基本概念

本章為全書的導(dǎo)論部分,首先闡述數(shù)據(jù)挖掘的本質(zhì),并討論其在多個相關(guān)學(xué)科中的不同理解。

接著介紹邦弗朗尼原理( Bonferroni's principle), 該原理實際上對數(shù)據(jù)挖掘的過度使用提出了警告。

本章還概述了一些非常有用的思想，它們未必都屬于數(shù)據(jù)挖掘的范疇，但是卻有利于理解數(shù)據(jù)挖掘中的某些重要概念。這些思想包括度量詞語重要性的TF.IDF權(quán)重、哈希函數(shù)及索引結(jié)構(gòu)的性質(zhì)、包含自然對數(shù)底e的恒等式等。最后，簡要介紹了后續(xù)章節(jié)所要涉及的主題。

相似項發(fā)現(xiàn)

一個基本的數(shù)據(jù)挖掘問題是從數(shù)據(jù)中獲得“相似”項。我們將在3.1節(jié)中介紹該問題的相關(guān)應(yīng)用，并且給出一個具體的Web網(wǎng)頁近似查重的例子。這些近似重復(fù)的網(wǎng)頁可能是抄襲網(wǎng)頁，或者僅僅是主機及其他鏡像網(wǎng)頁信息有所不同的鏡像網(wǎng)頁。

首先我們將相似度問題表述為尋找具有相對較大交集的集合問題,接著我們介紹如何將文本相似問題轉(zhuǎn)換為上述集合問題并通過著名的“shingling" 技術(shù)來解決。然后，我們介紹一一個稱為最小哈希( minhashing)的技術(shù)，它能夠?qū)Υ蠹线M(jìn)行壓縮，并且可以基于壓縮后的結(jié)果推導(dǎo)原始集合的相似度。當(dāng)相似度要求很高時，也可以使用-些其他的技術(shù)，這些技術(shù)將在3.9節(jié)進(jìn)行介紹。

任意類型的相似項搜索中存在的另外-一個重要問題是,即使對每項之間的相似度計算非常簡單，但是由于項對數(shù)目過多，無法對所有項對檢測相似度。針對該問題，催生了一種稱為局部敏感哈希( Locality Sensitive Hashing,簡稱LSH )的技術(shù)，該技術(shù)能夠把搜索范圍集中在那些可能相似的項對上面。

最后，我們不再將相似度的概念限制在集合的交集運算上，而是考慮在任意空間下的距離度量理論。與此同時，這也激發(fā)了一個LSH的通用框架的出現(xiàn)，該框架能夠應(yīng)用在相似度的其他定義中。

大牛用三年譜寫出大數(shù)據(jù)互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理新樂章

數(shù)據(jù)流挖掘

本書介紹的大部分算法都假定是從數(shù)據(jù)庫中進(jìn)行挖掘。也就是說，如果真需要數(shù)據(jù)的時候，所有數(shù)據(jù)都可用。本章中，我們將給出另外- -種假設(shè):數(shù)據(jù)以一-個或多個流的方式到來，如果不對數(shù)據(jù)進(jìn)行及時的處理或者存儲，數(shù)據(jù)將會永遠(yuǎn)丟失。此外，我們假定數(shù)據(jù)到來的速度實在是太快，以致將全部數(shù)據(jù)存在活動存儲器( 即傳統(tǒng)數(shù)據(jù)庫)并在我們選定的時間進(jìn)行交互是不可能的。

數(shù)據(jù)流處理的每個算法都在某種程度上包含流的匯總( summarization)過程。我們首先考慮如何從流中抽取有用樣本，以及如何從流中過濾除大部分“不想要” 的元素。然后,我們展示如何估計流中的獨立元素個數(shù)，其中估計方法所用的存儲開銷遠(yuǎn)少于列舉所有所見元素的開銷。

另外一種對流進(jìn)行匯總的方法是只觀察一個定長“窗口”，該窗口由最近的n個元素組成，其中n是某個給定值,通常較大。然后我們就當(dāng)它是數(shù)據(jù)庫的一一個關(guān)系-樣對窗口進(jìn)行查詢處理。

如果有很多流并且/或者n很大，我們可能無法存下每個流的整個窗口。因此，即使對這些“窗口”我們都需要進(jìn)行匯總處理。對于-一個位流窗口,其中的1的數(shù)目的近似估計是一個基本問題。

我們將使用一種比存儲整個窗口消耗空間要少很多的方法。該方法也能推廣到對各種求和值進(jìn)行近似。.

大牛用三年譜寫出大數(shù)據(jù)互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理新樂章

頻繁項集

本章主要關(guān)注數(shù)據(jù)刻畫的一類主要技術(shù)一頻繁項集發(fā)現(xiàn)。該問題常常被看成“關(guān)聯(lián)規(guī)則”發(fā)現(xiàn)，盡管后者主要是基于頻繁項集發(fā)現(xiàn)而實現(xiàn)的一一種更復(fù)雜的數(shù)據(jù)刻畫方式。

首先，我們介紹數(shù)據(jù)的“購物籃”模型，其本質(zhì)上是“項”和“購物籃”兩類元素之間的多對多關(guān)系。但是其中有一些關(guān)于數(shù)據(jù)形狀的假設(shè)。頻繁項集問題就是尋找出現(xiàn)在很多相同購物籃中(與該購物籃相關(guān)的)的項集。

頻繁項集發(fā)現(xiàn)問題和第3章討論的相似性搜索不同，前者主要關(guān)注包含某個特定項集的購物籃的絕對數(shù)目,而后者的主要目標(biāo)是尋找購物籃之間具有較高重合度的項集，不管購物籃數(shù)目的絕對數(shù)量是否很低。

上述差異導(dǎo)致了一類新的頻繁項集發(fā)現(xiàn)算法的產(chǎn)生。我們首先介紹A-Priori算法，該算法的基本思路是，如果-一個集合的子集不是頻繁項集，那么該集合也不可能是頻繁項集?；谶@種思路，該算法可以通過檢查小集合而去掉大部分不合格的大集合。接著，我們介紹基本的A-Priori算法的各種改進(jìn)，這些改進(jìn)策略集中關(guān)注給可用內(nèi)存帶來很大壓力的極大規(guī)模數(shù)據(jù)集。

再接下來，我們還會考慮一些更快的近似算法,這些算法不能保證找到所有的頻繁項集。這類算法當(dāng)中的一些算法也應(yīng)用了并行化機制，包括基于MapReduce框架的并行化方法。

最后，我們將簡要地討論數(shù)據(jù)流中的頻繁項集的發(fā)現(xiàn)問題。

大牛用三年譜寫出大數(shù)據(jù)互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理新樂章

大規(guī)模機器學(xué)習(xí)

現(xiàn)在有很多算法被歸入“機器學(xué)習(xí)”類。同本書介紹的其他算法一樣,這些算法的目的都是從數(shù)據(jù)中獲取信息。所有數(shù)據(jù)分析算法都是基于數(shù)據(jù)生成概要,基于這些概要信息可以進(jìn)行決策。

在很多例子中，第6章介紹的頻繁項集分析方法都生成了關(guān)聯(lián)規(guī)則這類信息，這些信息可以用于規(guī)劃銷售策略或者為其他目標(biāo)服務(wù)。

然而，稱為“機器學(xué)習(xí)”的算法不僅能夠?qū)?shù)據(jù)進(jìn)行概括，還可以將它們視作模型的學(xué)習(xí)器或者數(shù)據(jù)的分類器，因而可以學(xué)到數(shù)據(jù)中未來可以見到的某種信息。例如，第7章介紹的聚類算法可以產(chǎn)生- -系列簇，這些簇不僅能告訴我們有關(guān)被分析數(shù)據(jù)(訓(xùn)練集)的信息，而且能夠?qū)⑽磥頂?shù)據(jù)分到聚類算法生成的某-個簇當(dāng)中。因此，機器學(xué)習(xí)愛好者通常用“非監(jiān)督學(xué)習(xí)”這個新詞來表達(dá)聚類，術(shù)語“非監(jiān)督”( unsupervised )表示輸人數(shù)據(jù)并不會告訴聚類算法最后輸出的簇到底應(yīng)該是什么。而在有監(jiān)督( supervised )的機器學(xué)習(xí)(本章的主題)中，給出的數(shù)據(jù)中包含了至少對- -部分?jǐn)?shù)據(jù)進(jìn)行正確分類的信息。已經(jīng)分好類的數(shù)據(jù)稱為訓(xùn)練集( training set )。

本章并不打算全面介紹機器學(xué)習(xí)中所有的方法,而只關(guān)注那些適用于處理極大規(guī)模數(shù)據(jù)的方法，以及有可能并行化實現(xiàn)的方法。我們會介紹學(xué)習(xí)數(shù)據(jù)分類器的經(jīng)典的“感知機”方法，該方法能夠找到-一個將兩類數(shù)據(jù)分開的超平面。之后，我們會考察-一些更現(xiàn)代的包括支持向量機的技術(shù)。與感知機類似，這些方法尋找最佳的分類超平面，以使盡可能少(如果有的話)的訓(xùn)練集元素靠近超平面。最后討論近鄰技術(shù)，即數(shù)據(jù)按照某個空間下最近的一些鄰居的類別進(jìn)行分類。

大牛用三年譜寫出大數(shù)據(jù)互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理新樂章

由于篇幅過長，小編這里就不做過多的介紹了，想必大家對數(shù)據(jù)挖掘和分布式也有自己的一些了解和見解，但是呢，我相信大家對大規(guī)模這個數(shù)字還有些概念上的差距，希望大家能夠仔細(xì)品讀這篇的真諦！

那么，大家如果是需要這篇【大數(shù)據(jù)互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理】技術(shù)文檔的話，++我V X ①⑧⑤⑥①③零⑤③⑨⑤ 就可以獲取了。

大牛用三年譜寫出大數(shù)據(jù)互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理新樂章

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn，海內(nèi)外云服務(wù)器15元起步，三天無理由+7*72小時售后在線，公司持有idc許可證，提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

網(wǎng)頁題目：大牛用三年譜寫出大數(shù)據(jù)互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理新樂章-創(chuàng)新互聯(lián)
本文地址：http://aaarwkj.com/article48/dophhp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供服務(wù)器托管、網(wǎng)站維護、建站公司、定制開發(fā)、網(wǎng)站營銷、標(biāo)簽優(yōu)化

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

大牛用三年譜寫出大數(shù)據(jù)互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理新樂章-創(chuàng)新互聯(lián)

眾所周知，移動互聯(lián)網(wǎng)、社交媒體、電子商務(wù)和各種傳感器的運用產(chǎn)生了超大數(shù)據(jù)集，挖掘這些數(shù)據(jù)可以提煉出有用的信息。

數(shù)據(jù)挖掘基本概念

相似項發(fā)現(xiàn)

數(shù)據(jù)流挖掘

頻繁項集

推薦系統(tǒng).

大規(guī)模機器學(xué)習(xí)

由于篇幅過長，小編這里就不做過多的介紹了，想必大家對數(shù)據(jù)挖掘和分布式也有自己的一些了解和見解，但是呢，我相信大家對大規(guī)模這個數(shù)字還有些概念上的差距，希望大家能夠仔細(xì)品讀這篇的真諦！

那么，大家如果是需要這篇【大數(shù)據(jù)互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理】技術(shù)文檔的話，++我V X ①⑧⑤⑥①③零⑤③⑨⑤ 就可以獲取了。

欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

大牛用三年譜寫出大數(shù)據(jù)互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理新樂章-創(chuàng)新互聯(lián)

眾所周知，移動互聯(lián)網(wǎng)、社交媒體、電子商務(wù)和各種傳感器的運用產(chǎn)生了超大數(shù)據(jù)集，挖掘這些數(shù)據(jù)可以提煉出有用的信息。

數(shù)據(jù)挖掘基本概念

相似項發(fā)現(xiàn)

數(shù)據(jù)流挖掘

頻繁項集

推薦系統(tǒng).

大規(guī)模機器學(xué)習(xí)

那么，大家如果是需要這篇【大數(shù)據(jù)互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理】技術(shù)文檔的話，++我V X ①⑧⑤⑥①③零⑤③⑨⑤ 就可以獲取了。

眾所周知，移動互聯(lián)網(wǎng)、社交媒體、電子商務(wù)和各種傳感器的運用產(chǎn)生了超大數(shù)據(jù)集，挖掘這些數(shù)據(jù)可以提煉出有用的信息。

那么，大家如果是需要這篇【大數(shù)據(jù)互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理】技術(shù)文檔的話，++我V X ①⑧⑤⑥①③零⑤③⑨⑤ 就可以獲取了。