本篇以大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘和機器學(xué)習(xí)為重點,全面介紹了實踐中行之有的數(shù)據(jù)處理算法,是在校學(xué)生和相關(guān)從業(yè)人員的必備讀物。主要內(nèi)容包括10大內(nèi)容:
◆分布式文件系統(tǒng)以及MapReduce工具;
◆相似性搜索;
◆數(shù)據(jù)流處理以及針對易丟失數(shù)據(jù)等特殊情況的專用處理算法;
◆搜索引擎技術(shù),如谷歌的PageRank;
◆頻繁項集挖掘;
◆大規(guī)模高維數(shù)據(jù)集的聚類算法;
◆Web應(yīng)用中的關(guān)鍵問題一廣 告管理和推薦系統(tǒng);
◆社會網(wǎng)絡(luò)圖挖掘;
◆降維處理,如SVD分解和CUR分解;
◆大規(guī)模機器學(xué)習(xí)。
本章為全書的導(dǎo)論部分,首先闡述數(shù)據(jù)挖掘的本質(zhì),并討論其在多個相關(guān)學(xué)科中的不同理解。
接著介紹邦弗朗尼原理( Bonferroni's principle), 該原理實際上對數(shù)據(jù)挖掘的過度使用提出了警告。
本章還概述了一些非常有用的思想,它們未必都屬于數(shù)據(jù)挖掘的范疇,但是卻有利于理解數(shù)據(jù)挖掘中的某些重要概念。這些思想包括度量詞語重要性的TF.IDF權(quán)重、哈希函數(shù)及索引結(jié)構(gòu)的性質(zhì)、包含自然對數(shù)底e的恒等式等。最后,簡要介紹了后續(xù)章節(jié)所要涉及的主題。
一個基本的數(shù)據(jù)挖掘問題是從數(shù)據(jù)中獲得“相似”項。我們將在3.1節(jié)中介紹該問題的相關(guān)應(yīng)用,并且給出一個具體的Web網(wǎng)頁近似查重的例子。這些近似重復(fù)的網(wǎng)頁可能是抄襲網(wǎng)頁,或者僅僅是主機及其他鏡像網(wǎng)頁信息有所不同的鏡像網(wǎng)頁。
首先我們將相似度問題表述為尋找具有相對較大交集的集合問題,接著我們介紹如何將文本相似問題轉(zhuǎn)換為上述集合問題并通過著名的“shingling" 技術(shù)來解決。然后,我們介紹一一個稱為最小哈希( minhashing)的技術(shù),它能夠?qū)Υ蠹线M(jìn)行壓縮,并且可以基于壓縮后的結(jié)果推導(dǎo)原始集合的相似度。當(dāng)相似度要求很高時,也可以使用-些其他的技術(shù),這些技術(shù)將在3.9節(jié)進(jìn)行介紹。
任意類型的相似項搜索中存在的另外-一個重要問題是,即使對每項之間的相似度計算非常簡單,但是由于項對數(shù)目過多,無法對所有項對檢測相似度。針對該問題,催生了一種稱為局部敏感哈希( Locality Sensitive Hashing,簡稱LSH )的技術(shù),該技術(shù)能夠把搜索范圍集中在那些可能相似的項對上面。
最后,我們不再將相似度的概念限制在集合的交集運算上,而是考慮在任意空間下的距離度量理論。與此同時,這也激發(fā)了一個LSH的通用框架的出現(xiàn),該框架能夠應(yīng)用在相似度的其他定義中。
本書介紹的大部分算法都假定是從數(shù)據(jù)庫中進(jìn)行挖掘。也就是說,如果真需要數(shù)據(jù)的時候,所有數(shù)據(jù)都可用。本章中,我們將給出另外- -種假設(shè):數(shù)據(jù)以一-個或多個流的方式到來,如果不對數(shù)據(jù)進(jìn)行及時的處理或者存儲,數(shù)據(jù)將會永遠(yuǎn)丟失。此外,我們假定數(shù)據(jù)到來的速度實在是太快,以致將全部數(shù)據(jù)存在活動存儲器( 即傳統(tǒng)數(shù)據(jù)庫)并在我們選定的時間進(jìn)行交互是不可能的。
數(shù)據(jù)流處理的每個算法都在某種程度上包含流的匯總( summarization)過程。我們首先考慮如何從流中抽取有用樣本,以及如何從流中過濾除大部分“不想要” 的元素。然后,我們展示如何估計流中的獨立元素個數(shù),其中估計方法所用的存儲開銷遠(yuǎn)少于列舉所有所見元素的開銷。
另外一種對流進(jìn)行匯總的方法是只觀察一個定長“窗口”,該窗口由最近的n個元素組成,其中n是某個給定值,通常較大。然后我們就當(dāng)它是數(shù)據(jù)庫的一一個關(guān)系-樣對窗口進(jìn)行查詢處理。
如果有很多流并且/或者n很大,我們可能無法存下每個流的整個窗口。因此,即使對這些“窗口”我們都需要進(jìn)行匯總處理。對于-一個位流窗口,其中的1的數(shù)目的近似估計是一個基本問題。
我們將使用一種比存儲整個窗口消耗空間要少很多的方法。該方法也能推廣到對各種求和值進(jìn)行近似。.
本章主要關(guān)注數(shù)據(jù)刻畫的一類主要技術(shù)一頻繁 項集發(fā)現(xiàn)。該問題常常被看成“關(guān)聯(lián)規(guī)則”發(fā)現(xiàn),盡管后者主要是基于頻繁項集發(fā)現(xiàn)而實現(xiàn)的一一種更復(fù)雜的數(shù)據(jù)刻畫方式。
首先,我們介紹數(shù)據(jù)的“購物籃”模型,其本質(zhì)上是“項”和“購物籃”兩類元素之間的多對多關(guān)系。但是其中有一些關(guān)于數(shù)據(jù)形狀的假設(shè)。頻繁項集問題就是尋找出現(xiàn)在很多相同購物籃中(與該購物籃相關(guān)的)的項集。
頻繁項集發(fā)現(xiàn)問題和第3章討論的相似性搜索不同,前者主要關(guān)注包含某個特定項集的購物籃的絕對數(shù)目,而后者的主要目標(biāo)是尋找購物籃之間具有較高重合度的項集,不管購物籃數(shù)目的絕對數(shù)量是否很低。
上述差異導(dǎo)致了一類新的頻繁項集發(fā)現(xiàn)算法的產(chǎn)生。我們首先介紹A-Priori算法, 該算法的基本思路是,如果-一個集合的子集不是頻繁項集,那么該集合也不可能是頻繁項集?;谶@種思路,該算法可以通過檢查小集合而去掉大部分不合格的大集合。接著,我們介紹基本的A-Priori算法的各種改進(jìn),這些改進(jìn)策略集中關(guān)注給可用內(nèi)存帶來很大壓力的極大規(guī)模數(shù)據(jù)集。
再接下來,我們還會考慮一些更快的近似算法,這些算法不能保證找到所有的頻繁項集。這類算法當(dāng)中的一些算法也應(yīng)用了并行化機制,包括基于MapReduce框架的并行化方法。
最后,我們將簡要地討論數(shù)據(jù)流中的頻繁項集的發(fā)現(xiàn)問題。
有一類包羅萬象的Web應(yīng)用涉及用戶對選項的喜好進(jìn)行預(yù)測,這種系統(tǒng)稱為推薦系統(tǒng)( recommendation system )。本章將首先給出這類系統(tǒng)的一些最重要應(yīng)用樣例。
但是,為了集中關(guān)注問題本身,下面給出兩個很好的推薦系統(tǒng)樣例:
(1)基于對用戶興趣的預(yù)測結(jié)果,為在線報紙的讀者提供新聞報道;
(2)基于顧客過去的購物和/或商品搜索歷史,為在線零售商的顧客推薦他們可能想要買的商品。
推薦系統(tǒng)使用一系列不同的技術(shù),這些系統(tǒng)可以分成兩大類:
基于內(nèi)容的系統(tǒng)(Content-basedSystem)這類系統(tǒng)主要考察的是推薦項的性質(zhì)。例如,如果一個Netlix的用戶觀看了多部西部牛仔片,那么系統(tǒng)就會將數(shù)據(jù)庫中屬于“西部牛仔”類的電影推薦給該用戶。
協(xié)同過濾系統(tǒng)( Collaborative Filtering System )這類系統(tǒng)通過計算用戶或/和項之間的相似度來推薦項。與某用戶相似的用戶所喜歡的項會推薦給該用戶。這類推薦系統(tǒng)可以使用第3章的相似性搜索和第7章的聚類技術(shù)的基本原理。但是,這些技術(shù)本身并不足夠,有一些新的算法被證明在推薦系統(tǒng)中十分有效。
現(xiàn)在有很多算法被歸入“機器學(xué)習(xí)”類。同本書介紹的其他算法一樣,這些算法的目的都是從數(shù)據(jù)中獲取信息。所有數(shù)據(jù)分析算法都是基于數(shù)據(jù)生成概要,基于這些概要信息可以進(jìn)行決策。
在很多例子中,第6章介紹的頻繁項集分析方法都生成了關(guān)聯(lián)規(guī)則這類信息,這些信息可以用于規(guī)劃銷售策略或者為其他目標(biāo)服務(wù)。
然而,稱為“機器學(xué)習(xí)”的算法不僅能夠?qū)?shù)據(jù)進(jìn)行概括,還可以將它們視作模型的學(xué)習(xí)器或者數(shù)據(jù)的分類器,因而可以學(xué)到數(shù)據(jù)中未來可以見到的某種信息。例如,第7章介紹的聚類算法可以產(chǎn)生- -系列簇,這些簇不僅能告訴我們有關(guān)被分析數(shù)據(jù)(訓(xùn)練集)的信息,而且能夠?qū)⑽磥頂?shù)據(jù)分到聚類算法生成的某-個簇當(dāng)中。 因此,機器學(xué)習(xí)愛好者通常用“非監(jiān)督學(xué)習(xí)”這個新詞來表達(dá)聚類,術(shù)語“非監(jiān)督”( unsupervised )表示輸人數(shù)據(jù)并不會告訴聚類算法最后輸出的簇到底應(yīng)該是什么。而在有監(jiān)督( supervised )的機器學(xué)習(xí)(本章的主題)中,給出的數(shù)據(jù)中包含了至少對- -部分?jǐn)?shù)據(jù)進(jìn)行正確分類的信息。已經(jīng)分好類的數(shù)據(jù)稱為訓(xùn)練集( training set )。
本章并不打算全面介紹機器學(xué)習(xí)中所有的方法,而只關(guān)注那些適用于處理極大規(guī)模數(shù)據(jù)的方法,以及有可能并行化實現(xiàn)的方法。我們會介紹學(xué)習(xí)數(shù)據(jù)分類器的經(jīng)典的“感知機”方法,該方法能夠找到-一個將兩類數(shù)據(jù)分開的超平面。之后,我們會考察-一些更現(xiàn)代的包括支持向量機的技術(shù)。與感知機類似,這些方法尋找最佳的分類超平面,以使盡可能少(如果有的話)的訓(xùn)練集元素靠近超平面。最后討論近鄰技術(shù),即數(shù)據(jù)按照某個空間下最近的一些鄰居的類別進(jìn)行分類。
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。
網(wǎng)頁題目:大牛用三年譜寫出大數(shù)據(jù)互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理新樂章-創(chuàng)新互聯(lián)
本文地址:http://aaarwkj.com/article48/dophhp.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供服務(wù)器托管、網(wǎng)站維護、建站公司、定制開發(fā)、網(wǎng)站營銷、標(biāo)簽優(yōu)化
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容