strom基礎(chǔ)

strom 經(jīng)典圖譜：

strom基礎(chǔ)

讓客戶滿意是我們工作的目標，不斷超越客戶的期望值來自于我們對這個行業(yè)的熱愛。我們立志把好的技術(shù)通過有效、簡單的方式提供給客戶，將通過不懈努力成為客戶在信息化領(lǐng)域值得信任、有價值的長期合作伙伴，公司提供的服務(wù)項目有：域名與空間、虛擬主機、營銷軟件、網(wǎng)站建設(shè)、丘北網(wǎng)站維護、網(wǎng)站推廣。

strom基礎(chǔ)

Topologies
Streams
Spouts
Bolts
Stream groupings
Reliability
Tasks
Workers
Configuration

1、Topologies

一個topology是spouts和bolts組成的圖，通過stream groupings將圖中的spouts和bolts連接起來，如下圖：
strom基礎(chǔ)
一個topology會一直運行直到你手動kill掉，Storm自動重新分配執(zhí)行失敗的任務(wù)，并且Storm可以保證你不會有數(shù)據(jù)丟失（如果開啟了高可靠性的話）。如果一些機器意外停機它上面的所有任務(wù)會被轉(zhuǎn)移到其他機器上。
運行一個topology很簡單。首先，把你所有的代碼以及所依賴的jar打進一個jar包。然后運行類似下面的這個命令：

storm jar all-my-code.jar backtype.storm.MyTopology arg1 arg2

這個命令會運行主類: backtype.strom.MyTopology, 參數(shù)是arg1, arg2。這個類的main函數(shù)定義這個topology并且把它提交給Nimbus。storm jar負責連接到Nimbus并且上傳jar包。
Topology的定義是一個Thrift結(jié)構(gòu)，并且Nimbus就是一個Thrift服務(wù)，你可以提交由任何語言創(chuàng)建的topology。上面的方面是用JVM-based語言提交的最簡單的方法。

2、Streams

消息流stream是storm里的關(guān)鍵抽象。一個消息流是一個沒有邊界的tuple序列，而這些tuple序列會以一種分布式的方式并行地創(chuàng)建和處理。通過對stream中tuple序列中每個字段命名來定義stream。在默認的情況下，tuple的字段類型可以是：integer，long，short， byte，string，double，float，boolean和byte array。你也可以自定義類型（只要實現(xiàn)相應(yīng)的序列化器）。
每個消息流在定義的時候會被分配給一個id，因為單向消息流使用的相當普遍， OutputFieldsDeclarer定義了一些方法讓你可以定義一個stream而不用指定這個id。在這種情況下這個stream會分配個值為‘default’默認的id 。
Storm提供的最基本的處理stream的原語是spout和bolt。你可以實現(xiàn)spout和bolt提供的接口來處理你的業(yè)務(wù)邏輯。

3、Spouts

消息源spout是Storm里面一個topology里面的消息生產(chǎn)者。一般來說消息源會從一個外部源讀取數(shù)據(jù)并且向topology里面發(fā)出消息：tuple。Spout可以是可靠的也可以是不可靠的。如果這個tuple沒有被storm成功處理，可靠的消息源spouts可以重新發(fā)射一個tuple，但是不可靠的消息源spouts一旦發(fā)出一個tuple就不能重發(fā)了。
消息源可以發(fā)射多條消息流stream。使用OutputFieldsDeclarer.declareStream來定義多個stream，然后使用SpoutOutputCollector來發(fā)射指定的stream。
Spout類里面最重要的方法是nextTuple。要么發(fā)射一個新的tuple到topology里面或者簡單的返回如果已經(jīng)沒有新的tuple。要注意的是nextTuple方法不能阻塞，因為storm在同一個線程上面調(diào)用所有消息源spout的方法。
另外兩個比較重要的spout方法是ack和fail。storm在檢測到一個tuple被整個topology成功處理的時候調(diào)用ack，否則調(diào)用fail。storm只對可靠的spout調(diào)用ack和fail。

4、Bolts

所有的消息處理邏輯被封裝在bolts里面。Bolts可以做很多事情：過濾，聚合，查詢數(shù)據(jù)庫等等。
Bolts可以簡單的做消息流的傳遞。復(fù)雜的消息流處理往往需要很多步驟，從而也就需要經(jīng)過很多bolts。比如算出一堆圖片里面被轉(zhuǎn)發(fā)最多的圖片就至少需要兩步：第一步算出每個圖片的轉(zhuǎn)發(fā)數(shù)量。第二步找出轉(zhuǎn)發(fā)最多的前10個圖片。（如果要把這個過程做得更具有擴展性那么可能需要更多的步驟）。
Bolts可以發(fā)射多條消息流，使用OutputFieldsDeclarer.declareStream定義stream，使用OutputCollector.emit來選擇要發(fā)射的stream。
Bolts的主要方法是execute, 它以一個tuple作為輸入，bolts使用OutputCollector來發(fā)射tuple，bolts必須要為它處理的每一個tuple調(diào)用OutputCollector的ack方法，以通知Storm這個tuple被處理完成了，從而通知這個tuple的發(fā)射者spouts。一般的流程是： bolts處理一個輸入tuple, 發(fā)射0個或者多個tuple, 然后調(diào)用ack通知storm自己已經(jīng)處理過這個tuple了。storm提供了一個IBasicBolt會自動調(diào)用ack。

5、Stream groupings

定義一個topology的其中一步是定義每個bolt接收什么樣的流作為輸入。stream grouping就是用來定義一個stream應(yīng)該如果分配數(shù)據(jù)給bolts上面的多個tasks。
Storm里面有7種類型的stream grouping

Shuffle Grouping: 隨機分組，隨機派發(fā)stream里面的tuple，保證每個bolt接收到的tuple數(shù)目大致相同。
Fields Grouping：按字段分組，比如按userid來分組，具有同樣userid的tuple會被分到相同的Bolts里的一個task，而不同的userid則會被分配到不同的bolts里的task。
All Grouping：廣播發(fā)送，對于每一個tuple，所有的bolts都會收到。
Global Grouping：全局分組，這個tuple被分配到storm中的一個bolt的其中一個task。再具體一點就是分配給id值最低的那個task。
Non Grouping：不分組，這個分組的意思是說stream不關(guān)心到底誰會收到它的tuple。目前這種分組和Shuffle grouping是一樣的效果，有一點不同的是storm會把這個bolt放到這個bolt的訂閱者同一個線程里面去執(zhí)行。
Direct Grouping：直接分組，這是一種比較特別的分組方法，用這種分組意味著消息的發(fā)送者指定由消息接收者的哪個task處理這個消息。只有被聲明為Direct Stream的消息流可以聲明這種分組方法。而且這種消息tuple必須使用emitDirect方法來發(fā)射。消息處理者可以通過TopologyContext來獲取處理它的消息的task的id （OutputCollector.emit方法也會返回task的id）。
Local or shuffle grouping：如果目標bolt有一個或者多個task在同一個工作進程中，tuple將會被隨機發(fā)生給這些tasks。否則，和普通的Shuffle Grouping行為一致。

6、Reliability

Storm保證每個tuple會被topology完整的執(zhí)行。Storm會追蹤由每個spout tuple所產(chǎn)生的tuple樹（一個bolt處理一個tuple之后可能會發(fā)射別的tuple從而形成樹狀結(jié)構(gòu)），并且跟蹤這棵tuple樹什么時候成功處理完。每個topology都有一個消息超時的設(shè)置，如果storm在這個超時的時間內(nèi)檢測不到某個tuple樹到底有沒有執(zhí)行成功，那么topology會把這個tuple標記為執(zhí)行失敗，并且過一會兒重新發(fā)射這個tuple。
為了利用Storm的可靠性特性，在你發(fā)出一個新的tuple以及你完成處理一個tuple的時候你必須要通知storm。這一切是由OutputCollector來完成的。通過emit方法來通知一個新的tuple產(chǎn)生了，通過ack方法通知一個tuple處理完成了。
Storm的可靠性我們在第四章會深入介紹。

7、Tasks

每一個spout和bolt會被當作很多task在整個集群里執(zhí)行。每一個executor對應(yīng)到一個線程，在這個線程上運行多個task，而stream grouping則是定義怎么從一堆task發(fā)射tuple到另外一堆task。你可以調(diào)用TopologyBuilder類的setSpout和setBolt來設(shè)置并行度（也就是有多少個task）。

8、Workers

一個topology可能會在一個或者多個worker（工作進程）里面執(zhí)行，每個worker是一個物理JVM并且執(zhí)行整個topology的一部分。比如，對于并行度是300的topology來說，如果我們使用50個工作進程來執(zhí)行，那么每個工作進程會處理其中的6個tasks。Storm會盡量均勻的工作分配給所有的worker。

9、Configuration

Storm里面有一堆參數(shù)可以配置來調(diào)整Nimbus, Supervisor以及正在運行的topology的行為，一些配置是系統(tǒng)級別的，一些配置是topology級別的。default.yaml里面有所有的默認配置。你可以通過定義個storm.yaml在你的classpath里來覆蓋這些默認配置。并且你也可以在代碼里面設(shè)置一些topology相關(guān)的配置信息（使用StormSubmitter）。

網(wǎng)站題目：strom基礎(chǔ)
URL標題：http://aaarwkj.com/article32/gjdhsc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供、網(wǎng)站維護、微信公眾號、網(wǎng)站排名、外貿(mào)網(wǎng)站建設(shè)、虛擬主機

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

strom基礎(chǔ)

strom 經(jīng)典圖譜：

strom基礎(chǔ)

1、Topologies

2、Streams

3、Spouts

4、Bolts

5、Stream groupings

6、Reliability

7、Tasks

8、Workers

9、Configuration

1、Topologies

2、Streams

3、Spouts

4、Bolts

5、Stream groupings

6、Reliability

7、Tasks

8、Workers

9、Configuration