小編給大家分享一下scrapy在python分布式爬蟲的使用范圍,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!
成都創(chuàng)新互聯(lián)公司從2013年創(chuàng)立,是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項(xiàng)目網(wǎng)站設(shè)計(jì)、成都網(wǎng)站建設(shè)網(wǎng)站策劃,項(xiàng)目實(shí)施與項(xiàng)目整合能力。我們以讓每一個(gè)夢(mèng)想脫穎而出為使命,1280元昭蘇做網(wǎng)站,已為上家服務(wù),為昭蘇各地企業(yè)和個(gè)人服務(wù),聯(lián)系電話:028-86922220
1.scrapy框架是否可以自己實(shí)現(xiàn)分布式?
不可以。原因有二。
其一:因?yàn)槎嗯_(tái)機(jī)器上部署的scrapy會(huì)各自擁有各自的調(diào)度器,這樣就使得多臺(tái)機(jī)器無法分配start_urls列表中的url。(多臺(tái)機(jī)器無法共享同一個(gè)調(diào)度器)
其二:多臺(tái)機(jī)器爬取到的數(shù)據(jù)無法通過同一個(gè)管道對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一的數(shù)據(jù)持久出存儲(chǔ)。(多臺(tái)機(jī)器無法共享同一個(gè)管道)
2.基于scrapy-redis組件的分布式爬蟲
scrapy-redis組件中為我們封裝好了可以被多臺(tái)機(jī)器共享的調(diào)度器和管道,我們可以直接使用并實(shí)現(xiàn)分布式數(shù)據(jù)爬取。
實(shí)現(xiàn)方式:
基于該組件的RedisSpider類
基于該組件的RedisCrawlSpider類
3.分布式實(shí)現(xiàn)流程:上述兩種不同方式的分布式實(shí)現(xiàn)流程是統(tǒng)一的
3.1 下載scrapy-redis組件:
pip install scrapy-redis
3.2 redis配置文件的配置:
注釋該行:bind 127.0.0.1,表示可以讓其他ip訪問redis
將yes該為no:protected-mode no,表示可以讓其他ip操作redis
3.3 修改爬蟲文件中的相關(guān)代碼:
將爬蟲類的父類修改成基于RedisSpider或者RedisCrawlSpider。注意:如果原始爬蟲文件是基于 Spider的,則應(yīng)該將父類修改成RedisSpider,如果原始爬蟲文件是基于CrawlSpider的,則應(yīng)該將其父類修改成RedisCrawlSpider。
注釋或者刪除start_urls列表,切加入redis_key屬性,屬性值為scrpy-redis組件中調(diào)度器隊(duì)列的名稱
3.4 在配置文件中進(jìn)行相關(guān)配置,開啟使用scrapy-redis組件中封裝好的管道
看完本篇文章我們知道,因?yàn)閮牲c(diǎn)的限制,scrapy框架是不能在python分布式爬蟲獨(dú)立運(yùn)用的,但是我們可以配合其他的一些函數(shù)來運(yùn)行,這點(diǎn)小伙伴們可要記住啦~
以上是“scrapy在python分布式爬蟲的使用范圍”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!
文章標(biāo)題:scrapy在python分布式爬蟲的使用范圍
本文鏈接:http://aaarwkj.com/article6/iggsig.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供、網(wǎng)站維護(hù)、外貿(mào)網(wǎng)站建設(shè)、企業(yè)網(wǎng)站制作、網(wǎng)頁設(shè)計(jì)公司、網(wǎng)站營銷
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)