欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

python爬蟲(chóng)之如何抓取高匿ip代理-創(chuàng)新互聯(lián)

小編給大家分享一下python爬蟲(chóng)之如何抓取高匿ip代理,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

成都網(wǎng)站設(shè)計(jì)、成都網(wǎng)站制作、外貿(mào)網(wǎng)站建設(shè)介紹好的網(wǎng)站是理念、設(shè)計(jì)和技術(shù)的結(jié)合。創(chuàng)新互聯(lián)擁有的網(wǎng)站設(shè)計(jì)理念、多方位的設(shè)計(jì)風(fēng)格、經(jīng)驗(yàn)豐富的設(shè)計(jì)團(tuán)隊(duì)。提供PC端+手機(jī)端網(wǎng)站建設(shè),用營(yíng)銷思維進(jìn)行網(wǎng)站設(shè)計(jì)、采用先進(jìn)技術(shù)開(kāi)源代碼、注重用戶體驗(yàn)與SEO基礎(chǔ),將技術(shù)與創(chuàng)意整合到網(wǎng)站之中,以契合客戶的方式做到創(chuàng)意性的視覺(jué)化效果。

很多網(wǎng)站都有反爬蟲(chóng)機(jī)制,只用一個(gè)ip去頻繁訪問(wèn)網(wǎng)站的話,很容易引起網(wǎng)站管理員的注意,如果管理員將這個(gè)ip加入黑名單,那么這個(gè)爬蟲(chóng)就廢掉了。所以,想要做大型的爬蟲(chóng)的話,基本上是必須要面對(duì)ip的問(wèn)題。

那么問(wèn)題來(lái)了,我們?nèi)ツ睦锔愦韎p呢??第一種方法就是買買買??!沒(méi)有什么事情是用錢解決不了的,如果有,那就加倍。

當(dāng)然,網(wǎng)上也有一堆免費(fèi)的ip代理,但是,免費(fèi)的質(zhì)量參差不齊,所以就需要進(jìn)行篩選。以西刺代理為例:用爬蟲(chóng)爬取國(guó)內(nèi)的高匿代理IP,并進(jìn)行驗(yàn)證。(只爬取前五頁(yè),后面的失效太多,沒(méi)有必要去驗(yàn)證了。)

class XiciSpider(scrapy.Spider):
    name = 'xici'
    allowed_domains = ['xicidaili.com']
    start_urls = []
    for i in range(1, 6):
        start_urls.append('http://www.xicidaili.com/nn/' + str(i))
 
    def parse(self, response):
        ip = response.xpath('//tr[@class]/td[2]/text()').extract()
        port = response.xpath('//tr[@class]/td[3]/text()').extract()
        agreement_type = response.xpath('//tr[@class]/td[6]/text()').extract()
        proxies = zip(ip, port, agreement_type)
        # print(proxies)
 
        # 驗(yàn)證代理是否可用
        for ip, port, agreement_type in proxies:
            proxy = {'http': agreement_type.lower() + '://' + ip + ':' + port,
                     'https': agreement_type.lower() + '://' + ip + ':' + port}
            try:
                # 設(shè)置代理鏈接  如果狀態(tài)碼為200 則表示該代理可以使用
                print(proxy)
                resp = requests.get('http://icanhazip.com', proxies=proxy, timeout=2)
                print(resp.status_code)
                if resp.status_code == 200:
                    print(resp.text)
                    # print('success %s' % ip)
                    item = DailiItem()
                    item['proxy'] = proxy
                    yield item
            except:
                print('fail %s' % ip)

Pipeline:

class DailiPipeline(object):
 
    def __init__(self):
        self.file = open('proxy.txt', 'w')
 
    def process_item(self, item, spider):
        self.file.write(str(item['proxy']) + '\n')
        return item
 
    def close_spider(self, spider):
        self.file.close()

以上是“python爬蟲(chóng)之如何抓取高匿ip代理”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!

分享名稱:python爬蟲(chóng)之如何抓取高匿ip代理-創(chuàng)新互聯(lián)
瀏覽地址:http://aaarwkj.com/article48/gcohp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供營(yíng)銷型網(wǎng)站建設(shè)、響應(yīng)式網(wǎng)站、App設(shè)計(jì)、定制開(kāi)發(fā)、標(biāo)簽優(yōu)化、服務(wù)器托管

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

小程序開(kāi)發(fā)
国产成人精品久久性色av| 欧美特黄大片在线观看| 欧美日韩精品综合国产| 亚洲av成人av天堂| 国产亚洲欧美日韩精品| 亚洲成人免费电影久久| 97视频精品全部免费观看| 国产三级在线观看视频| 五月婷婷六月丁香俺来也| 成人性生交免大片免费| 人妻的秘密一区二区三区 | 日日狠狠久久偷偷综合色| 亚洲综合一区二区三区四区在线| 日本爱爱一区二区三区| 精品人妻中文字幕在线| av天堂男人站在线观看| 欧美视频在线免费观看黄片| 一级黄片电影中文字幕| 欧美一区二区日韩一区二区| 国产成人精品高清国产三级| 欧美日韩在线不卡成人| 九九九热在线免费视频| 久久亚洲综合精品人妻| 日韩av有码在线播放| 久久91亚洲精品中文字幕| 午夜视频在线观看免费高清国产| 久久香蕉国产线看观看亚洲| 成人又黄又爽大片在线观看| 熟女精品国产一区二区三区| av天堂在线观看网站| 国产视频不卡一区二区| 91美女黑丝免费国产视频| 免费搜索国产男女视频| 中文字幕丰满人妻不满中出片| 欧美+亚洲+精品+三区| 中文字幕日韩人妻一二三区| 久久亚洲中文字幕丝袜长腿| 亚洲欧美日韩精品二区| 国产成人精品一区二区国产乱码| 亚洲欧洲久久激情久av| 国产乱av一区二区三区|