欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

Python爬蟲抓取代理IP并檢驗可用性的實例-創(chuàng)新互聯(lián)

經(jīng)常寫爬蟲,難免會遇到ip被目標網(wǎng)站屏蔽的情況,銀次一個ip肯定不夠用,作為節(jié)約的程序猿,能不花錢就不花錢,那就自己去找吧,這次就寫了下抓取 西刺代理上的ip,但是這個網(wǎng)站也反爬?。。?/p>

創(chuàng)新互聯(lián)專業(yè)提供西部信息服務(wù)器租用服務(wù),為用戶提供五星數(shù)據(jù)中心、電信、雙線接入解決方案,用戶可自行在線購買西部信息服務(wù)器租用服務(wù),并享受7*24小時金牌售后服務(wù)。

至于如何應(yīng)對,我覺得可以通過增加延時試試,可能是我抓取的太頻繁了,所以被封IP了。

但是,還是可以去IP巴士試試的,條條大路通羅馬嘛,不能吊死在一棵樹上。

不廢話,上代碼。


#!/usr/bin/env python
# -*- coding:utf8 -*-
import urllib2
import time
from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
 #'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',
 'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
 'Accept-Encoding':'en-us',
 'Connection':'keep-alive',
 'Referer':'http://www.baidu.com/'
 }
req_timeout = 5
testUrl = "http://www.baidu.com/"
testStr = "wahaha"
file1 = open('proxy.txt' , 'w')
# url = ""
# req = urllib2.Request(url,None,req_header)
# jsondatas = urllib2.urlopen(req,None,req_timeout).read()
cookies = urllib2.HTTPCookieProcessor()
checked_num = 0
grasp_num = 0
for page in range(1, 160):
 req = urllib2.Request('http://www.xici.net.co/nn/' + str(page), None, req_header)
 html_doc = urllib2.urlopen(req, None, req_timeout).read()
 # html_doc = urllib2.urlopen('http://www.xici.net.co/nn/' + str(page)).read()
 soup = BeautifulSoup(html_doc)
 trs = soup.find('table', id='ip_list').find_all('tr')
 for tr in trs[1:]:
  tds = tr.find_all('td')
  ip = tds[1].text.strip()
  port = tds[2].text.strip()
  protocol = tds[5].text.strip()
  if protocol == 'HTTP' or protocol == 'HTTPS':
   #of.write('%s=%s:%s\n' % (protocol, ip, port))
   print '%s=%s:%s' % (protocol, ip, port)
   grasp_num +=1
   proxyHandler = urllib2.ProxyHandler({"http": r'http://%s:%s' % (ip, port)})
   opener = urllib2.build_opener(cookies, proxyHandler)
   opener.addheaders = [('User-Agent',
         'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36')]
   t1 = time.time()
   try:
    req = opener.open(testUrl, timeout=req_timeout)
    result = req.read()
    timeused = time.time() - t1
    pos = result.find(testStr)
    if pos > 1:
     file1.write(protocol+"\t"+ip+"\t"+port+"\n")
     checked_num+=1
     print checked_num, grasp_num
    else:
     continue
   except Exception,e:
    continue
file1.close()
print checked_num,grasp_num

當前文章:Python爬蟲抓取代理IP并檢驗可用性的實例-創(chuàng)新互聯(lián)
URL網(wǎng)址:http://aaarwkj.com/article20/dpegjo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站內(nèi)鏈、企業(yè)網(wǎng)站制作、定制開發(fā)標簽優(yōu)化、云服務(wù)器、搜索引擎優(yōu)化

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都做網(wǎng)站
国产三级传媒在线观看| 后入动漫视频在线观看| 日本韩国欧美在线一区| 日本三卡=卡无人区| 日韩二区三区在线视频| 国产白浆视频在线观看| 日韩在线啊啊啊的视频| 亚洲精品一区二区三区香蕉| 香蕉夜夜草草久久亚洲香蕉| 午夜高清影院免费观看| 最近中文字幕免费手机版| 日韩免费精品一区二区| 久久精品熟女亚洲av韩国| 韩国av在线免费观看| 综合久久久精品国产亚洲av| 国内精品老年人视频网站| 男女做爰高清免费视频| 岛国高清乱码中文字幕| 一区二区三区国产不卡| 最新亚洲国产高清激情| 日韩亚洲国产欧美在线观看| 亚洲中国av一区二区| 高清av网站大全网站| 国产午夜男人天堂手机| 亚洲欧美日韩国产桃色| 午夜福利大片在线观看视频| 深夜三级福利在线观看| 亚洲国产女人精品久久久| 手机在线观看午夜小视频| 青青草国产成人自拍视频在线观看| 日韩精品少妇一区二区在线看| 日韩成人三级一区二区| 美女在线免费观看av| 给我搜一个一级黄色片| 天天干夜夜泡天天操| 亚洲国产成人午夜精品| 欧美视频在线观看香蕉| 国产成人精品手机在线观看| 欧美日韩亚洲国产精品视频| 美国真人性做爰视频免费| 天天操天天射夜夜爽|