欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

python:scrapy學(xué)習(xí)demo分享

推薦一個(gè)比較容易上手的Python 框架scrapy。

創(chuàng)新互聯(lián)公司是一家專注于網(wǎng)站制作、成都網(wǎng)站建設(shè)與策劃設(shè)計(jì),和靜網(wǎng)站建設(shè)哪家好?創(chuàng)新互聯(lián)公司做網(wǎng)站,專注于網(wǎng)站建設(shè)十余年,網(wǎng)設(shè)計(jì)領(lǐng)域的專業(yè)建站公司;建站業(yè)務(wù)涵蓋:和靜等地區(qū)。和靜做網(wǎng)站價(jià)格咨詢:028-86922220

開發(fā)環(huán)境搭建

Python安裝

下載地址:官網(wǎng)

這里我下載的是3.8.0的版本(我的安裝目錄是:D:\python\Python38-32)

安裝完后設(shè)置環(huán)境變量:在path中追加:D:\python\Python38-32; D:\python\Python38-32\Scripts

升級(jí)pip

輸入命令:

python -m pip install --upgrade pip

安裝scrapy依賴的模塊

安裝wheel

進(jìn)入cmd執(zhí)行命令命令:

> pip install wheel

安裝pywin32

下載地址:github

由于我安裝的Python是32位的,估選擇win32-py3.8版本,下載后雙擊安裝即可

安裝 lxml

運(yùn)行命令:

> pip install lxml

安裝Twisted

由于直接使用命令在線安裝一直報(bào)下載超時(shí),估采用離線安裝的方式

運(yùn)行命令:

> pip install Twisted-19.10.0-cp38-cp38-win32.whl

安裝scrapy

運(yùn)行命令:

> pip install scrapy

到目前為止就完成了scrapy環(huán)境的搭建,相對(duì)簡(jiǎn)單

編寫demo

準(zhǔn)備內(nèi)容

被爬網(wǎng)站

選擇百度圖片首頁(yè):http://image.baidu.com/

規(guī)則分析

首先想到的是通過xpath的方式來(lái)爬取圖片,xpath語(yǔ)句://div[@class=“imgrow”]/a/img/@src。但是在編寫爬蟲(Spiders)的時(shí)候發(fā)現(xiàn)http://image.baidu.com/請(qǐng)求并沒有將圖片的URL直接返回,而是通過后面的異步請(qǐng)求獲取,而且返回的是一個(gè)json字符串,估xpath方式行不通。

更換異步請(qǐng)求的URL為被爬網(wǎng)站:http://image.baidu.com/search/acjson?tn=resultjson_com&catename=pcindexhot&ipn=rj&ct=201326592&is=&fp=result&queryWord=&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word=pcindexhot&face=0&istype=2&qc=&nc=1&fr=&pn=0&rn=30

創(chuàng)建scrapy項(xiàng)目 ImagesRename

運(yùn)行命令:

> scrapy startproject ImagesRename

執(zhí)行完后生成項(xiàng)目的目錄結(jié)構(gòu)如圖:

python:scrapy學(xué)習(xí)demo分享

其中:

spiders目錄:用于放置爬蟲文件

items.py:用于保存所抓取的數(shù)據(jù)的容器,其存儲(chǔ)方式類似于 Python 的字典

pipelines.py:核心處理器,對(duì)爬取到的內(nèi)容進(jìn)行相應(yīng)的操作,如:下載,保存等

settings.py:配置文件,修改USER_AGENT、存儲(chǔ)目錄等信息

scrapy.cfg:項(xiàng)目的配置文件

編寫item容器 items.py

import scrapy

class ImagesrenameItem(scrapy.Item):

# define the fields for your item here like:

# name = scrapy.Field()

imgurl = scrapy.Field()

pass 鄭州專業(yè)婦科醫(yī)院 http://www.120zzzy.com/

創(chuàng)建蜘蛛文件ImgsRename.py

# -*- coding: utf-8 -*-

import scrapy

import json

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from ImagesRename.items import ImagesrenameItem

class ImgsRenameSpider(CrawlSpider):

name = 'ImgsRename'

allowed_domains = ['image.baidu.com']

#http://image.baidu.com/ 并沒有返回圖片鏈接,而是通過異步請(qǐng)求接口獲取的,爬取的URL必須是異步請(qǐng)求的鏈接

start_urls = ['http://image.baidu.com/search/acjson?tn=resultjson_com&catename=pcindexhot&ipn=rj&ct=201326592&is=&fp=result&queryWord=&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word=pcindexhot&face=0&istype=2&qc=&nc=1&fr=&pn=0&rn=30',]

def parse(self, response):

# 實(shí)例化item

item = ImagesrenameItem()

#解析異步請(qǐng)求返回的json字符串

#經(jīng)過分析需要的圖片鏈接保存在json——》data——》hoverURL

jsonString = json.loads(response.text)

data = jsonString["data"]

imgUrls = []

#循環(huán)將圖片URL保存到數(shù)組中

for d in data:

if d:

hov = d["hoverURL"]

imgUrls.append(hov)

item['imgurl'] = imgUrls

yield item

編寫核心處理器圖片下載中間件pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import re

from scrapy.pipelines.images import ImagesPipeline

from scrapy import Request

class ImagesrenamePipeline(ImagesPipeline):

def get_media_requests(self, item, info):

# 循環(huán)每一張圖片地址下載

for image_url in item['imgurl']:

#發(fā)起圖片下載的請(qǐng)求

yield Request(image_url)

修改配置文件settings.py

# -*- coding: utf-8 -*-

# Scrapy settings for ImagesRename project

BOT_NAME = 'ImagesRename'

SPIDER_MODULES = ['ImagesRename.spiders']

NEWSPIDER_MODULE = 'ImagesRename.spiders'

# Crawl responsibly by identifying yourself (and your website) on the user-agent

#USER_AGENT = 'ImagesRename (+http://www.yourdomain.com)'

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'

# Obey robots.txt rules

ROBOTSTXT_OBEY = False

ITEM_PIPELINES = {

'ImagesRename.pipelines.ImagesrenamePipeline': 300,

}

# 設(shè)置圖片存儲(chǔ)目錄

IMAGES_STORE = 'E:\圖片'

啟動(dòng)程序下載圖片

運(yùn)行命令:

scrapy crawl ImgsRename

到目前為止就已經(jīng)完成了一個(gè)簡(jiǎn)單的圖片爬取程序,結(jié)果如圖:

當(dāng)然這些下載的文件名稱是一個(gè)隨機(jī)數(shù),如果需要按照一個(gè)格式的文件名存儲(chǔ)則可以重新ImagesPipeline類的file_path方法即可,這里就不做詳細(xì)的介紹

網(wǎng)站名稱:python:scrapy學(xué)習(xí)demo分享
標(biāo)題URL:http://aaarwkj.com/article6/psocig.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站改版全網(wǎng)營(yíng)銷推廣、企業(yè)網(wǎng)站制作、用戶體驗(yàn)、靜態(tài)網(wǎng)站、品牌網(wǎng)站制作

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

網(wǎng)站建設(shè)網(wǎng)站維護(hù)公司
日本在线观看成人大片| 亚洲国产欧美日韩在线不卡成人| 91九色视频官网在线观看| 日本老太老熟妇一级特黄| 97视频高清在线观看| 18禁免费无遮挡免费视频| 国产亚洲黄片免费在线观看| 男人午夜激情免费网站| 久久成人午夜免费电影| 亚洲精品在线观看日韩欧美| 麻豆国产自拍在线视频| 欧美十八一区二区三区| 久久人热视频这里只有精品| 欧美日韩一区精品视频| 亚洲无人区码一码二码三码| 欧美一区二区专区在线| 欧美日韩国产天天干| 亚洲国产成人av精品精品国产自| 中文字幕成人在线电影| 亚洲精品欧美激情专区| 亚洲午夜精品一区二区久久| 免费中文字幕av电影| 男人天堂手机视频在线| 91精品大片免费在线观看| 91成人大片在线观看| 国产三级在线dvd观看| 国产一区二区黑丝美女| 国产成人在线观看av| 无遮挡动漫网站免费观看| 欧美口爆吞精在线观看| 日本精品动漫一区二区三区| 亚洲成av人片青草影院| 丰满少妇亚洲中文字幕| 日本人妻伦理在线播放| 九九国产精品免费视频| 欧美成人精品高清在线| 国产午夜福利一区在线| 日韩美女毛片啪啪响| 黄色大片黄色大片黄色大片| 欧美一区二区三区四区久久| 亚洲中文字幕第三页在线观看|