欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

Python怎么爬取某網(wǎng)站文檔數(shù)據(jù)

這篇文章主要介紹“Python怎么爬取某網(wǎng)站文檔數(shù)據(jù)”,在日常操作中,相信很多人在Python怎么爬取某網(wǎng)站文檔數(shù)據(jù)問(wèn)題上存在疑惑,小編查閱了各式資料,整理出簡(jiǎn)單好用的操作方法,希望對(duì)大家解答”P(pán)ython怎么爬取某網(wǎng)站文檔數(shù)據(jù)”的疑惑有所幫助!接下來(lái),請(qǐng)跟著小編一起來(lái)學(xué)習(xí)吧!

成都創(chuàng)新互聯(lián)堅(jiān)持“要么做到,要么別承諾”的工作理念,服務(wù)領(lǐng)域包括:做網(wǎng)站、網(wǎng)站設(shè)計(jì)、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣等服務(wù),滿(mǎn)足客戶(hù)于互聯(lián)網(wǎng)時(shí)代的迎江網(wǎng)站設(shè)計(jì)、移動(dòng)媒體設(shè)計(jì)的需求,幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡(luò)建設(shè)合作伙伴!

前言

本文的文字及圖片來(lái)源于網(wǎng)絡(luò),僅供學(xué)習(xí)、交流使用,不具有任何商業(yè)用途,如有問(wèn)題請(qǐng)及時(shí)聯(lián)系我們以作處理。

基本開(kāi)發(fā)環(huán)境

Python 3.6

Pycharm

相關(guān)模塊的使用

import os
import requests
import time
import re
import json
from docx import Document
from docx.shared import Cm

安裝Python并添加到環(huán)境變量,pip安裝需要的相關(guān)模塊即可。

Python爬蟲(chóng)、數(shù)據(jù)分析、網(wǎng)站開(kāi)發(fā)等案例教程視頻免費(fèi)在線(xiàn)觀看

https://space.bilibili.com/523606542

 Python學(xué)習(xí)交流群:1039649593

目標(biāo)網(wǎng)頁(yè)分析

Python怎么爬取某網(wǎng)站文檔數(shù)據(jù)

網(wǎng)站的文檔內(nèi)容,都是以圖片形式存在的。它有自己的數(shù)據(jù)接口

接口鏈接:

https://openapi.book118.com/getPreview.html?&project_id=1&aid=272112230&t=f2c66902d6b63726d8e08b557fef90fb&view_token=SqX7ktrZ_ZakjDI@vcohcCwbn_PLb3C1&page=1&callback=jQuery18304186406662159248_1614492889385&_=1614492889486

接口的請(qǐng)求參數(shù)

整體思路

  • 請(qǐng)求網(wǎng)頁(yè)返回response數(shù)據(jù)(字符串)

  • 通過(guò)re模塊匹配提取中間的數(shù)據(jù)(列表)索引取0(字符串)

  • 通過(guò)json模塊是把提取出來(lái)的數(shù)據(jù)轉(zhuǎn)換成json模塊

  • 通過(guò)遍歷獲取每張圖片的url地址

  • 保存圖片到本地文件夾

  • 把圖片保存到word文檔

  • 爬蟲(chóng)代碼實(shí)現(xiàn)

爬蟲(chóng)代碼實(shí)現(xiàn)

def download():
    content = 0
    for page in range(1, 96, 6):
        # 給定 2秒延時(shí)
        time.sleep(2)
        # 獲取時(shí)間戳
        now_time = int(time.time() * 1000)
        url = 'https://openapi.book118.com/getPreview.html'
        # 請(qǐng)求參數(shù)
        params = {
            'project_id': '1',
            'aid': '272112230',
            't': 'f2c66902d6b63726d8e08b557fef90fb',
            'view_token': 'SqX7ktrZ_ZakjDI@vcohcCwbn_PLb3C1',
            'page': f'{page}',
            '_': now_time,
        }
        # 請(qǐng)求頭
        headers = {
            'Host': 'openapi.book118.com',
            'Referer': 'https://max.book118.com/html/2020/0427/8026036013002110.shtm',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
        }
        response = requests.get(url=url, params=params, headers=headers)
        # 使用正則表達(dá)式提取內(nèi)容
        result = re.findall('jsonpReturn\((.*?)\)', response.text)[0]
        # 字符串轉(zhuǎn)json數(shù)據(jù)
        json_data = json.loads(result)['data']
        # 字典值的遍歷
        for value in json_data.values():
            content += 1
            # 拼接圖片url
            img_url = 'http:' + value
            print(img_url)
            headers_1 = {
                'Host': 'view-cache.book118.com',
                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
            }
            # 請(qǐng)求圖片url地址 獲取content二進(jìn)制數(shù)據(jù)
            img_content = requests.get(url=img_url, headers=headers_1).content
            # 文件名
            img_name = str(content) + '.jpg'
            # 保存路徑
            filename = 'img\\'
            # 以二進(jìn)制方式保存 (圖片、音頻、視頻等文件都是以二進(jìn)制的方式保存)
            with open(filename + img_name, mode='wb') as f:
                f.write(img_content)

注意點(diǎn):

1、一定要給延時(shí),不然后面接口數(shù)據(jù)會(huì)請(qǐng)求不到。

2、請(qǐng)求圖片url的時(shí)候headers參數(shù)需要寫(xiě)完整,否則保存圖片是無(wú)法打開(kāi)的

3、命名最好是給定數(shù)字,1.jpg、2.jpg 這樣,方便后續(xù)保存到word

爬蟲(chóng)部分的代碼還是比較簡(jiǎn)單的,沒(méi)有什么特別的難度。

爬取這些文檔,都是需要打印或者查詢(xún)所以要把這些單張的圖片都保存到word文檔里面。

寫(xiě)入文檔

def save_picture():
    document = Document()
    path = './img/'
    lis = os.listdir(path)
    c = []
    for li in lis:
        index = li.replace('.jpg', '')
        c.append(index)
    c_1 = sorted(list(map(int, c)))
    print(c_1)
    new_files = [(str(i) + '.jpg') for i in c_1]
    for num in new_files:
        img_path = path + num
        document.add_picture(img_path, width=Cm(17), height=Cm(24))
        document.save('tu.doc')  # 保存文檔
        os.remove(img_path)  # 刪除保存在本地的圖片

到此,關(guān)于“Python怎么爬取某網(wǎng)站文檔數(shù)據(jù)”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí),請(qǐng)繼續(xù)關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編會(huì)繼續(xù)努力為大家?guī)?lái)更多實(shí)用的文章!

本文名稱(chēng):Python怎么爬取某網(wǎng)站文檔數(shù)據(jù)
文章起源:http://aaarwkj.com/article8/gojjop.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站設(shè)計(jì)、營(yíng)銷(xiāo)型網(wǎng)站建設(shè)標(biāo)簽優(yōu)化、移動(dòng)網(wǎng)站建設(shè)、虛擬主機(jī)、建站公司

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

外貿(mào)網(wǎng)站制作
精品国产av一区二区三广区| 免费看av网站一区二区| 日本成人一区二区在线播放| 久久五月婷婷爱综合亚洲| 亚洲午夜福利影院在线免费观看 | 高清中文字幕一区二区三区| 国产精品乱码精品久久久| 一区二区三区在线观看淫| 日韩不卡区高清在线视频| 久久久久久亚洲精品人妻| 色哟哟网站在线精品视频| 中文一级伦理一区二区| 国产大学生露脸在线视频| 2023天天操夜夜操| 亚洲精品一区二区免费看| 国产偷国产偷亚洲综合av| 免费精品99久久久国产| 国产视频不卡一区二区| 亚洲精品成人在线国产| 日韩欧美国产精品福利| 国产一级黄色录像大片| 粉嫩国产精品一区二区| 欧美性极品少妇精品网站| 国产精品成人av在线| 无毛亚洲视频在线观看| 国产又猛又黄又爽无遮挡| 亚洲欧美国产精品日韩| 日本韩国亚洲欧美一区二区| 日韩av高清免费播放| 麻豆资源视频在线观看| 精品国产一区二区三区av在线| 激情五月婷婷久久av| 蜜桃在线视频在线观看| 精品啪在线观看国产熟女| 精品中文人妻中文字幕| 亚洲男人天堂在线视频| 欧美黄色一区在线观看| 日韩少妇一级淫片免费| 天堂中文在线官网在线| 91久久亚洲综合精品成人| 国产精品熟女一区二区三区|