欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

python使爬取小說觀看的方法

不懂python使爬取小說觀看的方法?其實想解決這個問題也不難,下面讓小編帶著大家一起學習怎么去解決,希望大家閱讀完這篇文章后大所收獲。

創(chuàng)新互聯(lián)公司堅持“要么做到,要么別承諾”的工作理念,服務領域包括:成都網站建設、成都做網站、企業(yè)官網、英文網站、手機端網站、網站推廣等服務,滿足客戶于互聯(lián)網時代的靈山網站設計、移動媒體設計的需求,幫助企業(yè)找到有效的互聯(lián)網解決方案。努力成為您成熟可靠的網絡建設合作伙伴!

python使爬取的小說更利于觀看的方法:

1、使用追加模式將文章寫入txt文本

關于文件的寫入, ‘w’ 的方式 是覆蓋寫, 沒有就創(chuàng)建, 那么我們寫小說就不需要用這個, 使用
‘a’ 追加寫的模式, 然后添加適當?shù)姆指舴?只有文本中添加目錄, 整個txt在手機中才會顯示出目錄的存在 ,我的實例如下: 最好加點文字提示, 代表這章節(jié)下載成功到總txt中 !

path = 'D://爬取小說//'
        os.chdir(path)  # 進入這個文件夾
        with open('酒神.txt', 'a+', encoding='utf-8') as fw:
            fw.write(''.join(items['title']) + '\n\n\n' + '- ' * 40)
            fw.write(''.join(items['text']))
        print(f'{items["title"]} 下載完成!')

2、使用xpath讀取網頁的文章內容

爬取小說這樣的文字量很多的情況下, 文字的處理顯得極為重要了,爬取小說不推薦使用正則re,也不推薦使用soup, 原因你獲取不了網頁自帶的換行符和縮進符, 比如 \xboo 之類的, 如果你獲取不了文本自帶的這些,那么你就得自己添加,可以使用re的sub進行適當?shù)奶鎿Q換行,這就很麻煩,這里一定推薦使用xpath的text() 去匹配, 方便快捷,爬小說的小助手!

text = html.xpath('//div[@id="content"]/text()')

3、添加sleep函數(shù),降低爬取速度

為什么會出現(xiàn)這樣的情況,高頻發(fā)的請求網址,如果不是使用框架, 那么就需要設置延遲時間了。比如sleep() 或者 request 加入參數(shù) timeout ,不然很容易被網址通過請求次數(shù) 進而識別出來 這是一個爬蟲程序, 也就是非人類操作, 那么他就可以不讓你請求,從而你就爬蟲失敗!

r = requests.get(url, headers=self.headers) 
time.sleep(0.7)

完整代碼如下:

# -*- coding :  utf-8 -*-
# @Time      :  2020/6/2  16:13
# @author    :  沙漏在下雨
# @Software  :  PyCharm
# @CSDN      :  https://me.csdn.net/qq_45906219
import requests
from lxml import etree
import os
import time
class Spider:
    def __init__(self):
        self.start_url = 'http://www.biquge.info/11_11079/'
        self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                                      'AppleWebKit/537.36 (KHTML, like Gecko)'
                                      ' Chrome/81.0.4044.129 Safari/537.36',
                        'Host': 'www.biquge.info',
                        'Referer': 'http://www.biquge.info/11_11079/5216668.html',
                        'Cookie': 'clickbids=11079; Hm_lvt_6dfe3c8f195b43b8e667a2a2e5936122=1591085546;'
                                  ' Hm_lvt_c979821d0eeb958aa7201d31a6991f34=1591085539,1591085553,1591085815; '
                                  'Hm_lpvt_6dfe3c8f195b43b8e667a2a2e5936122=1591087376; '
                                  'Hm_lpvt_c979821d0eeb958aa7201d31a6991f34=1591087377'}
    def get_page(self):
        """
        獲得每一章節(jié)的網址
        yield 回去
        """
        r = requests.get(self.start_url, headers=self.headers)
        if r.status_code == 200:
            r.encoding = r.apparent_encoding
            html = etree.HTML(r.text)
            page_url = html.xpath('//div[@id="list"]/dl/dd/a/@href')
            for url in page_url[222:]:
                url = f'http://www.biquge.info/11_11079/{url}'
                yield url
    def save_text(self, items):
        """
        根據(jù)章節(jié)下載'
        """
        path = 'D://爬取小說//'
        os.chdir(path)  # 進入這個文件夾
        with open('酒神.txt', 'a+', encoding='utf-8') as fw:
            fw.write(''.join(items['title']) + '\n\n\n' + '- ' * 40)
            fw.write(''.join(items['text']))
        print(f'{items["title"]} 下載完成!')
    def parse_page_error(self, r):
        # 為處理異常:
        r.encoding = r.apparent_encoding
        html = etree.HTML(r.text)
        title = html.xpath('//div[@class="bookname"]/h2/text()')
        text = html.xpath('//div[@id="content"]/text()')
        items = {}
        items['title'] = title
        items['text'] = text
        self.save_text(items)
    def parse_page(self):
        """
        分析每一章節(jié)  然后下載, 次數(shù)過快 容易炸ip 三次保底請求 !
        """
        for url in self.get_page():
            r = requests.get(url, headers=self.headers)
            time.sleep(0.7)
            if r.status_code == 200:
                self.parse_page_error(r)
            else:
                print(f'該 {url}未下載成功! 再次請求')
                rr = requests.get(url, headers=self.headers)
                if rr.status_code == 200:
                    self.parse_page_error(rr)
                else:
                    print("第三次請求!")
                    rrr = requests.get(url, headers=self.headers)
                    self.parse_page_error(rrr)
        print('全部下載完成!')
jiushen = Spider()
jiushen.parse_page()

感謝你能夠認真閱讀完這篇文章,希望小編分享python使爬取小說觀看的方法內容對大家有幫助,同時也希望大家多多支持創(chuàng)新互聯(lián),關注創(chuàng)新互聯(lián)行業(yè)資訊頻道,遇到問題就找創(chuàng)新互聯(lián),詳細的解決方法等著你來學習!

網站名稱:python使爬取小說觀看的方法
文章地址:http://aaarwkj.com/article30/pdecpo.html

成都網站建設公司_創(chuàng)新互聯(lián),為您提供面包屑導航、電子商務、網站維護、網站內鏈、自適應網站靜態(tài)網站

廣告

聲明:本網站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

手機網站建設
亚洲综合色视频免费在线播放| 国产大片在线观看一区二区| 先锋影音女同中文字幕| 91高清视频在线免费观看| 下载一个日韩暴力黄色录像| 国产av剧情在线免费观看| 日产中文乱码字幕无线观看| 婷婷久久香蕉毛片毛片| 亚洲国产欧美日韩在线一区| 大香蕉一区二区亚洲欧美| 91香蕉伊人综合久久麻豆| 欧美一区二区精品网站| 蜜桃久久国产精品一区二区| 日韩人妻熟妇中文字幕| 日韩精品一区二区视频在线| 欧美伊人色综合久久天天| av免费在线观看麻豆| 亚洲国产欧美精品综合在线| 内射嫩国产欧美国产日韩欧美| 精品三级黄色国产片| 国产一区二区91精品 | 国产欧美日韩亚洲综合在线| 欧美精品一区影片在线观看| 日本一区二区中文字幕在线 | 欧美一区二区三区有限公司| 精品国产91高清在线观看| 亚洲成人有码在线观看| 2023天天操夜夜操| 久久精品一区二区东京热| 亚洲精品一区二区成人影院| 激情影院在线观看福利| 一级片高清在线观看国产| 国产精品一级性生活片| 午夜福利精品在线观看| 精品国产91久久粉嫩懂色| 国产亚洲精品视频中文字幕| 日本人妻久久中文字幕精品 | 日本国产美女精品一区二区| 草逼免费在线观看视频| 中文字幕在线看精品乱码| 国产精品三级av在线播放|