本篇內(nèi)容介紹了“Python如何使用Requests抓取包圖網(wǎng)小視頻”的有關(guān)知識(shí),在實(shí)際案例的操作過(guò)程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!
創(chuàng)新互聯(lián)建站專(zhuān)注為客戶(hù)提供全方位的互聯(lián)網(wǎng)綜合服務(wù),包含不限于網(wǎng)站設(shè)計(jì)、網(wǎng)站制作、尤溪網(wǎng)絡(luò)推廣、重慶小程序開(kāi)發(fā)公司、尤溪網(wǎng)絡(luò)營(yíng)銷(xiāo)、尤溪企業(yè)策劃、尤溪品牌公關(guān)、搜索引擎seo、人物專(zhuān)訪(fǎng)、企業(yè)宣傳片、企業(yè)代運(yùn)營(yíng)等,從售前售中售后,我們都將竭誠(chéng)為您服務(wù),您的肯定,是我們最大的嘉獎(jiǎng);創(chuàng)新互聯(lián)建站為所有大學(xué)生創(chuàng)業(yè)者提供尤溪建站搭建服務(wù),24小時(shí)服務(wù)熱線(xiàn):18980820575,官方網(wǎng)址:aaarwkj.com
分析網(wǎng)頁(yè)數(shù)據(jù)結(jié)構(gòu)
經(jīng)分析我們可以發(fā)現(xiàn)總站數(shù)據(jù)我們可以從這四這選項(xiàng)下手
分析網(wǎng)頁(yè)數(shù)據(jù)格式
image.png
網(wǎng)頁(yè)數(shù)據(jù)為靜態(tài)
抓取下一頁(yè)鏈接
抓取下一頁(yè)鏈接
OK, 上代碼!
import requests
from lxml import etree
import threading
class Spider(object):
def __init__(self):
self.headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"}
self.offset = 1
def start_work(self, url):
print("正在爬取第 %d 頁(yè)......" % self.offset)
self.offset += 1
response = requests.get(url=url,headers=self.headers)
html = response.content.decode()
html = etree.HTML(html)
video_src = html.xpath('//div[@class="video-play"]/video/@src')
video_title = html.xpath('//span[@class="video-title"]/text()')
next_page = "http:" + html.xpath('//a[@class="next"]/@href')[0]
# 爬取完畢...
if next_page == "http:":
return
self.write_file(video_src, video_title)
self.start_work(next_page)
def write_file(self, video_src, video_title):
for src, title in zip(video_src, video_title):
response = requests.get("http:"+ src, headers=self.headers)
file_name = title + ".mp4"
file_name = "".join(file_name.split("/"))
print("正在抓取%s" % file_name)
with open(file_name, "wb") as f:
f.write(response.content)
if __name__ == "__main__":
spider = Spider()
for i in range(0,3):
# spider.start_work(url="https://ibaotu.com/shipin/7-0-0-0-"+ str(i) +"-1.html")
t = threading.Thread(target=spider.start_work, args=("https://ibaotu.com/shipin/7-0-0-0-"+ str(i) +"-1.html",))
t.start()
運(yùn)行結(jié)果
是不是很簡(jiǎn)單呢!
“Python如何使用Requests抓取包圖網(wǎng)小視頻”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!
網(wǎng)頁(yè)名稱(chēng):Python如何使用Requests抓取包圖網(wǎng)小視頻
本文鏈接:http://aaarwkj.com/article22/gpjhcc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站導(dǎo)航、服務(wù)器托管、手機(jī)網(wǎng)站建設(shè)、營(yíng)銷(xiāo)型網(wǎng)站建設(shè)、微信小程序、電子商務(wù)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)