requests-html如何在python爬蟲(chóng)中使用?相信很多沒(méi)有經(jīng)驗(yàn)的人對(duì)此束手無(wú)策,為此本文總結(jié)了問(wèn)題出現(xiàn)的原因和解決方法,通過(guò)這篇文章希望你能解決這個(gè)問(wèn)題。
為興寧等地區(qū)用戶(hù)提供了全套網(wǎng)頁(yè)設(shè)計(jì)制作服務(wù),及興寧網(wǎng)站建設(shè)行業(yè)解決方案。主營(yíng)業(yè)務(wù)為網(wǎng)站設(shè)計(jì)制作、成都網(wǎng)站制作、興寧網(wǎng)站設(shè)計(jì),以傳統(tǒng)方式定制建設(shè)網(wǎng)站,并提供域名空間備案等一條龍服務(wù),秉承以專(zhuān)業(yè)、用心的態(tài)度為用戶(hù)提供真誠(chéng)的服務(wù)。我們深信只要達(dá)到每一位用戶(hù)的要求,就會(huì)得到認(rèn)可,從而選擇與我們長(zhǎng)期合作。這樣,我們也可以走得更遠(yuǎn)!Python上有一個(gè)非常著名的HTTP庫(kù)——requests,相信大家都聽(tīng)說(shuō)過(guò),用過(guò)的人都說(shuō)非常爽!現(xiàn)在requests庫(kù)的作者又發(fā)布了一個(gè)新庫(kù),叫做requests-html,看名字也能猜出來(lái),這是一個(gè)解析HTML的庫(kù),具備requests的功能以外,還新增了一些更加強(qiáng)大的功能,用起來(lái)比requests更爽!接下來(lái)我們來(lái)介紹一下它吧。
# 官網(wǎng)解釋 ''' This library intends to make parsing HTML (e.g. scraping the web) as simple and intuitive as possible. If you're interested in financially supporting Kenneth Reitz open source, consider visiting this link. Your support helps tremendously with sustainability of motivation, as Open Source is no longer part of my day job. When using this library you automatically get: Full JavaScript support! CSS Selectors (a.k.a jQuery-style, thanks to PyQuery). XPath Selectors, for the faint at heart. Mocked user-agent (like a real web browser). Automatic following of redirects. Connection–pooling and cookie persistence. The Requests experience you know and love, with magical parsing abilities. Async Support '''
官網(wǎng)告訴我們,它比原來(lái)的requests模塊更加強(qiáng)大,并且為我們提供了一些新的功能!
支持JavaScript
支持CSS選擇器(又名jQuery風(fēng)格, 感謝PyQuery)
支持Xpath選擇器
可自定義模擬User-Agent(模擬得更像真正的web瀏覽器)
自動(dòng)追蹤重定向
連接池與cookie持久化
支持異步請(qǐng)求
安裝requests-html非常簡(jiǎn)單,一行命令即可做到。需要注意一點(diǎn)就是,requests-html只支持Python 3.6或以上的版本,所以使用老版本的Python的同學(xué)需要更新一下Python版本了。
# pip3 install requests-html
在我們學(xué)爬蟲(chóng)程序的時(shí)候用得最多的請(qǐng)求庫(kù)就是requests與urllib,但問(wèn)題是這些包只給我們提供了如何去目標(biāo)站點(diǎn)發(fā)送請(qǐng)求,然后獲取響應(yīng)數(shù)據(jù),接著再利用bs4或xpath解析庫(kù)才能提取我們需要的數(shù)據(jù)。
以往爬蟲(chóng)的請(qǐng)求與解析
import requests from bs4 import BeautifulSoup url = 'http://www.zuihaodaxue.cn/' HEADERS = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 Safari/537.36' } response = requests.get(url, headers=HEADERS) response.encoding = 'gbk' # print(response.status_code) print(response.text) soup = BeautifulSoup(response.text, 'lxml') # 獲取新的五則新聞 post_rankings = soup.find_all(name='article', attrs={"class": "post_ranking"}) # 循環(huán)打印新聞簡(jiǎn)介內(nèi)容 for post_ranking in post_rankings: new = post_ranking.find(name='div', attrs={"class": 'post_summary'}) print(new.text)
而在requests-html里面只需要一步就可以完成而且可以直接進(jìn)行js渲染!requests的作者Kenneth Reitz 開(kāi)發(fā)的requests-html 爬蟲(chóng)包 是基于現(xiàn)有的框架 PyQuery、Requests、lxml、beautifulsoup4等庫(kù)進(jìn)行了二次封裝,作者將Requests的簡(jiǎn)單,便捷,強(qiáng)大又做了一次升級(jí)。
requests-html和其他解析HTML庫(kù)較大的不同點(diǎn)在于HTML解析庫(kù)一般都是專(zhuān)用的,所以我們需要用另一個(gè)HTTP庫(kù)先把網(wǎng)頁(yè)下載下來(lái),然后傳給那些HTML解析庫(kù)。而requests-html自帶了這個(gè)功能,所以在爬取網(wǎng)頁(yè)等方面非常方便?! ?/p>
1、基本使用
from requests_html import HTMLSession # 獲取請(qǐng)求對(duì)象 session = HTMLSession() # 往新浪新聞主頁(yè)發(fā)送get請(qǐng)求 sina = session.get('https://news.sina.com.cn/') # print(sina.status_code) sina.encoding = 'utf-8' # 獲取響應(yīng)文本信息,與requests無(wú)區(qū)別 print(sina.text)
2、獲取鏈接(links與abolute_links)
links返回的結(jié)果
absolute_links返回的結(jié)果
from requests_html import HTMLSession # 獲取請(qǐng)求對(duì)象 session = HTMLSession() # 往京東主頁(yè)發(fā)送get請(qǐng)求 jd = session.get('https://jd.com/') # 得到京東主頁(yè)所有的鏈接,返回的是一個(gè)set集合 print(jd.html.links) print('*' * 1000) # 若獲取的鏈接中有相對(duì)路徑,我們還可以通過(guò)absolute_links獲取所有絕對(duì)鏈接 print(jd.html.absolute_links)
3、CSS選擇器與XPATH
request-html支持CSS選擇器和XPATH兩種語(yǔ)法來(lái)選取HTML元素。首先先來(lái)看看CSS選擇器語(yǔ)法,它需要使用HTML的find函數(shù)來(lái)查找元素。
''' CSS選擇器 and XPATH 1.通過(guò)css選擇器選取一個(gè)Element對(duì)象 2.獲取一個(gè)Element對(duì)象內(nèi)的文本內(nèi)容 3.獲取一個(gè)Element對(duì)象的所有attributes 4.渲染出一個(gè)Element對(duì)象的HTML內(nèi)容 5.獲取Element對(duì)象內(nèi)的特定子Element對(duì)象,返回列表 6.在獲取的頁(yè)面中通過(guò)search查找文本 7.支持XPath 8.獲取到只包含某些文本的Element對(duì)象 '''
from requests_html import HTMLSession session = HTMLSession() url = "https://www.qiushibaike.com/text/" # 獲取響應(yīng)數(shù)據(jù)對(duì)象 obj = session.get(url) # 1.通過(guò)css選擇器選取一個(gè)Element對(duì)象 獲取id為content-left的div標(biāo)簽,并且返回一個(gè)對(duì)象 content = obj.html.find('div#content-left', first=True) # 2.獲取一個(gè)Element對(duì)象內(nèi)的文本內(nèi)容 獲取content內(nèi)所有文本 print(content.text) # 3.獲取一個(gè)Element對(duì)象的所有attributes 獲取content內(nèi)所有屬性 print(content.attrs) # 4.渲染出一個(gè)Element對(duì)象的完整的HTML內(nèi)容 html = content.html print(html) # 5.獲取Element對(duì)象內(nèi)的指定的所有子Element對(duì)象,返回列表 a_s = content.find('a') print(a_s) print(len(a_s)) # 79 # 循環(huán)所有的a標(biāo)簽 for a in a_s: # 獲取a標(biāo)簽內(nèi)所有屬性的href屬性 并拼接 href = a.attrs['href'] if href.startswith('/'): url = 'https://www.qiushibaike.com' + href print(url) # 6.在獲取的頁(yè)面中通過(guò)search查找文本 {}大括號(hào)相當(dāng)于正則的從頭到后開(kāi)始匹配,獲取當(dāng)中想要獲取的數(shù)據(jù) text = obj.html.search('把{}夾')[0] # 獲取從 "把" 到 "夾" 字的所有內(nèi)容 text = obj.html.search('把糗事{}夾')[0] # 獲取從把子到夾字的所有內(nèi)容 print(text) print('*' * 1000) # 7.支持XPath a_s = obj.html.xpath('//a') # 獲取html內(nèi)所有的a標(biāo)簽 for a in a_s: href = a.attrs['href'] #若是//開(kāi)頭的url都扔掉 if href.startswith('continue#若是/開(kāi)頭的都是相對(duì)路徑) elif href.startswith('/') print('https://www.qiushibaike.com'+href) # 8.獲取到只包含某些文本的Element對(duì)象(containing) 獲取所有文本內(nèi)容為幽默笑話(huà)大全_爆笑笑話(huà)_笑破你的肚子的搞笑段子 - 糗事百科 title標(biāo)簽 注意: 文本內(nèi)有空格也必須把空格帶上 title = obj.html.find('title', containing='幽默笑話(huà)大全_爆笑笑話(huà)_笑破你的肚子的搞笑段子 - 糗事百科') print(title)
支持JavaScript是我覺(jué)得作者更新后最為牛逼的一個(gè)地方,但是需要在第一次執(zhí)行render的時(shí)候下載chromeium,然后通過(guò)它來(lái)執(zhí)行js代碼。
1、render的使用
from requests_html import HTMLSession session = HTMLSession() url = 'http://www.win4000.com/' obj = session.get(url) obj.encoding = 'utf-8' obj.html.render()
注意:第一次運(yùn)行render()方法時(shí),它會(huì)將Chromium下載到您的主目錄中(例如~/.pyppeteer/)。這種情況只發(fā)生一次。
2、 下載Chromeium問(wèn)題
因?yàn)槭菑膰?guó)外的站點(diǎn)下載幾分鐘才3%,實(shí)在是太慢了。所以我們需要通過(guò)國(guó)內(nèi)的鏡像去下載!需要做以下幾步:
手動(dòng)下載Chrome
先去國(guó)內(nèi)源下載自己需要的版本,地址:https://npm.taobao.org/mirrors/chromium-browser-snapshots/
修改chromeium_downloader.py文件
下載后之后解壓后,進(jìn)入python安裝目錄下的\Lib\site-packages\pyppeteer目錄, 并打開(kāi)chromium_downloader.py文件。
# 找到自己的操作系統(tǒng)相應(yīng)的配置位置 ''' chromiumExecutable = { 'linux': DOWNLOADS_FOLDER / REVISION / 'chrome-linux' / 'chrome', 'mac': (DOWNLOADS_FOLDER / REVISION / 'chrome-mac' / 'Chromium.app' / 'Contents' / 'MacOS' / 'Chromium'), 'win32': DOWNLOADS_FOLDER / REVISION / 'chrome-win32' / 'chrome.exe', 'win64': DOWNLOADS_FOLDER / REVISION / 'chrome-win32' / 'chrome.exe', } ''' from pyppeteer import __chromium_revision__, __pyppeteer_home__ DOWNLOADS_FOLDER = Path(pyppeteer_home) / 'local-chromium' REVISION = os.environ.get('PYPPETEER_CHROMIUM_REVISION', chromium_revision) # 打印這兩個(gè)變量可以知道執(zhí)行的驅(qū)動(dòng)具體位置 print(DOWNLOADS_FOLDER) print(REVISION) ''' 由上面可以知道:chromium路徑是:C:\Users\Ray\AppData\Local\pyppeteer\pyppeteer\local-chromium\575458\chrome-win32\chrome.exe 所以自己建文件夾,然后一直到chrome-win32文件夾,把上面下載的chromium文件,拷貝到此目錄下 '''
有些網(wǎng)站會(huì)使用User-Agent來(lái)識(shí)別客戶(hù)端類(lèi)型,有時(shí)候需要偽造UA來(lái)實(shí)現(xiàn)某些操作。如果查看文檔的話(huà)會(huì)發(fā)現(xiàn)HTMLSession
上的很多請(qǐng)求方法都有一個(gè)額外的參數(shù)**kwargs
,這個(gè)參數(shù)用來(lái)向底層的請(qǐng)求傳遞額外參數(shù)。我們先向網(wǎng)站發(fā)送一個(gè)請(qǐng)求,看看返回的網(wǎng)站信息。
from requests_html import HTMLSession # pprint可以把數(shù)據(jù)打印得更整齊 from pprint import pprint import json get_url = 'http://httpbin.org/get' session = HTMLSession() # 返回的是當(dāng)前系統(tǒng)的headers信息 res = session.get(get_url) pprint(json.loads(res.html.html)) # 可以在發(fā)送請(qǐng)求的時(shí)候更換user-agent ua = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0' post_url = 'http://httpbin.org/get' res = session.get(post_url, headers={'user-agent': ua}) pprint(json.loads(res.html.html))# 如果你有需要可以在header中修改其他參數(shù)。
HTMLSession封裝了
一整套的HTTP方法,包括get、post、delete等, 對(duì)應(yīng)HTTP中各個(gè)方法。
# 表單登錄 r = session.post('http://httpbin.org/post', data={'username': 'tank_jam', 'password': 'tank9527'}) pprint(json.loads(r.html.html)) ''' # 打印結(jié)果 {'args': {}, 'data': '', 'files': {}, 'form': {'password': 'tank9527', 'username': 'tank_jam'}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Content-Length': '35', 'Content-Type': 'application/x-www-form-urlencoded', 'Host': 'httpbin.org', 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) ' 'AppleWebKit/603.3.8 (KHTML, like Gecko) ' 'Version/10.1.2 Safari/603.3.8'}, 'json': None, 'origin': '112.65.61.109, 112.65.61.109', 'url': 'https://httpbin.org/post'} '''
requests-html內(nèi)部就封裝好了aynsc異步請(qǐng)求的功能,可以提高我們的爬蟲(chóng)效率。
from requests_html import AsyncHTMLSession from requests_html import HTMLSession import time # 使用異步發(fā)送請(qǐng)求 async_session = AsyncHTMLSession() async def get_baidu(): url = 'https://www.baidu.com/' res = await async_session.get(url) print(res.html.absolute_links) async def get_sougou(): url = 'https://www.sogou.com/' res = await async_session.get(url) print(res.html.links) start_time = time.time() async_session.run(get_baidu, get_sougou) print('耗時(shí):', time.time() - start_time) # 同步發(fā)送請(qǐng)求 session = HTMLSession() start_time = time.time() res = session.get('https://www.baidu.com/') print(res.html.links) res = session.get('https://www.sogou.com/') print(res.html.absolute_links) print('耗時(shí):', time.time() - start_time)
1. 開(kāi)始
Python 中可以進(jìn)行網(wǎng)頁(yè)解析的庫(kù)有很多,常見(jiàn)的有 BeautifulSoup 和 lxml 等。在網(wǎng)上玩爬蟲(chóng)的文章通常都是介紹 BeautifulSoup 這個(gè)庫(kù),我平常也是常用這個(gè)庫(kù),最近用 Xpath 用得比較多,使用 BeautifulSoup 就不大習(xí)慣,很久之前就知道 Reitz 大神出了一個(gè)叫 Requests-HTML 的庫(kù),一直沒(méi)有興趣看,這回可算歹著機(jī)會(huì)用一下了。
使用pip install requests-html
安裝,上手和 Reitz 的其他庫(kù)一樣,輕松簡(jiǎn)單:
from requests_html import HTMLSession session = HTMLSession() r = session.get('https://www.python.org/jobs/')
這個(gè)庫(kù)是在 requests 庫(kù)上實(shí)現(xiàn)的,r 得到的結(jié)果是 Response 對(duì)象下面的一個(gè)子類(lèi),多個(gè)一個(gè)html
的屬性。所以 requests 庫(kù)的響應(yīng)對(duì)象可以進(jìn)行什么操作,這個(gè) r 也都可以。如果需要解析網(wǎng)頁(yè),直接獲取響應(yīng)對(duì)象的 html 屬性:
r.html
2. 原理
不得不膜拜 Reitz 大神太會(huì)組裝技術(shù)了。實(shí)際上 HTMLSession 是繼承自 requests.Session 這個(gè)核心類(lèi),然后將 requests.Session 類(lèi)里的 requests 方法改寫(xiě),返回自己的一個(gè) HTMLResponse 對(duì)象,這個(gè)類(lèi)又是繼承自 requests.Response,只是多加了一個(gè)_from_response
的方法來(lái)構(gòu)造實(shí)例:
class HTMLSession(requests.Session): # 重寫(xiě) request 方法,返回 HTMLResponse 構(gòu)造 def request(self, *args, **kwargs) -> HTMLResponse: r = super(HTMLSession, self).request(*args, **kwargs) return HTMLResponse._from_response(r, self)
class HTMLResponse(requests.Response): # 構(gòu)造器 @classmethod def _from_response(cls, response, session: Union['HTMLSession', 'AsyncHTMLSession']): html_r = cls(session=session) html_r.__dict__.update(response.__dict__) return html_r
之后在 HTMLResponse 里定義屬性方法 html,就可以通過(guò) html 屬性訪(fǎng)問(wèn)了,實(shí)現(xiàn)也就是組裝 PyQuery 來(lái)干。核心的解析類(lèi)也大多是使用 PyQuery 和 lxml 來(lái)做解析,簡(jiǎn)化了名稱(chēng),挺討巧的。
3. 元素定位
元素定位可以選擇兩種方式:
css 選擇器
css選擇器
xpath
# css 獲取有多少個(gè)職位 jobs = r.html.find("h2.call-to-action") # xpath 獲取 jobs = r.html.xpath("//h2[@class='call-to-action']")
方法名非常簡(jiǎn)單,符合 Python 優(yōu)雅的風(fēng)格,這里不妨對(duì)這兩種方式簡(jiǎn)單的說(shuō)明:
4. CSS 簡(jiǎn)單規(guī)則
標(biāo)簽名 h2
id 使用#id
表示
class 使用.class_name
表示
謂語(yǔ)表示:h2[prop=value]
5. Xpath簡(jiǎn)單規(guī)則
路徑// 或者 /
標(biāo)簽名
謂語(yǔ) [@prop=value]
軸定位名稱(chēng)::元素名[謂語(yǔ)]
定位到元素以后勢(shì)必要獲取元素里面的內(nèi)容和屬性相關(guān)數(shù)據(jù),獲取文本:
jobs.text jobs.full_text
獲取元素的屬性:
attrs = jobs.attrs value = attrs.get("key")
還可以通過(guò)模式來(lái)匹配對(duì)應(yīng)的內(nèi)容:
## 找某些內(nèi)容匹配 r.html.search("Python {}") r.html.search_all()
這個(gè)功能看起來(lái)比較雞肋,可以深入研究?jī)?yōu)化一下,說(shuō)不定能在 github 上混個(gè)提交。
6. 人性化操作
除了一些基礎(chǔ)操作,這個(gè)庫(kù)還提供了一些人性化的操作。比如一鍵獲取網(wǎng)頁(yè)的所有超鏈接,這對(duì)于整站爬蟲(chóng)應(yīng)該是個(gè)福音,URL 管理比較方便:
r.html.absolute_links r.html.links
內(nèi)容頁(yè)面通常都是分頁(yè)的,一次抓取不了太多,這個(gè)庫(kù)可以獲取分頁(yè)信息:
print(r.html) # 比較一下 for url in r.html: print(url)
結(jié)果如下:
# print(r.html) <HTML url='https://www.python.org/jobs/'> # for <HTML url='https://www.python.org/jobs/'> <HTML url='https://www.python.org/jobs/?page=2'> <HTML url='https://www.python.org/jobs/?page=3'> <HTML url='https://www.python.org/jobs/?page=4'> <HTML url='https://www.python.org/jobs/?page=5'>
通過(guò)迭代器實(shí)現(xiàn)了智能發(fā)現(xiàn)分頁(yè),這個(gè)迭代器里面會(huì)用一個(gè)叫_next
的方法,貼一段源碼感受下:
def get_next(): candidates = self.find('a', containing=next_symbol) for candidate in candidates: if candidate.attrs.get('href'): # Support 'next' rel (e.g. reddit). if 'next' in candidate.attrs.get('rel', []): return candidate.attrs['href']
通過(guò)查找 a 標(biāo)簽里面是否含有指定的文本來(lái)判斷是不是有下一頁(yè),通常我們的下一頁(yè)都會(huì)通過(guò)下一頁(yè)
或者加載更多
來(lái)引導(dǎo),他就是利用這個(gè)標(biāo)志來(lái)進(jìn)行判斷。默認(rèn)的以列表形式存在全局:['next', 'more', 'older']
。我個(gè)人認(rèn)為這種方式非常不靈活,幾乎沒(méi)有擴(kuò)展性。感興趣的可以往 github 上提交代碼優(yōu)化。
7. 加載 js
也許是考慮到了現(xiàn)在 js 的一些異步加載,這個(gè)庫(kù)支持 js 運(yùn)行時(shí),官方說(shuō)明如下:
Reloads the response in Chromium, and replaces HTML contentwith an updated version, with JavaScript executed.
使用非常簡(jiǎn)單,直接調(diào)用以下方法:
r.html.render()
第一次使用的時(shí)候會(huì)下載 Chromium,不過(guò)國(guó)內(nèi)你懂的,自己想辦法去下吧,就不要等它自己下載了。render 函數(shù)可以使用 js 腳本來(lái)操作頁(yè)面,滾動(dòng)操作單獨(dú)做了參數(shù)。這對(duì)于上拉加載等新式頁(yè)面是非常友好的。
看完上述內(nèi)容,你們掌握 requests-html如何在python爬蟲(chóng)中使用的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝各位的閱讀!
當(dāng)前題目:requests-html如何在python爬蟲(chóng)中使用-創(chuàng)新互聯(lián)
標(biāo)題來(lái)源:http://aaarwkj.com/article20/pgsco.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供外貿(mào)建站、電子商務(wù)、網(wǎng)站策劃、網(wǎng)站建設(shè)、網(wǎng)站內(nèi)鏈、微信公眾號(hào)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容