欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

python爬動態(tài)網(wǎng)站的方法-創(chuàng)新互聯(lián)

創(chuàng)新互聯(lián)www.cdcxhl.cn八線動態(tài)BGP香港云服務(wù)器提供商,新人活動買多久送多久,劃算不套路!

在葉集等地區(qū),都構(gòu)建了全面的區(qū)域性戰(zhàn)略布局,加強發(fā)展的系統(tǒng)性、市場前瞻性、產(chǎn)品創(chuàng)新能力,以專注、極致的服務(wù)理念,為客戶提供網(wǎng)站制作、網(wǎng)站建設(shè) 網(wǎng)站設(shè)計制作按需設(shè)計網(wǎng)站,公司網(wǎng)站建設(shè),企業(yè)網(wǎng)站建設(shè),成都品牌網(wǎng)站建設(shè),成都全網(wǎng)營銷,成都外貿(mào)網(wǎng)站建設(shè)公司,葉集網(wǎng)站建設(shè)費用合理。

小編給大家分享一下python爬動態(tài)網(wǎng)站的方法,相信大部分人都還不怎么了解,因此分享這邊文章給大家學(xué)習(xí),希望大家閱讀完這篇文章后大所收獲,下面讓我們一起去學(xué)習(xí)方法吧!

python有許多庫可以讓我們很方便地編寫網(wǎng)絡(luò)爬蟲,爬取某些頁面,獲得有價值的信息!但許多時候,爬蟲取到的頁面僅僅是一個靜態(tài)的頁面,即網(wǎng)頁 的源代碼,就像在瀏覽器上的“查看網(wǎng)頁源代碼”一樣。一些動態(tài)的東西如javascript腳本執(zhí)行后所產(chǎn)生的信息,是抓取不到的,這里暫且先給出這么一 些方案,可用于python爬取js執(zhí)行后輸出的信息。

1、兩種基本的解決方案

1.1 用dryscrape庫動態(tài)抓取頁面

js腳本是通過瀏覽器來執(zhí)行并返回信息的,所以,抓取js執(zhí)行后的頁面,一個最直接的方式就是用python模擬瀏覽器的行為。WebKit 是一個開源的瀏覽器引擎,python提供了許多庫可以調(diào)用這個引擎,dryscrape便是其中之一,它調(diào)用webkit引擎來處理包含js等的網(wǎng)頁!

import dryscrape
# 使用dryscrape庫 動態(tài)抓取頁面
def get_url_dynamic(url):
    session_req=dryscrape.Session()
    session_req.visit(url) #請求頁面
    response=session_req.body() #網(wǎng)頁的文本
    #print(response)
    return response
get_text_line(get_url_dynamic(url)) #將輸出一條文本

這里對于其余包含js的網(wǎng)頁也是適用的!雖然可以滿足抓取動態(tài)頁面的要求,但缺點還是很明顯的:慢!太慢了,其實想一想也合理,python調(diào)用 webkit請求頁面,而且等頁面加載完,載入js文件,讓js執(zhí)行,將執(zhí)行后的頁面返回,慢一點也是應(yīng)該的!除外還有很多庫可以調(diào)用 webkit:PythonWebkit,PyWebKitGit,Pygt(可以用它寫個瀏覽器),pyjamas等等,聽說它們也可以實現(xiàn)相同的功能!

1.2 selenium web測試框架

selenium是一個web測試框架,它允許調(diào)用本地的瀏覽器引擎發(fā)送網(wǎng)頁請求,所以,它同樣可以實現(xiàn)抓取頁面的要求。

# 使用 selenium webdriver 可行,但會實時打開瀏覽器窗口

def get_url_dynamic2(url):
    driver=webdriver.Firefox() #調(diào)用本地的火狐瀏覽器,Chrom 甚至 Ie 也可以的
    driver.get(url) #請求頁面,會打開一個瀏覽器窗口
    html_text=driver.page_source
    driver.quit()
    #print html_text
    return html_text
get_text_line(get_url_dynamic2(url)) #將輸出一條文本

這也不失為一條臨時的解決方案!與selenium類似的框架還有一個windmill,感覺稍復(fù)雜一些,就不再贅述!

2、selenium的安裝與使用

2.1 selenium的安裝

在Ubuntu上安裝可以直接使用pip install selenium。由于以下原因:

1. selenium 3.x開始,webdriver/firefox/webdriver.py的__init__中,executable_path="geckodriver";而2.x是executable_path="wires"

2. firefox 47以上版本,需要下載第三方driver,即geckodriver

還需要一些特殊操作:

1. 下載 geckodriverckod 地址: 

mozilla/geckodriver

2. 解壓后將geckodriverckod 存放至 /usr/local/bin/ 路徑下即可:

sudo mv ~/Downloads/geckodriver /usr/local/bin/

2.2 selenium的使用

1. 運行報錯:

driver = webdriver.chrome()
TypeError: 'module' object is not callable

解決方案:瀏覽器的名稱需要大寫Chrome和Firefox,Ie

2. 通過

content = driver.find_element_by_class_name('content')

來定位元素時,該方法返回的是FirefoxWebElement,想要獲取包含的值時,可以通過

value = content.text

以上是python爬動態(tài)網(wǎng)站的方法的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對大家有所幫助,如果還想學(xué)習(xí)更多知識,歡迎關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司行業(yè)資訊頻道!

當(dāng)前文章:python爬動態(tài)網(wǎng)站的方法-創(chuàng)新互聯(lián)
文章地址:http://aaarwkj.com/article42/jdeec.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供虛擬主機(jī)、全網(wǎng)營銷推廣App開發(fā)、網(wǎng)站設(shè)計、網(wǎng)頁設(shè)計公司、網(wǎng)站改版

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

h5響應(yīng)式網(wǎng)站建設(shè)
日本a亚洲中文字幕永远| 国产一级一片内射视频| 中文字幕午夜av福利| 五月天亚洲激情综合av| 中字幕人妻一区二区三区| 日本精品一区二区三区免费| av免费在线观看网页| 国产成人综合亚洲不卡| 国产麻豆剧传媒国产av| 国产成人精品一二三四区| 亚洲av区一区二区三| 深夜毛片一区二区三区| 国产黄色片网站在线看| 黑丝美女国产精品久久久| 日本黄色高清视频一区| 亚洲一区二区精品999| 久久久久久国产精彩视频| 日本精品av一区二区| 国产美女主播一二三区| 国产亚洲一区二区三区在线| 午夜高清影院免费观看| 欧美日韩性视频播放器| 国产成人免费视频大全| 精品视频日韩在线观看| 国产精品麻豆色哟哟av| 亚洲色图熟女激情另类| 精品毛片久久久久久久久| 天堂网av高清在线播放| 熟女乱熟乱熟妇综合网二区| 欧美日韩精品国产精品| 日韩二区三区在线视频| 免费久久人人爽人人爽| 日本国产美女精品一区二区 | 熟女另类视频在线观看| 久久成人影院免费观看| 精品亚洲午夜久久久久| 婷婷激情六月中文字幕| 亚洲无人区码一码二码三码| 国产成人亚洲精品在线看| 日本一区二区三区高清在线| 精品国产一区二区成人|