欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

網(wǎng)絡(luò)爬蟲(chóng)的原理介紹-創(chuàng)新互聯(lián)

這篇文章主要介紹“網(wǎng)絡(luò)爬蟲(chóng)的原理介紹”,在日常操作中,相信很多人在網(wǎng)絡(luò)爬蟲(chóng)的原理介紹問(wèn)題上存在疑惑,小編查閱了各式資料,整理出簡(jiǎn)單好用的操作方法,希望對(duì)大家解答”網(wǎng)絡(luò)爬蟲(chóng)的原理介紹”的疑惑有所幫助!接下來(lái),請(qǐng)跟著小編一起來(lái)學(xué)習(xí)吧!

專注于為中小企業(yè)提供成都做網(wǎng)站、成都網(wǎng)站制作服務(wù),電腦端+手機(jī)端+微信端的三站合一,更高效的管理,為中小企業(yè)白銀免費(fèi)做網(wǎng)站提供優(yōu)質(zhì)的服務(wù)。我們立足成都,凝聚了一批互聯(lián)網(wǎng)行業(yè)人才,有力地推動(dòng)了超過(guò)千家企業(yè)的穩(wěn)健成長(zhǎng),幫助中小企業(yè)通過(guò)網(wǎng)站建設(shè)實(shí)現(xiàn)規(guī)模擴(kuò)充和轉(zhuǎn)變。

認(rèn)識(shí)瀏覽器和服務(wù)器

大家對(duì)瀏覽器應(yīng)該一點(diǎn)都不陌生,可以說(shuō),只要上過(guò)網(wǎng)的人都知道瀏覽器??墒?,明白瀏覽器各種原理的人可不一定多。

作為要開(kāi)發(fā)爬蟲(chóng)的小伙伴,是一定一定要明白瀏覽器的工作原理的。這是你寫爬蟲(chóng)的必備工具,別無(wú)他。

大家在面試的時(shí)候,有沒(méi)有遇到這么一個(gè)非常宏觀而又處處細(xì)節(jié)的解答題:

  • 請(qǐng)說(shuō)說(shuō)從你在瀏覽器地址欄輸入網(wǎng)站到你看到網(wǎng)頁(yè)中間都發(fā)生了什么?

這真是一個(gè)考驗(yàn)知識(shí)面的題啊,經(jīng)驗(yàn)老道的老猿既可以滔滔不絕的講上三天三夜,也可以提煉出幾分鐘的精華講個(gè)大概。大家恐怕對(duì)整個(gè)過(guò)程就一知半解了。

巧的是,對(duì)這個(gè)問(wèn)題理解的越透徹,越對(duì)寫爬蟲(chóng)有幫助。換句話說(shuō),爬蟲(chóng)是一個(gè)考驗(yàn)綜合技能的領(lǐng)域。那么,大家準(zhǔn)備好迎接這個(gè)綜合技能挑戰(zhàn)了嗎?

廢話不多說(shuō),我們就從解答這個(gè)題目開(kāi)始,認(rèn)識(shí)瀏覽器和服務(wù)器,看看這中間有哪些知識(shí)是爬蟲(chóng)要用到的。

前面也說(shuō)過(guò),這個(gè)問(wèn)題可以講上三天三夜,但我們沒(méi)那么多時(shí)間,其中一些細(xì)節(jié)就略過(guò),把大致流程結(jié)合爬蟲(chóng)講一講,分成三部分:

  1. 瀏覽器發(fā)出請(qǐng)求

  2. 服務(wù)器做出響應(yīng)

  3. 瀏覽器接收響應(yīng)

1. 瀏覽器發(fā)出請(qǐng)求

在瀏覽器地址欄輸入網(wǎng)址后回車,瀏覽器請(qǐng)服務(wù)器提出網(wǎng)頁(yè)請(qǐng)求,也就是告訴服務(wù)器,我要看你的某個(gè)網(wǎng)頁(yè)。
上面短短一句話,蘊(yùn)藏了無(wú)數(shù)玄機(jī)啊,讓我不得不費(fèi)點(diǎn)口舌一一道來(lái)。主要講述:

  • 網(wǎng)址是不是有效的?

  • 服務(wù)器在哪里?

  • 瀏覽器向服務(wù)器發(fā)送了些什么?

  • 服務(wù)器返回了些什么?

1) 網(wǎng)址是不是有效的?

首先,瀏覽器要判斷你輸入的網(wǎng)址(URL)是否合法有效。對(duì)應(yīng)URL,小猿們并不陌生吧,以http(s)開(kāi)頭的那一長(zhǎng)串的字符,但是你知道它還可以以ftp, mailto, file, data, irc開(kāi)頭嗎?下面是它最完整的語(yǔ)法格式:

URI = scheme:[//authority]path[?query][#fragment]
# 其中, authority 又是這樣的:
authority = [userinfo@]host[:port]
# userinfo可以同時(shí)包含user name和password,以:分割
userinfo = [user_name:password]

用圖更形象的表現(xiàn)處理就是這樣的:

網(wǎng)絡(luò)爬蟲(chóng)的原理介紹

經(jīng)驗(yàn)之談:要判斷URL的合法性

Python里面可以用urllib.parse來(lái)進(jìn)行URL的各種操作

In [1]: import urllib.parse 
In [2]: url = 'http://dachong:the_password@www.yuanrenxue.com/user/info?page=2'
In [3]: zz = urllib.parse.urlparse(url)
Out[4]: ParseResult(scheme='http', netloc='dachong:the_password@www.yuanrenxue.com', path='/user/info', params='', query='page=2', fragment='')

我們看到,urlparse函數(shù)把URL分析成了6部分:
scheme://netloc/path;params?query#fragment
需要主要的是 netloc 并不等同于 URL 語(yǔ)法定義中的host

2) 服務(wù)器在哪里?

上面URL定義中的host,就是互聯(lián)網(wǎng)上的一臺(tái)服務(wù)器,它可以是一個(gè)IP地址,但通常是我們所說(shuō)的域名。域名通過(guò)DNS綁定到一個(gè)(或多個(gè))IP地址上。瀏覽器要訪問(wèn)某個(gè)域名的網(wǎng)站就要先通過(guò)DNS服務(wù)器解析域名,得到真實(shí)的IP地址。
這里的域名解析一般是由操作系統(tǒng)完成的,爬蟲(chóng)不需要關(guān)心。然而,當(dāng)你寫一個(gè)大型爬蟲(chóng),像Google、百度搜索引擎那樣的爬蟲(chóng)的時(shí)候,效率變得很主要,爬蟲(chóng)就要維護(hù)自己的DNS緩存。
老猿經(jīng)驗(yàn):大型爬蟲(chóng)要維護(hù)自己的DNS緩存

3) 瀏覽器向服務(wù)器發(fā)送些什么?

瀏覽器獲得了網(wǎng)站服務(wù)器的IP地址,就可以向服務(wù)器發(fā)送請(qǐng)求了。這個(gè)請(qǐng)求就是遵循h(huán)ttp協(xié)議的。寫爬蟲(chóng)需要關(guān)心的就是http協(xié)議的headers,下面是訪問(wèn)  en.wikipedia.org/wiki/URL  時(shí)瀏覽器發(fā)送的請(qǐng)求 headers:

網(wǎng)絡(luò)爬蟲(chóng)的原理介紹

可能已經(jīng)從圖中看出來(lái)些端倪,發(fā)送的http請(qǐng)求頭是類似一個(gè)字典的結(jié)構(gòu):

  • authority: 就是訪問(wèn)的目標(biāo)機(jī)器;

  • method: http請(qǐng)求的方法有很多:

    • GET

    • HEAD

    • POST

    • PUT

    • DELETE

    • CONNECT

    • OPTIONS

    • TRACE

    • PATCH
      一般,爬蟲(chóng)使用最多的是GET和POST

  • path: 訪問(wèn)的網(wǎng)站的路徑

  • scheme: 請(qǐng)求的協(xié)議類型,這里是https

  • accept: 能夠接受的回應(yīng)內(nèi)容類型(Content-Types)

  • accept-encoding: 能夠接受的編碼方式列表

  • accept-language: 能夠接受的回應(yīng)內(nèi)容的自然語(yǔ)言列表

  • cache-control: 指定在這次的請(qǐng)求/響應(yīng)鏈中的所有緩存機(jī)制 都必須 遵守的指令

  • cookie: 之前由服務(wù)器通過(guò) Set- Cookie發(fā)送的一個(gè) 超文本傳輸協(xié)議Cookie
    這是爬蟲(chóng)很關(guān)心的一個(gè)東東,登錄信息都在這里。

  • upgrade-insecuree-requests: 非標(biāo)準(zhǔn)請(qǐng)求字段,可忽略之。

  • user-agent: 瀏覽器身份標(biāo)識(shí)

這也是爬蟲(chóng)很關(guān)心的部分。比如,你需要得到手機(jī)版頁(yè)面,就要設(shè)置瀏覽器身份標(biāo)識(shí)為手機(jī)瀏覽器的user-agent。

經(jīng)驗(yàn)之談: 通過(guò)設(shè)置headers跟服務(wù)器溝通

4) 服務(wù)器返回了些什么?

如果我們?cè)跒g覽器地址欄輸入一個(gè)網(wǎng)頁(yè)網(wǎng)址(不是文件下載地址),回車后,很快就看到了一個(gè)網(wǎng)頁(yè),里面包含排版文字、圖片、視頻等數(shù)據(jù),是一個(gè)豐富內(nèi)容格式的頁(yè)面。然而,我通過(guò)瀏覽器查看源代碼,看到的卻是一對(duì)文本格式的html代碼。

沒(méi)錯(cuò),就是一堆的代碼,卻讓瀏覽器給渲染成了漂亮的網(wǎng)頁(yè)。這對(duì)代碼里面有:

  • css: 瀏覽器根據(jù)它來(lái)排版,安排文字、圖片等的位置;

  • JavaScript: 瀏覽器運(yùn)行它可以讓用戶和網(wǎng)頁(yè)交互;

  • 圖片等鏈接: 瀏覽器再去下載這些鏈接,最終渲染成網(wǎng)頁(yè)。

而我們想要爬取的信息就藏在html代碼中,我們可以通過(guò)解析方法提取其中我們想要的內(nèi)容。如果html代碼里面沒(méi)有我們想要的數(shù)據(jù),但是在網(wǎng)頁(yè)里面卻看到了,那就是瀏覽器通過(guò)ajax請(qǐng)求異步加載(偷偷下載)了那部分?jǐn)?shù)據(jù)。

這個(gè)時(shí)候,我們就要通過(guò)觀察瀏覽器的加載過(guò)程來(lái)發(fā)現(xiàn)具體是哪個(gè)ajax請(qǐng)求加載了我們需要的數(shù)據(jù)。

到此,關(guān)于“網(wǎng)絡(luò)爬蟲(chóng)的原理介紹”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí),請(qǐng)繼續(xù)關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司網(wǎng)站,小編會(huì)繼續(xù)努力為大家?guī)?lái)更多實(shí)用的文章!

本文名稱:網(wǎng)絡(luò)爬蟲(chóng)的原理介紹-創(chuàng)新互聯(lián)
文章出自:http://aaarwkj.com/article38/dgocsp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供動(dòng)態(tài)網(wǎng)站、App開(kāi)發(fā)、品牌網(wǎng)站設(shè)計(jì)、網(wǎng)站建設(shè)、標(biāo)簽優(yōu)化、域名注冊(cè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

商城網(wǎng)站建設(shè)
亚洲欧美一区二区国产| 国产成人自拍激情视频| 国产91久久精品一区二区 | 国产高清不卡一区二区| 久热在线这里只有精品| 欧美日韩国产另类久久| 欧美成人精品三级在线网站| 熟女肥臀一区二区三区| 国产亚洲高清一区二区| 亚洲限制级电影一区二区| 国产三级一区二区不卡| 偷拍视频一区二区三区| 国产精品一区二区婷婷| 深夜日本福利在线观看| 日本av天堂中文字幕| 亚洲国产成人精品av在线| 亚洲欧洲日本在线天堂| 蜜桃av噜噜一区二区三| 亚洲国产精品一区二区首页| 国产成人精品无人区一区| 亚洲国产成人久久综合区| 2020年最新国产三级网站| 中文乱码字幕亚洲精品| 日本熟女视频免费观看| 中文字幕三级电影天堂| 成人av男人天堂东京热| 亚洲欧美国产日韩另类| 91免费福利激情视频| 日韩久久精品五月综合| 日韩国产人妻一区二区| 日韩精品专区在线影院重磅 | 日韩在线一区中文字幕| 国产精品日产三级在线观看| 国产高清视频在线观看流白浆| 国产精品高清另类一区二区三区| 羞羞的视频免费观看在线| 亚洲欧洲一区二区免费| 丝袜美腿一区二区三区| 亚洲区一区二区三区亚洲| 中文字幕欧美精品日韩人妻| 日本免费精品一区二区三区中 |