欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

爬蟲中的HTTP是什么

這期內容當中小編將會給大家?guī)碛嘘P爬蟲中的HTTP是什么,文章內容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。

讓客戶滿意是我們工作的目標,不斷超越客戶的期望值來自于我們對這個行業(yè)的熱愛。我們立志把好的技術通過有效、簡單的方式提供給客戶,將通過不懈努力成為客戶在信息化領域值得信任、有價值的長期合作伙伴,公司提供的服務項目有:國際域名空間、網絡空間、營銷軟件、網站建設、內丘網站維護、網站推廣。

在學習爬蟲的過程中,相信大家對HTTP這個詞已經不陌生了,它好像從未離開過我們的視線。被迫所需,我們每次都要使用開發(fā)者工具去查看請求頭,響應頭,以及頭中的各個字段,使用別人封裝好的模塊填入信息,敲幾行代碼就解決了。面對簡單的爬取任務,我們也許根本不用管它是什么,但可能等我們真正遇到問題的時候,卻無從下手。

什么是http? 

超文本傳輸協(xié)議(HTTP,HyperText Transfer Protocol) 是互聯(lián)網上應用最為廣泛的一種網絡協(xié)議。所有WWW文件都必須遵守這個標準。設計HTTP最初的目的是為了提供一種發(fā)布和接收HTML頁面的方法。

1960年美國人Ted Nelson構思了一種通過計算機處理文本信息的方法,并稱之為超文本(hypertext),這成為了HTTP超文本傳輸協(xié)議標準架構的發(fā)展根基。Ted Nelson組織協(xié)調萬維網協(xié)會(World Wide Web Consortium)和互聯(lián)網工程工作小組(Internet Engineering Task Force )共同合作研究,最終發(fā)布了一系列的RFC,其中著名的RFC 2616定義了HTTP 1.1。

http模型

HTTP采用了瀏覽器/服務器這種請求/響應模型,瀏覽器永遠是HTTP請求的發(fā)起者,服務器為響應者。這樣在瀏覽器客戶端沒有發(fā)起請求的情況下,服務器是不能主動推送消息給客戶端的。

http的定位

HTTP是一個應用層協(xié)議,是我們想從服務器端獲取信息的最直觀的請求。比如,在爬蟲中使用的<urllib模塊>,<requests模塊>等都是封裝了HTTP協(xié)議,作為一個HTTP客戶端實現(xiàn)了博文,圖片,視頻等信息源的下載。

但是HTTP也不是直接就可以用的,它的請求是建立在一些底層協(xié)議的基礎上完成的。如TCP/IP協(xié)議棧中,HTTP需要TCP的三次握手連接成功后才能向服務器發(fā)起請求。當然,如果是HTTPS的話,還需要TSL和SSL安全層。

一個完整的HTTP請求

既然HTTP協(xié)議需要建立在其它底層協(xié)議基礎上,我們來看看一個完整的HTTP請求是什么樣的。

當我們點擊一個鏈接或者輸入一個鏈接的時候,整個HTTP的請求過程就開始了,然后經過以下步驟得到最后的信息,我們這里簡單介紹一下前四個步驟,旨在了解HTTP。

<1> 域名解析

首先會搜索各種本地DNS緩存,如果沒有就會向DNS服務器(互聯(lián)網提供商)發(fā)起域名解析,以獲取IP地址。

<2> 建立TCP連接

當獲取IP后,將創(chuàng)建套接字socket連接,也就是TCP的3次握手連接,默認端口號80。

<3> HTTP請求

一旦TCP連接成功后,瀏覽器/爬蟲就可以向服務器發(fā)起HTTP請求報文了,報文內容包含請求行、請求頭部、請求主體。

<4> 服務器響應

服務器響應,并返回一個HTTP響應包(如果成功會返回狀態(tài)碼200)和請求的HTML代碼。

響應HTTP請求會返回響應狀態(tài)碼,根據(jù)狀態(tài)碼可以知道返回信息的狀態(tài)。狀態(tài)碼規(guī)定如下:

1xx: 信息響應類,表示接收到請求并且繼續(xù)處理

      100——必須繼續(xù)發(fā)出請求

      101——要求服務器根據(jù)請求轉換HTTP協(xié)議版本

2xx: 處理成功響應類,表示動作被成功接收、理解和接受

200——交易成功

201——提示知道新文件的URL

202——接受和處理、但處理未完成

203——返回信息不確定或不完整

204——請求收到,但返回信息為空

205——服務器完成了請求,用戶代理必須復位當前已經瀏覽過的文件

206——服務器已經完成了部分用戶的GET請求

3xx: 重定向響應類,為了完成指定的動作,必須接受進一步處理

300——請求的資源可在多處得到

301——刪除請求數(shù)據(jù)

302——在其他地址發(fā)現(xiàn)了請求數(shù)據(jù)

303——建議客戶訪問其他URL或訪問方式

304——客戶端已經執(zhí)行了GET,但文件未變化

305——請求的資源必須從服務器指定的地址得到

306——前一版本HTTP中使用的代碼,現(xiàn)行版本中不再使用

307——申明請求的資源臨時性刪除

4xx: 客戶端錯誤,客戶請求包含語法錯誤或者是不能正確執(zhí)行

400——錯誤請求,如語法錯誤

401——未授權

402——保留有效ChargeTo頭響應

403——禁止訪問

404——沒有發(fā)現(xiàn)文件、查詢或URl

405——在Request-Line字段定義的方法不允許

406——根據(jù)發(fā)送的Accept,請求資源不可訪問

407——用戶必須首先在代理服務器上得到授權

408——客戶端沒有在指定的時間內完成請求

409——對當前資源狀態(tài),請求不能完成

410——服務器不再有此資源且無進一步地址

411——服務器拒絕用戶定義的Content-Length

412——一個或多個請求頭字段在當前請求中錯誤

413——請求的資源大于服務器允許的大小

414——請求的資源URL長于服務器允許的長度

415——請求資源不支持請求項目格式

416——請求中包含Range請求頭字段,在當前請求資源范圍內沒有range指示值,請求也不包含If-Range請求頭字段

417——服務器不滿足請求Expect頭字段指定的期望值,如果是代理服務器,可能是下一級服務器不能滿足請求長。

5xx: 服務端錯誤,服務器不能正確執(zhí)行一個正確的請求

500——內部服務器錯誤

501——未實現(xiàn)

502——網關錯誤

上述就是小編為大家分享的爬蟲中的HTTP是什么了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關知識,歡迎關注創(chuàng)新互聯(lián)行業(yè)資訊頻道。

分享題目:爬蟲中的HTTP是什么
鏈接地址:http://aaarwkj.com/article18/iidjgp.html

成都網站建設公司_創(chuàng)新互聯(lián),為您提供品牌網站建設、關鍵詞優(yōu)化電子商務、網站改版網站維護、網站建設

廣告

聲明:本網站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

網站優(yōu)化排名
日韩亚洲欧美不卡在线| 欧美三级视频一区二区三区 | 精品福利视频一区二区| 日韩av在线专区观看| 国产在线麻豆在拍91精品| 强乱人妻中文字幕日本| 日本视频免费一区二区| 欧美在线观看香蕉视频| 欧美视频亚洲视频自拍视频| 人妻一本久道久久综合鬼色| 日韩中文字幕一区二区不卡| 免费看夫妻性生活视频| 东京热加勒比在线播放| 亚洲男人天堂在线观看| 97在线公开免费视频| 日韩人妻av免费电影| 国产一区二区三区在线观看俏佳人| 欧美日韩国产亚洲免费| 性生活的视频免费观看麻豆| 亚洲激情一区在线观看| 抱着操才爽的免费视频观看| 国产女主播精品视频一区| 91嫩草中文字幕在线| 91av国产一区二区| 欧美夫妻香蕉视频网站| 日韩av一区二区久久久| 亚洲精品入口一区二区| 亚洲国产欧美日韩综合| 亚洲国产日韩欧美一级| 国产精品熟女一区二区三区| 亚洲 欧美 日韩一区| 东京热一精品无码av| 国产91在线一区精品| 亚洲国产高清第一第二区| 未满十八周岁禁看视频| 欧美色一区二区三区四区| 性生活视频在线观看免费| 欧美日韩69av网| 中文字幕二区三区av| 日本高清三级精品一区二区| 全国精品免费视频久久久|