欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

爬蟲(chóng)基本原理-創(chuàng)新互聯(lián)

爬蟲(chóng)基本原理

一、爬蟲(chóng)是什么?

百度百科和維基百科對(duì)網(wǎng)絡(luò)爬蟲(chóng)的定義:簡(jiǎn)單來(lái)說(shuō)爬蟲(chóng)就是抓取目標(biāo)網(wǎng)站內(nèi)容的工具,一般是根據(jù)定義的行為自動(dòng)進(jìn)行抓取, 對(duì)網(wǎng)頁(yè)或數(shù)據(jù)的分析與過(guò)濾;抓取的網(wǎng)頁(yè)URL進(jìn)行爬行策略

創(chuàng)新互聯(lián)IDC提供業(yè)務(wù):簡(jiǎn)陽(yáng)服務(wù)器托管,成都服務(wù)器租用,簡(jiǎn)陽(yáng)服務(wù)器托管,重慶服務(wù)器租用等四川省內(nèi)主機(jī)托管與主機(jī)租用業(yè)務(wù);數(shù)據(jù)中心含:雙線機(jī)房,BGP機(jī)房,電信機(jī)房,移動(dòng)機(jī)房,聯(lián)通機(jī)房。
爬蟲(chóng)要做的是什么?
我們所謂的上網(wǎng)便是由用戶端計(jì)算機(jī)發(fā)送請(qǐng)求給目標(biāo)計(jì)算機(jī),將目標(biāo)計(jì)算機(jī)的數(shù)據(jù)下載到本地的過(guò)程。

用戶獲取網(wǎng)絡(luò)數(shù)據(jù)的方式是:
      瀏覽器提交請(qǐng)求->下載網(wǎng)頁(yè)代碼->解析/渲染成頁(yè)面。
爬蟲(chóng)程序要做的就是:
      模擬瀏覽器發(fā)送請(qǐng)求->下載網(wǎng)頁(yè)代碼->只提取有用的數(shù)據(jù)->存放于數(shù)據(jù)庫(kù)或文件中

區(qū)別在于:
      我們的爬蟲(chóng)程序只提取網(wǎng)頁(yè)代碼中對(duì)我們有用的數(shù)據(jù)

為什么要做爬蟲(chóng) 
爬蟲(chóng)的價(jià)值:
互聯(lián)網(wǎng)中最有價(jià)值的便是數(shù)據(jù),比如天貓商城的商品信息,鏈家網(wǎng)的租房信息,雪球網(wǎng)的證券投資信息等等,
這些數(shù)據(jù)都代表了各個(gè)行業(yè)的真金白銀,可以說(shuō),誰(shuí)掌握了行業(yè)內(nèi)的第一手?jǐn)?shù)據(jù),誰(shuí)就成了整個(gè)行業(yè)的主宰,如果把整個(gè)互聯(lián)網(wǎng)的數(shù)據(jù)比喻為一座寶藏,
那我們的爬蟲(chóng)課程就是來(lái)教大家如何來(lái)高效地挖掘這些寶藏,掌握了爬蟲(chóng)技能,你就成了所有互聯(lián)網(wǎng)信息公司幕后的老板,換言之,它們都在免費(fèi)為你提供有價(jià)值的數(shù)據(jù)。
二、爬蟲(chóng)的基本流程

爬蟲(chóng)基本原理

#1、發(fā)起請(qǐng)求
使用http庫(kù)向目標(biāo)站點(diǎn)發(fā)起請(qǐng)求,即發(fā)送一個(gè)Request
Request包含:請(qǐng)求頭、請(qǐng)求體等

#2、獲取響應(yīng)內(nèi)容
如果服務(wù)器能正常響應(yīng),則會(huì)得到一個(gè)Response
Response包含:html,json,圖片,視頻等

#3、解析內(nèi)容
解析html數(shù)據(jù):正則表達(dá)式,第三方解析庫(kù)如Beautifulsoup,pyquery等
解析json數(shù)據(jù):json模塊
解析二進(jìn)制數(shù)據(jù):以b的方式寫(xiě)入文件

#4、保存數(shù)據(jù)
數(shù)據(jù)庫(kù)
文件
三、請(qǐng)求與響應(yīng)

爬蟲(chóng)基本原理

#http協(xié)議:http://www.cnblogs.com/qiangyuge/p/8353307.html
#Request:用戶將自己的信息通過(guò)瀏覽器(socket client)發(fā)送給服務(wù)器(socket server)

#Response:服務(wù)器接收請(qǐng)求,分析用戶發(fā)來(lái)的請(qǐng)求信息,然后返回?cái)?shù)據(jù)(返回的數(shù)據(jù)中可能包含其他鏈接,如:圖片,js,css等)

#ps:瀏覽器在接收Response后,會(huì)解析其內(nèi)容來(lái)顯示給用戶,而爬蟲(chóng)程序在模擬瀏覽器發(fā)送請(qǐng)求然后接收Response后,是要提取其中的有用數(shù)據(jù)。
四、Request
#1、請(qǐng)求方式:
    常用的請(qǐng)求方式:GET,POST
    其他請(qǐng)求方式:HEAD,PUT,DELETE,OPTHONS

    ps:用瀏覽器演示get與post的區(qū)別,(用登錄演示post)

    post與get請(qǐng)求最終都會(huì)拼接成這種形式:k1=xxx&k2=yyy&k3=zzz
    post請(qǐng)求的參數(shù)放在請(qǐng)求體內(nèi):
        可用瀏覽器查看,存放于form data內(nèi)
    get請(qǐng)求的參數(shù)直接放在url后

#2、請(qǐng)求url
    url全稱統(tǒng)一資源定位符,如一個(gè)網(wǎng)頁(yè)文檔,一張圖片
    一個(gè)視頻等都可以用url唯一來(lái)確定

    url編碼
    https://www.baidu.com/s?wd=圖片
    圖片會(huì)被編碼(看示例代碼)

    網(wǎng)頁(yè)的加載過(guò)程是:
    加載一個(gè)網(wǎng)頁(yè),通常都是先加載document文檔,
    在解析document文檔的時(shí)候,遇到鏈接,則針對(duì)超鏈接發(fā)起下載圖片的請(qǐng)求

#3、請(qǐng)求頭
    User-agent:請(qǐng)求頭中如果沒(méi)有user-agent客戶端配置,
    服務(wù)端可能將你當(dāng)做一個(gè)非法用戶
    host
    cookies:cookie用來(lái)保存登錄信息

    一般做爬蟲(chóng)都會(huì)加上請(qǐng)求頭

#4、請(qǐng)求體
    如果是get方式,請(qǐng)求體沒(méi)有內(nèi)容
    如果是post方式,請(qǐng)求體是format data

    ps:
    1、登錄窗口,文件上傳等,信息都會(huì)被附加到請(qǐng)求體內(nèi)
    2、登錄,輸入錯(cuò)誤的用戶名密碼,然后提交,就可以看到post,正確登錄后頁(yè)面通常會(huì)跳轉(zhuǎn),無(wú)法捕捉到post
'''
遇到問(wèn)題沒(méi)人解答?小編創(chuàng)建了一個(gè)Python學(xué)習(xí)交流QQ群:857662006 
尋找有志同道合的小伙伴,互幫互助,群里還有不錯(cuò)的視頻學(xué)習(xí)教程和PDF電子書(shū)!
'''
#! /usr/bin/env python
# -*- coding: utf-8 -*-

import requests
from urllib.parse import urlencode
# 請(qǐng)求方式
kwords = input("請(qǐng)輸入關(guān)鍵字:>>").strip()
res = urlencode({"wd":kwords}) #     # 請(qǐng)求的url,當(dāng)你在百度輸入中文的時(shí)候,你把url拿下來(lái)會(huì)變成下面的這樣格式的url,所以得urlencode一下
url ="https://www.baidu.com/s?"+res   #https://www.baidu.com/s?wd=%E5%9B%BE%E7%89%87

response = requests.get(
    # 請(qǐng)求的url,當(dāng)你在百度輸入中文的時(shí)候,你把url拿下來(lái)會(huì)變成下面的這樣格式的url
    url,
    # 請(qǐng)求頭
    headers={
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                      "Chrome/63.0.3239.108 Safari/537.36",
    },
)
with open("a.html","w",encoding="utf-8") as f:
    f.write(response.text)
print(response.status_code)
'''
遇到問(wèn)題沒(méi)人解答?小編創(chuàng)建了一個(gè)Python學(xué)習(xí)交流QQ群:857662006 
尋找有志同道合的小伙伴,互幫互助,群里還有不錯(cuò)的視頻學(xué)習(xí)教程和PDF電子書(shū)!
'''
#! /usr/bin/env python
# -*- coding: utf-8 -*-
import requests
from urllib.parse import urlencode

kwords = input("請(qǐng)輸入關(guān)鍵字:>>").strip()
response = requests.get(
    "https://www.baidu.com/s?",
    # 請(qǐng)求的url,當(dāng)你在百度輸入中文的時(shí)候,你把url拿下來(lái)會(huì)變成下面的這樣格式的url
    params={
        "wd": kwords,
        'pn': 20
    },
    # 請(qǐng)求頭
    headers={
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36",
    },
)
with open("b.html", "w", encoding="utf-8") as f:
    f.write(response.text)
print(response.status_code)
五 Response
#1、響應(yīng)狀態(tài)
    200:代表成功
    301:代表跳轉(zhuǎn)
    404:文件不存在
    403:權(quán)限
    502:服務(wù)器錯(cuò)誤

#2、Respone header
    set-cookie:可能有多個(gè),是來(lái)告訴瀏覽器,把cookie保存下來(lái)

#3、preview就是網(wǎng)頁(yè)源代碼
    最主要的部分,包含了請(qǐng)求資源的內(nèi)容
    如網(wǎng)頁(yè)html,圖片
    二進(jìn)制數(shù)據(jù)等
六 總結(jié)
#1、總結(jié)爬蟲(chóng)流程:
    爬取--->解析--->存儲(chǔ)

#2、爬蟲(chóng)所需工具:
    請(qǐng)求庫(kù):requests,selenium
    解析庫(kù):正則,beautifulsoup,pyquery
    存儲(chǔ)庫(kù):文件,MySQL,Mongodb,Redis

#3、爬蟲(chóng)常用框架:
    scrapy

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

當(dāng)前題目:爬蟲(chóng)基本原理-創(chuàng)新互聯(lián)
地址分享:http://aaarwkj.com/article8/dpidop.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站營(yíng)銷、網(wǎng)站設(shè)計(jì)公司、微信公眾號(hào)、外貿(mào)建站、企業(yè)建站企業(yè)網(wǎng)站制作

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設(shè)公司
一区二区三区熟妇人妻视频| 国产精品久久久久久久亚洲| 日韩人妖视频在线观看| 亚洲综合美女极品啪啪啪| 国产精品_国产精品_k频道| 国产一区二区精品日韩| 91麻豆精品国产自产| 中文字幕乱码亚洲美女精品 | 欧美日韩国产综合在线观看| 亚洲精品国产高清久久| 日本不卡不二三区在线看| 国产专区亚洲精品欧美| 熟女人妻一区二区三区免费看| 欧美日韩一区中文字幕| 日韩免费av在线网站| 久久精品人妻少妇一区二| 白浆熟女精品国产91| 黄色污网站在线观看免费| 亚洲国产成人一区二区精品区| 欧美亚洲另类国产精品| 久久国产精品欧美熟妇| 日韩毛片资源在线观看| 亚洲av乱码一区二区三四五六七| 深夜视频国产在线观看| 在线观看午夜视频免费| 亚洲精品国产熟女高潮| 午夜男女激情在线观看| 亚洲中文字幕第三页在线观看| 久久亚洲天堂色图不卡| 国产女主播在线观看一区| 久久国产精品一区av瑜伽| 亚洲天堂岛av一区二区| 亚洲天堂精品日韩电影| 中文字幕精品一区二区三区视频| 欧美日韩亚洲国产一区| 日日干天天日夜夜操| 久久婷婷综合激情亚洲| 午夜视频在线观看91| 久久最新最热视频精品| 日韩一区二区三区视频在线看 | 欧美人妻精品一区二区|