欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

一看就明白的爬蟲入門講解:基礎(chǔ)理論篇(上篇

2020-09-26    分類: 網(wǎng)站建設(shè)

文/諸葛ioCEO

關(guān)于爬蟲內(nèi)容的分享,我會分成兩篇,六個部分來分享,分別是:

  1. 我們的目的是什么
  2. 內(nèi)容從何而來
  3. 了解網(wǎng)絡(luò)請求
  4. 一些常見的限制方式
  5. 嘗試解決問題的思路
  6. 效率問題的取舍

本文先聊聊前三個部分。

一、我們的目的是什么

一般來講對我們而言需要抓取的是某個網(wǎng)站或者某個應(yīng)用的內(nèi)容,提取有用的價值,內(nèi)容一般分為兩部分,非結(jié)構(gòu)化的文本,或者結(jié)構(gòu)化的文本。

關(guān)于非結(jié)構(gòu)化的數(shù)據(jù)

1.1 HTML文本(包含java代碼)

HTML文本基本上是傳統(tǒng)爬蟲過程中最常見的,也就是大多數(shù)時候會遇到的情況,例如抓取一個網(wǎng)頁,得到的是HTML,然后需要解析一些常見的元素,提取一些關(guān)鍵的信息。HTML其實(shí)理應(yīng)屬于結(jié)構(gòu)化的文本組織,但是又因?yàn)橐话阄覀冃枰年P(guān)鍵信息并非直接可以得到,需要進(jìn)行對HTML的解析查找,甚至一些字符串操作才能得到,所以還是歸類于非結(jié)構(gòu)化的數(shù)據(jù)處理中。

常見解析方式如下:

CSS選擇器

現(xiàn)在的網(wǎng)頁樣式比較多,所以一般的網(wǎng)頁都會有一些CSS的定位,例如class,id等等,或者我們根據(jù)常見的節(jié)點(diǎn)路徑進(jìn)行定位,例如騰訊首頁的財經(jīng)部分:

這里id就為finance,我們用css選擇器,就是"#finance"就得到了財經(jīng)這一塊區(qū)域的html,同理,可以根據(jù)特定的css選擇器可以獲取其他的內(nèi)容。

XPATH

XPATH是一種頁面元素的路徑選擇方法,利用chrome可以快速得到,如:

copy XPATH 就能得到——//*[@id="finance"]

正則表達(dá)式

正則表達(dá)式,用標(biāo)準(zhǔn)正則解析,一般會把HTML當(dāng)做普通文本,用指定格式匹配當(dāng)相關(guān)文本,適合小片段文本,或者某一串字符,或者HTML包含java的代碼,無法用CSS選擇器或者XPATH。

字符串分隔

同正則表達(dá)式,更為偷懶的方法,不建議使用。

1.2 一段文本

例如一篇文章,或者一句話,我們的初衷是提取有效信息,所以如果是滯后處理,可以直接存儲,如果是需要實(shí)時提取有用信息,常見的處理方式如下:

分詞

根據(jù)抓取的網(wǎng)站類型,使用不同詞庫,進(jìn)行基本的分詞,然后變成詞頻統(tǒng)計,類似于向量的表示,詞為方向,詞頻為長度。

NLP

自然語言處理,進(jìn)行語義分析,用結(jié)果表示,例如正負(fù)面等。

關(guān)于結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)化的數(shù)據(jù)是最好處理,一般都是類似JSON格式的字符串,直接解析JSON數(shù)據(jù)就可以了,提取JSON的關(guān)鍵字段即可

二、內(nèi)容從何而來

過去我們常需要獲取的內(nèi)容主要來源于網(wǎng)頁,一般來講,我們決定進(jìn)行抓取的時候,都是網(wǎng)頁上可看到的內(nèi)容,但是隨著這幾年移動互聯(lián)網(wǎng)的發(fā)展,我們也發(fā)現(xiàn)越來越多的內(nèi)容會來源于移動app,所以爬蟲就不止局限于一定要抓取解析網(wǎng)頁,還有就是模擬移動app的網(wǎng)絡(luò)請求進(jìn)行抓取,所以這一部分我會分兩部分進(jìn)行說明。

1 網(wǎng)頁內(nèi)容

網(wǎng)頁內(nèi)容一般就是指我們最終在網(wǎng)頁上看到的內(nèi)容,但是這個過程其實(shí)并不是網(wǎng)頁的代碼里面直接包含內(nèi)容這么簡單,所以對于很多新人而言,會遇到很多問題,比如:

明明在頁面用Chrome或者Firefox進(jìn)行審查元素時能看到某個HTML標(biāo)簽下包含內(nèi)容,但是抓取的時候?yàn)榭铡?/p>

很多內(nèi)容一定要在頁面上點(diǎn)擊某個按鈕或者進(jìn)行某個交互操作才能顯示出來。

所以對于很多新人的做法是用某個語言別人模擬瀏覽器操作的庫,其實(shí)就是調(diào)用本地瀏覽器或者是包含了一些執(zhí)行java的引擎來進(jìn)行模擬操作抓取數(shù)據(jù),但是這種做法顯然對于想要大量抓取數(shù)據(jù)的情況下是效率非常低下,并且對于技術(shù)人員本身而言也相當(dāng)于在用一個盒子,那么對于這些內(nèi)容到底是怎么顯示在網(wǎng)頁上的呢?

當(dāng)前文章:一看就明白的爬蟲入門講解:基礎(chǔ)理論篇(上篇
文章地址:http://aaarwkj.com/news/86715.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站設(shè)計、品牌網(wǎng)站制作、網(wǎng)站維護(hù)App設(shè)計、虛擬主機(jī)小程序開發(fā)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站優(yōu)化排名
亚洲av激情码国产一区| 成年女人毛片免费观看不卡| 日韩人妻有码中文字幕| 久久亚洲欧美国产精品观看| 男人午夜福利视频在线观看 | 2018在线不卡爱视频| 日韩一区二区中文字幕| 亚洲一区二区精品天堂| 亚洲香蕉av一区二区蜜桃| 精品视频美女肉体亚洲| av黄色天堂在线观看| 精品人妻一区二区三区mp4| 国产亚洲欧美另类网爆| av资源天堂第一区第二区第三区| 精品女同一区二区三区网站 | 精品国产91乱码一区二区三区 | 四虎影院成人精品久久| 美女网站色在线免费观看午夜精品| 欧美日韩精品激情一区二区| 老熟女乱色一区二区三区| 超碰97精品在线观看| 加勒比中文字幕日本道| 日韩不伦高清一区二区三区| 中文字幕精品久久久人妻| 日韩人妻中文字幕在线视频| 成人福利网站午夜一区| 国产在线精彩视频自拍| 亚洲视频在线视频看视频在线 | 一起草视频在线观看视频| 欧美日韩激情在线不卡三区| 国产无遮挡又黄又爽网站| 四虎久久久最新网址| 国产成人福利视频在线观看| 色哟哟网站在线精品视频| av中文资源在线观看| 人妻艳情一区二区三区| 亚洲一区二区三区在线观看呢| 中文字幕国产精品经典三级 | 亚洲一区二区三区国色天香| 亚洲一区二区三区四区国产| 亚洲毛片在线免费播放|