搜索引擎爬蟲的更新,基本應(yīng)用在像快照的更新,搜索引擎對已抓取頁面的再抓取行為等。至于為什么要進行再抓取基本是因為互聯(lián)網(wǎng)上萬萬億的頁面量。很多頁面還是有一直變化的。這個變化的前置因子,導(dǎo)致了爬蟲要不斷的更新自己的數(shù)據(jù),從而一定要對已經(jīng)抓取的網(wǎng)頁進行再抓取。那搜索引擎爬蟲的三大更新策略都是什么呢?
網(wǎng)站建設(shè)哪家好,找創(chuàng)新互聯(lián)公司!專注于網(wǎng)頁設(shè)計、網(wǎng)站建設(shè)、微信開發(fā)、成都小程序開發(fā)、集團企業(yè)網(wǎng)站建設(shè)等服務(wù)項目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了桐城免費建站歡迎大家使用!所謂歷史更新策略,就是針對已經(jīng)抓取的網(wǎng)頁有一個再抓取的時間限制。例如爬蟲抓取我SEO博客的首頁,從而搜索引擎通過一直以來的抓取得出我的博客首頁平均每3天更新一次,那么爬蟲的抓取策略就會調(diào)整為每3天訪問一次我的博客首頁。
這樣的更新抓取策略告訴我們,網(wǎng)頁變化頻繁就會引來蜘蛛的頻繁抓取。所以在這里如果你的網(wǎng)頁全部是靜態(tài)的。也就意味著不生成一遍對應(yīng)頁面是不會發(fā)生變化的。相對而言針對這種策略邏輯你就不是很站好。所以網(wǎng)址設(shè)置為偽靜態(tài)的,在網(wǎng)站打開速度能夠很好控制的前提下,把網(wǎng)頁本身設(shè)置為動態(tài)頁面是很不錯的選擇。
搜索引擎爬蟲的用戶體驗更新策略
所謂用戶體驗的網(wǎng)頁更新策略,是搜索引擎認為網(wǎng)頁參與具有一定搜索量詞的排名,且在前3頁的,是經(jīng)常會被用戶訪問到的頁面。那么針對這類頁面要更優(yōu)先的進行抓取更新。
而3頁之后的網(wǎng)頁對于用戶而言,訪問的人占到了極少數(shù),晚一些時間更新也未嘗不可。因此采取的一種網(wǎng)頁抓取更新策略。
這種策略讓我們知道,一些核心關(guān)鍵詞排名靠前的網(wǎng)頁,被爬蟲抓取的頻次是更多的。那么值得思考的一個問題是網(wǎng)站也會有一些詳情頁,聚合頁甚至文章頁參與比錯的詞的排名。這是不是意味著這次頁面抓取量也不錯呢?針對這個問題,趙彥剛之前通過對訪問日志的分析確定了這個答案,在80%的情況下,確實是這樣的。但這種頁面的頻率遠低于首頁、頻道頁等距離首頁更近,路徑更短的頁面抓取量。
不過,我們還是可以好好優(yōu)化我們的詳情頁/文章頁,在這類頁面以展示最新內(nèi)容,為最新內(nèi)容的收錄增加爬蟲抓取的入口。
搜索引擎爬蟲抓取網(wǎng)頁的抽樣聚類策略
談到這個策略,我們先從字面意思來看“抽樣,聚類”。抽樣是指從網(wǎng)站中抽取一些樣本出來進行觀察,而聚類是根據(jù)這些樣本的觀察得出一定的結(jié)論后應(yīng)用于這個類型上。
我們的網(wǎng)站都是有不同類型組成的,例如列表頁、產(chǎn)品詳情頁、文章頁、頻道頁、聚合頁等,這些都是不同的類型。搜索引擎從這中間抽選出一些樣本,進行觀察后得出一個更新周期后,應(yīng)用于整個類型的方式就是抽樣聚類的網(wǎng)頁抓取更新策略。
我們舉個例子,搜索引擎從列表頁抽樣找到A列表頁,通過分析觀察發(fā)現(xiàn)A列表頁每2天可以抓取一次。然后和A列表頁同類型的還有B、C、D列表頁,因為他們的模版一樣、導(dǎo)航都有、首頁下模塊也特指這四個列表頁。那么他們是一類的,所以B、C、D列表頁和A列表頁一樣,都是2天一抓取。
好了今天的分享就到這里,希望對你有所幫助。
網(wǎng)站名稱:搜索引擎爬蟲的三大更新策略是什么?
標題鏈接:http://aaarwkj.com/article26/cisocg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供做網(wǎng)站、動態(tài)網(wǎng)站、網(wǎng)站維護、微信小程序、Google、搜索引擎優(yōu)化
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)