欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

圖文結合介紹搜索引擎抓取策略

2016-12-16    分類: 網(wǎng)站建設

搜索引擎對網(wǎng)頁的抓取實際上就是在互聯(lián)網(wǎng)上進行數(shù)據(jù)采集,這是搜索引擎最基礎的工作。搜索引擎的數(shù)據(jù)采集能力直接決定了搜索引擎可提供的信息量及對互聯(lián)網(wǎng)覆蓋的范圍,從而影響搜索引擎查詢結果的質(zhì)量。因此,搜索引擎總是想方設法地提高它的數(shù)據(jù)采集能力。索引擎利用數(shù)據(jù)采集程序在互聯(lián)網(wǎng)上抓取數(shù)據(jù),我們稱這個數(shù)據(jù)采集程序為蜘蛛程序或者機器人程序。

本文首先會介紹搜索引擎抓取頁面的流程及方式,再介紹搜索引擎對已抓取頁面的存儲及維護方式。

1. 頁面抓取流程

在互聯(lián)網(wǎng)中,URL是每個頁面的入口地址,搜索引擎蜘蛛程序就是通過URL抓取到頁面的。搜索引擎蜘蛛程序從原始URL列表出發(fā),通過URL抓取并存儲原始頁面;同時,提取原始頁面中的URL資源并加入到URL列表中。如此不斷地循環(huán),就可以從互聯(lián)網(wǎng)中獲取到足夠多的頁面,如圖所示。

URL是頁面的入口,而域名則是一個網(wǎng)站的入口。搜索引擎蜘蛛程序通過域名進入網(wǎng)站,從而展開對網(wǎng)站頁面的抓取。換言之,搜索引擎要在互聯(lián)網(wǎng)上抓取到頁面的首要任務就是建立一個足夠大的原始域名列表,再通過域名進入相應的網(wǎng)站,從而抓取這個網(wǎng)站中的頁面。

而對于網(wǎng)站來說,如果想要被搜索引擎收錄,首要的條件就是加入搜索引擎的域名列表。下面由成都網(wǎng)站制作公司創(chuàng)新互聯(lián)網(wǎng)絡SEO專員向大家介紹兩種常用的加入搜索引擎域名列表的方法。

第一,利用搜索引擎提供的網(wǎng)站登錄入口,向搜索引擎提交網(wǎng)站的域名。例如,Google的網(wǎng)站登錄2。對于提交的域名列表,搜索引擎只會定期進行更新。因此,這種做法比較被動,從域名提交到網(wǎng)站被收錄花費的時間也比較長。以下是主流中文搜索引擎的網(wǎng)站提交入口。

在實際中,我們只需要提交網(wǎng)站的首頁地址或者網(wǎng)站的域名,搜索引擎就會跟蹤首頁中的鏈接去抓取其他頁面。

從而實現(xiàn)對網(wǎng)站的收錄。這種做法主動權掌握在我們自己的手里(只要我們擁有足夠多高質(zhì)量的鏈接即可),而且收錄速度也比向搜索引擎主動提交要快得多。視乎外部鏈接的數(shù)量、質(zhì)量及相關性,一般情況下,2~7天左右就會被搜索引擎收錄。

2. 頁面抓取

通過上面的介紹,相信讀者已經(jīng)掌握了加快網(wǎng)站被搜索引擎收錄的方法。然而,怎樣才能提高網(wǎng)站中頁面被收錄的數(shù)量呢?這就要從了解搜索引擎收錄頁面的工作原理開始。

如果把網(wǎng)站頁面組成的集合看作是一個有向圖,從指定的頁面出發(fā),沿著頁面中的鏈接,按照某種特定的策略對網(wǎng)站中的頁面進行遍歷。不停地從URL列表中移出已經(jīng)訪問過的URL,并存儲原始頁面,同時提取原始頁面中的URL信息;再將URL分為域名及內(nèi)部URL兩大類,同時判斷URL是否被訪問過,將未被訪問過的URL加入URL列表中。遞歸地掃描URL列表,直至耗盡所有URL資源為止。經(jīng)過這些工作,搜索引擎就可以建立龐大的域名列表、頁面URL列表及存儲足夠多的原始頁面。

3. 頁面抓取方式

通過以上內(nèi)容,大家已經(jīng)了解了搜索引擎抓取頁面的流程及原理。然而,在互聯(lián)網(wǎng)數(shù)以億計的頁面中,搜索引擎怎樣才能從中抓取到更多相對重要的頁面呢?這就涉及搜索引擎的頁面抓取方式問題。

頁面抓取方式是指搜索引擎抓取頁面時所使用的策略,目的是為了能在互聯(lián)網(wǎng)中篩選出更多相對重要的信息。頁面抓取方式的制定取決于搜索引擎對網(wǎng)站結構的理解。如果使用相同的抓取策略,搜索引擎在同樣的時間內(nèi)可以在某一網(wǎng)站中抓取到更多的頁面資源,則會在該網(wǎng)站上停留更長的時間,抓取的頁面數(shù)自然也就更多。因此,加深對搜索引擎頁面抓取方式的認識,有利于為網(wǎng)站建立友好的結構,增加頁面被抓取的數(shù)量。

常見的搜索引擎抓取頁面的方式主要有廣度優(yōu)先、深度優(yōu)先、大站優(yōu)先、高權重優(yōu)先、暗網(wǎng)抓取及用戶提交等,接下來將詳細介紹這幾種頁面抓取方式及其優(yōu)缺點。

廣度優(yōu)先

如果把整個網(wǎng)站看作是一棵樹,首頁就是根,每個頁面就是葉子。廣度優(yōu)先是一種橫向的頁面抓取方式,先從樹的較淺層開始抓取頁面,直至抓取完同一層次上的所有頁面后才進入下一層。因此,在對網(wǎng)站進行優(yōu)化的時候,我們應該把網(wǎng)站中相對重要的信息展示在層次較淺的頁面上(例如,在首頁上推薦一些熱門產(chǎn)品或者內(nèi)容)。因此,通過廣度優(yōu)先的抓取方式,搜索引擎就可以優(yōu)先抓取到網(wǎng)站中相對重要的頁面。

我們來看一下廣度優(yōu)先的抓取流程。首先,搜索引擎從網(wǎng)站的首頁出發(fā),抓取首頁上所有鏈接指向的頁面,形成頁面集合(A),并解析出集合(A)中所有頁面的鏈接;再跟蹤這些鏈接抓取下一層的頁面,形成頁面集合(B)。就這樣遞歸地從淺層頁面中解析出鏈接,從而抓取深層頁面,直至滿足了某個設定的條件后才停止抓取進程,如圖所示。

深度優(yōu)先

與廣度優(yōu)先的抓取方式恰恰相反,深度優(yōu)先是一種縱向的頁面抓取方式,首先跟蹤的是淺層頁面中的某一個鏈接,從而逐步抓取深層次頁面,直至抓取完最深層次的頁面后才返回淺層頁面繼續(xù)向深層頁面抓取。使用深度優(yōu)先的抓取方式,搜索引擎可以抓取到網(wǎng)站中比較隱蔽、冷門的頁面,這樣才能滿足更多用戶的需求。

我們來看一下深度優(yōu)先的抓取流程。首先,搜索引擎會抓取網(wǎng)站的首頁,并提取首頁中的鏈接;再沿著其中的一個鏈接抓取到頁面,同時提取其中的鏈接;接著,沿著頁面1-1中的一個鏈接A-1抓取到頁面2-1,同時提取其中的鏈接;再沿著頁面2-1中的一個鏈接B-1繼續(xù)抓取更深一層的頁面。這樣遞歸地執(zhí)行,直至抓取到網(wǎng)站最深層的頁面或者滿足了某個設定的條件才轉回到首頁繼續(xù)抓取,如圖所示。

大站優(yōu)先

由于大型網(wǎng)站比小型網(wǎng)站更有可能提供更多更有價值的內(nèi)容,因此,如果搜索引擎優(yōu)先抓取大型網(wǎng)站中的網(wǎng)頁,那么就可以在更短的時間內(nèi)為用戶提供更有價值的信息。大站優(yōu)先,顧名思義就是對互聯(lián)網(wǎng)中大型網(wǎng)站的頁面進行優(yōu)先抓取,是搜索引擎中的一種信息抓取策略。

怎樣識別所謂的大型網(wǎng)站呢?一是前期人工整理大站種子資源,通過大站發(fā)現(xiàn)其他的大站;二是對已經(jīng)索引的網(wǎng)站進行系統(tǒng)的分析,從而識別那些內(nèi)容豐富、規(guī)模較大、信息更新頻繁的網(wǎng)站。

在完成大站識別后,搜索引擎就會對URL資源列表中大站的頁面進行優(yōu)先抓取。這也是為什么大型網(wǎng)站往往會比小站內(nèi)容抓取更及時的原因之一。 高

權重優(yōu)先

權重,簡單地說就是搜索引擎對網(wǎng)頁重要性的一種評定。所謂的重要性歸根到底就是網(wǎng)站或者網(wǎng)頁的信息價值。

高權重優(yōu)先是對URL資源列表中的高權重網(wǎng)頁進行優(yōu)先抓取的網(wǎng)頁抓取策略。網(wǎng)頁權重(如Google PageRank值)高低往往是由諸多因素決定的,例如,網(wǎng)頁的外部鏈接數(shù)量及質(zhì)量。如果下載一個URL就重新計算所有已下載URL資源的權重值,這樣的效率是極其低下的,顯然是不現(xiàn)實的。所以,搜索引擎會傾向于每下載若干URL資源后就對已下載的URL進行權重計算(即不完全的權重計算),以此來確定這些URL資源所對應頁面的權重值,從而對較高權重值的網(wǎng)頁進行優(yōu)先抓取。

由于權重計算是基于部分數(shù)據(jù)而得出的結果,可能會與真實權重有較大出入(即失真)。因此,這種高權重優(yōu)先的抓取策略也有可能會對次要頁面進行優(yōu)先抓取。

暗網(wǎng)抓取暗網(wǎng)(又稱作深網(wǎng)、不可見網(wǎng)、隱藏網(wǎng))是指那些存儲在網(wǎng)絡數(shù)據(jù)庫里、不能通過超鏈接訪問而需要通過動態(tài)網(wǎng)頁技術或者人工發(fā)起查詢訪問的資源集合,不屬于那些可以被標準搜索引擎索引的信息。

當前題目:圖文結合介紹搜索引擎抓取策略
標題路徑:http://aaarwkj.com/news23/71223.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站排名、定制網(wǎng)站商城網(wǎng)站、靜態(tài)網(wǎng)站、ChatGPT、小程序開發(fā)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

成都seo排名網(wǎng)站優(yōu)化
2020亚洲欧美日韩在线| 国产成人大片中文字幕在线 | 成人精品欧美欧美一级乱黄| 91制片国产在线观看| 97在线公开免费视频| 国产经典午夜福利在线| 人妻一区二区免费视频| 18以下的人禁止看的视频| 亚洲av天堂天天天堂色| 少妇内射呻吟中文字幕视频| 久久久精品国产亚洲av网黑人| 99热这里只有精品最新| 亚洲欧美午夜激情啪啪视频| 日本一区二区不卡视频在线播放| 伊人丁香六月日日操操| 色综合色很天天综合色| 日本一区二区 视频| 国产中文字幕婷婷丁香| 久久精品亚洲av三区麻豆| 久久久久精品国产亚洲av影院| 成人永久免费播放平台| 96热久久这里只有精品| 亚洲av日韩av高潮| 欧美黄片在线播放视频| 亚洲欧美午夜不卡视频| 中文字幕亚洲入口久久| 日韩一级黄色片在线播放| 国产成人+亚洲欧洲综合| 国产一区二区三区婷婷| av天堂资源地址在线观看| 国产成人免费高清av| 加藤桃香中文字幕在线| 精品国产一区二区三区卡| 99亚洲伊人久久精品影院| 色偷偷亚洲精品一区二区| 亚洲性感美女男人的天堂| 欧洲精品久久久久久| 日本伦理三级在线观看| 久久国产亚洲欧美一区| 日韩精品成人区中文字幕| 持续侵犯人妻中文字幕|