基于curl數(shù)據(jù)采集之正則處理函數(shù)get_matches怎么用-創(chuàng)新互聯(lián)

這篇文章將為大家詳細(xì)講解有關(guān)基于curl數(shù)據(jù)采集之正則處理函數(shù)get_matches怎么用，小編覺(jué)得挺實(shí)用的，因此分享給大家做個(gè)參考，希望大家閱讀完這篇文章后可以有所收獲。

成都創(chuàng)新互聯(lián)公司專(zhuān)注于企業(yè)成都全網(wǎng)營(yíng)銷(xiāo)、網(wǎng)站重做改版、水富網(wǎng)站定制設(shè)計(jì)、自適應(yīng)品牌網(wǎng)站建設(shè)、H5頁(yè)面制作、商城網(wǎng)站建設(shè)、集團(tuán)公司官網(wǎng)建設(shè)、成都外貿(mào)網(wǎng)站建設(shè)公司、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁(yè)設(shè)計(jì)等建站業(yè)務(wù)，價(jià)格優(yōu)惠性價(jià)比高，為水富等各大城市提供網(wǎng)站開(kāi)發(fā)制作服務(wù)。

之前已經(jīng)可以得到了我們需要的html文件，現(xiàn)在需要處理得到的文件獲取到我們需要的采集的數(shù)據(jù)。

對(duì)于html文檔的解析，沒(méi)有像XML那樣的解析類(lèi)，因?yàn)镠TML文檔有很多不成對(duì)的標(biāo)簽，很不嚴(yán)格。這個(gè)時(shí)候就需要采用其他的一些輔助類(lèi)了，simplehtmldom是一個(gè)類(lèi)似于JQuery方式操作HTML文檔的解析類(lèi)。可以很方便的得到想要的數(shù)據(jù)，可惜速度慢。這里不是我們這里討論的重點(diǎn)，我主要使用正則來(lái)匹配我所需要的采集的數(shù)據(jù)，可以很快速的得到我需要采集的信息。

考慮到get_html可以判斷返回的數(shù)據(jù),但是get_htmls沒(méi)有辦法判斷，為了方便調(diào)式和調(diào)用寫(xiě)了如下兩個(gè)函數(shù)：

復(fù)制代碼代碼如下:

可以這樣調(diào)用：

復(fù)制代碼代碼如下:

$url = 'http://www.baidu.com';
$html = get_html($url);
$matches = get_matches('!<a[^<]+</a>!',$html,'沒(méi)有找到鏈接',true);
if($matches){
var_dump($matches);
}

或者這樣調(diào)用：

復(fù)制代碼代碼如下:

$urls = array('http://www.baidu.com','http://www.hao123.com');
$htmls = get_htmls($urls);
foreach($htmls as $html){
     $matches = get_matches('!<a[^<]+</a>!',$html,'沒(méi)有找到鏈接',true);
     if($matches){
         var_dump($matches);
     }
}

就可以得到所需的信息，無(wú)論單頁(yè)面采集還是多頁(yè)面采集，最終PHP還是只能處理一個(gè)頁(yè)面，由于使用get_matches了，可以對(duì)返回的值進(jìn)行判斷真假，得到正確的數(shù)據(jù)，由于使用正則的時(shí)候遇到了超過(guò)正則回溯的問(wèn)題，增加get_preg_err_msg來(lái)提示正則信息。

由于采集數(shù)據(jù)的時(shí)候，經(jīng)常是采集列表頁(yè)，根據(jù)列表頁(yè)得到的內(nèi)容頁(yè)鏈接再采集內(nèi)容頁(yè)，或者更多的層次，那么循環(huán)嵌套會(huì)很多，對(duì)于代碼的控制會(huì)感覺(jué)力不從心。那我們是否可以把采集列表頁(yè)的代碼和采集內(nèi)容頁(yè)的代碼，或者更多的層次的采集代碼分離開(kāi)，甚至循環(huán)都簡(jiǎn)化呢？

關(guān)于“基于curl數(shù)據(jù)采集之正則處理函數(shù)get_matches怎么用”這篇文章就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，使各位可以學(xué)到更多知識(shí)，如果覺(jué)得文章不錯(cuò)，請(qǐng)把它分享出去讓更多的人看到。

文章名稱(chēng)：基于curl數(shù)據(jù)采集之正則處理函數(shù)get_matches怎么用-創(chuàng)新互聯(lián)
新聞來(lái)源：http://aaarwkj.com/article20/ccdgjo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供域名注冊(cè)、網(wǎng)站改版、全網(wǎng)營(yíng)銷(xiāo)推廣、網(wǎng)站設(shè)計(jì)公司、電子商務(wù)、企業(yè)網(wǎng)站制作

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

基于curl數(shù)據(jù)采集之正則處理函數(shù)get_matches怎么用-創(chuàng)新互聯(lián)