在laravel中使用Symfony的Crawler組件分析HTML

Crawler是英語中爬行動(dòng)物的意思，讀做“哭了” 。。。-_-!

10年積累的成都網(wǎng)站建設(shè)、網(wǎng)站設(shè)計(jì)經(jīng)驗(yàn)，可以快速應(yīng)對(duì)客戶對(duì)網(wǎng)站的新想法和需求。提供各種問題對(duì)應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識(shí)你，你也不認(rèn)識(shí)我。但先做網(wǎng)站后付款的網(wǎng)站建設(shè)流程，更有鄒城免費(fèi)網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。

最近在用laravel寫一個(gè)抓取網(wǎng)頁(yè)系統(tǒng)，之前使用的是simple_html_dom來對(duì)html進(jìn)行解析，既然使用了laravel自然要用composer工具包來實(shí)現(xiàn)功能才顯得高大上。。。

題外話，simple_html_dom好像也可以用composer來安裝，不過因?yàn)榇a比較早不支持PSR編碼規(guī)范，尤其是autoload，也就是Vendor代碼結(jié)構(gòu)，github上有個(gè)支持PSR規(guī)范改進(jìn)版sunra/php-simple-html-dom-parser應(yīng)該不是原作者寫的。

Crawler全名是DomCrawler，是Symfony框架的組件。令人發(fā)指的是DomCrawler的沒有中文文檔，Symfony也沒有翻譯該部分，所以使用DomCrawler開發(fā)只能一點(diǎn)一點(diǎn)摸索，現(xiàn)將使用過程中的經(jīng)驗(yàn)總結(jié)。

首先是安裝

composer require symfony/dom-crawler
composer require symfony/css-selector

css-seelctor 是 css選擇器，用css選擇節(jié)點(diǎn)時(shí)一些函數(shù)會(huì)用到

手冊(cè)里面使用的例子是

use Symfony\Component\DomCrawler\Crawler;
$html = <<<'HTML'
<!DOCTYPE html>
<html>
        <body>        
        <p class="message">Hello World!</p>        
        <p>Hello Crawler!</p>    
        </body>
</html>
HTML;
$crawler = new Crawler($html);
foreach ($crawler as $domElement) 
{
    var_dump($domElement->nodeName);
}

打印的結(jié)果是

string 'html' (length=4)

因?yàn)檫@段html代碼的nodeName就是html，英語不好，開始使用的時(shí)候還以為程序錯(cuò)了。。。

實(shí)際使用過程，如果new Crawler($html)會(huì)出現(xiàn)亂碼問題，應(yīng)該是與頁(yè)面編碼有關(guān)，所以可以采用下面的方式，先初始化crawler，然后添加node

$crawler = new Crawler();
$crawler->addHtmlContent($html);

addHtmlContent的第二個(gè)參數(shù)是charset，默認(rèn)是utf-8。

其他例子可以參考官方文檔，http://symfony.com/doc/current/components/dom_crawler.html

記錄一下工作中一點(diǎn)點(diǎn)試出來的用法

filterXPath(string $xpath) 方法，按照手冊(cè)上的說法，該方法的參數(shù)是$xpath，經(jīng)常用的是p，div等塊。

echo $crawler->filterXPath('//body/p')->text();
echo $crawler->filterXPath('//body/p')->last()->text();

輸出是第一個(gè)和下一個(gè)p標(biāo)簽塊的文本

var_dump($crawler->filterXPath('//body')->html());

輸出body內(nèi)的html

foreach ($crawler->filterXPath('//body/p') as $i => $node) {
    $c = new Crawler($node);
    echo $c->filter('p')->text();
}

filterXPath獲得的是DOMElement塊的數(shù)組，每個(gè)DOMElement塊可以使用新的crawler對(duì)象繼續(xù)解析

$nodeValues = 
$crawler->filterXPath('//body/p')->each(function (Crawler $node, $i) {
     return $node->text();
});

crawler提供了each循環(huán)，使用閉包函數(shù)簡(jiǎn)化代碼，不過注意的是，這種寫法$nodeValues得到的是數(shù)組，需要進(jìn)一步處理。

其他用法

echo $crawler->filterXPath('//body/p')->attr('class');

可以獲得第一個(gè)p標(biāo)簽對(duì)應(yīng)class屬性的值“message”

$crawler->filterXPath('//div[@class="樣式"]')->filter('a')->attr('href');
$crawler->filterXPath('//div[@class="樣式"]')->filter('a>img')->extract(array('alt', 'href'))

以上是獲得標(biāo)簽屬性的一些方法

filter和filterXPath不同，手冊(cè)上寫的是css選擇器，不太明白，我理解是div這種XPath節(jié)點(diǎn)包含的元素，具體情況還需要在實(shí)際開發(fā)中去嘗試。

總的來說感覺DomCrawler要比simple html dom好用一些，可能是我用的比較淺顯。

上述只是Crawler的基本功能，更過用法請(qǐng)查閱symfony手冊(cè)關(guān)于Crawler部分的函數(shù)

http://api.symfony.com/3.2/Symfony/Component/DomCrawler/Crawler.html

Crawler主要問題還是示例太少，函數(shù)手冊(cè)里面沒有使用實(shí)例，只能在實(shí)際使用中去摸索。。。。

symfony關(guān)于DomCrawler的文檔，里面有少數(shù)例子

http://symfony.com/doc/current/components/dom_crawler.html

網(wǎng)頁(yè)標(biāo)題：在laravel中使用Symfony的Crawler組件分析HTML
轉(zhuǎn)載來于：http://aaarwkj.com/article2/gjdhoc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供全網(wǎng)營(yíng)銷推廣、服務(wù)器托管、網(wǎng)站收錄、軟件開發(fā)、外貿(mào)建站、品牌網(wǎng)站設(shè)計(jì)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

在laravel中使用Symfony的Crawler組件分析HTML