Crawler是英語中爬行動(dòng)物的意思,讀做“哭了” 。。。-_-!
10年積累的成都網(wǎng)站建設(shè)、網(wǎng)站設(shè)計(jì)經(jīng)驗(yàn),可以快速應(yīng)對(duì)客戶對(duì)網(wǎng)站的新想法和需求。提供各種問題對(duì)應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識(shí)你,你也不認(rèn)識(shí)我。但先做網(wǎng)站后付款的網(wǎng)站建設(shè)流程,更有鄒城免費(fèi)網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。
最近在用laravel寫一個(gè)抓取網(wǎng)頁(yè)系統(tǒng),之前使用的是simple_html_dom來對(duì)html進(jìn)行解析,既然使用了laravel自然要用composer工具包來實(shí)現(xiàn)功能才顯得高大上。。。
題外話,simple_html_dom好像也可以用composer來安裝,不過因?yàn)榇a比較早不支持PSR編碼規(guī)范,尤其是autoload,也就是Vendor代碼結(jié)構(gòu),github上有個(gè)支持PSR規(guī)范改進(jìn)版sunra/php-simple-html-dom-parser應(yīng)該不是原作者寫的。
Crawler全名是DomCrawler,是Symfony框架的組件。令人發(fā)指的是DomCrawler的沒有中文文檔,Symfony也沒有翻譯該部分,所以使用DomCrawler開發(fā)只能一點(diǎn)一點(diǎn)摸索,現(xiàn)將使用過程中的經(jīng)驗(yàn)總結(jié)。
首先是安裝
composer require symfony/dom-crawler composer require symfony/css-selector
css-seelctor 是 css選擇器,用css選擇節(jié)點(diǎn)時(shí)一些函數(shù)會(huì)用到
手冊(cè)里面使用的例子是
use Symfony\Component\DomCrawler\Crawler; $html = <<<'HTML' <!DOCTYPE html> <html> <body> <p class="message">Hello World!</p> <p>Hello Crawler!</p> </body> </html> HTML; $crawler = new Crawler($html); foreach ($crawler as $domElement) { var_dump($domElement->nodeName); }
打印的結(jié)果是
string 'html' (length=4)
因?yàn)檫@段html代碼的nodeName就是html,英語不好,開始使用的時(shí)候還以為程序錯(cuò)了。。。
實(shí)際使用過程,如果new Crawler($html)會(huì)出現(xiàn)亂碼問題,應(yīng)該是與頁(yè)面編碼有關(guān),所以可以采用下面的方式,先初始化crawler,然后添加node
$crawler = new Crawler(); $crawler->addHtmlContent($html);
addHtmlContent的第二個(gè)參數(shù)是charset,默認(rèn)是utf-8。
其他例子可以參考官方文檔,http://symfony.com/doc/current/components/dom_crawler.html
記錄一下工作中一點(diǎn)點(diǎn)試出來的用法
filterXPath(string $xpath) 方法,按照手冊(cè)上的說法,該方法的參數(shù)是$xpath,經(jīng)常用的是p,div等塊。
echo $crawler->filterXPath('//body/p')->text(); echo $crawler->filterXPath('//body/p')->last()->text();
輸出是第一個(gè)和下一個(gè)p標(biāo)簽塊的文本
var_dump($crawler->filterXPath('//body')->html());
輸出body內(nèi)的html
foreach ($crawler->filterXPath('//body/p') as $i => $node) { $c = new Crawler($node); echo $c->filter('p')->text(); }
filterXPath獲得的是DOMElement塊的數(shù)組,每個(gè)DOMElement塊可以使用新的crawler對(duì)象繼續(xù)解析
$nodeValues = $crawler->filterXPath('//body/p')->each(function (Crawler $node, $i) { return $node->text(); });
crawler提供了each循環(huán),使用閉包函數(shù)簡(jiǎn)化代碼,不過注意的是,這種寫法$nodeValues得到的是數(shù)組,需要進(jìn)一步處理。
其他用法
echo $crawler->filterXPath('//body/p')->attr('class');
可以獲得第一個(gè)p標(biāo)簽對(duì)應(yīng)class屬性的值“message”
$crawler->filterXPath('//div[@class="樣式"]')->filter('a')->attr('href'); $crawler->filterXPath('//div[@class="樣式"]')->filter('a>img')->extract(array('alt', 'href'))
以上是獲得標(biāo)簽屬性的一些方法
filter和filterXPath不同,手冊(cè)上寫的是css選擇器,不太明白,我理解是div這種XPath節(jié)點(diǎn)包含的元素,具體情況還需要在實(shí)際開發(fā)中去嘗試。
總的來說感覺DomCrawler要比simple html dom好用一些,可能是我用的比較淺顯。
上述只是Crawler的基本功能,更過用法請(qǐng)查閱symfony手冊(cè)關(guān)于Crawler部分的函數(shù)
http://api.symfony.com/3.2/Symfony/Component/DomCrawler/Crawler.html
Crawler主要問題還是示例太少,函數(shù)手冊(cè)里面沒有使用實(shí)例,只能在實(shí)際使用中去摸索。。。。
symfony關(guān)于DomCrawler的文檔,里面有少數(shù)例子
http://symfony.com/doc/current/components/dom_crawler.html
網(wǎng)頁(yè)標(biāo)題:在laravel中使用Symfony的Crawler組件分析HTML
轉(zhuǎn)載來于:http://aaarwkj.com/article2/gjdhoc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供全網(wǎng)營(yíng)銷推廣、服務(wù)器托管、網(wǎng)站收錄、軟件開發(fā)、外貿(mào)建站、品牌網(wǎng)站設(shè)計(jì)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)