2023-04-11 分類: 網(wǎng)站建設
1、圖像采集
在章魚中,采取以下步驟收集圖片
1)先鏈接網(wǎng)址圖片收藏
2)通過八達通提供的圖片批量下載工具將網(wǎng)址轉換成圖片
章魚圖片批量下載工具
2、常見應用場景
1)非瀑布流網(wǎng)站純圖片采集
樣本采集:豆瓣網(wǎng)圖片采集課程
2)瀑布流網(wǎng)站純圖片集
這些瀑布流網(wǎng)站的獲取規(guī)則需要按照以下步驟設置:
(1)點擊采集規(guī)則,打開網(wǎng)頁步驟高級選項;
(2)頁面加載后向下滾動;
(3)填寫每卷的卷數(shù)和間隔;
(4)滾動方式設置如下:直接滾動到底部;
完成上述規(guī)則后,將收集頁面上圖片的URL。
收藏實例:百度圖片收藏課程
注意:根據(jù)網(wǎng)頁的加載情況設置滾動條數(shù)和滾動間隔。如果向下滾動,頁面信息將緩慢加載。建議將滾動間隔設置得更大。滾動的數(shù)量應該取決于我們滾動多少次來加載我們需要的所有數(shù)據(jù)。建議多準備一兩次。滾動方式是查看當頁面滾動時,是否可以順利加載所有數(shù)據(jù),或者是否必須一次滾動一個屏幕。一般來說,一次滾動一個屏幕更好,但更耗時。滾動屏幕取決于屏幕的大小,而云捕獲默認為全屏。
3)文章圖文集
有兩種方法可以收集文章中的文本和圖片。
方法1:設置判斷條件,分別收集文字和圖片。
采集實例:騰訊新聞圖片文本采集
方法二:先收集全文,再收集圖片。
樣本采集:UC頭圖像采集
3、課程目的
收集圖片URL的這一步驟在上面的圖片收集教程中有詳細描述,不會重復。本文將重點介紹圖像采集的技術和注意事項。
4、圖片URL采集流程
下面是一個具體操作步驟的演示,以百度圖像的URL采集為例來捕獲圖像的URL。不同的網(wǎng)站圖片URL會遇到不同的情況,請靈活。
選擇圖片全選收集以下圖片地址
(2)開始收集并查看結果。收集圖片URL。
具體流程步驟參考:瀑布流圖像采集,以百度圖像為例,步驟1-4。
5、圖片批量導出操作步驟
經(jīng)過上述操作,我們得到了要采集的圖像的URL。接下來,我們通過章魚的圖像批量下載工具將圖像下載并保存到本地計算機的圖像URL中。
1)下載八達通圖片批量下載工具,雙擊文件中的mydownloader.app.exe,打開軟件。
2)打開文件菜單,選擇從Excel導入(目前僅支持Excel格式文件)
3)設置
選擇Excel文件:導入需要下載圖像地址的Excel文件
Excel表名:對應數(shù)據(jù)表的名稱
文件URL列名:表中對應URL的列名
保存文件夾名稱:Excel需要一個單獨的列,列出圖像要保存到該文件夾的路徑。在上面的例子中,我們在excel中添加了一個名為“picturesavefolder”的列,列中的數(shù)據(jù)是“d:baidupicturecollection”,然后“d:baidupicturecollection”就成為圖片保存的路徑(其他磁盤可以自定義存儲,文件夾名可以自定義修改;“d:\”需要輸入英文狀態(tài))。
網(wǎng)站標題:關于八爪魚的偽原創(chuàng)采集器的正確使用方法
網(wǎng)址分享:http://aaarwkj.com/news25/253175.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供微信公眾號、網(wǎng)站內鏈、響應式網(wǎng)站、商城網(wǎng)站、Google、動態(tài)網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內容