如何利用 CNNs 建立計(jì)算機(jī)視覺(jué)模型?什么是現(xiàn)有的數(shù)據(jù)集?訓(xùn)練模型的方法有哪些?本文在嘗試?yán)斫庥?jì)算機(jī)視覺(jué)的最重要的概念的過(guò)程中,為現(xiàn)有的一些基本問(wèn)題,提供了答案。
創(chuàng)新互聯(lián)公司是一家專(zhuān)業(yè)提供科爾沁右翼中企業(yè)網(wǎng)站建設(shè),專(zhuān)注與成都網(wǎng)站設(shè)計(jì)、成都網(wǎng)站制作、H5開(kāi)發(fā)、小程序制作等業(yè)務(wù)。10年已為科爾沁右翼中眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專(zhuān)業(yè)網(wǎng)站設(shè)計(jì)公司優(yōu)惠進(jìn)行中。
在機(jī)器學(xué)習(xí)中最熱門(mén)的領(lǐng)域之一是計(jì)算機(jī)視覺(jué),它具有廣泛的應(yīng)用前景和巨大的潛力。它的發(fā)展目的是:復(fù)制人類(lèi)視覺(jué)的強(qiáng)大能力。但是如何通過(guò)算法來(lái)實(shí)現(xiàn)呢?
讓我們來(lái)看看構(gòu)建計(jì)算機(jī)視覺(jué)模型中,最重要的數(shù)據(jù)集以及方法。
計(jì)算機(jī)視覺(jué)算法并不神奇。 他們需要數(shù)據(jù)才能工作,并且它們只會(huì)與你輸入的數(shù)據(jù)的情況一樣。這些是收集正確數(shù)據(jù)的不同來(lái)源,具體還是要取決于任務(wù):
ImageNet是最龐大且最著名的數(shù)據(jù)集之一,它是一個(gè)現(xiàn)成的數(shù)據(jù)集,包含1400萬(wàn)幅圖像,使用WordNet概念手工注釋。在整個(gè)數(shù)據(jù)集中,100萬(wàn)幅圖像包含邊界框注釋。
帶有對(duì)象屬性注釋的ImageNet圖像。圖片來(lái)源
另一個(gè)著名的例子是Microsoft COCO(Common Objects in Contex,常見(jiàn)物體圖像識(shí)別)的 DataSet,它包含了32.8萬(wàn)張圖片,其中包括91種對(duì)象類(lèi)型,這些對(duì)象類(lèi)型很容易被識(shí)別,總共有250萬(wàn)個(gè)標(biāo)記實(shí)例。
來(lái)自COCO數(shù)據(jù)集的帶注釋圖像的示例
雖然沒(méi)有太多可用的數(shù)據(jù)集,但有幾個(gè)適合不同的任務(wù),
研究人員運(yùn)用了包含超過(guò)20萬(wàn)名人頭像的CelebFaces Attributes數(shù)據(jù)集和超過(guò)300萬(wàn)圖像的"臥室"室內(nèi)場(chǎng)景識(shí)別數(shù)據(jù)集(15,620幅室內(nèi)場(chǎng)景圖像);和植物圖像分析數(shù)據(jù)集(來(lái)自11個(gè)不同物種的100萬(wàn)幅植物圖像)。
照片數(shù)據(jù)集,通過(guò)這些大量的數(shù)據(jù),不斷訓(xùn)練模型,使其結(jié)果不斷優(yōu)化。
深度學(xué)習(xí)方法和技術(shù)已經(jīng)深刻地改變了計(jì)算機(jī)視覺(jué)以及人工智能的其他領(lǐng)域,以至于在許多任務(wù)中,它的使用被認(rèn)為是標(biāo)準(zhǔn)的。特別是,卷積神經(jīng)網(wǎng)絡(luò)(CNN)已經(jīng)超越了使用傳統(tǒng)計(jì)算機(jī)視覺(jué)技術(shù)的最先進(jìn)的技術(shù)成果。
這四個(gè)步驟概述了使用CNN建立計(jì)算機(jī)視覺(jué)模型的一般方法:
解決對(duì)象檢測(cè)挑戰(zhàn)的方法有很多種。 在Paul Viola 和 Michael Jones 的論文《健壯實(shí)時(shí)對(duì)象檢測(cè)》(Robust Real-time Object Detection)中提出了普遍的方法。
論文傳送門(mén): 「鏈接」
雖然該方法可以訓(xùn)練用來(lái)檢測(cè)不同范圍的對(duì)象類(lèi),但其最初的目的是面部檢測(cè)。它是如此的快速和直接,并且它是在傻瓜相機(jī)中實(shí)現(xiàn)的算法,這也使得實(shí)時(shí)人臉檢測(cè)幾乎沒(méi)有處理能力。
該方法的核心特性是使用一組基于Haar特性的二進(jìn)制分類(lèi)器進(jìn)行訓(xùn)練的。這些特征表示邊和線(xiàn),在掃描圖像時(shí)非常容易計(jì)算。
Haar features
雖然非?;荆谔囟ǖ娜四樓闆r下,這些特征允許捕獲重要的元素,如鼻子、嘴巴或眉毛之間的距離。它是一種監(jiān)督方法,需要識(shí)別對(duì)象類(lèi)型的許多正例和反例。
基于CNN的方法
深度學(xué)習(xí)已經(jīng)成為機(jī)器學(xué)習(xí)中一個(gè)真正的游戲規(guī)則改變者,特別是在計(jì)算機(jī)視覺(jué)領(lǐng)域中,基于深度學(xué)習(xí)的方法是許多常見(jiàn)任務(wù)的前沿。
在提出的各種實(shí)現(xiàn)目標(biāo)檢測(cè)的深度學(xué)習(xí)方法中,R-CNN(具有CNN特征的區(qū)域)特別容易理解。本文作者提出了三個(gè)階段的過(guò)程:
R-CNN Architecture. 圖片來(lái)源
雖然R-CNN算法對(duì)于具體采用的區(qū)域建議方法是不可知的,但是在原著中選擇的區(qū)域建議的方法是選擇性搜索。步驟3非常重要,因?yàn)樗鼫p少了候選對(duì)象的數(shù)量,從而降低了方法的計(jì)算開(kāi)銷(xiāo)。
這里提取的特征不如前面提到的Haar特征直觀(guān)。綜上所述,我們使用CNN從每個(gè)區(qū)域提案中提取4096維特征向量??紤]到CNN的性質(zhì),輸入必須始終具有相同的維度。這通常是CNN的弱點(diǎn)之一,不同的方法以不同的方式解決這個(gè)問(wèn)題。對(duì)于R-CNN方法,經(jīng)過(guò)訓(xùn)練的CNN架構(gòu)需要輸入227×227像素去固定區(qū)域。由于提議的區(qū)域大小與此不同,作者的方法只是扭曲圖像,使其符合所需的尺寸。
與CNN所需的輸入維度匹配的扭曲圖像的示例
雖然取得了很好的效果,但是訓(xùn)練遇到了一些障礙,最終這種方法被其他人超越了。其中一些在文章中進(jìn)行了深入的回顧——《深度學(xué)習(xí)的對(duì)象檢測(cè):權(quán)威指南》。
https://www.toutiao.com/a6693688027820065292/
名稱(chēng)欄目:干貨|如何利用CNN建立計(jì)算機(jī)視覺(jué)模型?
文章路徑:http://aaarwkj.com/article40/gpjjho.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站排名、手機(jī)網(wǎng)站建設(shè)、定制網(wǎng)站、做網(wǎng)站、網(wǎng)頁(yè)設(shè)計(jì)公司、商城網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)