欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

CRF(ConditionalRandomField)-創(chuàng)新互聯(lián)

條件隨機場是近幾年自然語言處理領(lǐng)域常用的算法之一,常用于句法分析、命名實體識別、詞性標(biāo)注等。在我看來,CRF就像一個反向的隱馬爾可夫模型(HMM),兩者都是用了馬爾科夫鏈作為隱含變量的概率轉(zhuǎn)移模型,只不過HMM使用隱含變量生成可觀測狀態(tài),其生成概率有標(biāo)注集統(tǒng)計得到,是一個生成模型;而CRF反過來通過可觀測狀態(tài)判別隱含變量,其概率亦通過標(biāo)注集統(tǒng)計得來,是一個判別模型。由于兩者模型主干相同,其能夠應(yīng)用的領(lǐng)域往往是重疊的,但在命名實體、句法分析等領(lǐng)域CRF更勝一籌。當(dāng)然你并不必須學(xué)習(xí)HMM才能讀懂CRF,但通常來說如果做自然語言處理,這兩個模型應(yīng)該都有了解。 CRF(ConditionalR
andomField)

>>CRF詳細(xì)的介紹和公式推導(dǎo)推薦這個PPT教程:http://wenku.baidu.com/view/f32a35d2240c844769eaee55.html。

作為一家“創(chuàng)意+整合+營銷”的成都網(wǎng)站建設(shè)機構(gòu),我們在業(yè)內(nèi)良好的客戶口碑。創(chuàng)新互聯(lián)提供從前期的網(wǎng)站品牌分析策劃、網(wǎng)站設(shè)計、成都網(wǎng)站建設(shè)、做網(wǎng)站、創(chuàng)意表現(xiàn)、網(wǎng)頁制作、系統(tǒng)開發(fā)以及后續(xù)網(wǎng)站營銷運營等一系列服務(wù),幫助企業(yè)打造創(chuàng)新的互聯(lián)網(wǎng)品牌經(jīng)營模式與有效的網(wǎng)絡(luò)營銷方法,創(chuàng)造更大的價值。

>>另外推薦一篇HMM應(yīng)用于中文分詞的一篇易讀的入門教程,非常形象:http://blog.sina.com.cn/s/blog_68ffc7a40100uebv.html

 下文僅針對專門做自然語言處理的同學(xué)做一個快速形象的上手簡介,并指出最重要的特征。這里假設(shè)你已經(jīng)有基本的自然語言處理概念和馬爾科夫鏈的基本知識。CRF本質(zhì)上是隱含變量的馬爾科夫鏈+可觀測狀態(tài)到隱含變量的條件概率。說隱含變量和可觀測狀態(tài)很抽象,我們以詞性標(biāo)注為例(如果你不知道什么是詞性標(biāo)注,請百度一下),在詞性標(biāo)注中詞性標(biāo)簽就是隱含變量,具體的詞語就是可觀測狀態(tài),詞性標(biāo)注的目的是通過可觀測到的一個個單詞推斷出來每個單詞應(yīng)該被賦予的詞性標(biāo)簽。下文將用詞性標(biāo)簽和詞語代替上述兩個名詞。

 先說馬爾科夫鏈,這里體現(xiàn)了CRF的隨機場特征(準(zhǔn)確的說是馬爾科夫隨機場)。這里CRF和HMM都假設(shè)詞性標(biāo)簽是滿足馬爾科夫性的,即當(dāng)前詞性僅和上一個詞性有概率轉(zhuǎn)移關(guān)系而與其它位置的詞性無關(guān),比如形容詞后面跟形容詞的概率是0.5,跟修飾性“的”的概率為0.5,跟動詞的概率為0。因此,通過在一個標(biāo)注集上進(jìn)行統(tǒng)計,我們很容易得到一個概率轉(zhuǎn)移矩陣,即任意詞性A后緊鄰任意詞性B的概率都可以被統(tǒng)計出來。對HMM來說這部分就結(jié)束了,對CRF來說,可以在二維條件轉(zhuǎn)移矩陣基礎(chǔ)上再增加一維詞語特征,如“當(dāng)AB相鄰,A是動詞且B單詞長度超過3時,B是名詞的概率是xx"。大家可能注意到了馬爾科夫鏈的窗口為1,即它僅考慮上1個詞,這不見得是最合理的。這其實是一個對特征稀疏問題的折中,可以想象僅對兩個詞性AB統(tǒng)計P(B|A)能夠得到很多數(shù)據(jù)的反饋,而如果統(tǒng)計長度為6的窗口,如P(G | ABCDEF)就會遇到數(shù)據(jù)稀疏的問題,因為很可能序列ABCDEF根本就沒有在數(shù)據(jù)集中出現(xiàn)過.數(shù)據(jù)稀疏對機器學(xué)習(xí)的影響是巨大的,因此馬爾科夫鏈實際以損失一定全局信息的基礎(chǔ)上換來了更飽滿的數(shù)據(jù),實驗證明這筆交易在詞性標(biāo)注時是賺的。

 再說詞性與詞語直接的映射概率,這里體現(xiàn)了CRF的條件特征。如果是HMM,這里會直接統(tǒng)計詞性-->單詞的條件概率矩陣,比如 ”動詞“ 生成 ”發(fā)射“ 的概率可能為1.5%,而生成”微軟“ 的概率為0. 然后對于每一種可能的詞性序列結(jié)合與條件概率相乘就能得到每一個候選序列的生成概率,然而取概率高的作為標(biāo)注結(jié)果即可。而CRF正好反過來,CRF通過發(fā)掘詞語本身的特征(如長度,大小寫,匹配特定詞表等,也可以包括詞語本身),把每個詞語轉(zhuǎn)化成為一個一維特征向量(vector),然后對于每個特征計算特征到詞性的條件概率,這樣每個詞語對候選詞性的條件概率即為所有特征條件概率的加和。比如我們假設(shè)特征向量只有兩個,且P ( ”詞語長度>3" --> 名詞詞性)的概率為0.9, P("詞語位于句子末尾“ --> 名詞詞性)概率為0.4,且一個詞恰好滿足這兩個特征,則其為名詞的條件概率為 (0.9 + 0.4) / 2 = 0.65. 這樣,CRF根據(jù)這個條件轉(zhuǎn)移數(shù)值再結(jié)合詞性的馬爾科夫特性,就可以使用與HMM類似的方法尋找最優(yōu)的詞性標(biāo)注序列了。

 為了裝得更學(xué)術(shù)一點本想再貼一個公式搞了半天沒貼成功還是算了不過在上面的PPT鏈接中大家可以找到所以就不寫了??偟膩碚fCRF優(yōu)于HMM的地方在于,它可以引入更多的特征,包括詞語本身特征和詞語所在上下文的特征,而非單詞本身。從某種角度講,它結(jié)合了HMM和大熵方法。本人也剛剛接觸CRF,因此都是從最淺顯的角度來介紹的,如果有什么說錯的地方歡迎指正啊~ 寫這么多不容易,有大牛路過的話請輕拍哈~

網(wǎng)頁名稱:CRF(ConditionalRandomField)-創(chuàng)新互聯(lián)
網(wǎng)站路徑:http://aaarwkj.com/article46/icohg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站建設(shè)全網(wǎng)營銷推廣、網(wǎng)站建設(shè)、云服務(wù)器、搜索引擎優(yōu)化、Google

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設(shè)
精品国产女同一区二区| 国内精品人妻中文字幕| 久久99精品综合国产女同| 亚洲精品有码中文字幕| 日韩三级一区二区三区| 91九色精品视频在线观看| 日韩亚洲国产欧美在线观看| 国产视频一区二区三区网| 黄色录像黄色片黄色片| 亚洲无综合素人在线观看| 少妇人妻精品一区二区三| 国产精品亚洲精品日韩在线| 国产夫妻一区二区三区| 亚洲天堂av在线播放| 在线激情视频一区二区| 熟妇人妻精品一区二区| 亚洲永久精品天码野外| 欧美 成人一区二区三区| 亚洲欧美日韩有码一区| 在线看黄视频网站永久免费| 日韩精品极品在线视频观看免费| 国产精品中文字幕第一页| 91九色在线porny| 国产精品三级一区二区三区| 欧美高清一区二区三区不卡| 日韩精品高清视频在线观看| 亚洲成人久久久av一区| 香蕉视频欧美久久精品| 国产三级黄在线观看| 亚洲精品一区二区三区网站| 国内传媒视频免费观看| 免费又色又爽无遮挡网站| 国产午夜亚洲精品福利| 97视频观看免费观看| 欧美日韩亚洲一区二区搜索| 永久免费看黄在线观看| 日韩暴露一区二区三区| 国内精品老年人视频网站| 成年视频免费观看视频| 国产精品一区二区夜夜夜| 成人午夜在线免费观看|