欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

如何分析基于結(jié)構(gòu)化平均感知機(jī)的分詞器Java實(shí)現(xiàn)

本篇文章給大家分享的是有關(guān)如何分析基于結(jié)構(gòu)化平均感知機(jī)的分詞器Java實(shí)現(xiàn),小編覺得挺實(shí)用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。

創(chuàng)新互聯(lián)是一家專業(yè)提供涿鹿企業(yè)網(wǎng)站建設(shè),專注與成都做網(wǎng)站、網(wǎng)站建設(shè)、外貿(mào)營(yíng)銷網(wǎng)站建設(shè)H5技術(shù)、小程序制作等業(yè)務(wù)。10年已為涿鹿眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)的建站公司優(yōu)惠進(jìn)行中。

基于結(jié)構(gòu)化平均感知機(jī)的分詞器Java實(shí)現(xiàn)

最近高產(chǎn)似母豬,寫了個(gè)基于AP的中文分詞器,在Bakeoff-05的MSR語(yǔ)料上F值有96.11%。最重要的是,只訓(xùn)練了5個(gè)迭代;包含語(yǔ)料加載等IO操作在內(nèi),整個(gè)訓(xùn)練一共才花費(fèi)23秒。應(yīng)用裁剪算法去掉模型中80%的特征后,F(xiàn)值才下降不到0.1個(gè)百分點(diǎn),體積控制在11兆。如果訓(xùn)練一百個(gè)迭代,F(xiàn)值可達(dá)到96.31%,訓(xùn)練時(shí)間兩分多鐘。

數(shù)據(jù)在一臺(tái)普通的IBM兼容機(jī)上得到:

如何分析基于結(jié)構(gòu)化平均感知機(jī)的分詞器Java實(shí)現(xiàn)

本模塊已集成到HanLP 1.6以上版本開源,文檔位于項(xiàng)目wiki中,歡迎使用!【hanlp1.7新版本已經(jīng)發(fā)布,可以去新版本查到看使用】

結(jié)構(gòu)化預(yù)測(cè)

關(guān)于結(jié)構(gòu)化預(yù)測(cè)和非結(jié)構(gòu)化預(yù)測(cè)的區(qū)別一張講義說明如下:

如何分析基于結(jié)構(gòu)化平均感知機(jī)的分詞器Java實(shí)現(xiàn)

更多知識(shí)請(qǐng)參考Neubig的講義《The Structured Perceptron》。

本文實(shí)現(xiàn)的AP分詞器預(yù)測(cè)是整個(gè)句子的BMES標(biāo)注序列,當(dāng)然屬于結(jié)構(gòu)化預(yù)測(cè)問題了。

感知機(jī)

二分類

感知機(jī)的基礎(chǔ)形式如《統(tǒng)計(jì)學(xué)習(xí)方法》所述,是定義在一個(gè)超平面上的線性二分類模型。作為原著第二章,實(shí)在是簡(jiǎn)單得不能再簡(jiǎn)單了。然而實(shí)際運(yùn)用中,越簡(jiǎn)單的模型往往生命力越頑強(qiáng)。

這里唯一需要補(bǔ)充的是,感知機(jī)是個(gè)在線學(xué)習(xí)模型,學(xué)習(xí)一個(gè)訓(xùn)練實(shí)例后,就可以更新整個(gè)模型。

多分類

怎么把二分類拓展到多分類呢?可以用多個(gè)分類器,對(duì)于BMES這4種分類,就是4個(gè)感知機(jī)了。每個(gè)感知機(jī)分別負(fù)責(zé)分辨“是不是B”“是不是M”“是不是E”“是不是S”這4個(gè)二分類問題。在實(shí)現(xiàn)中,當(dāng)然不必傻乎乎地創(chuàng)建4個(gè)感知機(jī)啦。把它們的權(quán)值向量拼接在一起,就可以輸出“是B的分?jǐn)?shù)”“是M的分?jǐn)?shù)”“是E的分?jǐn)?shù)”“是S的分?jǐn)?shù)”了。取其最大者,就可以初步實(shí)現(xiàn)多分類。但在分詞中,還涉及到轉(zhuǎn)移特征和HMM-viterbi搜索算法等,留到下文再說。

平均感知機(jī)

平均感知機(jī)指的是記錄每個(gè)特征權(quán)值的累計(jì)值,最后平均得出最終模型的感知機(jī)。為什么要大費(fèi)周章搞個(gè)平均算法出來呢?

前面提到過,感知機(jī)是個(gè)在線學(xué)習(xí)模型,學(xué)習(xí)一個(gè)訓(xùn)練實(shí)例后,就可以更新整個(gè)模型。假設(shè)有10000個(gè)實(shí)例,模型在前9999個(gè)實(shí)例的學(xué)習(xí)中都完美地得到正確答案,說明此時(shí)的模型接近完美了。可是最后一個(gè)實(shí)例是個(gè)噪音點(diǎn),樸素感知機(jī)模型預(yù)測(cè)錯(cuò)誤后直接修改了模型,導(dǎo)致前面9999個(gè)實(shí)例預(yù)測(cè)錯(cuò)誤,模型訓(xùn)練前功盡棄。

有什么解決方案呢?一種方案是投票式的,即記錄每個(gè)模型分類正確的次數(shù),作為它的得票。訓(xùn)練結(jié)束時(shí)取得票最高的模型作為最終模型。但這種算法是不實(shí)際的,如果訓(xùn)練5個(gè)迭代,10000個(gè)實(shí)例,那么就需要儲(chǔ)存50000個(gè)模型及其票數(shù),太浪費(fèi)了。

最好用的方法是平均感知機(jī),將這50000個(gè)模型的權(quán)值向量累加起來,最后除以50000就行了,這樣任何時(shí)候我們只額外記錄了一個(gè)累加值,非常高效了。關(guān)于平均感知機(jī)的詳情請(qǐng)參考《200行Python代碼實(shí)現(xiàn)感知機(jī)詞性標(biāo)注器》。雖然那篇文章是講解詞性標(biāo)注的,但相信作為萬(wàn)物靈長(zhǎng)的讀者一定擁有舉一反三的泛化能力。

語(yǔ)言模型

HMM

我們不是在講解感知機(jī)分詞嗎?怎么跟HMM扯上關(guān)系了?

其實(shí)任何基于序列標(biāo)注的分詞器都離不開隱馬爾科夫鏈,即BMES這四個(gè)標(biāo)簽之間的Bigram(乃至更高階的n-gram)轉(zhuǎn)移概率。作為其中一員的AP分詞器,也不例外地將前一個(gè)字符的標(biāo)簽作為了一個(gè)特征。該特征對(duì)預(yù)測(cè)當(dāng)前的標(biāo)簽毫無(wú)疑問是有用的,比如前一個(gè)標(biāo)簽是B,當(dāng)前標(biāo)簽就絕不可能是S。

這種類似于y[i-1]的特征在線性圖模型中一般稱為轉(zhuǎn)移特征,而那些不涉及y[i-1]的特征通常稱為狀態(tài)特征。

viterbi

由于AP分詞器用到了轉(zhuǎn)移特征,所以肯定少不了維特比搜索。從序列全體的準(zhǔn)確率考慮,搜索也是必不可少的。給定隱馬爾可夫模型的3要素,我用Java寫了一段“可運(yùn)行的偽碼”:

如何分析基于結(jié)構(gòu)化平均感知機(jī)的分詞器Java實(shí)現(xiàn)

如何分析基于結(jié)構(gòu)化平均感知機(jī)的分詞器Java實(shí)現(xiàn)

上述實(shí)現(xiàn)是個(gè)重視條理勝于效率的原型,古人云“過早優(yōu)化是魔鬼”。相信聰明的讀者一定能看懂這里面在干什么。

特征提取

定義字符序列為x,標(biāo)注序列為y。

轉(zhuǎn)移特征

轉(zhuǎn)移特征就是上面說的y[i-1]。

狀態(tài)特征

我一共使用了7種狀態(tài)特征:

如何分析基于結(jié)構(gòu)化平均感知機(jī)的分詞器Java實(shí)現(xiàn)

在鄧知龍的《基于感知器算法的高效中文分詞與詞性標(biāo)注系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)》中提到,要利用更復(fù)雜的字符n-gram、字符類別n-gram、疊字、詞典等特征。但在我的實(shí)踐中,除了上述7種特征外,我每減少一個(gè)特征,我的AP分詞器的準(zhǔn)確率就提高一點(diǎn),也許是語(yǔ)料不同吧,也許是特征提取的實(shí)現(xiàn)不同??傊?,主打精簡(jiǎn)、高效。

訓(xùn)練

迭代數(shù)目其實(shí)不需要太多,在3個(gè)迭代內(nèi)模型基本就收斂了:

如何分析基于結(jié)構(gòu)化平均感知機(jī)的分詞器Java實(shí)現(xiàn)

第4個(gè)迭代似乎幫了倒忙,但萬(wàn)幸的是,我們使用的是平均感知機(jī)。權(quán)值平均之后,模型的性能反而有所提升。

此時(shí)模型大?。?/p>

如何分析基于結(jié)構(gòu)化平均感知機(jī)的分詞器Java實(shí)現(xiàn)

模型裁剪

《基于感知器算法的高效中文分詞與詞性標(biāo)注系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)》提到的模型裁剪策略是有效的,我將壓縮率設(shè)為0.2,即壓縮掉20%的特征,模型準(zhǔn)確率沒有變化:

 如何分析基于結(jié)構(gòu)化平均感知機(jī)的分詞器Java實(shí)現(xiàn)

由于我使用了隨機(jī)shuffle算法,所以每次訓(xùn)練準(zhǔn)確率都略有微小的上下波動(dòng)。此時(shí)可以看到模型裁剪過程花了額外的1分鐘,裁剪完畢后準(zhǔn)確率維持96.11不變。

此時(shí)模型大?。?/p>

如何分析基于結(jié)構(gòu)化平均感知機(jī)的分詞器Java實(shí)現(xiàn)

裁減掉50%如何呢?

如何分析基于結(jié)構(gòu)化平均感知機(jī)的分詞器Java實(shí)現(xiàn)

此時(shí)模型大?。?/p>

如何分析基于結(jié)構(gòu)化平均感知機(jī)的分詞器Java實(shí)現(xiàn)

可見裁剪了80%的特征,體積從54M下降到11M,模型的準(zhǔn)確率才跌了不到0.1個(gè)百分點(diǎn)!這說明大部分特征都是沒用的,特征裁剪非常有用、非常好用!

以上就是如何分析基于結(jié)構(gòu)化平均感知機(jī)的分詞器Java實(shí)現(xiàn),小編相信有部分知識(shí)點(diǎn)可能是我們?nèi)粘9ぷ鲿?huì)見到或用到的。希望你能通過這篇文章學(xué)到更多知識(shí)。更多詳情敬請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。

網(wǎng)頁(yè)名稱:如何分析基于結(jié)構(gòu)化平均感知機(jī)的分詞器Java實(shí)現(xiàn)
網(wǎng)站網(wǎng)址:http://aaarwkj.com/article2/peijic.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站營(yíng)銷、企業(yè)網(wǎng)站制作、動(dòng)態(tài)網(wǎng)站網(wǎng)站建設(shè)、外貿(mào)建站、面包屑導(dǎo)航

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

h5響應(yīng)式網(wǎng)站建設(shè)
欧美成人一区二区三区片| 亚洲成人精品夫妻av| 亚洲男人的天堂久久精品| 日本精品女优一区二区三区四区| 亚洲精品一区二区99| 国产精品国产成人生活片| 宫部凉花中文字幕在线| 亚洲一区二区三区观看视频| 日本欧美激情在线观看| 欧美黄色一级在线免费观看 | 精品国产91久久粉嫩| 国产日韩欧美一区综合| 日韩夫妻性生活免费视频| 亚洲午夜一区二区三区精品| 精品欧美熟妇高潮喷水特黄| 91久久精品国产免费一区| 国产精品天干天综合网| 亚洲各类熟女们中文字幕| 黑丝美女被内射视频免费观看| 日本性电影一区二区| 91福利社区欧美大片| 成人午夜福利视频大全| 青青草原这里只有精品| 手机在线观看午夜小视频| av色狠狠一区二区三区| 免费观看黄片视频在线观看| 亚洲第一精品国产日韩| 日本不卡不码高清免费| 久久亚洲av电影网站| 中文字幕日韩精品国产| 国产午夜18久久久| 国产高清自拍视频在线一区| 国产精品六区久久综合亚洲av| 久久久久久97精品| 欧美一区二区大香蕉视频| 国产激情小网站免费看| 国产精品国产精品国产| 日韩成人精品一区欧美成人| 国产亚洲精品一区二区三在线观看 | 人妻中文字幕在线一二区| 亚洲中文有码在线播放|