欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

如何進(jìn)行HanLP中人名識(shí)別分析

如何進(jìn)行HanLP中人名識(shí)別分析,針對(duì)這個(gè)問(wèn)題,這篇文章詳細(xì)介紹了相對(duì)應(yīng)的分析和解答,希望可以幫助更多想解決這個(gè)問(wèn)題的小伙伴找到更簡(jiǎn)單易行的方法。

目前成都創(chuàng)新互聯(lián)已為近1000家的企業(yè)提供了網(wǎng)站建設(shè)、域名、網(wǎng)站空間、網(wǎng)站托管、服務(wù)器租用、企業(yè)網(wǎng)站設(shè)計(jì)、瀏陽(yáng)網(wǎng)站維護(hù)等服務(wù),公司將堅(jiān)持客戶導(dǎo)向、應(yīng)用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長(zhǎng),共同發(fā)展。

分詞

在 HMM與分詞、詞性標(biāo)注、命名實(shí)體識(shí)別 中說(shuō):

分詞:給定一個(gè)字的序列,找出最可能的標(biāo)簽序列(斷句符號(hào):[詞尾]或[非詞尾]構(gòu)成的序列)。結(jié)巴分詞目前就是利用BMES標(biāo)簽來(lái)分詞的,B(開(kāi)頭),M(中間),E(結(jié)尾),S(獨(dú)立成詞)

分詞也是采用了維特比算法的動(dòng)態(tài)規(guī)劃性質(zhì)求解的,具體可參考: 文本挖掘的分詞原理

角色觀察

以“唱首張學(xué)友的歌情已逝”為例,

先將起始頂點(diǎn) 始##始,角色標(biāo)注為:NR.A 和 NR.K,頻次默認(rèn)為1

iterator.next();
tagList.add(new EnumItem<NR>(NR.A, NR.K)); //  始##始 A K

如何進(jìn)行HanLP中人名識(shí)別分析

對(duì)于第一個(gè)詞“唱首”,它不存在于 nr.txt中,EnumItem<NR> nrEnumItem = PersonDictionary.dictionary.get(vertex.realWord);返回null,于是根據(jù)它本身的詞性猜一個(gè)角色標(biāo)注:

switch (vertex.guessNature()){        case nr:        case nnt:    default:{
        nrEnumItem = new EnumItem<NR>(NR.A, PersonDictionary.transformMatrixDictionary.getTotalFrequency(NR.A));
    }
}

如何進(jìn)行HanLP中人名識(shí)別分析

由于"唱首"的Attribute為 nz 16,不是nr 和 nnt,故默認(rèn)給它指定一個(gè)角色NR.A,頻率為nr.tr.txt中 NR.A 角色的總頻率。

此時(shí),角色列表如下:

如何進(jìn)行HanLP中人名識(shí)別分析

接下來(lái)是頂點(diǎn)“張”,由于“張”在nr.txt中,因此PersonDictionary.dictionary.get(vertex.realWord)返回EnumItem對(duì)象,直接將它加入到角色列表中:

如何進(jìn)行HanLP中人名識(shí)別分析

EnumItem<NR> nrEnumItem = PersonDictionary.dictionary.get(vertex.realWord);
tagList.add(nrEnumItem);

加入“張”之后的角色列表如下:
如何進(jìn)行HanLP中人名識(shí)別分析

“唱首張學(xué)友的歌情已逝” 整句的角色列表如下:
如何進(jìn)行HanLP中人名識(shí)別分析

至此,角色觀察 部分 就完成了。

總結(jié)一下,對(duì)句子進(jìn)行角色觀察,首先是通過(guò)分詞算法將句子分成若干個(gè)詞,然后對(duì)每個(gè)詞查詢?nèi)嗣~典(PersonDictionary)。

  • 若這個(gè)詞在人名詞典中(nr.txt),則記錄該詞的角色,所有的角色在com.hankcs.hanlp.corpus.tag.NR.java中定義。

  • 若這個(gè)詞不在人名詞典中,則根據(jù)該詞的Attribute “猜一個(gè)角色”。在猜的過(guò)程中,有些詞在核心詞典中可能已經(jīng)標(biāo)注為nr或者nnt了,這時(shí)會(huì)做分裂處理。其他情況下則是將這個(gè)詞標(biāo)上NR.A角色,頻率為 NR.A 在轉(zhuǎn)移矩陣中的總詞頻。

維特比算法(動(dòng)態(tài)規(guī)劃)求解最優(yōu)路徑

在上圖中,給每個(gè)詞都打上了角色標(biāo)記,可以看出,一個(gè)詞可以有多個(gè)標(biāo)記。而我們需要將這些詞選擇一條路徑最短的角色路徑。參考 隱馬爾可夫模型維特比算法詳解

List<NR> nrList = viterbiComputeSimply(roleTagList);//some code....return Viterbi.computeEnumSimply(roleTagList, PersonDictionary.transformMatrixDictionary);

而這個(gè)過(guò)程,其實(shí)就是:維特比算法解碼隱藏狀態(tài)序列。在這里,五元組是:

  • 隱藏狀態(tài)集合 com.hankcs.hanlp.corpus.tag.NR.java 定義的各個(gè)人名標(biāo)簽

  • 觀察狀態(tài)集合 已經(jīng)分好詞的各個(gè)tagList中元素(相當(dāng)于分詞結(jié)果)

如何進(jìn)行HanLP中人名識(shí)別分析

  • 轉(zhuǎn)移概率矩陣 由 nr.tr.txt 文件生成得到。具體可參考:

  • 發(fā)射概率 某個(gè)人名標(biāo)簽(隱藏狀態(tài))出現(xiàn)的次數(shù) 除以 所有標(biāo)簽出現(xiàn)的總次數(shù)

    Math.log((item.getFrequency(cur) + 1e-8) / transformMatrixDictionary.getTotalFrequency(cur)

  • 初始狀態(tài)(始##始) 和 結(jié)束狀態(tài)(末##末)

如何進(jìn)行HanLP中人名識(shí)別分析

維特比解碼隱藏狀態(tài)的動(dòng)態(tài)規(guī)劃求解核心代碼如下:

            for (E cur : item.labelMap.keySet())
            {                double now = transformMatrixDictionary.transititon_probability[pre.ordinal()][cur.ordinal()] - Math.log((item.getFrequency(cur) + 1e-8) / transformMatrixDictionary.getTotalFrequency(cur));                if (perfect_cost > now)
                {
                    perfect_cost = now;
                    perfect_tag = cur;
                }
            }

transformMatrixDictionary.transititon_probability[pre.ordinal()][cur.ordinal()] 是前一個(gè)隱藏狀態(tài) pre.ordinal()轉(zhuǎn)換到當(dāng)前隱藏狀態(tài)cur.ordinal()的轉(zhuǎn)移概率。Math.log((item.getFrequency(cur) + 1e-8) / transformMatrixDictionary.getTotalFrequency(cur)是當(dāng)前隱藏狀態(tài)的發(fā)射概率。二者“相減”得到一個(gè)概率 保存在double now變量中,然后通過(guò) for 循環(huán)找出 當(dāng)前觀察狀態(tài) 對(duì)應(yīng)的 最可能的(perfect_cost最小) 隱藏狀態(tài) perfect_tag。

至于為什么是上面那個(gè)公式來(lái)計(jì)算轉(zhuǎn)移概率和發(fā)射概率,可參考論文:《 基于角色標(biāo)注的中國(guó)人名自動(dòng)識(shí)別研究 》

在上面例子中,得到的最優(yōu)隱藏狀態(tài)序列(最優(yōu)路徑)K->A->K->Z->L->E->A->A 如下:

nrList = {LinkedList@1065} size = 8
"K" 始##始
"A" 唱首
"K" 張
"Z" 學(xué)友
"L" 的
"E" 歌
"A" 情已逝
"A" 末##末
例如:
隱藏狀態(tài)---觀察狀態(tài)
"K"----------始##始

最大匹配

有了最優(yōu)隱藏序列:KAKZLEAA,接下來(lái)就是:后續(xù)的“最大匹配處理”了。

        PersonDictionary.parsePattern(nrList, pWordSegResult, wordNetOptimum, wordNetAll);

在最大匹配之前,會(huì)進(jìn)行“模式拆分”。在com.hankcs.hanlp.corpus.tag.NR.java 定義了隱藏狀態(tài)的具體含義。比如說(shuō),若最優(yōu)隱藏序列中 存在 'U' 或者 'V',

U Ppf 人名的上文和姓成詞 這里【有關(guān)】天培的壯烈

V Pnw 三字人名的末字和下文成詞 龔學(xué)平等領(lǐng)導(dǎo), 鄧穎【超生】前

則會(huì)做“拆分處理”

switch(nr)
{    case U:        //拆分成K B
    case V:        //視情況拆分}

拆分完成之后,重新得到一個(gè)新的隱藏序列(模式)

String pattern = sbPattern.toString();

接下來(lái),就用AC自動(dòng)機(jī)進(jìn)行最大模式匹配了,并將匹配的結(jié)果存儲(chǔ)到“最優(yōu)詞網(wǎng)”中。當(dāng)然,在這里就可以自定義一些針對(duì)特定應(yīng)用的 識(shí)別處理規(guī)則

trie.parseText(pattern, new AhoCorasickDoubleArrayTrie.IHit<NRPattern>(){    //.....
    wordNetOptimum.insert(offset, new Vertex(Predefine.TAG_PEOPLE, name, ATTRIBUTE, WORD_ID), wordNetAll);
}

將識(shí)別出來(lái)的人名保存到最優(yōu)詞網(wǎng)后,再基于最優(yōu)詞網(wǎng)調(diào)用一次維特比分詞算法,得到最終的分詞結(jié)果---細(xì)分結(jié)果。

            if (wordNetOptimum.size() != preSize)
            {
                vertexList = viterbi(wordNetOptimum);                if (HanLP.Config.DEBUG)
                {
                    System.out.printf("細(xì)分詞網(wǎng):\n%s\n", wordNetOptimum);
                }
            }

源碼上的人名識(shí)別 基本上是按照論文中的內(nèi)容 來(lái)實(shí)現(xiàn)的。對(duì)于一個(gè)給定的句子,先進(jìn)行下面三大步驟處理:

  • 角色觀察

  • 維特比算法解碼求解隱藏狀態(tài)(求解各個(gè)分詞 的 角色標(biāo)記)

  • 對(duì)角色標(biāo)記進(jìn)行最大匹配(可做一些后處理操作)

最后,再使用維特比算法進(jìn)行一次分詞,得到細(xì)分結(jié)果,即為最后的識(shí)別結(jié)果。

關(guān)于如何進(jìn)行HanLP中人名識(shí)別分析問(wèn)題的解答就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,如果你還有很多疑惑沒(méi)有解開(kāi),可以關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道了解更多相關(guān)知識(shí)。

分享文章:如何進(jìn)行HanLP中人名識(shí)別分析
文章鏈接:http://aaarwkj.com/article38/iiggpp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站建設(shè)、網(wǎng)站導(dǎo)航、服務(wù)器托管軟件開(kāi)發(fā)、云服務(wù)器、面包屑導(dǎo)航

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

成都app開(kāi)發(fā)公司
日本午夜熟女九色视频| 麻豆视频国产一区二区| 91精品久久久久久| 国产又粗又硬又长又爽在线观看 | 成人久久精品一区二区| 日日爱欧美精品亚洲成| 伊人蕉影院久亚洲高清| 免费成人激情在线电影| 免费女同一区二区三区| 日本特黄特黄录像在线| 人人妻人人澡人人爽人人dvd| 国产黄色一区二区三区四区| 久久综合视频大片视频| 午夜午色夜之日本福利片| 国内一级片内射视频播放| 日韩一级黄色片在线播放| av小说亚洲激情乱| 特级特色生活片免费看| 日本欧美一区二区精品| 偷拍福利视频一区二区三区| 97在线观看视频在线观看| 久久亚洲中文字幕乱码| 中文字幕色视频在线观看| 久久热精品视频这里有| 日韩在线视频网站不卡| 国产欧美一区二区三区高清 | 麻豆精品人妻中文在线| 国产精品女同久久久久久| 中文字幕四虎在线观看| 国产深夜福利在线观看| 男人一插就想射的原因| 欧美精品一区二区三区色| 亚洲欧美熟妇欲乱又伦| 国产不卡的视频在线观看| 91欧美精品综合在线| 欧美日本一区二区四区| 妞妞婷婷基地五月天| 欧美日韩视频一区二区| 国产精品国产高清国产一区| 91麻豆粉色视频在线| 亚洲美女高清一区二区三区|