word分詞java代碼,word 分詞

用java讀取文檔并分詞。

需要commons-io包,?或者自己寫(xiě)讀文件的部分

目前創(chuàng)新互聯(lián)已為上1000+的企業(yè)提供了網(wǎng)站建設(shè)、域名、網(wǎng)站空間、網(wǎng)站托管、企業(yè)網(wǎng)站設(shè)計(jì)、堯都網(wǎng)站維護(hù)等服務(wù)，公司將堅(jiān)持客戶導(dǎo)向、應(yīng)用為本的策略，正道將秉承"和諧、參與、激情"的文化，與客戶和合作伙伴齊心協(xié)力一起成長(zhǎng)，共同發(fā)展。

import?java.io.File;

import?java.io.IOException;

import?java.util.ArrayList;

import?java.util.Collections;

import?java.util.Comparator;

import?java.util.List;

import?java.util.regex.Matcher;

import?java.util.regex.Pattern;

import?org.apache.commons.io.FileUtils;

public?class?Test20?{

/**

*?@param?args

public?static?void?main(String[]?args)?{

//?TODO?Auto-generated?method?stub

String?str?=?null;

try?{

str?=?FileUtils.readFileToString(new?File("e.txt"));

}?catch?(IOException?e)?{

//?TODO?Auto-generated?catch?block

e.printStackTrace();

}

Pattern?p?=?Pattern.compile("\\b[\\w-']+\\b");

Matcher?m?=?p.matcher(str);

ListWord?words?=?new?ArrayListWord();

while(m.find()){

add(words,?m.group().trim());

}

Collections.sort(words,?new?ComparatorWord(){

@Override

public?int?compare(Word?o1,?Word?o2)?{

//?TODO?Auto-generated?method?stub

return?o1.getWord().compareTo(o2.getWord());

}});

System.out.println(words);

}

private?static?void?add(ListWord?words,?String?word)?{

//?TODO?Auto-generated?method?stub

for(Word?temp?:?words){

if(temp.getWord().equals(word)){

temp.setCount(temp.getCount()?+?1);

return;

}

Word?w?=?new?Word();

w.setWord(word);

words.add(w);

}

class?Word{

private?String?word;

private?int?count?=?1;

public?String?getWord()?{

return?word;

}

public?void?setWord(String?word)?{

this.word?=?word;

}

public?int?getCount()?{

return?count;

}

public?void?setCount(int?count)?{

this.count?=?count;

}

@Override

public?String?toString()?{

return?"Word?[word="?+?word?+?",?count="?+?count?+?"]";

}

怎么使用java中文分詞組件word

參考如下

1、快速體驗(yàn)

運(yùn)行項(xiàng)目根目錄下的腳本demo-word.bat可以快速體驗(yàn)分詞效果

用法: command [text] [input] [output]

命令command的可選值為：demo、text、file

demo

text 楊尚川是APDPlat應(yīng)用級(jí)產(chǎn)品開(kāi)發(fā)平臺(tái)的作者

file d:/text.txt d:/word.txt

exit

2、對(duì)文本進(jìn)行分詞

移除停用詞：ListWord words = WordSegmenter.seg("楊尚川是APDPlat應(yīng)用級(jí)產(chǎn)品開(kāi)發(fā)平臺(tái)的作者");

保留停用詞：ListWord words = WordSegmenter.segWithStopWords("楊尚川是APDPlat應(yīng)用級(jí)產(chǎn)品開(kāi)發(fā)平臺(tái)的作者");

System.out.println(words);

輸出：

移除停用詞：[楊尚川, apdplat, 應(yīng)用級(jí), 產(chǎn)品, 開(kāi)發(fā)平臺(tái), 作者]

保留停用詞：[楊尚川, 是, apdplat, 應(yīng)用級(jí), 產(chǎn)品, 開(kāi)發(fā)平臺(tái), 的, 作者]

3、對(duì)文件進(jìn)行分詞

String input = "d:/text.txt";

String output = "d:/word.txt";

移除停用詞：WordSegmenter.seg(new File(input), new File(output));

保留停用詞：WordSegmenter.segWithStopWords(new File(input), new File(output));

4、自定義配置文件

默認(rèn)配置文件為類(lèi)路徑下的word.conf，打包在word-x.x.jar中

自定義配置文件為類(lèi)路徑下的word.local.conf，需要用戶自己提供

如果自定義配置和默認(rèn)配置相同，自定義配置會(huì)覆蓋默認(rèn)配置

配置文件編碼為UTF-8

5、自定義用戶詞庫(kù)

自定義用戶詞庫(kù)為一個(gè)或多個(gè)文件夾或文件，可以使用絕對(duì)路徑或相對(duì)路徑

用戶詞庫(kù)由多個(gè)詞典文件組成，文件編碼為UTF-8

詞典文件的格式為文本文件，一行代表一個(gè)詞

可以通過(guò)系統(tǒng)屬性或配置文件的方式來(lái)指定路徑，多個(gè)路徑之間用逗號(hào)分隔開(kāi)

類(lèi)路徑下的詞典文件，需要在相對(duì)路徑前加入前綴classpath:

指定方式有三種：

指定方式一，編程指定（高優(yōu)先級(jí)）：

WordConfTools.set("dic.path", "classpath:dic.txt，d:/custom_dic");

DictionaryFactory.reload();//更改詞典路徑之后，重新加載詞典

指定方式二，Java虛擬機(jī)啟動(dòng)參數(shù)（中優(yōu)先級(jí)）：

java -Ddic.path=classpath:dic.txt，d:/custom_dic

指定方式三，配置文件指定（低優(yōu)先級(jí)）：

使用類(lèi)路徑下的文件word.local.conf來(lái)指定配置信息

dic.path=classpath:dic.txt，d:/custom_dic

如未指定，則默認(rèn)使用類(lèi)路徑下的dic.txt詞典文件

6、自定義停用詞詞庫(kù)

使用方式和自定義用戶詞庫(kù)類(lèi)似，配置項(xiàng)為：

stopwords.path=classpath:stopwords.txt，d:/custom_stopwords_dic

7、自動(dòng)檢測(cè)詞庫(kù)變化

可以自動(dòng)檢測(cè)自定義用戶詞庫(kù)和自定義停用詞詞庫(kù)的變化

包含類(lèi)路徑下的文件和文件夾、非類(lèi)路徑下的絕對(duì)路徑和相對(duì)路徑

如：

classpath:dic.txt，classpath:custom_dic_dir,

d:/dic_more.txt，d:/DIC_DIR，D:/DIC2_DIR，my_dic_dir，my_dic_file.txt

classpath:stopwords.txt，classpath:custom_stopwords_dic_dir，

d:/stopwords_more.txt，d:/STOPWORDS_DIR，d:/STOPWORDS2_DIR，stopwords_dir，remove.txt

8、顯式指定分詞算法

對(duì)文本進(jìn)行分詞時(shí)，可顯式指定特定的分詞算法，如：

WordSegmenter.seg("APDPlat應(yīng)用級(jí)產(chǎn)品開(kāi)發(fā)平臺(tái)", SegmentationAlgorithm.BidirectionalMaximumMatching);

SegmentationAlgorithm的可選類(lèi)型為：

正向最大匹配算法：MaximumMatching

逆向最大匹配算法：ReverseMaximumMatching

正向最小匹配算法：MinimumMatching

逆向最小匹配算法：ReverseMinimumMatching

雙向最大匹配算法：BidirectionalMaximumMatching

雙向最小匹配算法：BidirectionalMinimumMatching

雙向最大最小匹配算法：BidirectionalMaximumMinimumMatching

全切分算法：FullSegmentation

最少分詞算法：MinimalWordCount

最大Ngram分值算法：MaxNgramScore

9、分詞效果評(píng)估

運(yùn)行項(xiàng)目根目錄下的腳本evaluation.bat可以對(duì)分詞效果進(jìn)行評(píng)估

評(píng)估采用的測(cè)試文本有253 3709行，共2837 4490個(gè)字符

評(píng)估結(jié)果位于target/evaluation目錄下：

corpus-text.txt為分好詞的人工標(biāo)注文本，詞之間以空格分隔

test-text.txt為測(cè)試文本，是把corpus-text.txt以標(biāo)點(diǎn)符號(hào)分隔為多行的結(jié)果

standard-text.txt為測(cè)試文本對(duì)應(yīng)的人工標(biāo)注文本，作為分詞是否正確的標(biāo)準(zhǔn)

result-text-***.txt，***為各種分詞算法名稱(chēng)，這是word分詞結(jié)果

perfect-result-***.txt，***為各種分詞算法名稱(chēng)，這是分詞結(jié)果和人工標(biāo)注標(biāo)準(zhǔn)完全一致的文本

wrong-result-***.txt，***為各種分詞算法名稱(chēng)，這是分詞結(jié)果和人工標(biāo)注標(biāo)準(zhǔn)不一致的文本

編寫(xiě)程序?qū)⒆址?hello java world 進(jìn)行分詞,并逐個(gè)顯示在屏幕上;

用Java的StringTokenizer可以直接將字符串按照空格進(jìn)行分詞。

import java.util.StringTokenizer;

public class Test2 {

public static void main(String [] args) {

String str = "hello java world";

StringTokenizer st = new StringTokenizer(str);

while (st.hasMoreTokens()) {

System.out.println(st.nextToken());

}

java word分詞器怎樣安裝在java中

word分詞是一個(gè)Java實(shí)現(xiàn)的分布式的中文分詞組件，提供了多種基于詞典的分詞算法，并利用ngram模型來(lái)消除歧義。

如果需要安裝word分詞器可以參考下面的步驟：

1、確保電腦上已經(jīng)安裝了JDK軟件和Eclispe工具，沒(méi)有安裝的可以到對(duì)應(yīng)的官網(wǎng)下載安裝：

JDK官網(wǎng)：

Eclipse官網(wǎng)：

2、下載word分詞器的相關(guān)jar包：

打開(kāi)word分詞器的官方github主頁(yè)：

下拉找到ReadME部分，點(diǎn)擊“編譯好的jar下載”：

頁(yè)面將會(huì)跳轉(zhuǎn)到到百度云盤(pán)的下載頁(yè)面，按照需求下載指定的版本即可。

注意：word1.3需要JDK1.8。

下載完成之后解壓到指定目錄。

3、創(chuàng)建Java項(xiàng)目，導(dǎo)入word分詞器的相關(guān)jar包：

打開(kāi)Eclipse，右鍵創(chuàng)建Java project項(xiàng)目：

然后右鍵項(xiàng)目選擇Build path打開(kāi)導(dǎo)入頁(yè)面，導(dǎo)入剛才下載的jar包到項(xiàng)目中：

導(dǎo)入成功之后就可以在自己的項(xiàng)目中使用word分詞器了。

您好，請(qǐng)問(wèn)我用JAVA word分詞器對(duì)文件分詞，出來(lái)的結(jié)果是亂碼，應(yīng)該如何解決吶？

importjava.io.BufferedReader;importjava.io.IOException;importjava.io.InputStreamReader;publicclassDanci{publicstaticvoidmain(String[]args){Stringstr=newString();System.out.print("請(qǐng)輸入一個(gè)英文句子：");try{BufferedReaderbr=newBufferedReader(newInputStreamReader(System.in));//獲取鍵盤(pán)輸入str=br.readLine();}catch(IOExceptione){e.printStackTrace();}String[]s=str.split("");//轉(zhuǎn)換成數(shù)組System.out.println("你輸入的句子共有單詞"+s.length+"個(gè)");//s.length獲取數(shù)組長(zhǎng)度}}//此程序只能獲取一句話的單詞個(gè)數(shù).

分享文章：word分詞java代碼,word 分詞
分享網(wǎng)址：http://aaarwkj.com/article46/hchshg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供品牌網(wǎng)站建設(shè)、網(wǎng)站內(nèi)鏈、自適應(yīng)網(wǎng)站、云服務(wù)器、外貿(mào)建站、網(wǎng)站排名

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

word分詞java代碼,word 分詞

用java讀取文檔并分詞。

怎么使用java中文分詞組件word

編寫(xiě)程序?qū)⒆址?hello java world 進(jìn)行分詞,并逐個(gè)顯示在屏幕上;

java word分詞器怎樣安裝在java中

您好，請(qǐng)問(wèn)我用JAVA word分詞器對(duì)文件分詞，出來(lái)的結(jié)果是亂碼，應(yīng)該如何解決吶？

您好，請(qǐng)問(wèn)我用JAVA word分詞器對(duì)文件分詞，出來(lái)的結(jié)果是亂碼，應(yīng)該如何解決吶？