日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

去停用词 java代码_如何在java中去除中文文本的停用词

發布時間:2025/4/16 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 去停用词 java代码_如何在java中去除中文文本的停用词 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.? 整體思路

第一步:先將中文文本進行分詞,這里使用的HanLP-漢語言處理包進行中文文本分詞。

第二步:使用停用詞表,去除分好的詞中的停用詞。

2.? 中文文本分詞環境配置

使用的HanLP-漢語言處理包進行中文文本分詞。

·HanLP-漢語言處理包下載,可以去github上下載

·HanLP?的環境配置有兩種方式:方式一、Maven;方式二、下載jar、data、hanlp.properties。

·官方環境配置步驟也可以在github上查詢到。

·環境配置好后,java使用HanLP進行中文分詞文檔如下:hanlp.linrunsoft.com/doc.html

3.? 下載停用詞表

停用詞表可以去百度或者其他搜索引擎檢索一份,很容易就找到!

4.??去除停用詞工具類

使用這個工具類的之前,請先完成中文文本分詞環境配置,并測試一下。停用詞 .txt 文件路徑請修改為自己的本地路徑。

圖1

5. ?工具類測試

5.1 ?測試代碼

public class test {

public static void main(String args[]) {

try {

System.out.println(FormatUtil.RemovalOfStopWords("床前明月光,疑是地上霜。舉頭望明月,低頭思故鄉。"));

} catch (IOException e) {

e.printStackTrace();

}

}

5.2 ?測試結果

總結

以上是生活随笔為你收集整理的去停用词 java代码_如何在java中去除中文文本的停用词的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。