起航学习网

- 让每个人都能学到最前沿新知识、新技能!
起航学习网
当前位置: 起航学习网 > 短期培训 > 编程语言 > 如何在Java中去除中文文本的停用词

如何在Java中去除中文文本的停用词

时间:2021-07-29 15:17:47来源:Java开发培训网 作者:Java开发教程网 已有: 名学员访问该课程

前言: 1. 整体思路 第一步:先将中文文本进行分词,这里使用的HanLP-汉语言处理包进行中文文本分词。 第二步:使用停用

1. 整体思路

第一步:先将中文文本进行分词,这里使用的HanLP-汉语言处理包进行中文文本分词。

第二步:使用停用词表,去除分好的词中的停用词。

2. 中文文本分词环境配置

使用的HanLP-汉语言处理包进行中文文本分词。

·HanLP-汉语言处理包下载,可以去github上下载

·HanLP 的环境配置有两种方式:方式一、Maven;方式二、下载jar、data、hanlp.properties。

·官方环境配置步骤也可以在github上查询到。

·环境配置好后,Java使用HanLP进行中文分词文档如下:hanlp.linrunsoft.com/doc.html

3. 下载停用词表

停用词表可以去百度或者其他搜索引擎检索一份,很容易就找到!

4. 去除停用词工具类

使用这个工具类的之前,请先完成中文文本分词环境配置,并测试一下。停用词 .txt 文件路径请修改为自己的本地路径。

5. 工具类测试

5.1 测试代码

public class test {

public static void main(String args[]) {

try {

System.out.println(FormatUtil.RemovalOfStopWords("床前明月光,疑是地上霜。举头望明月,低头思故乡。"));

} catch (IOException e) {

e.printStackTrace();

}

}

5.2 测试结果

文章出自:http://qh.itpxw.cn/peixun/software/202191250.html

文章标题:如何在Java中去除中文文本的停用词



免责声明:本站文章均由入驻起航学习网的会员所发或者网络转载,所述观点仅代表作者本人,不代表起航学习网立场。如有侵权或者其他问题,请联系举报,必删。侵权投诉

你也许会喜欢如下的文章?
(责任编辑:深圳学历教育网)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
培训学校
IT培训网 访问该机构站点 报名留言 加为好友 用户等级:注册会员 用户级别:10 机构名称:IT培训网 联 系 人:罗老师 联系电话:13783581536 联系手机:13783581536 在线客服:起航学习网客服 在 线 QQ:起航学习网客服 电子邮件: 网站域名:http://www.itpxw.cn 注册时间:2016-07-18 11:07 最后登录:2024-02-20 13:02
推荐内容