前言: 1. 整体思路 第一步:先将中文文本进行分词,这里使用的HanLP-汉语言处理包进行中文文本分词。 第二步:使用停用
1. 整体思路
第一步:先将中文文本进行分词,这里使用的HanLP-汉语言处理包进行中文文本分词。
第二步:使用停用词表,去除分好的词中的停用词。
2. 中文文本分词环境配置
使用的HanLP-汉语言处理包进行中文文本分词。
·HanLP-汉语言处理包下载,可以去github上下载
·HanLP 的环境配置有两种方式:方式一、Maven;方式二、下载jar、data、hanlp.properties。
·官方环境配置步骤也可以在github上查询到。
·环境配置好后,Java使用HanLP进行中文分词文档如下:hanlp.linrunsoft.com/doc.html
3. 下载停用词表
停用词表可以去百度或者其他搜索引擎检索一份,很容易就找到!
4. 去除停用词工具类
使用这个工具类的之前,请先完成中文文本分词环境配置,并测试一下。停用词 .txt 文件路径请修改为自己的本地路径。
5. 工具类测试
5.1 测试代码
public class test {
public static void main(String args[]) {
try {
System.out.println(FormatUtil.RemovalOfStopWords("床前明月光,疑是地上霜。举头望明月,低头思故乡。"));
} catch (IOException e) {
e.printStackTrace();
}
}
5.2 测试结果
文章出自:http://qh.itpxw.cn/peixun/software/202191250.html
文章标题:如何在Java中去除中文文本的停用词
免责声明:本站文章均由入驻起航学习网的会员所发或者网络转载,所述观点仅代表作者本人,不代表起航学习网立场。如有侵权或者其他问题,请联系举报,必删。侵权投诉
IT培训网 访问该机构站点 报名留言 加为好友 用户等级:注册会员
用户级别:10
机构名称:IT培训网
联 系 人:罗老师
联系电话:13783581536
联系手机:13783581536
在线客服:
在 线 QQ:
电子邮件:
网站域名:http://www.itpxw.cn
注册时间:2016-07-18 11:07
最后登录:2024-02-20 13:02
Java定义方法的格式是什么?IT培训网小编来告诉大家。所谓方法...
大家在Java教程中会学到关于Java消息推送的知识,那么,Java消息...
常用的Java日期格式转换有哪些?IT培训网小编来告诉大家。 1...
Java创建对象数组的方法是什么?IT培训网小编来告诉大家。Ja...