前言:可以看到效果还是不错,而且还自动把英文转换成了小写。当然结果还不是很完美,还可能需要对数字处理。标点符号处理。不过借助于R,或者Python等工具,已经不是难事了。毕竟最重要的分词问题可以解决了。
人工智能培训系列:R语言NLP的中文单词特征处理 1
在NLP的情感分析,或者相关分类分析中,有不少文章引用了一系列不错的论文。不过对于中文名义特征的处理相对比较少。
对于中文处理,可以看成有两方面内容,一个是中文分词,另外一个就是把一个文档中的中文词语做为一个个的特征转换为稀舒矩阵处理。
文档转换为多个特征对应的稀舒矩阵处理请参考R语言NLP的中文单词特征处理 2
第一个中文分词:
中文分词与英文单词用空格不太一样。还设计到多个字组成的词语。这时就涉及到中文分词。其中Jieba是一个非常优秀的中文分词工具。
以Python为例子(R语言等其他语言也有jieba等包)。
import jieba
cn_string='达内顾问学院即将在2018年底推出keras培训欢迎参加。'
jieba_list=jieba.cut(cn_string)
tokenslist=[]
for seg in jieba_list:
tokenslist.append(seg)
print (tokenslist)
输出如下:
['达', '内', '顾问', '学院', '即将', '在', '2018', '年底', '推出', 'keras', '培训', '欢迎', '参加', '。']
可以看到效果还是不错,而且还自动把英文转换成了小写。当然结果还不是很完美,还可能需要对数字处理。标点符号处理。不过借助于R,或者Python等工具,已经不是难事了。毕竟最重要的分词问题可以解决了。
当然如果你希望看到“达内顾问学院”作为一个整体名称存在,就需要自定义字典了(jieba支持这个功能)。
此外,这个软件还支持, 更多分词模式等其他功能,具体的信息可以访问github上的文档
文章出自:http://qh.itpxw.cn/ai/python/201841287.html
文章标题:人工智能培训课程是什么
免责声明:本站文章均由入驻起航学习网的会员所发或者网络转载,所述观点仅代表作者本人,不代表起航学习网立场。如有侵权或者其他问题,请联系举报,必删。侵权投诉
IT培训网 访问该机构站点 报名留言 加为好友 用户等级:注册会员
用户级别:10
机构名称:IT培训网
联 系 人:罗老师
联系电话:13783581536
联系手机:13783581536
在线客服:
在 线 QQ:
电子邮件:
网站域名:http://www.itpxw.cn
注册时间:2016-07-18 11:07
最后登录:2021-09-13 16:09
如此一来,随着时间推移,2040 年之后,感觉程序员迟早会被 人...
AI时代人类会不会丢饭碗,之前已经有很多讨论,大部分人都表...
人工智能作为新的用户界面不再是一个片面的方法。我们需要理...
过去的 20 年里,许多互联网公司有幸积累了大量的数据,因此在...