起航学习网

- 让每个人都能学到最前沿新知识、新技能!
起航学习网
当前位置: 起航学习网 > AI培训 > 人工智能 > 人工智能培训课程是什么

人工智能培训课程是什么

时间:2018-07-09 14:12:42来源:人工智能网 作者:IT培训网 已有: 名学员访问该课程

前言:可以看到效果还是不错,而且还自动把英文转换成了小写。当然结果还不是很完美,还可能需要对数字处理。标点符号处理。不过借助于R,或者Python等工具,已经不是难事了。毕竟最重要的分词问题可以解决了。

人工智能培训系列:R语言NLP的中文单词特征处理 1

在NLP的情感分析,或者相关分类分析中,有不少文章引用了一系列不错的论文。不过对于中文名义特征的处理相对比较少。

对于中文处理,可以看成有两方面内容,一个是中文分词,另外一个就是把一个文档中的中文词语做为一个个的特征转换为稀舒矩阵处理。

文档转换为多个特征对应的稀舒矩阵处理请参考R语言NLP的中文单词特征处理 2

第一个中文分词:

中文分词与英文单词用空格不太一样。还设计到多个字组成的词语。这时就涉及到中文分词。其中Jieba是一个非常优秀的中文分词工具。

以Python为例子(R语言等其他语言也有jieba等包)。

import jieba

cn_string='达内顾问学院即将在2018年底推出keras培训欢迎参加。'

jieba_list=jieba.cut(cn_string)

tokenslist=[]

for seg in jieba_list:

tokenslist.append(seg)

print (tokenslist)

输出如下:

['达', '内', '顾问', '学院', '即将', '在', '2018', '年底', '推出', 'keras', '培训', '欢迎', '参加', '。']

可以看到效果还是不错,而且还自动把英文转换成了小写。当然结果还不是很完美,还可能需要对数字处理。标点符号处理。不过借助于R,或者Python等工具,已经不是难事了。毕竟最重要的分词问题可以解决了。

当然如果你希望看到“达内顾问学院”作为一个整体名称存在,就需要自定义字典了(jieba支持这个功能)。

此外,这个软件还支持, 更多分词模式等其他功能,具体的信息可以访问github上的文档

文章出自:http://qh.itpxw.cn/ai/python/201841287.html

文章标题:人工智能培训课程是什么



免责声明:本站文章均由入驻起航学习网的会员所发或者网络转载,所述观点仅代表作者本人,不代表起航学习网立场。如有侵权或者其他问题,请联系举报,必删。侵权投诉

(责任编辑:IT培训网)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
培训学校
IT培训网 访问该机构站点 报名留言 加为好友 用户等级:注册会员 用户级别:10 机构名称:IT培训网 联 系 人:罗老师 联系电话:13783581536 联系手机:13783581536 在线客服:起航学习网客服 在 线 QQ:起航学习网客服 电子邮件: 网站域名:http://www.itpxw.cn 注册时间:2016-07-18 11:07 最后登录:2021-09-13 16:09