起航学习网

- 让每个人都能学到最前沿新知识、新技能!
起航学习网
当前位置: 起航学习网 > 短期培训 > 编程语言 > Python 爬取爱奇艺腾讯视频 250,000 条数据分析为什么李诞不值得了?

Python 爬取爱奇艺腾讯视频 250,000 条数据分析为什么李诞不值得了?

时间:2018-12-11 13:02:34来源:编程网 作者:IT培训网 已有: 名学员访问该课程

前言:最终,我们从《奇葩说》的词云图中得出了李诞是为焦点人物的结论。但有小伙伴留言说道:李诞是焦点人物,但那都是在骂他的,看到这个笔者突然意识到,说着人间不值得的李诞《吐槽大会》开始声名鹊起,一方面是入了娱乐圈已成明星,却也饱受非议。

Python 爬取爱奇艺腾讯视频 250,000 条数据分析为什么李诞不值得了?

作者 | 罗昭成

责编 | 唐小引

出品 | CSDN(ID:CSDNnews)

在《Python 爬取爱奇艺 52432 条数据分析谁才是《奇葩说》的焦点人物?》这篇文章中,我们从爱奇艺爬取了 5 万多条评论数据,并对一些关键数据进行了分析,由此总结出了一些明面上看不到的数据,并将其直观地展现了出来,数据分析的妙处即在于此。

最终,我们从《奇葩说》的词云图中得出了李诞是为焦点人物的结论。但有小伙伴留言说道:“李诞是焦点人物,但那都是在骂他的”,看到这个笔者突然意识到,说着“人间不值得”的李诞《吐槽大会》开始声名鹊起,一方面是入了娱乐圈已成明星,却也饱受非议,作为《吐槽大会》第三季和《奇葩说》第五季的关键人物,我们是不是可以进行情感分析,从数万条的用户评论里找出广大观众眼中的李诞,以及主打辩论的奇葩说和以“吐槽文化”为切入点的《吐槽大会》的异同之处?

如何进行情感分析?

文本情感分析,又称为意见挖掘、倾向性分析等。简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。

奇葩说的评论信息表达了人们的各种情感色彩和情感倾向性,通过对他们进行分析来了解大众舆论的看法。

在这里,我们使用“SnowNLP”进行分词和情感分析。

奇葩说的情感分析数据

注:本文中使用的奇葩说数据是上篇文章爬取的数据,数据文件地址:

先来看一下《奇葩说》的整体情感分析得分数据:

Python 爬取爱奇艺腾讯视频 250,000 条数据分析为什么李诞不值得了?_www.epx365.cn

奇葩说情感分析

从上图可以看出来,正向情感的评论数要多于负向评论的数据,可见观众朋友还是喜欢奇葩说的。

好多人都说李诞是在被人骂,所以笔者在此对评论中包含李诞的数据进行了过滤(作者注:这样来看不一定准确,但也能从一个角度来看大体的数据情况),做了一下情感分析,先看图:

Python 爬取爱奇艺腾讯视频 250,000 条数据分析为什么李诞不值得了?_www.epx365.cn

有关李诞评论的情感分析

从这张图可以看出来,得分 0.5 以下的评论要比 0.5 分的多得多。其实单看李诞的这张图,对于负向情感评论是多是少没有直观的感受。于是,笔者又把剩下出现频率比较高的薛教授与詹青云的情感评分画了两张图,对比感受了一下:

Python 爬取爱奇艺腾讯视频 250,000 条数据分析为什么李诞不值得了?_www.epx365.cn

薛教授评论情感分析

Python 爬取爱奇艺腾讯视频 250,000 条数据分析为什么李诞不值得了?_www.epx365.cn

詹青云评论情感分析

通过这三张图的对比,感受到不一样的情感了吗?薛教授和詹青云的正向情感要远高于负向情感,而李诞的正向和负向两类情感则处于趋同状态。

详细代码为:

def emotionParser(title, *names):

conn = conn = sqlite3.connect("deal_data.db")

conn.text_factory = str

cursor = conn.cursor

likeStr = ""

for i in range(0, len(names)):

likeStr = likeStr + " or content like \"%" + names[i] + "%\" "

if likeStr == "":

sql = "s e l e c t content from realData where content != \"\" "

else:

sql = + likeStr

print sql

cursor.execute(sql)

values = cursor.fetchall

sentimentslist =

for item in values:

content = item[0]

senValue = SnowNLP(content.decode("utf-8")).sentiments

sentimentslist.append(senValue)

print content

plt.hist(sentimentslist, bins=np.arange(0, 1, 0.01), facecolor="#4F8CD6")

plt.xlabel("Sentiments Probability")

plt.ylabel("Quantity")

plt.title("Analysis of Sentiments for " + title)

plt.show

cursor.close

conn.close

观众朋友对李诞的负面情感有些高,那对他的评论具体究竟呈现着什么样的态势?接下来我们按如下步骤进行具体分析:

将评论数据中包含李诞、李蛋、蛋蛋的数据单独查出来;

使用 Jieba 对评论数据分词;

使用 WordCloud 生成词云分析数据生成词云图见下图,有关代码请参考《Python 爬取爱奇艺 52432 条数据分析谁才是《奇葩说》的焦点人物?》 。

Python 爬取爱奇艺腾讯视频 250,000 条数据分析为什么李诞不值得了?_www.epx365.cn

《奇葩说》评论李诞的数据词云

从上面的关键词中可以看出,观众对于李诞的情感词云偏于负面,譬如“讨厌”、“教养”、“礼貌”、“打断”等。

吐槽大会的情感分析

爬取腾讯评论数据

用 Chrome 打开腾讯视频,打开 《吐槽大会》视频播放,然后打开 Chrome 查看源代码模式,在网络请求里面搜索并过滤 comment。通过过滤拿到的请求地址中,你能拿到一个 videocommentid 的请求,里面有该期评论的 id。

本次笔者爬取了《吐槽大会》的三季数据,每一期的评论数据的 id 都是手动去获取的。

文章出自:http://qh.itpxw.cn/peixun/software/201845359.html

文章标题:Python 爬取爱奇艺腾讯视频 250,000 条数据分析为什么李诞不值得了?



免责声明:本站文章均由入驻起航学习网的会员所发或者网络转载,所述观点仅代表作者本人,不代表起航学习网立场。如有侵权或者其他问题,请联系举报,必删。侵权投诉

(责任编辑:IT培训网)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
培训学校
IT培训网 访问该机构站点 报名留言 加为好友 用户等级:注册会员 用户级别:10 机构名称:IT培训网 联 系 人:罗老师 联系电话:13783581536 联系手机:13783581536 在线客服:起航学习网客服 在 线 QQ:起航学习网客服 电子邮件: 网站域名:http://www.itpxw.cn 注册时间:2016-07-18 11:07 最后登录:2024-02-20 13:02
推荐内容