加入收藏 | 设为首页 | 会员中心 | 我要投稿 西安站长网 (https://www.029zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

Python爬取4027条脉脉职言,解读互联网人的苦与难!

发布时间:2019-01-31 08:27:57 所属栏目:教程 来源:量化小白H
导读:副标题#e# 脉脉是一个实名职场社交平台。之前爬了脉脉职言版块,大概爬了4027条评论,本文对爬取过程给出详细说明,对于评论内容仅做可视化分析,之前存了一堆这方面的文章,今天一看全都404了。 爬虫 仍然使用python编程,对爬虫没兴趣的可以直接跳过看下

爬下来之后,删掉超过一个字的评论,按词频确定大小,做词云图如下

Python爬取4027条脉脉职言,解读互联网人的苦与难!

用两个字概括你现在的工作|用2个字总结你的工作

2,5是一样的,爬下来合并到一起后分析。代码不再重复,实际上用上面那段代码,找到json地址后替换,任何一个话题下的评论都可以全爬到,删掉不是2个字的评论后根据词频作图。

Python爬取4027条脉脉职言,解读互联网人的苦与难!

使用SnowNLP对评论进行情感分析,最终4027条中,积极的有2196条,消极的有1831条。

(编辑:西安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读