加入收藏 | 设为首页 | 会员中心 | 我要投稿 西安站长网 (https://www.029zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

R语言做文本挖掘 Part2分词处理

发布时间:2021-05-14 12:48:49 所属栏目:大数据 来源:网络整理
导读:副标题#e# ?? 转载:http://www.voidcn.com/article/p-qkxmglmf-pw.html Part2分词处理 【发现有人转载,决定把格式什么重新整理一遍,有时间做个进阶版文本挖掘,恩!原文地址:CSDN-R语言做文本挖掘 Part2分词处理】 在RStudio中安装完相关软件包之后,才

[plain] view plain copy print ?

R语言做文本挖掘 Part2分词处理

R语言做文本挖掘 Part2分词处理

  1. removeStopWords?<-?function(x,stopwords)?{??
  2. temp?<-?character(0)??
  3. index?<-?1??
  4. xLen?<-?length(x)??
  5. while?(index?<=?xLen)?{??
  6. if?(length(stopwords[stopwords==x[index]])?<1)??
  7. temp<-?c(temp,x[index])??
  8. index?<-?index?+1??
  9. }??
  10. temp??
  11. }??

[plain] view plain copy print ?

R语言做文本挖掘 Part2分词处理

R语言做文本挖掘 Part2分词处理

  1. hlzjTemp2?<-lapply(hlzjTemp,removeStopWords,stopwords)??
  2. hlzjTemp2[1:2]??
"? ???""???? "HWRAJGA"

跟hlzjTemp[1:2]的内容比较可以明显发现“的”这样的字都被去掉了。

?

4.?????? 词云

词云是现在很常见的一种分析图,把这些词语放在一张图中,频次来显示词语的大小,这样就能很直观看出那些词语出现得比较多,在舆情分析中经常被用到。

下面的过程是将分词结果做一个统计,计算出每个词出现的次数并排序,然后取排名在前150的150个词语,用wordcloud()方法来画词云。

[plain] view plain copy print ?

R语言做文本挖掘 Part2分词处理

R语言做文本挖掘 Part2分词处理

  1. words?<-?lapply(hlzjTemp2,strsplit,"?")??
  2. wordsNum?<-?table(unlist(words))??
  3. wordsNum?<-?sort(wordsNum)?#排序??
  4. wordsData?<-?data.frame(words?=names(wordsNum),?freq?=?wordsNum)??
  5. library(wordcloud)?#加载画词云的包??
  6. weibo.top150?<-?tail(wordsData,150)?#取前150个词??
  7. colors=brewer.pal(8,"Dark2")??
  8. wordcloud(weibo.top150$words,weibo.top150$freq,scale=c(8,0.5),colors=colors,random.order=F)??

R语言做文本挖掘 Part2分词处理

该品牌微博的内容有很明显的特征,品牌名“海澜之家”出现的次数远大于其他词语;其次出现频度比较高的词语是“链接”,“旗舰店”,“时尚”,“新品”,“修身”,“男装”,可以大概看出这个该品牌专注于男装,该微博账号经常做新品推荐,可能会提供服装链接到它的旗舰店;另外还能看到“全能星战”,“奔跑吧兄弟”这样的电视节目,稍微了解一下就知道,这是海澜之家这两年赞助的两个节目,所以在它的微博中出现多次是很正常的。

原始数据就不共享了,大家可以另外找数据尝试。

有任何问题欢迎指正,转载请注明来源,谢谢!

(编辑:西安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读