副标题[/!--empirenews.page--]
??
转载:http://www.voidcn.com/article/p-qkxmglmf-pw.html
Part2分词处理
【发现有人转载,决定把格式什么重新整理一遍,有时间做个进阶版文本挖掘,恩!原文地址:CSDN-R语言做文本挖掘 Part2分词处理】
在RStudio中安装完相关软件包之后,才能做相关分词处理,请参照Part1部分安装需要软件包。参考文档:玩玩文本挖掘,这篇文章讲用R做文本挖掘很详尽,并且有一些相关资料的下载,值得看看!
1.?????? RWordseg功能
说明文档可在http://download.csdn.net/detail/cl1143015961/8436741下载,这里只做简单介绍。
分词
[plain]
view plain
copy
print
?


- segmentCN(c("如果你因为错过太阳而流泪",?"你也会错过星星"))??
segmentCN(c("如果你因为错过太阳而流泪","你也会错过星星"))
[[1]]
[1] "如果""你"?? "因为" "错过太阳而"?
[8] "流泪"
[[2]]
也会星星"
可以看到分词的效果不是很理想,“错过”这是一个词却被分开了,说明词库中不存在这个词,所以,我们有时候需要向词库中添加我们需要的词语。
加词删词
[plain]
view plain
copy
print
?


- insertWords("错过")??
- segmentCN(c("如果你因为错过太阳而流泪",?"你也会错过星星"))??
insertWords("错过")
segmentCN(c("如果你因为错过太阳而流泪",217)">错过"
有些情况下,你不希望某个词被分出来,例如还是“错过”这个词,这里“错”和“过”语义上已经不应该是一个词语了,所以,可以从词典中删除这个词,再添加上你需要的词语,继续做分词,效果就好多了。
[plain]
view plain
copy
print
?


- segmentCN("这个错过去你可以犯,但是现在再犯就不应该了")??
segmentCN("这个错过去你可以犯,但是现在再犯就不应该了")
?[1] "
这个
" "
错过
去
"?? "
你
可以
犯
但是
"
?[8] "现在再犯就不应该了"?
[plain]
view plain
copy
print
?


- deleteWords("错过")??
- insertWords("过去")??
- segmentCN("这个错过去你可以犯,但是现在再犯就不应该了")??
deleteWords("错过")
insertWords("过去")
segmentCN("这个错过去你可以犯,但是现在再犯就不应该了")
错
过去
"
安装卸载词典
在做分词处理时,可能会遇到一些比较精而专的文章,专业词汇在词库里面并没有,这时候就需要去找相关的词典,安装到R中。例如,在做新闻分析中,一些娱乐新闻里会有很多明星歌手的名字出现,这些名字在做分词时,不会被识别为一个个词。此时可能需要添加一个名字的词典,词典可以是自己建也可以从网上找。推荐从搜搜狗输入法的词库下载地址http://pinyin.sogou.com/dict/,可以选择需要的分类词典下载。
这里我用到的一个词典names的下载地址:http://pinyin.sogou.com/dict/cate/index/429。
[plain]
view plain
copy
print
?


- segmentCN("2015年的几部开年戏都出现了唐嫣的身影")??
segmentCN("2015年的几部开年戏都出现了唐嫣的身影")
?[1] "2015
年
的
"???? "
几部
"? ?"
开
" ??
?[6] "戏"???? "都出现唐"???
[11] "嫣的身影"?
[plain]
view plain
copy
print
?


- installDict("D:RsourcesDictionariessingers.scel",?dictname?="names")??
installDict("D:RsourcesDictionariessingers.scel",dictname ="names")
3732 words were loaded! ... New dictionary 'names' was installed!
[plain]
view plain
copy
print
?


- segmentCN("2015年的几部开年戏都出现了唐嫣的身影")??
segmentCN("2015年的几部开年戏都出现了唐嫣的身影")
唐嫣"?
(编辑:西安站长网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|