加入收藏 | 设为首页 | 会员中心 | 我要投稿 西安站长网 (https://www.029zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

【3】 文本挖掘方法论

发布时间:2021-01-25 05:56:34 所属栏目:大数据 来源:网络整理
导读:副标题#e# 转自 NLP论坛 http://www.threedweb.cn/thread-1284-1-1.html http://www.threedweb.cn/thread-1285-1-1.html http://www.threedweb.cn/thread-1286-1-1.html 文本挖掘流程 第1阶段:确定研究目的 像任何其他项目一样,文本挖掘的研究开始于研究

要回答第1个问题,我们必须评估各种形式的索引表示。一种方法是词频的转换。一旦输入文档被索引并且初始词频(由文件)被计算,可以执行一些额外的转换来概括和聚集所提取的信息。原词的频率反映了每个文档中相对突出的词。具体而言,文档词条出现的较大词频可能是该文件内容最好的描述符。然而,词条的计数是正比于文件描述符的重要性本身不是一个合理的假设。例如,即使在文件A中词条的频率三倍高于文件B中,不一定就能推论出这个词对于文档B三倍重要于文档A。

(编辑:西安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读