互联网金融之量化投资深度文本挖掘——附源码文档
副标题[/!--empirenews.page--]
??
【重!磅!干!货!】互联网金融之量化投资深度文本挖掘——附源码文档
2016-08-07 西西
数据挖掘DW
数据挖掘DW
数据挖掘DW
查看之前文章请点击右上角,关注并且查看历史消息,还可以在文章最后评论留言。谢谢您的支持! 回复【文本挖掘】或者【点击阅读原文】获取链接与代码附录 一、 功能概述 ? ? ? ?关键词词频&网络图是以股票论坛、 个股新闻、研究报告三个网站作为数据源,以文本数据挖掘作为核心技术,以 Lucene 检索作为系统框架, 以证券分析为目的, 实现的智能文本分析系统,该系统主要实现了以下功能: 关键词词频统计 关键词网络图 ? ? ??其中,关键词词频统计功能是: 对于给定的关键词(Word)以及给定的股票代码(Ticker)在一定的时间范围[StartDate,EndDate]内,计算每周的平均词频占比, 同时给出该词频占比时间序列与股价之间的相关系数。 ? ? ? ?关键词网络图的功能是: 对于给定的关键词(Word)在一定的时间范围[StartDate,EndDate]内,根据 TF-IDF 关联度指标为依据,给出与关键词最相关的 20 个一级词,以及与一级词最相关的 5 个二级词,组成关键词网络图。 二、功能模块
1) 爬虫模块 2) 检索模块 ? ? ? ?检索模块的主要作用在于以 Lucene 为架构, 将爬虫模块爬到的文本数据加入到全文索引当中, 在建立索引的过程中,系统以“句子”作为基本的检索单位即检索关键词能够定位到该关键词所在的句子。 另外, 索引采用增量的方式来建立,即每次只将最新爬的文本加入到搜索索引当中, 而对于三个数据源,系统分别建立了三个独立的索引。同时,在建立的索引的基础上, 检索模块还实现了基本的文本检索功能, 检索程序能够在一定的时间范围内对于检索给定关键词,并返回该关键词所在的存储文件的文件名,以及该关键词所在的“句子”,并将所有的检索结果输出到一个给定的文件中。 ? ? ? ?简而言之,检索模块提供了建立索引和文本搜索两个主要的功能,他们分别是: ▲IndexFiles_pylucene.py? ?增量建立索引 3) 统计模块 ? ? ? ?其中,用户字典关键词的词频数和文档数,是为了关键词网络模块中计算TF-IDF 相关度指标所准备的数据,而每天的句子数则树为了关键词词频模块中计算词频占比所准备的数据。对于统计模块的这三个功能,分别有三个独立的程序进行,他们分别是: ▲IDFCalWord.py? ?计算关键词总词频数 ▲SentenceCal.py? 计算每天文档的句子数 4) 关键词词频模块 ? ? ? 模块中没有直接使用关键词每天的词频,而是根据每天的词频,以及当天文档的句子总数计算关键词的词频占比。 对于关键词 ,词频占比 的计算公式如下: ? ? ? 其中, 公式的各个指标的意义如下: ? ? ? 分母: 第 i 天中文档的句子总数 ? ? ? ?从词频占比的计算公式可以看出, 词频占比是将每个星期的关键词的词频总和除以每个星期文档的句子总数得到的。 使用词频占比而非直接采用词频,能够更公平地反应出关键词 每天的关注程度,从而更合理地对词频信号进行使用。另外,在计算关键词与给定股票的相关系数时, 模块会以一周为频率计算关键词的词频占比时间序列,同时计算该周内给定股票股价的均值,计算两个时间序列的相关系数作为两者相关性的依据。 ? ? ? ?对于关键词词频模块, 只有一种调用的方式,调用时需给出关键词、股票代码以及时间范围: ▲ sigWordSeq.py ??关键词词频时间序列 5) 关键词网络模块 ? ? ? ?其中关联度指标采用的是TF-IDF算法, TF-IDF是一种常用的文本检索与本文探勘的加权技术,主要用于评估某个词对于一份特定文档的重要程度。 在本文的关键词网络模块中,将给定关键词的搜索结果集合作为特定文档, TF-IDF用于评估搜索结果中每个词对于该结果的关联程度,即对于关键词的关联程度。 TF-IDF的具体计算公式如下: 其中 x 为搜索结果中的某个词, (编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |