加入收藏 | 设为首页 | 会员中心 | 我要投稿 西安站长网 (https://www.029zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

【重!磅!干!货

发布时间:2021-01-18 06:40:00 所属栏目:大数据 来源:网络整理
导读:副标题#e# 查看之前文章请点击右上角 ,关注并且 查看历史消息 ,还可以在文章最后评论留言。谢谢您的支持! 回复【文本挖掘】或者【点击阅读原文】获取链接与代码附录 一、 功能概述 ? ? ? ?关键词词频网络图是以股票论坛、 个股新闻、研究报告三个网站作

对于关键词网络模块,提供了两种形式的调用,一是对于给定的关键词,生成完整的关键词网络图,二是对于只给出与关键词关联度最高的20只股票组合,他们分别是:
WordNet.py ??完整关键词网络图
WordNet_stock.py ??关键词关联股票组合


三、 模块运行

1) 爬虫模块举例2个,其余不再呈现
路径: D:TotalCodeLuceneCodeGetDataGetGuba_pylucene.py
功能: 股票论坛网页爬虫
输入参数:无
运行举例: python ? GetGuba_pylucene.py

运行过程实例:

【重!磅!干!货

运行结果:

【重!磅!干!货


路径:?D:TotalCodeLuceneCodeGetDataGetSinaNews_pyl
功能: 个股新闻网页爬虫
输入参数:无
运行举例:?python ? GetGuba_pylucene.py

运行过程实例:

【重!磅!干!货

运行结果:

【重!磅!干!货


2) 检索模块
路径:?D:TotalCodeLuceneCodeIndex_SearchIndexFiles_pylucene.py
功能: 增量建立索引
输入参数:<数据目录> <索引目录> <开始日期> <结束日期>
运行举例:python IndexFiles_pylucene.py D:DATAtext D:DATAIndextext
20120715 20120820

运行过程实例:

【重!磅!干!货

运行结果:

【重!磅!干!货


路径:?D:TotalCodeLuceneCodeIndex_SearchSearchFiles_pylucene.py
功能: 关键词全文检索
输入参数:<索引目录> <关键词> <输出文件>
运行举例:python SearchFiles_pylucene.py D:DATAIndextext "页岩气 "

D:TotalCodeLuceneCodeIndex_SearchOutput_pylucene.txt

运行过程实例:

【重!磅!干!货


【重!磅!干!货


3)统计模块举例1个,其余不再呈现
路径:?D:TotalCodeLuceneCodeICTCLAS_Cal/IDFCal.py
功能: 计算关键词所在文档数
输入参数:<数据源> <开始日期> <结束日期>
运行举例:python IDFCal.py 股票论坛 20120715 20120820

运行过程实例:

【重!磅!干!货

运行结果:

【重!磅!干!货


4)关键词词频模块举例1个,其余不再呈现
路径:?D:TotalCodeLuceneCodeICTCLAS_ IDF/ sigWordSeq.py
功能:?关键词词频时间序列
输入参数:<数据源> <关键词> <股票代码> <开始日期> <结束日期> <是否搜索标识>
运行举例:python sigWordSeq.py 股票论坛 "物联网" 000001 20100601?20120820 1

运行过程实例:

【重!磅!干!货

运行结果:

【重!磅!干!货


路径:D:TotalCodeLuceneCodeICTCLAS_ IDF/ WordNet.py
功能:?完整关键词网络图
输入参数:<数据源> <关键词> <开始日期> <结束日期>
运行举例:python WordNet.py 研究报告 "页岩气" 20120601 20120817
运行过程实例:

【重!磅!干!货

(编辑:西安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读