基于Python语言的大数据搜索引擎

发布时间：2019-07-11 23:21:32 所属栏目：建站来源：简单艾

导读：副标题#e# 搜索是大数据领域里常见的需求。Splunk和ELK分别是该领域在非开源和开源领域里的领导者。本文利用很少的Python代码实现了一个基本的数据搜索功能，试图让大家理解大数据搜索的基本原理。布隆过滤器 (Bloom Filter) 第一步我们先要实现一个布隆过

次要分割和主要分割的逻辑类似，只是还会把从开始部分到当前分割的结果加入。例如“1.2.3.4”的次要分割会有1，2，3，4，1.2，1.2.3

def segments(event): 
 """Simple wrapper around major_segments / minor_segments""" 
 results = set() 
 for major in major_segments(event): 
 for minor in minor_segments(major): 
 results.add(minor) 
 return results

分词的逻辑就是对文本先进行主要分割，对每一个主要分割在进行次要分割。然后把所有分出来的词返回。

我们看看这段 code是如何运行的：

for term in segments('src_ip = 1.2.3.4'): 
 print term 
src 
1.2 
1.2.3.4 
src_ip 
3 
1 
1.2.3 
ip 
2 
= 
4

搜索

好了，有个分词和布隆过滤器这两个利器的支撑后，我们就可以来实现搜索的功能了。

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/7

首页

尾页