没有爬虫，就没有今天的搜索引擎

发布时间：2019-09-27 06:35:47 所属栏目：建站来源：DataHunter

导读：副标题#e# 在如今信息化、数字化的时代，人们已经离不开网络搜索了，但细想一下，你在搜索过程中能够真正获得相关信息，是因为有人在帮你把与之相关的内容筛选和呈递到你面前了。就像在饭店里，你点了土豆并且能吃到，是因为有人帮你在土豆、萝卜、西红柿

(3)在爬行过程中，会爬取到一些新的URL，此时，需要根据所定的主题使用链接过滤模块过滤掉无关链接，再将剩下来的URL链接根据主题使用链接评价模块或内容评价模块进行优先级的排序。完成后，将新的URL地址传递到URL队列中，供页面爬行模块使用;

(4)将页面爬取并存放到页面数据库后，需要根据主题使用页面分析模块对爬取到的页面进行页面分析处理，并根据处理结果建立索引数据库，用户检索对应信息时，可以从索引数据库中进行相应的检索，并得到对应的结果。

3.增量式网络爬虫

这里的“增量式”对应着增量式更新，增量式更新指的是在更新的时候只更新改变的地方，而未改变的地方则不更新。

增量式网络爬虫，在爬取网页的时候，只爬取内容发生变化的网页或者新产生的网页，对于未发生内容变化的网页，则不会爬取。增量式网络爬虫在一定程度上能够保证所爬取的页面，尽可能是新页面。

4.深层网络爬虫

在互联网中，网页按存在方式分类可分为表层页面和深层页面。表层页面指的是不需要提交表单，使用静态的链接就能够到达的静态页面;而深层页面是需要提交一定的关键词之后才能够获取得到的页面。而在互联网中，深层页面的数量往往比表层页面的数量要多很多。

深层网络爬虫可以爬取互联网中的深层页面，爬取深层页面，需要想办法自动填写好对应表单。深层网络爬虫主要由URL列表、LVS列表(LVS指的是标签/数值集合，即填充表单的数据源)、爬行控制器、解析器、LVS控制器、表单分析器、表单处理器、响应分析器等部分构成。

在前面我们说过网络爬虫算法是根据人们施加的规则去采集信息，而由于网络复杂的环境，所以相应的也有各种不同算法，也就是爬取策略。这里我们主要介绍下爬取的顺序与频率。

1.爬取顺序

在网络爬虫爬取的过程中，在带爬取的URL列表中可能有很多URL地址，那么爬虫爬取这些URL地址就会有先后顺序。

相对于通用网络爬虫，爬取的顺序并不是那么重要。但聚焦网络爬虫，爬取的顺序与服务器资源和宽带资源有关，所以非常重要，一般由爬行策略决定。爬行策略主要有深度优先爬行策略、广度优先爬行策略、大站优先策略、反链策略、其他爬行策略等。

如图所示，假设有一个网站，ABCDEFG分别为站点下的网页，如图所示表示网页的层次结构。假如此时网页ABCDEFG都在爬行队列中，那么按照不同的爬行策略，其爬取的顺序是不同的。

深度优先爬行策略：A→D→E→B→C→F→G

广度优先爬行策略：A→B→C→D→E→F→G

除了以上两种爬行策略之外，还可以采用大站爬行策略。可以按对应网页所属的站点进行归类，如果某个网站的网页数量多，则将其称为大站，按照这种策略，网页数量越多的网站越大，然后，优先爬取大站中的网页URL地址。

另外还有反链策略，一个网页的反向链接数，指的是该网页被其他网页指向的次数，这个次数在一定程度上代表着该网页被其他网页的推荐次数。所以，如果按反链策略去爬行的话，那么哪个网页的反链数量越多，则哪个网页将被优先爬取。

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!