SEO中Spider可以分为几类？

技术文章 2020-05-10 23:34:35 65

摘要

按照现在网络上所有Spider的作用及表现出来的特征，可以将其分为三类：批最型Spider、增量型Spider和垂直型Spider。1.批量型Spider一般具有明显的抓取范围和目标，设置抓取时间的限制、抓取数据量的限制，或抓取固定范围内页……

按照现在网络上所有Spider的作用及表现出来的特征，可以将其分为三类：批最型Spider、增量型Spider 和垂直型Spider。

1.批量型Spider

一般具有明显的抓取范围和目标，设置抓取时间的限制、抓取数据量的限制，或抓取固定范围内页面的限制等。当Spider的作业达到预先设置的目标就会停止。普通站长和SEO人员使用的采集工具或程序，所派出的Spider大都属于批量型Spider，一般只抓取固定网站的固定内容，或者设置对某一资源的固定目标数据量，当抓取的数据或者时间达到设置限制后就会自动停止，这种Spider就是很典型的批量型Spider。

2.增量型Spider

增量型Spider也可以称之为通用爬虫。一般可以称为搜索引擎的网站或程序，使用的都是增量型Spider，但是站内搜索引擎除外，自有站内搜索引擎一般是不需要Spidcr的，增量型Spider和批量型Spider不同，没有固定目标、范围和时间限制，一般会无休止地抓取下去，直到把全网的数据抓完为止。增量型Spider不仅仅抓取尽可能全的页面，还要对已经抓取到的页面进行相应的再次抓取和更新。因为整个互联网是在不断变化的，单个网页上的内容可能会随着时间的变化不断更新，甚至在一定时间之后该页面会被剧除，优秀的增量型Spider需要及时发现这种变化，并反映给搜索引攀后续的处理系统，对该网页进行重新处理。当下百度、Google网页搜索等全文搜索引擎的Spider，一般都是增量型Spider。

3.垂直型Spider

垂直型Spider也可以称之为聚焦爬虫，只对特定主题、特定内容或特定行业的网页进行抓取，一般都会聚焦在某一个限制范围内进行增量型的抓取。此类型的Spider不像增量型Spider一样追求大而广的覆盖面，而是在增最型Spider上增加一个抓取网页的限制，根据需求抓取含有目标内容的网页，不符合要求的网页会直接被放弃抓取。对于网页级别纯文本内容方面的识别，现在的搜索引擎Spider 还不能百分之百地进行准确分类，并且垂直型Spider 也不能像增量型Spider那样进行全互联网爬取，因为那样太浪费资源。所以现在的垂直搜索引擎如果有附属的增量型Spider，那么就会利用增量型Spider以站点为单位进行内容分类，然后再派出垂直型Spider抓取符合自己内容要求的站点：没有增量型Spider作为基础的垂直搜索引擎，一般会采用人工添加抓取站点的方式来引导垂直型Spider作业。当然在同一个站点内也会存在不同的内容，此时垂直型Spider也需要进行内容判断，但是工作量相对来说已经缩减优化了很多。现在一淘网、优酷下的搜库、百度和Google等大型搜索引擎下的垂直搜索使用的都是垂直型Spider。

虽然现在使用比较广泛的垂直型Spider对网页的识别度已经很高，但是总会有些不足，这也使得垂直类搜索引擎上的SEO有了很大空间。