当前位置：

常山Bytespider是什么蜘蛛，如果屏蔽蜘蛛爬行

发布时间：2022-12-24

浏览量：23791次

网络爬虫（又被称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

为了让网站增加搜索引擎的收录，必须允许搜索引擎的抓取，大部分网站是允许并且欢迎搜索引擎来抓取的，除非一些特殊的网站会不允许抓取，但有时候，大量垃圾蜘蛛甚至爬虫访问很影响性能，特别是服务器配置不高的情况下，那么我们该怎样屏蔽掉垃圾蜘蛛呢？就必然本站最近一直出现一个 Bytespider 的的蜘蛛，不断的访问，造成服务器偶尔卡顿。必要时只能进行屏蔽蜘蛛，

一般来说，屏蔽蜘蛛的爬取有三种方法：

Robots 禁封
UA 禁封
IP 禁封
站长工具限制

一、Robots方式屏蔽

robots是网站跟爬虫间的协议，用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限，也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

下图说明 google、百度在抓取前访问了robots.txt，而后再进行首页的抓取，因此我们可以在robots.txt 中现在某些制作的抓取

Bytespider是什么蜘蛛，如果屏蔽蜘蛛爬行

robots.txt 屏蔽蜘蛛如下，更多可以参考robots规则，下面的屏蔽 Bytespider 抓取所有内容，禁止所有搜索引擎抓取 /admin/ 目录

User-agent: Bytespider
Disallow: /
User-agent: *
Disallow: /admin/

二、UA方式屏蔽，本例中是nginx服务器，通常不建议使用此方法

步骤
1、进入nginx的配置目录，例如cd /usr/local/nginx/conf

2、添加agent_deny.conf配置文件

#禁止Scrapy等工具的抓取
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
return 403;
}

#禁止指定UA及UA为空的访问
if ($http_user_agent ~ “FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|LinkpadBot|Ezooms|^$” )
{
return 403;
}
#禁止非GET|HEAD|POST方式的抓取
if ($request_method !~ ^(GET|HEAD|POST)$) {
return 403;
}

3、在网站相关配置文件中插入代码“include agent_deny.conf ;”。

location ~ [^/]\.php(/|$)
{
try_files $uri =404;
fastcgi_pass unix:/tmp/php-cgi.sock;
fastcgi_index index.php;
include fastcgi.conf;
include agent_deny.conf ;
}

4、重新加载nginx

/etc/init.d/nginx reload

三、禁止IP方式屏蔽蜘蛛，通常不建议使用此方法

IP方式屏蔽蜘蛛是指系统自带防火墙或第三方工具，拒绝蜘蛛 IP 连接，此措施最为严格，且针对有特定 IP 蜘蛛，如果 IP 是随机变动的， IP 禁封意义也不大。如果使用宝塔面板，可以直接在宝塔后台限制IP链接，也可以限制IP段。

四、站长工具方式屏蔽

有时候蜘蛛爬行过多、过快时，我们可以登录站长工具设置抓取的频率，百度站长工具可以设置。登录站长平台，可以设置每天最多抓取的次数，但不是所有的搜索引擎都有站长工具，所以此方式只能对百度有效，

Bytespider是什么蜘蛛，如果屏蔽蜘蛛爬行

一般来说，屏蔽蜘蛛的爬取有三种方法：

Robots 禁封
UA 禁封
IP 禁封
站长工具限制

一、Robots方式屏蔽

下图说明 google、百度在抓取前访问了robots.txt，而后再进行首页的抓取，因此我们可以在robots.txt 中现在某些制作的抓取

Bytespider是什么蜘蛛，如果屏蔽蜘蛛爬行

robots.txt 屏蔽蜘蛛如下，更多可以参考robots规则，下面的屏蔽 Bytespider 抓取所有内容，禁止所有搜索引擎抓取 /admin/ 目录

User-agent: Bytespider
Disallow: /
User-agent: *
Disallow: /admin/

二、UA方式屏蔽，本例中是nginx服务器，通常不建议使用此方法

步骤
1、进入nginx的配置目录，例如cd /usr/local/nginx/conf

2、添加agent_deny.conf配置文件

#禁止Scrapy等工具的抓取
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
return 403;
}

#禁止指定UA及UA为空的访问
if ($http_user_agent ~ “FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|LinkpadBot|Ezooms|^$” )
{
return 403;
}
#禁止非GET|HEAD|POST方式的抓取
if ($request_method !~ ^(GET|HEAD|POST)$) {
return 403;
}

3、在网站相关配置文件中插入代码“include agent_deny.conf ;”。

location ~ [^/]\.php(/|$)
{
try_files $uri =404;
fastcgi_pass unix:/tmp/php-cgi.sock;
fastcgi_index index.php;
include fastcgi.conf;
include agent_deny.conf ;
}

4、重新加载nginx

/etc/init.d/nginx reload

三、禁止IP方式屏蔽蜘蛛，通常不建议使用此方法

四、站长工具方式屏蔽

Bytespider是什么蜘蛛，如果屏蔽蜘蛛爬行

最后，大部分站长还是希望搜索引擎进行抓取的，只是不希望大量抓取是服务器被搞的卡顿或宕机，如果一刀切的进行屏蔽对收录也是有影响，换个角度想，我们可以优化程序，或者利用代码限制抓取的频次等等

常山做网站就找春秋科技，春秋科技是一家专注于常山网站建设、常山网站设计、常山网站制作、常山做网站、常山建网站等服务的常山网站建设公司。已成功帮助10000多家企业实现网上盈利，为企业提供常山网站建设一站式服务。

24小时服务热线：13733108860

返回列表

[声明]本网转载网络媒体稿件是为了传播更多的信息，此类稿件不代表本网观点，本网不承担此类稿件侵权行为的连带责任。故此，如果您发现本网站的内容侵犯了您的版权，请您的相关内容发至此邮箱【】，我们在确认后，会立即删除，保证您的版权。

当前位置：

常山Bytespider是什么蜘蛛，如果屏蔽蜘蛛爬行

资讯分类

最新发布

相关资讯