首页 蜘蛛爬虫 禁止的垃圾蜘蛛,网站优化加速屏蔽国外垃圾无用蜘蛛,防止抓取导致带宽占用!

禁止的垃圾蜘蛛,网站优化加速屏蔽国外垃圾无用蜘蛛,防止抓取导致带宽占用!

经常会被一些网络恶意垃圾蜘蛛或网络爬虫骚扰,导致自己的流量整天被刷,有的更夸张的是每天被几十个垃圾爬虫和蜘蛛不断刷自己流量,直接导致网站宕机都有可能出现。下面虾皮路就分享一下屏蔽恶意垃圾蜘蛛爬虫从而加速网站访问,保护网站不被恶意刷流量。..

常见的网络恶意垃圾爬虫蜘蛛

1、MJ12Bot

MJ12Bot 是英国著名SEO公司Majestic的网络爬虫,其抓取网页给需要做SEO的人用,不会给网站带来流量。

2、AhrefsBot

AhrefsBot 是知名SEO公司Ahrefs的网页爬虫。其同样抓取网页给SEO专业人士用,不会给网站带来流量。

3、SEMrushBot

SEMrushBot 也是SEO、营销公司的网络爬虫。

4、DotBot

DotBot 是 Moz.com 的网页爬虫,抓取数据用来支持 Moz tools 等工具。

5、MauiBot

MauiBot 不同于其他爬虫,这个爬虫连网站都没有,UA只显示一个邮箱:”MauiBot (crawler.feedback+wc@gm ail.com)“。神奇的是这个看起来是个人爬虫,竟然遵循robots协议,算得上垃圾爬虫的一股清流。

6、MegaIndex.ru

这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。

7、BLEXBot

这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议。

建站需要禁止的垃圾蜘蛛名单!毫无用处浪费服务器宽带资源。

第一种办法,伪静态

在宝塔的伪静态中插入

if ( $http_user_agent ~ AhrefsBot ){

   return 403;

}

if ( $http_user_agent ~ YandexBot ){

   return 403;

}

if ( $http_user_agent ~ MJ12bot ){

   return 403;

}

if ( $http_user_agent ~ DotBot ){

   return 403;

}

if ( $http_user_agent ~ RU_Bot ){

   return 403;

}

if ( $http_user_agent ~ Ezooms ){

   return 403;

}

if ( $http_user_agent ~ Yeti ){

   return 403;

}

if ( $http_user_agent ~ BLEXBot ){

   return 403;

}

if ( $http_user_agent ~ Exabot ){

   return 403;

}

if ( $http_user_agent ~ YisouSpider ){

   return 403;

}

if ( $http_user_agent ~ sandcrawlerbot ){

   return 403;

}

if ( $http_user_agent ~ ShopWiki ){

   return 403;

}

if ( $http_user_agent ~ Genieo ){

   return 403;

}

if ( $http_user_agent ~ Aboundex ){

   return 403;

}

if ( $http_user_agent ~ coccoc ){

   return 403;

}

if ( $http_user_agent ~ MegaIndex ){

   return 403;

}

if ( $http_user_agent ~ spbot ){

   return 403;

}

if ( $http_user_agent ~ SemrushBot ){

   return 403;

}

if ( $http_user_agent ~ TwengaBot ){

   return 403;

}

if ( $http_user_agent ~ SEOkicks-Robot ){

   return 403;

}

if ( $http_user_agent ~ WordPress ){

   return 403;

}

if ( $http_user_agent ~ BUbiNG ){

   return 403;

}

if ( $http_user_agent ~ PetalBot ){

   return 403;

}

if ( $http_user_agent ~ Adsbot ){

   return 403;

}

if ( $http_user_agent ~ NetcraftSurveyAgent ){

   return 403;

}

if ( $http_user_agent ~ Barkrowler ){

   return 403;

}

if ( $http_user_agent ~ serpstatbot ){

   return 403;

}

if ( $http_user_agent ~ MegaIndex.ru ){

   return 403;

}

if ( $http_user_agent ~ DataForSeoBot ){

   return 403;

}

if ( $http_user_agent ~ Amazonbot ){

   return 403;

}

if ( $http_user_agent ~ ClaudeBot ){

   return 403;

}

if ( $http_user_agent ~ GPTBot ){

   return 403;

}

=========================

在所有的伪静态前面插入!


第二个办法:创建robots.txt,插入以下代码

User-agent: AhrefsBot

Disallow: /

User-agent: YandexBot

Disallow: /

User-agent: DotBot

Disallow: /

User-agent: RU_Bot

Disallow: /

User-agent: Yeti

Disallow: /

User-agent: BLEXBot

Disallow: /

User-agent: YisouSpider

Disallow: /

User-agent: sandcrawlerbot

Disallow: /

User-agent: Genieo

Disallow: /

User-agent: Aboundex

Disallow: /

User-agent: MegaIndex

Disallow: /

User-agent: spbot

Disallow: /

User-agent: TwengaBot

Disallow: /

User-agent: SEOkicks-Robot

Disallow: /

User-agent: BUbiNG

Disallow: /

User-agent: PetalBot

Disallow: /

User-agent: NetcraftSurveyAgent

Disallow: /

User-agent: Barkrowler

Disallow: /

User-agent: MegaIndex.ru

Disallow: /

User-agent: DataForSeoBot

Disallow: /

User-agent: ClaudeBot

Disallow: /

User-agent: GPTBot

=======================

第一个方法垃圾蜘蛛访问直接403禁止访问!

第二个方法是直接告诉他不欢迎他。

站心网

常见的网络恶意垃圾爬虫蜘蛛1、MJ12BotMJ12Bot 是英国著名SEO公司Majestic的网络爬虫,其抓取网页给需要做S..

为您推荐

搜索引擎蜘蛛IP地址大全

搜索引擎ASN数据iP段iP归属地Spider & Robot UserAgent相关资料百度 baidu.comAS4808AS4808AS4808AS55967AS23724AS23724AS23724AS4134AS4837AS4837AS13770261.135.0.0/16123.125.0.0/16111.206.0.0/16180.76.0.0/201..

Crawlee 下一代网络爬虫与浏览器自动化工具

在数字化时代,数据是企业决策和创新的基石。网络爬虫作为获取数据的重要工具,其重要性不言而喻。今天,我们将深入探讨Crawlee,一个为Node.js环境设计的先进网络爬虫和浏览器自动化库,它如何帮助开发者构建快速、..

c# 爬虫组件有哪些?

在C#中,有许多用于构建爬虫(网络爬虫)的组件和库,它们可以帮助您从网页上抓取数据。以下是一些常用的C#爬虫组件和库:HtmlAgilityPack:这是一个流行的HTML解析库,可用于从HTML页面中提取数据。它可以帮助您遍..

网站防止爬虫采集的方法有哪些?

网站防采集是一种常见的保护措施,用于防止恶意程序或自动化工具通过抓取网站上的数据。以下是一些常见的网站防采集方法:Robots.txt文件:通过在网站根目录下放置robots.txt文件,可以告诉搜索引擎爬虫或其他抓取工..

通过Linux命令分析Nginx日志得知百度蜘蛛的爬行情况

前言做网站的目的就是将自己的信息展示给目标用户,最直接的就是通过搜索引擎搜索展示。针对搜索引擎也需要优化,也就是我们说的SEO优化,新站长可能会特别关注蜘蛛爬行的次数、频率等,而做好网站SEO优化的第一步就..

开源高性能.NET爬虫框架Abot用法示例

Abot简介Abot 是一个开源的 C# 网络爬虫框架,它的特点是速度快和灵活。 它负责低级管道(多线程、http 请求、调度、链接解析等)。开发者只需要注册事件即可处理页面数据。功能特性免费开源轻量级,速度快支持定制..

发表回复

返回顶部