这些正则表达式规则主要用于Web服务器或安全系统(如WAF)的User-Agent过滤,旨在识别并拦截自动化工具、恶意爬虫、漏洞扫描器等非人类流量,从而提升网站安全性和资源保护。以下是分点总结:
核心作用
安全防护
拦截黑客工具(sqlmap, nmap, BurpSuite)防止渗透测试攻击。
阻止漏洞扫描器(nikto, owasp, Acunetix)减少系统暴露风险。
屏蔽暴力破解工具(hydra)保护登录接口。
资源保护
限制数据采集器(HTTrack, Scrapy)防止内容爬取。
过滤云厂商IP(AWS SDK, DigitalOcean)避免滥用和爬虫干扰。
拦截AI爬虫(GPTBot, openai)保护版权内容。
流量优化
放行主流搜索引擎(Googlebot, Bingbot)确保SEO收录。
阻止低价值爬虫(BLEXBot, DotBot)节省服务器资源。
规则分类解析
类别 典型匹配对象 示例关键词
安全扫描工具 渗透测试、漏洞扫描 nmap, sqlmap, Metasploit, BurpSuite
自动化工具/框架 脚本、API调试工具 python-requests, Postman, curl
数据爬虫 网站镜像、内容采集 HTTrack, webprosbot, SurdotlyBot
搜索引擎与商业爬虫 SEO友好爬虫 vs 广告分析 Googlebot(允许) vs SemrushBot(拦截)
云服务/厂商 云服务器IP、监控服务 AWS SDK, YandexBot, Azureus
可疑UA特征 高风险关键词(如hack, exploit) hidden, exploit, scan
优化建议
去重合并
移除重复项(如nmap同时出现在#安全扫描工具和#关键词过滤1)。
性能优化
使用锚点(如^Googlebot$)减少误匹配。
启用正则表达式忽略大小写(/i标志)覆盖变体(如hydra vs Hydra)。
补充遗漏项
增加新兴AI爬虫(Claude-ai, Midjourney-Bot)。
补充国内爬虫(如Baiduspider, Sogou)。
误杀规避
避免通用词(如scan可能误伤合法服务)。
区分合法工具(如python-requests可能是正常API调用)。
动态更新机制
定期同步公开威胁情报(如OWASP恶意UA列表)。
结合IP黑名单和速率限制增强防御。
#关键词过滤1 (HTTrack|Apache-HttpClient|harvest|audit|dirbuster|pangolin|nmap|sqln|hydra|Parser|libwww|BBBike|sqlmap|w3af|owasp|Nikto|fimap|havij|zmeu|BabyKrokodil|netsparker|httperf| SF/) #可疑UA特征 (hidden|secret|scan|hack|exploit) #新增扫描器 (zap|arachni|wpscan|skipfish) #社交媒体爬虫 (Twitterbot|facebookexternalhit|Facebot|LinkedInBot) #搜索引擎 & 商业爬虫 (Googlebot|GoogleOther|Adsbot|Bingbot|DuckDuckBot|Bytespider|zhanzhang\.toutiao|Barkrowler|BLEXBot|MegaIndex|MJ12bot|AhrefsBot|SemrushBot|DataForSeoBot|dataforseo|DotBot|Web-Crawler|ExtLinksBot) #安全扫描工具 (nmap|hydra|sqln|sqlmap|nikto|w3af|dirbuster|netsparker|havij|owasp|ZAP|BurpSuite|acunetix|nessus|Metasploit) #自动化工具/框架 (Apache-HttpClient|Go-http-client|python-requests|Scrapy|curl|PostmanRuntime|Paw|HTTPie|okhttp|RestSharp) #数据采集器 (HTTrack|harvest|audit|fimap|webprosbot|SurdotlyBot|msray-plus|iaskspider|RepoLookoutBot|CensysInspect) #云服务/厂商 (AWS SDK|Amazonbot|aws-sdk-java|alibaba|YandexBot|DigitalOcean|Linode|Azureus|EC2|GCE) #网络扫描/监控 (Masscan|zmap|Nessus|OpenVAS|SolarWinds|PaloAlto|Sophos|Fortinet|Cisco) #开发调试工具 (Postman|Fiddler|Wget|WinHTTP|Synapse|Electron|PhantomJS|SlimerJS|CefClient) #AI相关 (ChatGLM|GPTBot|openai|GPT-4|Claude-ai) #其他常见需要过滤的 (SP-engine|Shuame|Ezooms|FlightDeckReports|InternetMeasurement|WebDAV|WebScarab) #协议库/通用组件 (libwww|libcurl|fasthttp|axios|Java|PHP|Python|Ruby|Perl|Node\.js|Go |\.NET) #桌面/服务器系统 (CrOS|X11; Linux|FreeBSD|ArchLinux|Ubuntu; Mobile)
宝塔防火墙配置方式如下