网站信息安全之反爬虫策略

栏目: 编程工具 · 发布时间: 7年前

内容简介:恶意的网络爬虫行为在网络数据采集的过程中不仅会占用网络带宽、消耗机器资源,甚至会影响正常用户对网站服务的访问速度,导致网站出现无法访问的情况,更有可能窃取网站的核心数据。因此,通常情况下针对爬虫采集策略制定相应的网站反爬虫策略,可以从源头上阻止恶意爬虫对网站的访问,对于维护网站系统的稳定和数据保护具有重要的现实意义。网络爬虫是什么?网络爬虫(Web Spider)又称网络蜘蛛,是通过模拟浏览器的方式对目标网站发起请求,从而实现自动抓取特定规则下互联网信息的程序或者脚本的一种技术。

恶意的网络爬虫行为在网络数据采集的过程中不仅会占用网络带宽、消耗机器资源,甚至会影响正常用户对网站服务的访问速度,导致网站出现无法访问的情况,更有可能窃取网站的核心数据。因此,通常情况下针对爬虫采集策略制定相应的网站反爬虫策略,可以从源头上阻止恶意爬虫对网站的访问,对于维护网站系统的稳定和数据保护具有重要的现实意义。

网络爬虫是什么?

网络爬虫(Web Spider)又称网络蜘蛛,是通过模拟浏览器的方式对目标网站发起请求,从而实现自动抓取特定规则下互联网信息的程序或者脚本的一种技术。

网站信息安全之反爬虫策略

恶意的网络爬虫行为在网络数据采集的过程中不仅会占用网络带宽、消耗机器资源,甚至会影响正常用户对网站服务的访问速度,导致网站出现无法访问的情况,更有可能窃取网站的核心数据。因此,网站维护者与网络爬虫程序编写者之间无时无刻不在进行着攻与防的对决。

网站的反爬虫策略都有哪些?

1. 基于数据包字段的反爬虫策略

数据包Headers是区分浏览器和正常用户操作行为的主要标识字段,可以通过检测数据包Headers中的User-Agent和Referer字段作为判别是否为爬虫的重要手段。

2. 基于用户行为的反爬虫策略

通过检测用户行为,可以发现同一IP短时间内多次访问同一页面或者同一账户短时间内多次进行相同操作。一般爬虫可采用IP代理躲避网站检测或限制访问频率躲避检测。

3. 基于网站流量统计和日志分析的反爬虫策略

通过分析日志的方式来识别网页爬虫不是一个实时的反爬虫策略。可以通过部署的网站流量系统记录的真实用户访问IP来进行识别,对于短期内出现大量访问的行为可在参考流量系统分析结果结合人工判别的情况下,有选择地加入黑名单;此外还可以通过网络设备(路由器、防火墙等)限制网站被访问的网段,但基于网络设备依靠IP识别做阻断,误伤概率较高。

(文章来源:《保密科学技术》,作者:黄克敏/贵州航天计量测试技术研究所;文中图片来源:百度图库)

声明:本文来自保密科学技术,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如需转载,请联系原作者获取授权。


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Visual C#从入门到精通(第8版)

Visual C#从入门到精通(第8版)

夏普 (John Sharp) / 周靖 / 清华大学出版社 / 2016-6-1

《Visual C#从入门到精通(第8版)》共27章,结构清晰,叙述清楚。所有练习均在Visual Studio 2015简体中文版上进行过全面演练。无论是刚开始接触面向对象编程的新手,还是打算迁移到C#的C、C++或Java程序员,都可以从《Visual C#从入门到精通(第8版)》汲取到新的知识。迅速掌握C#编程技术。一起来看看 《Visual C#从入门到精通(第8版)》 这本书的介绍吧!

MD5 加密
MD5 加密

MD5 加密工具

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具