报告：互联网上，73%流量来自网络爬虫 | 恶意爬虫防控指南 - 极术社区

Arkose Labs 发布了 2023 年第三季度的《恶意爬虫报告》显示，2023年第三季度，恶意爬虫程序及欺诈流量占互联网流量73%。

恶意爬虫增长有两个原因：一是人工智能技术的普遍可用性，提高恶意爬虫的性能；二是黑灰产通过“犯罪即服务”（CaaS，Crime-as-a-Service）提高了攻击的商业普及，让发起新攻击的速度加快，进一步增加黑灰产的数量。

所谓“犯罪即服务”，就是借个人想要针对某个企业或组织进行攻击，但没有资源、技术或时间，可以付费让另一个人或组织发行网络攻击。也就是说，“犯罪即服务”让那些有攻击意图但没有技能的人成为网络违法者。

恶意爬虫的主要攻击方向

恶意爬虫被用于多种目的，主要用于窃取数据、欺诈用户或破坏服务。给各个领域带来了巨大的损失和风险，有些是跨行业的，有些是针对特定行业的。受恶意爬虫攻击最多的行业分别是：技术（76%）、游戏（29%）、社交媒体（46%）、电子商务（65%）和金融服务（45%）。

票务部门。这是恶意爬虫最常见的攻击对象之一，能够帮助组织和个人抢购门票，然后在黑市上高价转卖，导致正常消费者难以买到合理价格的门票。

金融机构。恶意爬虫通常会尝试入侵用户账户，进行金融诈骗或窃取敏感信息。此外，一些投资公司也利用网络爬虫机器人来获取竞争对手的数据和策略，以提高自己的投资和交易表现。例如，对冲基金会使用网络爬虫机器人来收集和分析库存水平、定价数据等非传统数据，以指导自己的投资决策。据报道，2020年对冲基金为此支付了20亿美元。

网络游戏。在线游戏则受到撞库机器人的侵扰，这些恶意爬虫试图盗取用户账户中的金钱或游戏物品，并在网上出售。

航空公司。航空公司流量中有25.9%来自恶意爬虫，而且航空公司的航班价格和座位被竞争对手或旅游中介抓取，影响了其收入和客户体验。更严重的是，一些黑灰产会利用恶意爬虫来窃取用户账户中累积的航空里程，并用于非法交易或兑换。

电商。电商网站中有18%的流量来自这些恶意爬虫，恶意爬虫用于内容抓取、账户接管、信用卡诈骗和各种优惠券。

社交资讯。恶意爬虫经常被用来进行内容抓取，不仅窃取内容并在其他渠道重新发布，还获取竞争对手的信息，以进行不公平的竞争。这不仅损害了合法网站的利益和声誉，还扭曲了整个网络生态系统。很多时候，网站可能会误以为自己的流量增加了，而实际上是受到了恶意爬虫的攻击。

窃取账号。撞库攻击是恶意爬虫另一个重要目的，使用弱密码或重复密码的账号很容易遭窃。

如何辨别恶意爬虫？

现在的恶意爬虫程序，具有随机 IP 地址、匿名代理、身份修改、模仿人类操作行为等特征，非常难检测和阻止。顶象防御云业务安全专家专家指出，可以在恶意爬虫的行为和属性进行分析识别。

一是访问目标。恶意爬虫的目的是获取网站、App的核心信息，比如用户数据、商品价格、评论内容等，因此它们通常只会访问包含这些信息的页面，而忽略其他无关的页面。

二是访问行为。恶意爬虫是由程序自动执行的，按照预设的流程和规则进行访问，因此它们的行为具有明显的规律性、节奏性和一致性，与正常用户的随机性、灵活性和多样性有很大差异。

三是访问设备。恶意爬虫的目标是在最短时间内抓取最多信息，因此它们会使用同一设备进行大量的访问操作，包括浏览、查询、下载等，这会导致该设备的访问频率、时长、深度等指标异常。

四是访问IP地址。恶意爬虫为了避免被网站识别和封禁，会采用各种手段变换IP地址，比如使用云服务、路由器、代理服务器等。这会导致该IP地址的来源地域、运营商、网络类型等信息不一致，或者与正常用户的分布有明显偏差。

五是访问时间段。恶意爬虫为了减少被发现的风险，通常会选择在网站流量较低、监控较弱的时间段进行批量爬取，比如深夜、凌晨等。这会导致该时间段内的访问量、带宽占用等指标异常。

六是大数据建模挖掘。通过对网站正常用户和恶意爬虫的访问数据进行收集、处理、挖掘和建模，可以构建出专属于网站自身的爬虫识别模型，从而提高识别准确率和效率。

有效的防控手段

恶意爬虫的攻击手段也日益智能化和复杂化，仅仅依靠限制访问频率或者前端页面加密已经难以有效防御，需要提升人机识别技术，增加黑产的识别和拦截能力，以限制机器人对其人类或系统目标的访问，提高恶意爬虫的攻击成本。顶象为企业提供了全流程的立体防控方案，能够有效防范恶意爬取行为。

首先，利用顶象防御云对平台和App的运行环境进行定期检测和安全加固，并对App和客户端进行代码混淆、加壳等保护措施，对通讯链路进行加密传输，保障端到端全链路的安全性。

其次，基于部署基于顶象防御云和顶象Dinsight风控引擎，通过大数据匹配和追踪，进行多维度和深层次的分析，准确识别出异常行为，实现对恶意爬虫的精准识别和拦截。

其中，顶象防御云的智能验证码利用人工智能技术，能够有效阻挡恶意爬虫盗用、盗取数据行为，并能够在注册、登录、查询等关键环节，对恶意账号、恶意爬取行为进行实时的核验、判定和拦截。顶象防御云的设备指纹技术，则能够对代码注入、hook、模拟器、云手机、root、越狱等风险做到有效监控和拦截，通过设备唯一标识符，实现对设备的精准识别和风险评估。

顶象Dinsight风控引擎则是根据业务查询场景的请求、客户端采集的设备指纹信息、用户行为数据等多维度信息，实现对恶意爬虫行为的有效识别，基于安全防控策略，有效地对恶意爬取行为进行识别和拦截。

最后，基于顶象Xintelll智能模型平台，对风险数据和业务数据进行深度分析，进一步挖掘潜在风险，并构建专属风控模型，实现安全策略的实时更迭，更有效拦截各种恶意攻击。

业务安全产品：免费试用

业务安全交流群：加入畅聊

报告：互联网上，73%流量来自网络爬虫 | 恶意爬虫防控指南

推荐阅读

顶象

目录