从315晚会个人简历泄露，谈如何防范非法数据爬取

以“提振消费，从心开始”为主题的“3·15”晚会揭露了招聘平台上的“黑色产业链”，等多家招聘平台存在严重泄露求职者简历现象，并已形成上下游产业链。

根据晚会节目曝光，不法分子一方面通过企业账户获取简历，另一方面通过各种渠道批量购买简历，由此大量的个人简历信息源源不断地流入了不法分子的黑手。各地警方已破获多起类似信息泄露的案件，在其中一个嫌疑人的一块硬盘当中，存储的这种公民简历数量就有700多万条。

简历不仅是个人隐私信息更是数据。通过对数据的梳理、加工、分析、挖掘，让数据包含的价值“活”起来，让个体的形象立体起来，不仅能够帮助人们更好地组织和规划生产经营，更能有效地进行判断和预测。

多个行业存在非法盗取数据的行为

在数字化逐步普及的今天，数据是企业重要资产。非法爬取、盗用、盗取的爬取行为，不仅造成企业数字资产损失，带来直接的经济损失，更消耗了平台服务和带宽资源，影响业务健康发展。

非法盗取数据背后是恶意网络爬虫，简单来说就是一个自动抓取网络数据的程序，比如搜索引擎大量使用的就是这种技术。网络爬虫技术的难度并不高，不过技术本身也没有好坏善恶的分别，而是要看技术使用者是如何去使用：什么数据可以“爬”，什么数据不该“爬”，并且是不是在用户知情和同意的情况下去“爬”，“爬”到的数据有没有很好地加密以防止被窃取。

非法盗取数据主要有以下危害：

泄露用户隐私：非法爬取政务和企业的敏感信息，造成用户隐私数据泄露。例如，非法盗取金融机构个人信息、招聘网站简历数据、App或网站用户账号密码，然后进行转售牟利等。

影响业务运营：非法爬取企业业务数据，影响业务的正常运营。例如，非法爬取航空公司的航线、航班、票务数据、哄抢低价机票进行加价倒卖等。

带来资产损失：非法爬取平台独有的数据，不仅造成资产损失，用户流失，更破坏了商业生态。例如，非法盗取视频网站内容、教育品平台课程、文学网站的小说、咨询平台的报告等。

非法盗取数据的几个技术特征

非法盗取数据的恶意爬虫主要有以下几个特征：

第一、访问的目标网页比较集中：爬虫主要是爬取核心信息，因此只浏览访问几个固定页面，不访问其他页面。

第二、行为很有规律：由于爬虫是程序化操作，按照预先设定的流程进行访问等，因此呈现出有规律、有节奏且统一的特征。

第三、同一设备上有规模化的访问和操作：爬虫的目的是最短时间内抓取最多信息，因此同一设备会有大量离散的行为，包括访问、浏览、查询等。

第四、访问来源IP地址异常：爬虫的IP来源地址呈现不同维度上的聚集，而且浏览、查询、购票等操作时不停变换IP地址。

第五、频繁使用模拟浏览器和频繁使用代理IP：很多爬虫程序伪装成浏览器进行访问，比如在程序头或者UA中默认含有类似python-requests/2.18.4等固定字符串；并且通过购买或者租用的云服务、改造路由器、租用IP代理、频繁变更代理IP等进行访问。

第六、操作多集中非业务时间段：爬虫程序运行时间多集中在无人值守阶段。此时系统监控会放松，而且平台的带宽等资源占用少，爬虫密集的批量爬取不会对带宽、接口造成影响。

企业如何防范非法盗取数据

防范非法盗取数据的关键就是有效辨别爬虫行为，进而及时阻断拦截。传统的防御手段是通过IP和验证码进行限制，但是这两类手段有非常大的局限性。

通过IP地址进行限制：当同一IP、同一电脑在一定时间内访问网站的次数，系统自动限制其访问浏览等。但是，封禁IP的手段可能误伤真实用户，而且“爬虫”幕后的运营者随时可用购买或者租用的云服务、改造路由器、租用IP代理、频繁变更代理IP等方法绕过封禁的规则。

通过验证码进行限制：当某一用户访问次数过多后，就自动让请求跳转到一个验证码页面，只有在输入正确的验证码之后才能继续访问网站。但是设置复杂的验证码会影响用户操作，给客户体验带来负面作用。

顶象反爬解决方案提供动态策略的纵深防护，避免恶意爬虫的单点绕过，提供多维度防御，有效拦截各种恶意爬虫风险，且不影响正常用户体验。

以某航空公司为例。在部署顶象反爬解决方案后，该航空公司的B2C平台上99%的恶意爬虫请求被直接拦截，正常用户访问占比提高至90%，访问效率提高10倍以上，用户体验满意度上升21%，每年为航空公司节省89%的查询开支。

顶象是一家以大规模风险实时计算技术为核心的业务安全公司，已帮助1400多家企业构建自主可控的风险安全体系，实现业务可持续的增长。

多个行业存在非法盗取数据的行为

非法盗取数据的几个技术特征

企业如何防范非法盗取数据

推荐阅读

目录