顶象学院首页>文章详情

从315晚会个人简历泄露,谈如何防范非法数据爬取

2021-03-23|小象 5141

以“提振消费,从心开始”为主题的“3·15”晚会揭露了招聘平台上的“黑色产业链”,等多家招聘平台存在严重泄露求职者简历现象,并已形成上下游产业链。

根据晚会节目曝光,不法分子一方面通过企业账户获取简历,另一方面通过各种渠道批量购买简历,由此大量的个人简历信息源源不断地流入了不法分子的黑手。各地警方已破获多起类似信息泄露的案件,在其中一个嫌疑人的一块硬盘当中,存储的这种公民简历数量就有700多万条。

简历不仅是个人隐私信息更是数据。通过对数据的梳理、加工、分析、挖掘,让数据包含的价值“活”起来,让个体的形象立体起来,不仅能够帮助人们更好地组织和规划生产经营,更能有效地进行判断和预测。

undefined

多个行业存在非法盗取数据的行为

在数字化逐步普及的今天,数据是企业重要资产。非法爬取、盗用、盗取的爬取行为,不仅造成企业数字资产损失,带来直接的经济损失,更消耗了平台服务和带宽资源,影响业务健康发展。

非法盗取数据背后是恶意网络爬虫,简单来说就是一个自动抓取网络数据的程序,比如搜索引擎大量使用的就是这种技术。网络爬虫技术的难度并不高,不过技术本身也没有好坏善恶的分别,而是要看技术使用者是如何去使用:什么数据可以“爬”,什么数据不该“爬”,并且是不是在用户知情和同意的情况下去“爬”,“爬”到的数据有没有很好地加密以防止被窃取。

非法盗取数据主要有以下危害:

泄露用户隐私:非法爬取政务和企业的敏感信息,造成用户隐私数据泄露。例如,非法盗取金融机构个人信息、招聘网站简历数据、App或网站用户账号密码,然后进行转售牟利等。

undefined

影响业务运营:非法爬取企业业务数据,影响业务的正常运营。例如,非法爬取航空公司的航线、航班、票务数据、哄抢低价机票进行加价倒卖等。

带来资产损失:非法爬取平台独有的数据,不仅造成资产损失,用户流失,更破坏了商业生态。例如,非法盗取视频网站内容、教育品平台课程、文学网站的小说、咨询平台的报告等。

非法盗取数据的几个技术特征

非法盗取数据的恶意爬虫主要有以下几个特征:

undefined

第一、访问的目标网页比较集中:爬虫主要是爬取核心信息,因此只浏览访问几个固定页面,不访问其他页面。

第二、行为很有规律:由于爬虫是程序化操作,按照预先设定的流程进行访问等,因此呈现出有规律、有节奏且统一的特征。

第三、同一设备上有规模化的访问和操作:爬虫的目的是最短时间内抓取最多信息,因此同一设备会有大量离散的行为,包括访问、浏览、查询等。

第四、访问来源IP地址异常:爬虫的IP来源地址呈现不同维度上的聚集,而且浏览、查询、购票等操作时不停变换IP地址。

第五、频繁使用模拟浏览器和频繁使用代理IP:很多爬虫程序伪装成浏览器进行访问,比如在程序头或者UA中默认含有类似python-requests/2.18.4等固定字符串;并且通过购买或者租用的云服务、改造路由器、租用IP代理、频繁变更代理IP等进行访问。

第六、操作多集中非业务时间段:爬虫程序运行时间多集中在无人值守阶段。此时系统监控会放松,而且平台的带宽等资源占用少,爬虫密集的批量爬取不会对带宽、接口造成影响。

企业如何防范非法盗取数据

防范非法盗取数据的关键就是有效辨别爬虫行为,进而及时阻断拦截。传统的防御手段是通过IP和验证码进行限制,但是这两类手段有非常大的局限性。

通过IP地址进行限制:当同一IP、同一电脑在一定时间内访问网站的次数,系统自动限制其访问浏览等。但是,封禁IP的手段可能误伤真实用户,而且“爬虫”幕后的运营者随时可用购买或者租用的云服务、改造路由器、租用IP代理、频繁变更代理IP等方法绕过封禁的规则。

通过验证码进行限制:当某一用户访问次数过多后,就自动让请求跳转到一个验证码页面,只有在输入正确的验证码之后才能继续访问网站。但是设置复杂的验证码会影响用户操作,给客户体验带来负面作用。

顶象反爬解决方案提供动态策略的纵深防护,避免恶意爬虫的单点绕过,提供多维度防御,有效拦截各种恶意爬虫风险,且不影响正常用户体验。

以某航空公司为例。在部署顶象反爬解决方案后,该航空公司的B2C平台上99%的恶意爬虫请求被直接拦截,正常用户访问占比提高至90%,访问效率提高10倍以上,用户体验满意度上升21%,每年为航空公司节省89%的查询开支。

顶象是一家以大规模风险实时计算技术为核心的业务安全公司,已帮助1400多家企业构建自主可控的风险安全体系,实现业务可持续的增长。

加入社群

扫码进群领
【业务安全】资料礼包

在线咨询
400-878-6123