非法爬取简历、网贷、淘宝……还有啥信息不扒不卖
此前,有不少用户反映裁判文书网网站运行速度慢,故障频繁,经常出现页面无法显示的问题,今年2月,最高人民法院在其官网答复称,出现此问题的原因在于有大量技术公司通过爬虫系统无限制并发访问非法获取裁判文书数据,造成网站负荷过大。针对此问题,最高法表示自2018年7月起以验证码的方式上线系统软件防爬功能。 而除了裁判文书网,南都记者发现,一些付费网站的数据也同样能被爬取,二手平台上有不少卖家出售知网、万方、知识库;维普等文献期刊数据,“全库数据爬虫抓取,2元起”。 背景 非法爬取“大数据”已呈公司化运营 去年8月,南都联合阿里安全部发布的《2018网络黑灰产治理研究报告》显示,2017年我国网络安全产业规模为450多亿元,而黑灰产已达近千亿元规模。在网络黑灰产的整条产业链中,利用各种手段爬取、窃取或者通过买卖的方式获得个人信息,成为黑灰产获利的主要方式,由此滋生出的电信诈骗、敲诈勒索等下游违法犯罪行为,对公民个人信息安全、财产安全造成严重威胁,成为侵蚀互联网经济正常运转的毒瘤。 今年4月,北京警方破获的巧达科技非法获取计算机信息系统数据案引发关注。这个号称中国最大的简历大数据公司,专业提供招聘工具软件和大数据分析服务,拥有一系列的人力资源类大数据产品,包括乔大招、妙招网及爱伙伴等,还曾获得天使轮、A轮和B轮融资,资方包括李开复的创新工场、中信产业基金等。 据警方披露,2018年10月,某互联网公司报案称,其公司员工发现有人在互联网上兜售疑似为该公司用户信息的数据。通过对该公司服务器日志进行调取、梳理、分析,初步还原了数据被窃取的全过程。巧达科技公司在未经授权的情况下,通过利用大量代理IP地址、伪造设备标识等技术手段,绕过该公司服务器防护策略,大量恶意窃取存放在服务器上的用户数据。且在窃取过程中,由于传输数据量过大,导致服务器数十次中断服务,影响上千万用户正常访问,给该公司带来了严重的经济损失。 律师说法 未经平台授权爬取数据信息或构成侵权、违法甚至犯罪 在对上述所谓“大数据”软件提供信息采集服务的现象进行调查中,南都记者注意到,有卖家在其业务介绍中自证清白称“违法乱纪的不做”,所提供的软件外包和数据爬取等业务只爬取各种网页、App公开的“看得见”的数据。 那么,按照大数据采集商的观点,如果爬取的是网页等公开数据,这种行为就真的合理合规? 事实上,非法获取数据存在诸多法律风险,虽然利用爬虫软件等各种技术手段爬取互联网数据的行为广泛存在,但为保护自身数据不被爬取,很多企业也都设置了反爬虫策略。当网络爬虫非法抓取数据信息时,可能构成的侵权、违法甚至犯罪行为主要包括危害计算机信息系统安全类、非法获取公民个人信息类和侵犯知识产权类等。 近年来,企业之间通过数据爬取引发的对于数据权益争夺的各种案件层出不穷。比如,新浪诉脉脉抓取新浪微博用户信息案、淘宝诉美景不正当竞争案等,对于非法爬取企业数据的行为,法律也更倾向于保护企业经营者的权利。 (编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |