在数据爬取类案件中,非法获取计算机信息系统数据罪中“未经授权”的认定,已成为司法实践中的核心争议点。武汉元光公司爬取公交实时数据案、上海晟品公司抓取今日头条数据案等典型案例,均因突破反爬虫措施被定罪,这让互联网行业陷入困惑:修改IP地址、伪装设备标识等爬虫常用操作,为何会构成刑事犯罪?“未经授权”的边界到底在哪里?厘清这一判断标准,不仅关系到企业的经营自由,更影响数字经济的创新发展。
一、“未经授权”的本质界定:权限而非方式的限制
要明确“未经授权”的判断标准,首先需厘清其法律本质。根据我国《刑法》第285条及相关司法解释,非法获取计算机信息系统数据罪中的“未经授权”,核心是指未经允许突破基于身份验证的访问权限机制,而非规避对访问方式的限制。这一本质可从立法原意与技术原理两方面得到印证。
从立法逻辑来看,该罪名源于对计算机信息系统安全的保护,其设立初衷是打击黑客入侵等破坏系统安全的行为。美国《计算机欺诈与滥用法》(CFAA)作为该类立法的典型代表,将“未经授权访问”明确界定为规避身份验证的行为,我国司法解释也借鉴了这一核心精神,将“未经授权”与“突破安全保护措施”直接关联。这里的“安全保护措施”,特指用于确认用户身份、分配访问权限的技术机制,如账号密码验证、指纹识别、设备绑定等,而非网站为限制访问频率设置的技术障碍。
从技术原理分析,网络爬虫与普通浏览器的工作机制并无本质区别,都是向服务器发送请求并接收数据。两者的核心差异仅在于爬虫能自动化、大规模采集数据,而这一差异并不涉及访问权限的变更。反爬虫措施的本质是“访问方式限制”,如通过User-agent参数识别爬虫程序、通过IP地址限制访问频率、通过验证码区分人类与机器,这些措施的目的是防止服务器负载过高,而非剥夺用户的访问权限。正如商场保安根据着装限制外卖员入内,着装本身不代表进入商场的权利,外卖员换装进入也不能等同于“非法侵入”。
司法实践中存在的核心误区,就是将反爬虫措施等同于“安全保护措施”,将规避反爬虫的行为认定为“未经授权”。这种混淆导致编写爬虫的常规操作,如修改User-agent、构建IP代理池等,被纳入刑事评价范畴,既违背了国民的预测可能性,也与网络技术的发展规律相悖。
二、“未经授权”的核心判断标准:身份认证机制的突破
结合刑法规范与技术特征,“未经授权”的判断应坚持实质的技术性解释标准,即重点考察行为人是否突破了以身份认证为核心的访问控制机制,具体可从三个层面展开:
(一)判断依据:是否存在有效的身份验证机制
突破的计算机信息系统“安全保护措施”必须以身份认证为核心功能,这是区分“权限限制”与“方式限制”的关键。有效的身份验证机制应具备两个特征:一是针对性,即通过验证用户身份决定是否授予访问权限;二是排他性,即无权限者无法获得访问资格。
实践中常见的有效身份验证包括:账号密码登录、手机号验证码验证、生物识别验证(指纹、人脸)、设备绑定验证等。例如,中国知网通过IP地址判断用户是否为付费院校用户,微信采用“账号密码+设备标识”双重验证,一些网站通过手机号和手机验证码进行账户验证,这些机制都直接关联访问权限,突破此类机制即可认定为“未经授权”。而反爬虫措施不具备上述特征:修改User-agent仅需修改程序参数,更换IP地址可通过代理服务器实现,验证码可通过人工智能技术识别,在符合身份验证的情况下,这些操作都不会改变用户已经具备的系统数据访问权限,因此不能认定为刑法中的“突破安全保护措施”。
(二)判断对象:数据是否具有保密性
非法获取计算机信息系统数据罪保护的法益是数据的安全性与保密性,只有针对保密数据的访问才可能涉及“未经授权”。公开数据本身处于人人可访问的状态,网站所有者将其置于网络空间时,就默认了公众的访问权,此时无论是否规避反爬虫措施,都不存在侵犯保密权的问题。
数据的保密性可通过是否需要身份验证来区分:无需任何身份验证即可访问的数据,如新闻网站的公开报道、政府官网的公示信息等,属于完全公开的数据,爬取此类数据当然不构成“未经授权”;需要注册登录才能访问的数据,如社交平台的公开动态、电商平台的商品信息等,注册行为本身就是获取授权的过程,只要注册信息真实有效,爬虫基于该授权爬取公开数据,也不属于“未经授权”;而需要特定权限才能访问的数据,如企业内部数据库、用户隐私信息等,则属于保密数据,未经授权突破身份验证机制爬取此类数据,才符合“未经授权”的认定标准。
(三)判断边界:是否超越授权范围
“未经授权”既包括完全无授权的访问,也包括超越授权范围的访问,但这种“超越”必须限定在身份认证所设定的权限框架内。例如,员工利用工作账号访问超出其职责范围的企业核心数据,用户通过注册账号获取权限后抓取本应保密的其他用户信息,这些行为属于“超越授权”,可认定为“未经授权”。
需要明确的是,“超越授权”不包括对访问方式的突破。例如,用户注册电商平台账号后,通过爬虫抓取平台公开的商品价格数据,即使违反了平台的用户协议或robots协议,也不属于“超越授权”。因为用户协议和robots协议属于约定性规范,不具备技术强制性,其本质是平台的单方意思表示,不能替代刑法意义上的“安全保护措施”。正如美国HiQ Labs诉LinkedIn案的判决所指出的,网站不能通过单方设置技术限制,剥夺公众访问公开数据的权利,否则将违背网络空间的开放性本质。
三、“未经授权”认定的辅助维度:数据属性与行为后果
除核心判断标准外,还应结合数据属性与行为后果进行综合考量,避免刑事处罚的扩大化,实现技术发展与法益保护的平衡。
(一)数据属性的区分
根据数据的内容与公开程度,可将其分为三类,不同类型数据的“未经授权”认定标准存在差异。
1.身份数据:包括用户姓名、手机号、身份证号、生物识别信息等。此类数据与个人人身利益密切相关,即使部分公开,也需经用户明示同意方可收集。未经授权爬取身份数据,无论是否突破反爬虫措施,都可能构成“未经授权”,情节严重的还可能同时触犯侵犯公民个人信息罪。
2.行为数据:如用户浏览记录、消费习惯、位置轨迹等。此类数据通常通过cookie等技术收集,且多经过加密处理。由于行为数据可能间接识别个人身份,或涉及平台商业秘密,未经授权爬取此类数据,需结合是否突破身份验证机制综合判断。
3.内容数据:包括平台发布的新闻、评论、商品介绍等公开信息,以及平台通过原始数据加工形成的衍生数据,如公交实时动态、市场价格指数。对于公开的原始内容数据,抓取行为一般不构成“未经授权”;对于衍生数据,若平台通过身份验证措施限制访问,突破该限制则可能认定为“未经授权”。
(二)行为后果的考量
刑法的谦抑性要求刑事处罚必须以严重危害后果为前提,“未经授权”的认定也应结合行为后果综合判断。
1.对计算机信息系统的影响:若爬取行为导致服务器崩溃、系统瘫痪,或大量占用带宽资源影响正常访问,可能构成破坏计算机信息系统罪,但这与“未经授权”的认定无关,属于侵犯系统运行安全法益的犯罪行为。
2.对数据权益的侵害:若爬取的数据属于保密数据,且造成数据泄露、滥用等危害后果,应认定为“未经授权”。若爬取的是公开数据,即使对平台的商业利益造成影响,也应通过反不正当竞争法等民事法律规制,而非刑法介入。
3.行为的正当性:对于具有正当目的的爬取行为,如价格对比、公益数据统计、学术研究等,即使规避了反爬虫措施,也应排除“未经授权”的认定。对于以非法获利为目的、爬取数据后用于违法犯罪活动的恶意爬虫,可在认定时适当从严。
四、司法认定路径:明确边界与谦抑适用
当前司法实践中对“未经授权”的认定存在标准不一、扩大化适用等问题,导致非法获取计算机信息系统数据罪逐渐沦为“口袋罪”。为解决这一问题,需要把握以下三方面:
(一)坚持技术判断优先原则
司法机关应加强对网络爬虫与反爬虫技术原理的理解,明确“安全保护措施”与“反爬虫措施”的本质区别。在案件审理中,应委托专业技术机构对涉案系统的安全保护措施进行鉴定,重点考察是否存在以身份认证为核心的访问控制机制,避免仅凭平台设置了反爬虫措施就认定“未经授权”。
(二)明确公开数据的默认授权原则
网络空间的开放性决定了公开数据的默认访问权,网站所有者将数据公开即意味着放弃对访问方式的限制。司法机关应明确:对于无需身份验证即可访问的公开数据,无论是否规避反爬虫措施,都不应认定为“未经授权”;对于需要注册登录才能访问的公开数据,注册登录即构成有效授权,爬虫基于该授权的爬取行为不构成“未经授权”。
(三)遵循刑法谦抑性与二次违法性原则
刑法作为保障法,应尊重前置法的调整空间。对于数据爬取行为,应首先考察是否违反反不正当竞争法、数据安全法等前置法律,只有在前置法无法规制且危害后果严重时,才能启动刑事评价。对于仅规避反爬虫措施、未突破身份认证机制、未侵害保密数据的爬取行为,应坚决排除在刑事处罚之外,避免刑法过度干预技术创新与数据流通。
总之,“未经授权”的认定是非法获取计算机信息系统数据罪适用的核心,其本质是对访问权限的判断,而非对访问方式的评价。在数字经济快速发展的背景下,司法机关应坚持“身份认证机制突破”的核心判断标准,准确区分“权限限制”与“方式限制”,平衡数据保护与技术创新的关系。唯有明确“未经授权”的边界,才能避免刑事处罚的扩大化,为数据爬取技术的合法应用提供清晰指引,保障数据安全与数据流通的平衡。


