杭州网站维护:谈谈如何应对爬虫反爬

原创 None 来源：普悦科技点击：1831

相信大家的网站都有被爬虫爬过，导致许多核心数据都被竞争对手获得了。如果非得要研究的话，爬虫在合适的情况下也是可以被防止的。

我们该怎么防止爬虫呢？知己知彼才能找到合理应对方式，咱们先从最低级的爬虫开始聊起。

页面分为动态和静态，静态就是纯html文件，这样的数据不要太好爬，直接获取你的网页地址就好了。我们可以通过request的方式获取到页面源码，再通过bs4库按规则对数据提取。

什么是动态页面呢，有一些公司通过调用接口，然后由js来渲染的叫动态页面。如果接口简单，可以直接调接口获取，但是遇到加密的接口就只能研究其js文件，通过查询其加密方法进行截取，这也是常用手段。

可是还有更简单的办法，无需破译接口，只要让浏览器模仿人的行为即可。目前小编用的最多的就是这个方式。

既然要模拟人来浏览网页，就要研究人的特征。主要有以下几个点。

1）浏览速度不快，看的数据也不多

2）浏览器相关参数要有，比如要有cookies, userAgent,以及referce更为重要。