400-998-9776转2 服务时间:周一至周日 9:00-23:00 注意:本站不提供境外服务本站不提供境外服务

返回

分辨爬虫限制的原因进行处理

发布时间:2021-04-16 10:32:45 来源:IP精灵

  爬虫操作的时候,如果遇到了阻碍,那么爬虫工作就不得不中止了。但是我们能够通过分辨出限制的原因,来进行处理。

分辨爬虫限制的原因进行处理

  限制用户ID访问频率限制用户ID通常表现为:在收集了一定时间之后,停止收集/收集错误,并在浏览器中显示不到错误页面(页面重定向、有验证码、错误页面等等),在浏览器清空浏览记录之后,可以重新打开该页面,以正常方式显示。这时,您可以查看页面的cookie以确认服务器是否限制用户ID,如果UID或其他ID字符串存在于访问页面的cookie中,则表明服务器已经识别出用户ID。当一个cookie中有一个已加密的字符串时,UID也被加密。

  仅限制IP的访问频率。IP接入频率的限制通常表现为:当本地IP的采集速度超过某一频率时,就会发生采集错误、页面重定向等问题。在cookie中存储访问者的IP信息会增加爬虫难度。

  用户IP访问频率用户ID访问频率双重限制通常表现为:收集/收集错误,在收集/收集期间出现浏览器无法显示的错误(页面重定向、有验证码、错误页面等),在浏览器浏览记录清空后,再次打开可正常显示。爬虫设置为在采集后的多个通道上采集一段时间发现IP被封。通过查看IP和UID/UID同时加密在页面cookie中的信息,也可以判定是否正确。

  在爬虫工作中,有一个代理ip池,也是很方便的,能够帮助大家解决各类的ip限制。