-
Notifications
You must be signed in to change notification settings - Fork 356
目前知乎服务器会限制Request的次数来反爬虫吗 #42
Comments
恩,建议提供一下“爬虫停止”的具体表现。 |
我目前在爬某个用户的follower的url,每当我爬到一定数量时,就会出现类似下面的错误提示,每次可能还不太一样,这次是爬到12万个时出现的错误提示,请问是什么原因。 |
看上去像是bug而不是遇到了访问限制。(不过12万略微是有点多了,还是要注意下) |
知乎现在是利用哪种反爬虫策略啊,限制IP、cookies、访问速度,还是其他策略。这是我在爬的用户的主页地址:http://www.zhihu.com/people/zhang-jia-wei |
访问速度太快会封IP,也有可能被封账号,所以建议申请小号加代理来爬。ZhihuClient有个设置HTTP代理的接口。 |
好的,多谢! |
这次跑到3万多的时候出现了如下的错误,不知道是不是bug。 |
看样子不是bug而是知乎看你请求太快,发回了一些错误响应,导致json没法解析。 建议你这样,编程控制一下,爬1000个人,暂停个10秒之类的……反正就暂时手动降低一下请求速度……嗯嗯~ 以后我们会处理这个问题的,比如给网络访问加上自动重试机制。(不过还比较遥远……) |
多谢,我试一下,有问题再请教你。 |
现在每次跑到300多或者400多就出现如下的错误提示,不会是因为我的账号已经被知乎限制了吧 Process finished with exit code 1 |
最后一行 requests.exceptions.ConnectionError: ('Connection aborted.', ConnectionResetError(54, 'Connection reset by peer')) 表示是知乎重置了链接……有没有被限制帐号不知道……但是确实不是代码的问题而是网站的行为导致的错误…… |
您好!我是初学者。最近用您开发的API写了一个爬虫,但每次爬到一定数目时就停止了,我想问是因为知乎服务器端有访问限制吗?有具体的解决方法吗?
The text was updated successfully, but these errors were encountered: