Skip to content

Latest commit

 

History

History
executable file
·
41 lines (23 loc) · 1.48 KB

README_CN.md

File metadata and controls

executable file
·
41 lines (23 loc) · 1.48 KB

crazyDhtSpider

本项目是在phpDhtSpider基础上修改而来:https://github.com/cuijun123/phpDhtSpider


php实现的dht爬虫(分布式)

#########运行说明##############

dht_client目录 为爬虫服务器 环境要求

1.设置服务器 ulimit -n 65535

2.防火墙开放6882端口(切记!!!)

3.运行 ./swoole-cli dht_client/client.php

很多采集不到数据 是由于第二点导致的

=============================================================

dht_server目录 接受数据服务器(可在同一服务器) 环境要求

1.设置服务器 ulimit -n 65535

2.防火墙开放dht_client请求的对应端口(配置项中,默认2345),如果服务端和客户端在同一机器上,可以不放开。

3.运行 ./swoole-cli dht_server/server.php 和 ./swoole-cli dht_client/client.php

=============================================================

1、运行过程中会有少许错误日志,不影响使用,具体原因可以自己分析

2、注意config.php中的'daemonize'=>false,可以决定是否开启后台守护进程

3、数据量达到一层程度后需要分表或者分区,不然mysql性能会很差

4、建议找一个流量比较充足的VPS来跑,最好是无限流量的

5、刚开始运行的时候因为节点信息获取的少,获取数据比较慢,很快速度就会上来

6、本工具仅用于学习和研究swoole相关知识,如果在使用中产生任何纠纷或者法律问题,本人概不负责