SpiderOnXuetangx 🕷️一个可以爬取学堂在线全部课程信息的爬虫 爬虫的实现基于Scrapy框架 运行方法 首先需要安装python环境:point_right:获取python 安装Scrapy:point_right:安装步骤 安装MongoDB:point_right:获取MongoDB (注意:在安装过程中可以选择安装MongoDB Compass,这是一个可视化工具,使用它操作数据库会更方便) clone本项目到本地 在项目目录下打开终端 执行命令 scrapy crawl courses 可以看到正在爬取数据 爬取结束后,即可根据所选的持久化存储方法查看数据 数据持久化存储方法 修改数据持久化方法可以在项目的settings.py文件中修改ITEM_PIPLINES中对应pipeline的优先级即可 目前本项目提供以下方式进行数据持久化存储: 存入MongoDB,可以通过MongoDB Compass查看 以csv文件存储,默认新建在项目根目录下