GitHub - DangHT/npulibrary_spider: npulibrary webcrawler

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
npulibrary_spider		npulibrary_spider
.gitignore		.gitignore
README.md		README.md
book.sql		book.sql
scrapy.cfg		scrapy.cfg

Repository files navigation

此项目的存在是为npulibrary提供数据

使用Scrapy+MySQL

数据来源：西北工业大学畅想之星电子图书馆

注意，经实践发现：

网站中图书内容是通过JS动态加载而来的，因此若直接通过静态方法是无法获取到全部图书数据的
网站中除首页外，所有的学科类别链接都是通过转发方式完成跳转，因此地址栏url不变

目前采取的解决方案：

采用 Selenium WebDriver 方法，模拟浏览器发送请求可以等待页面加载完成获取完整数据
若要获取多个学科的数据，需要从首页点击链接获取对应的url地址

使用方法：

安装配置 python3 环境
安装依赖包

pip install scrapy
pip install pymysql

建立数据表（数据表及部分数据样例已在项目中给出book.sql）
修改MySQL配置信息
修改start_urls和item['theme']爬取指定的学科
在控制台输入

scrapy crawl books

等待完善：

控制 WebDriver 自动跳转到其他学科页面进行爬取
实现翻页爬取
将MySQL等配置信息重写到settings.py中

About

npulibrary webcrawler

Report repository

Releases

No releases published

Packages

No packages published

Languages