此项目的存在是为npulibrary提供数据
使用Scrapy+MySQL
数据来源:西北工业大学畅想之星电子图书馆
注意,经实践发现:
- 网站中图书内容是通过JS动态加载而来的,因此若直接通过静态方法是无法获取到全部图书数据的
- 网站中除首页外,所有的学科类别链接都是通过转发方式完成跳转,因此地址栏url不变
目前采取的解决方案:
- 采用 Selenium WebDriver 方法,模拟浏览器发送请求可以等待页面加载完成获取完整数据
- 若要获取多个学科的数据,需要从首页点击链接获取对应的url地址
使用方法:
- 安装配置 python3 环境
- 安装依赖包
pip install scrapy
pip install pymysql
- 建立数据表(数据表及部分数据样例已在项目中给出book.sql)
- 修改MySQL配置信息
- 修改start_urls和item['theme']爬取指定的学科
- 在控制台输入
scrapy crawl books
等待完善:
- 控制 WebDriver 自动跳转到其他学科页面进行爬取
- 实现翻页爬取
- 将MySQL等配置信息重写到settings.py中