Self-Learning projects
熟悉scrapy框架, 主要通过修改spider和item完成爬虫.
成功导入scrapy抓取的顶点小说数据, 解决mysql中文乱码问题, 记录在CSDN博客中.
学习了三个数据库的增删改查和ORM, ODM的一些操作; 安装了几个全平台的可视化工具
爬某网站图片的时候遇到了防盗链
这种反爬措施的基本思路似乎是检查上一个访问的url, 应对方法是在headers
中添加referer
(key), 设置一个恰当的url
(value)即可.
另外就是requests-html包可以完全替代requests包, 剩下的问题就是scrapy的Request返回的结果能否用requests-html包进行解析. 虽然用xpath看起来也不错, 可还是比不上absolute_links带来的便利.
2018-5-8 22:25:00 基本完成爬虫主体, 准备存入Mysql或MongoDB.