Skip to content

Latest commit

 

History

History
18 lines (17 loc) · 1.41 KB

README.md

File metadata and controls

18 lines (17 loc) · 1.41 KB

Learning

Self-Learning projects

[20180130]Py3 and Golang recently

[20180421]Add a spider

[20180427]finish the first scrapy project

熟悉scrapy框架, 主要通过修改spider和item完成爬虫.

[20180501]start learning mysql

成功导入scrapy抓取的顶点小说数据, 解决mysql中文乱码问题, 记录在CSDN博客中.

[20180505]学习了mysql, mongodb, redis基础以及一些python操作

学习了三个数据库的增删改查和ORM, ODM的一些操作; 安装了几个全平台的可视化工具

某网站图片的时候遇到了防盗链

这种反爬措施的基本思路似乎是检查上一个访问的url, 应对方法是在headers中添加referer(key), 设置一个恰当的url(value)即可. 另外就是requests-html包可以完全替代requests包, 剩下的问题就是scrapy的Request返回的结果能否用requests-html包进行解析. 虽然用xpath看起来也不错, 可还是比不上absolute_links带来的便利. 2018-5-8 22:25:00 基本完成爬虫主体, 准备存入Mysql或MongoDB.

[20180819]将mzitu爬虫数据库从本地转移到阿里云服务器

[20180819]最近Julia 1.0.0发布了, 了解一下

[20180828]这几天对小百合JobExpress版块尝试进行了爬虫, details爬取方面仍然存在一些问题; 但是后续准备暂停爬虫项目, 进一步学习数据分析, 准备后续秋招