1 缘起
在很久很久以前,就想接触一下爬虫,翻到余弦大大的这篇文章,写爬虫很简单但也很难(附某美女站爬虫源码) 我知道,是时候了。修改后能跑的代码
2 坑
踩了这么几个坑
- Mac上安装Scrapy的,一开始没仔细看安装文档https://doc.scrapy.org/en/latest/intro/install.html,直接pip install Scrapy,谁知道mac自带的系统python有问题,折腾了半天才知道在文档的后面有关于这个的介绍,于是按照文档推荐的方式重新安装python,并且修改了PATH内路径的顺序。
- 安装好以后,直接git clone 源代码,也不知道是为啥。没有图片下下来啊,于是我就开始翻官方的文档。主要是通过以下几种方式调试
- 为了减少日志输出,先把next 翻页的代码注释掉
- 根据理解的数据流程一步一步打日志,发现我把tu.68flash.com 改成http:// 就可以了,改好以后就开始飕飕地下图片
3 理解与修改
所谓简单粗暴,我的理解是,通过超链接,跳到所有的页面,然后把图片的src给下下来,不知道理解的是否深刻。这里其实还是有优化的余地,例如样张里面的大图,都下不下来。因为这个超链接直接指向jpg,这个规则就失效了,所以我做了一下优化。可以看Git提交记录。
- 加了这句话 il.add_css(‘image_urls’, ‘a::attr(href)’)
- 同时把DEPTH_LIMIT = 2 给注释了
- 也可以给图片加个大小的限制,接个过滤。
- 改了文件目录,之前的那个目录需要sudo
- 难道目录不能出现~
- 目录后面的/不要忘了
至此我感受到的是深深的敬畏。 遗憾的是,所谓的会员部分的小技巧,没有在源码中体现。希望随着自己的进步以后能够领悟到。入坑完毕。
在4chan 上也试了一把,太可怕了。
4 Next steps
- scrapy
- 知乎爬虫索引
- Dive Into Python 3
- The Python Tutorial
- 【干货】高级架构师实战:如何用最小的代价完成爬虫需求 (岂安低调分享)
-
[航空公司与爬虫的战争:特价票的真相与内幕 岂安低调分享](https://mp.weixin.qq.com/s?__biz=MzIxNDE4MzA4OQ==&mid=2651025755&idx=1&sn=f42dee60ec66510ca2575301d9611b49&chksm=8c5cac85bb2b2593996258241a96a6448eb2c1682d300b6d02f068936171e202deab86c16db1&scene=21#wechat_redirect) -
[一篇文章了解爬虫技术现状 岂安低调分享](https://mp.weixin.qq.com/s/N95afABrhlajeHlxMxZMsg) - 别让你的老板进监狱也别让你的用户受伤害,谈爬虫反爬虫套路