[读后笔记] python网路爬虫实战 (李松涛)
优采云 发布时间: 2020-05-12 08:03
用了大约一个晚上的时间,就把这本书看完了。
前面4章是基础的python知识,有基础的朋友可以略过。
scrapy爬虫部份,用了实例给你们说明scrapy的用法网络爬虫实例,不过若果之前没用过scrapy的话,需要渐渐上机敲击代码。
其实书中的事例都是很简单的事例,基本没哪些反爬的限制,书中一句话说的十分赞成,用scrapy写爬虫,就是做填空题,而用urllib2写爬虫,就是习作题,可以自由发挥。
书中没有用更为便捷的requests库。 内容搜索用的最多的是beatifulsoup, 对于xpah或则lxml介绍的比较少。 因为scrapy自带的response就是可以直接用xpath,更为便捷。
对于scrapy的中间和pipeline的使用了一个事例,也是比较简单的反例。
书中没有对验证码,分布式等流行的反爬进行讲解,应该适宜爬虫入门的朋友去看吧。
书中一点挺好的就是代码都十分规范,而且虽然是写习作的使用urllib2,也有意模仿scrapy的框架去写, 需要抓取的数据 独立一个类,类似于scrapy的item,数据处理用的也是叫pipleline的方式。
这样写的益处就是, 每个模块的功能都一目了然,看完第一个反例的类和函数定义,后面的事例都是大同小异,可以推动读者的阅读速率,非常赞。(这一点之后自己要学习,增加代码的可复用性)
很多页面url如今早已过期了,再次运行作者的源码会返回好多404的结果。
失效的项目:
金逸影城
天气预报
获取代理:
本书的一些错误的地方:
1. 获取金逸影厅的spider中,所有关于movie的拼写都拼错为moive了。这个属于德语错误。
2. 在testProxy.py 代码中网络爬虫实例, 由于在同一个类中,一直在形成线程,最后造成线程过多,不能再形成线程。程序会中途退出。
File "C:\Python27\lib\threading.py", line 736, in start<br />
_start_new_thread(self.__bootstrap, ())<br />
thread.error: can't start new thread
可以更改成独立函数的方式,而不是类函数。
待续。