[读后笔记] python网路爬虫实战（李松涛）

优采云发布时间: 2020-05-12 08:03

　　用了大约一个晚上的时间，就把这本书看完了。

　　前面4章是基础的python知识，有基础的朋友可以略过。

　　scrapy爬虫部份，用了实例给你们说明scrapy的用法网络爬虫实例，不过若果之前没用过scrapy的话，需要渐渐上机敲击代码。

　　其实书中的事例都是很简单的事例，基本没哪些反爬的限制，书中一句话说的十分赞成，用scrapy写爬虫，就是做填空题，而用urllib2写爬虫，就是习作题，可以自由发挥。

　　书中没有用更为便捷的requests库。内容搜索用的最多的是beatifulsoup，对于xpah或则lxml介绍的比较少。因为scrapy自带的response就是可以直接用xpath，更为便捷。

　　对于scrapy的中间和pipeline的使用了一个事例，也是比较简单的反例。

　　书中没有对验证码，分布式等流行的反爬进行讲解，应该适宜爬虫入门的朋友去看吧。

　　书中一点挺好的就是代码都十分规范，而且虽然是写习作的使用urllib2，也有意模仿scrapy的框架去写，需要抓取的数据独立一个类，类似于scrapy的item，数据处理用的也是叫pipleline的方式。

　　这样写的益处就是，每个模块的功能都一目了然，看完第一个反例的类和函数定义，后面的事例都是大同小异，可以推动读者的阅读速率，非常赞。（这一点之后自己要学习，增加代码的可复用性）

　　很多页面url如今早已过期了，再次运行作者的源码会返回好多404的结果。

　　失效的项目：

　　金逸影城

　　天气预报

　　获取代理：

　　本书的一些错误的地方：

　　1. 获取金逸影厅的spider中，所有关于movie的拼写都拼错为moive了。这个属于德语错误。

　　2. 在testProxy.py 代码中网络爬虫实例，由于在同一个类中，一直在形成线程，最后造成线程过多，不能再形成线程。程序会中途退出。

　　 File "C:\Python27\lib\threading.py", line 736, in start<br />

_start_new_thread(self.__bootstrap, ())<br />

thread.error: can't start new thread

　　可以更改成独立函数的方式，而不是类函数。

　　待续。

0

2020-05-12

网络爬虫 scrapy python

0 个评论

要回复文章请先登录或注册