[读后笔记] python网路爬虫实战 (李松涛)

优采云 发布时间: 2020-05-12 08:03

  

  用了大约一个晚上的时间,就把这本书看完了。

  前面4章是基础的python知识,有基础的朋友可以略过。

  scrapy爬虫部份,用了实例给你们说明scrapy的用法网络爬虫实例,不过若果之前没用过scrapy的话,需要渐渐上机敲击代码。

  其实书中的事例都是很简单的事例,基本没哪些反爬的限制,书中一句话说的十分赞成,用scrapy写爬虫,就是做填空题,而用urllib2写爬虫,就是习作题,可以自由发挥。

  书中没有用更为便捷的requests库。 内容搜索用的最多的是beatifulsoup, 对于xpah或则lxml介绍的比较少。 因为scrapy自带的response就是可以直接用xpath,更为便捷。

  对于scrapy的中间和pipeline的使用了一个事例,也是比较简单的反例。

  书中没有对验证码,分布式等流行的反爬进行讲解,应该适宜爬虫入门的朋友去看吧。

  书中一点挺好的就是代码都十分规范,而且虽然是写习作的使用urllib2,也有意模仿scrapy的框架去写, 需要抓取的数据 独立一个类,类似于scrapy的item,数据处理用的也是叫pipleline的方式。

  这样写的益处就是, 每个模块的功能都一目了然,看完第一个反例的类和函数定义,后面的事例都是大同小异,可以推动读者的阅读速率,非常赞。(这一点之后自己要学习,增加代码的可复用性)

  很多页面url如今早已过期了,再次运行作者的源码会返回好多404的结果。

  失效的项目:

  金逸影城

  天气预报

  获取代理:

  本书的一些错误的地方:

  1. 获取金逸影厅的spider中,所有关于movie的拼写都拼错为moive了。这个属于德语错误。

  2. 在testProxy.py 代码中网络爬虫实例, 由于在同一个类中,一直在形成线程,最后造成线程过多,不能再形成线程。程序会中途退出。

   File &quot;C:\Python27\lib\threading.py&quot;, line 736, in start<br />

_start_new_thread(self.__bootstrap, ())<br />

thread.error: can't start new thread

  可以更改成独立函数的方式,而不是类函数。

  待续。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线