Python爬虫之三:抓取猫眼电影TOP100

优采云 发布时间: 2022-06-18 02:42

  Python爬虫之三:抓取猫眼电影TOP100

  今天我要利用requests库和正则表达式抓取猫眼电影Top100榜单。

  运行平台:Windows

  Python版本:Python3.6

  IDE:Sublime Text

  其他工具:Chrome浏览器

  1. 抓取单页内容

  浏览器打开猫眼电影首页,点击“榜单”,然后再点击"TOP100榜",就能看到想要的了。

  接下来通过代码来获取网页的HTML代码。

  运行结果如下:

  2. 正则表达式提取有用信息

  在上图中,已经标注出我们将要提取的内容,下面用代码实现:

  运行结果如下:

  3. 保存信息

  获取电影信息之后,要保存起来留用。要保存的有文本信息和电影封面。

  下面为保存结果:

  

  4.下载TOP100所有电影信息

  通过点击标签页发现只是URL变化了:

  修改main函数以动态改变URL:

  到此我们已经将TOP100的电影信息和封面全部得到了。

  5.多线程抓取

  此次抓取的数据不算多,但是为了学习,使用多进程进行抓取,以应对以后大量的数据抓取。

  

  下面为普通抓取和多进程抓取的时间对比:

  以下为完整代码:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线