Python爬虫之三：抓取猫眼电影TOP100

优采云发布时间: 2022-06-18 02:42

　　今天我要利用requests库和正则表达式抓取猫眼电影Top100榜单。

　　运行平台：Windows

　　Python版本：Python3.6

　　IDE：Sublime Text

　　其他工具：Chrome浏览器

　　1. 抓取单页内容

　　浏览器打开猫眼电影首页，点击“榜单”，然后再点击"TOP100榜"，就能看到想要的了。

　　接下来通过代码来获取网页的HTML代码。

　　运行结果如下：

　　2. 正则表达式提取有用信息

　　在上图中，已经标注出我们将要提取的内容，下面用代码实现：

　　运行结果如下：

　　3. 保存信息

　　获取电影信息之后，要保存起来留用。要保存的有文本信息和电影封面。

　　下面为保存结果：

　　4.下载TOP100所有电影信息

　　通过点击标签页发现只是URL变化了：

　　修改main函数以动态改变URL：

　　到此我们已经将TOP100的电影信息和封面全部得到了。

　　5.多线程抓取

　　此次抓取的数据不算多，但是为了学习，使用多进程进行抓取，以应对以后大量的数据抓取。

　　下面为普通抓取和多进程抓取的时间对比：

　　以下为完整代码：

0

2022-06-18

c爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册