网页抓取数据百度百科(1.免费代理ip网站，如下免费IP的时效性图演示)

优采云发布时间: 2021-09-17 20:27

　　/1序言/

　　爬虫无法避免网站主要反爬虫措施的限制。更常见的是，通过在固定时间检测IP地址的流量来判断用户是否是“网络机器人”，即所谓的爬虫。如果被识别，它将面临IP阻塞的风险，因此您无法访问该网站

　　一般的解决方案是使用代理IP进行爬网，但收费的代理IP通常更昂贵。互联网上有许多免费代理ip网站但由于时间关系，大部分地址无法使用。有很多关于维护代理IP池的教程，也就是说，将爬网和检测后可以使用的代理IP放入“代理池”，在我看来，这种效率相对较低，因为这种IP地址很快就会失效。我们需要做的是在检测的同时使用它，以充分保证免费IP的及时性

　　/二,。抓取IP地址/

　　让我们开始实际操作

　　1.首先，让我们找一个自由球员ip网站，如下图所示

　　2、打开网页查看器并分析其网页元素结构，如下图所示

　　3、是一个简单的静态网页。我们使用请求和BS4向下爬升IP地址和相应的端口，如下图所示

　　4、每行IP地址由五个标签组成，我们需要的是第一个标签（对应IP地址）和第二个标签（对应端口）。因此，从第一个端口开始，每隔五个端口取出IP地址（项[：：5]），从第二个端口开始，每隔五个端口取出相应的端口（项[1:：5]）。参数n为页码，一次只在第1页上取一个有用的IP地址，最终效果如下图所示：