php curl抓取网页指定内容(中国博客联盟第一次成员站点存活检测的结果是什么?)
优采云 发布时间: 2022-02-09 20:25php curl抓取网页指定内容(中国博客联盟第一次成员站点存活检测的结果是什么?)
在建中国博客联盟之初,有博主提醒我,URL大全等网站维护非常麻烦,调试一些已经死掉的网站需要耗费很大的精力,甚至以松哥的博客为例。当然,我也这么认为。前段时间看了梦轩立人boke123网站的维修记录,貌似是纯人工检查。张歌真的很佩服这五具尸体,他也太有毅力了。
现在博客联盟收录也有超过200个博客,全部来自自投。无论你是草博还是名博,张哥都不会强买强卖。由于大多是刚成立半年的新站点,大概还有一些半途而废、提前太监的博客,所以我决定开始做站点维护工作。
早上用PHP做了一个,放到京东云上试用了一下。发现检测速度一般,等了很久(我写的php太蹩脚了,就不丑了)。
随后在VPS上写了一个多线程的网站状态检测脚本,直接从数据库中加载站点地址,然后用curl检测返回码,发现速度非常好,而且1分钟内基本出结果。
这是脚本代码:
ps:关于,后续文章会有详细说明,本文篇幅有限,不再多说。
以下是中国博客联盟第一次会员网站生存测试的结果:
①。返回码非 200 的异常站点:
②、脚本爬取的无法访问的站点:
手动访问过滤结果:
(王映雪博客):无法访问,确认在记录中√
(长江博客):无障碍√
(麦兜科技博客):无法访问 ×
(教师日记):无障碍√
(三秒兔):无法访问 ×
(小蚂蚁博客):无障碍√
(李文东博客):可以访问√
ps:脚本检测机制是:如果8s内没有连接,则判断异常,重试3次,输出最终结果。如果3次都异常,就是000。从图中和人工筛选可以看出,有些误杀,这和8s的设置有一定的关系。您可以考虑将其设置为更长的时间以获得更准确的结果。当然,最终还是会结合人工确认,所以也无所谓。
后续,中国博客联盟将制定一个检查周期,最短一周一次,最长一个月一次,让每个展示的站点都能正常访问。当然,我也会在中国博客联盟的站长信息栏目中公布每次检查的结果,以方便各位会员。
由于中国博客联盟目前部署在京东云清,无法远程控制数据库,只能暂时使用*敏*感*词*模式。以后有时间迁移到阿里云等VPS的时候,脚本会改成全自动状态。当检测到网站 联系人多次断开连接时,将其临时设置为隐藏状态。