php curl抓取网页指定内容(中国博客联盟第一次成员站点存活检测的结果是什么?)

优采云 发布时间: 2022-02-09 20:25

  php curl抓取网页指定内容(中国博客联盟第一次成员站点存活检测的结果是什么?)

  在建中国博客联盟之初,有博主提醒我,URL大全等网站维护非常麻烦,调试一些已经死掉的网站需要耗费很大的精力,甚至以松哥的博客为例。当然,我也这么认为。前段时间看了梦轩立人boke123网站的维修记录,貌似是纯人工检查。张歌真的很佩服这五具尸体,他也太有毅力了。

  现在博客联盟收录也有超过200个博客,全部来自自投。无论你是草博还是名博,张哥都不会强买强卖。由于大多是刚成立半年的新站点,大概还有一些半途而废、提前太监的博客,所以我决定开始做站点维护工作。

  早上用PHP做了一个,放到京东云上试用了一下。发现检测速度一般,等了很久(我写的php太蹩脚了,就不丑了)。

  随后在VPS上写了一个多线程的网站状态检测脚本,直接从数据库中加载站点地址,然后用curl检测返回码,发现速度非常好,而且1分钟内基本出结果。

  这是脚本代码:

  ps:关于,后续文章会有详细说明,本文篇幅有限,不再多说。

  以下是中国博客联盟第一次会员网站生存测试的结果:

  ①。返回码非 200 的异常站点:

  

  ②、脚本爬取的无法访问的站点:

  

  手动访问过滤结果:

  (王映雪博客):无法访问,确认在记录中√

  (长江博客):无障碍√

  (麦兜科技博客):无法访问 ×

  (教师日记):无障碍√

  (三秒兔):无法访问 ×

  (小蚂蚁博客):无障碍√

  (李文东博客):可以访问√

  ps:脚本检测机制是:如果8s内没有连接,则判断异常,重试3次,输出最终结果。如果3次都异常,就是000。从图中和人工筛选可以看出,有些误杀,这和8s的设置有一定的关系。您可以考虑将其设置为更长的时间以获得更准确的结果。当然,最终还是会结合人工确认,所以也无所谓。

  后续,中国博客联盟将制定一个检查周期,最短一周一次,最长一个月一次,让每个展示的站点都能正常访问。当然,我也会在中国博客联盟的站长信息栏目中公布每次检查的结果,以方便各位会员。

  由于中国博客联盟目前部署在京东云清,无法远程控制数据库,只能暂时使用*敏*感*词*模式。以后有时间迁移到阿里云等VPS的时候,脚本会改成全自动状态。当检测到网站 联系人多次断开连接时,将其临时设置为隐藏状态。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线