php禁止网页抓取(我负责的一个网站流量突然下降至5分之一的流量)

优采云 发布时间: 2022-01-24 00:15

  php禁止网页抓取(我负责的一个网站流量突然下降至5分之一的流量)

  一月中旬,我负责的一个网站,网站的流量突然下降到五分之一。于是查了一下百度收录的卷。发现 网站网站收录 页数超过 9,000,而之前为超过 130,000。难怪流量下降如此明显。这个网站是7月份静态处理的论坛。当时发射后不久,网站收录正常,并没有大面积缩减的迹象。由于网站的工作量大,每天观察数据,没有明显的流量下降迹象。

  它仅在 1 月中旬显着下降。通过观察收录的页面发现百度只有收录网站的8080端口页面,而且几乎只有收录动态地址,几乎没有静态地址< @收录。谷歌查询量 收录 原来是 0.

  这令人费解。我从来没有遇到过这样的问题。那个时候ZAC正好在PHPWIND面试,所以问了他这个问题。他当时的回答也没有解决我的问题。可能这个问题在其他地方很少出现。对问题一一排查,终于找到问题所在。事实证明,在 8 月,Tech 修改了 robots.txt 文件。当时的语法是这样的:

  #

  #robots.txtforDiscuz!Board

  #版本6.0.0

  #

  用户代理:*

  不允许:/

  禁止:/admin/

  禁止:/api/

  禁止:/附件/

  禁止:/customavatars/

  禁止:/图像/

  禁止:/forumdata/

  禁止:/包括/

  禁止:/ipdata/

  禁止:/模板/

  禁止:/plugins/

  禁止:/mspace/

  禁止:/wap/

  禁止:/admincp.php

  禁止:/ajax.php

  禁止:/digest.php

  禁止:/logging.php

  禁止:/member.php

  禁止:/memcp.php

  禁止:/misc.php

  禁止:/my.php

  禁止:/pm.php

  禁止:/post.php

  禁止:/register.php

  禁止:/rss.php

  禁止:/search.php

  禁止:/seccode.php

  禁止:/topicadmin.php

  禁止:/space.php

  不知道大家有没有注意到上面的语法错误,但是错误已经很明显了。第一句话是错的。不应该被禁止:/

  取而代之的是,Allow:/或者干脆不写这句话,直接删掉这句话。不要小看多写的3封信,而是让搜索引擎的蜘蛛不再抓取你的网页。网站收录音量变化开始缓慢下降,直到从搜索引擎数据库中删除。例如,谷歌几乎等于删除了这个 网站 页面。让百度蜘蛛误以为只允许抓取8080端口页面。事实上,8080 端口是不可访问的。为了尽量减少损失,我要求技术立即恢复对8080端口的访问。几天后,流量又增加了,网站收录的量已经恢复到2万多,但距离13万还差得很远。谷歌收录也有两万多,收录很正常。但是百度还是只有收录8080端口,偶尔收录默认端口下,动态占多数,静态占少数。来自论坛管理员的后台数据显示,网站整体流量下降了近三分之一2.

  问题还在处理中,希望尽快恢复流量。总结:作为一名SEO,一定要定期查看网站的robots.txt,建议每月一次,同时对技术人员进行SEO相关培训。让技术人员了解基本的SEO知识。最好为技术部门制定SEO规范。让大家有参考。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线