php禁止网页抓取(我负责的一个网站流量突然下降至5分之一的流量)
优采云 发布时间: 2022-01-24 00:15php禁止网页抓取(我负责的一个网站流量突然下降至5分之一的流量)
一月中旬,我负责的一个网站,网站的流量突然下降到五分之一。于是查了一下百度收录的卷。发现 网站网站收录 页数超过 9,000,而之前为超过 130,000。难怪流量下降如此明显。这个网站是7月份静态处理的论坛。当时发射后不久,网站收录正常,并没有大面积缩减的迹象。由于网站的工作量大,每天观察数据,没有明显的流量下降迹象。
它仅在 1 月中旬显着下降。通过观察收录的页面发现百度只有收录网站的8080端口页面,而且几乎只有收录动态地址,几乎没有静态地址< @收录。谷歌查询量 收录 原来是 0.
这令人费解。我从来没有遇到过这样的问题。那个时候ZAC正好在PHPWIND面试,所以问了他这个问题。他当时的回答也没有解决我的问题。可能这个问题在其他地方很少出现。对问题一一排查,终于找到问题所在。事实证明,在 8 月,Tech 修改了 robots.txt 文件。当时的语法是这样的:
#
#robots.txtforDiscuz!Board
#版本6.0.0
#
用户代理:*
不允许:/
禁止:/admin/
禁止:/api/
禁止:/附件/
禁止:/customavatars/
禁止:/图像/
禁止:/forumdata/
禁止:/包括/
禁止:/ipdata/
禁止:/模板/
禁止:/plugins/
禁止:/mspace/
禁止:/wap/
禁止:/admincp.php
禁止:/ajax.php
禁止:/digest.php
禁止:/logging.php
禁止:/member.php
禁止:/memcp.php
禁止:/misc.php
禁止:/my.php
禁止:/pm.php
禁止:/post.php
禁止:/register.php
禁止:/rss.php
禁止:/search.php
禁止:/seccode.php
禁止:/topicadmin.php
禁止:/space.php
不知道大家有没有注意到上面的语法错误,但是错误已经很明显了。第一句话是错的。不应该被禁止:/
取而代之的是,Allow:/或者干脆不写这句话,直接删掉这句话。不要小看多写的3封信,而是让搜索引擎的蜘蛛不再抓取你的网页。网站收录音量变化开始缓慢下降,直到从搜索引擎数据库中删除。例如,谷歌几乎等于删除了这个 网站 页面。让百度蜘蛛误以为只允许抓取8080端口页面。事实上,8080 端口是不可访问的。为了尽量减少损失,我要求技术立即恢复对8080端口的访问。几天后,流量又增加了,网站收录的量已经恢复到2万多,但距离13万还差得很远。谷歌收录也有两万多,收录很正常。但是百度还是只有收录8080端口,偶尔收录默认端口下,动态占多数,静态占少数。来自论坛管理员的后台数据显示,网站整体流量下降了近三分之一2.
问题还在处理中,希望尽快恢复流量。总结:作为一名SEO,一定要定期查看网站的robots.txt,建议每月一次,同时对技术人员进行SEO相关培训。让技术人员了解基本的SEO知识。最好为技术部门制定SEO规范。让大家有参考。