htmlunit抓取动态网页(邯郸SEO推荐最佳答案:蜘蛛爬行过程中要抓取伪静态的原理)

优采云 发布时间: 2021-10-06 19:08

  htmlunit抓取动态网页(邯郸SEO推荐最佳答案:蜘蛛爬行过程中要抓取伪静态的原理)

  补充问题:我们的网站已经伪静态了,但是通过拆分日志,我们发现蜘蛛还是爬取了大量的动态文件。百度也有很多答案,但大部分答案都比较水。什么是正常的?机器人禁止他们。我现在想知道,首先,是什么导致了这种情况。想想蜘蛛的爬行模式,为什么会爬出动态地址呢?我问了程序方,确认没有入口。我想过这个问题。关于伪静态的原理,我不明白怎么爬到动态网址,而且是比较大的量。第二个是这种情况怎么处理,Robots禁止爬行,另一个是使用canonical标签(这个网站还没设置),请问各位兄弟,

  邯郸SEO推荐最佳答案:伪静态并不是真正的静态,伪静态、动态和伪静态URL后的页面都可以正常打开网页。爬虫爬取伪静态页面有两种方法:一是爬到动态链接,然后网站跳转到伪静态链接,二是爬到伪静态链接直接地 。换句话说,这取决于网页的入口是什么样的。

  回答你的两个问题:

  A1:蜘蛛爬在前面,伪静态在后面。

  在伪静态之前,蜘蛛已经爬取了大量的动态页面。比较伪静态前后的日志。如果动态链接重复,应该是蜘蛛在看爬取的页面有没有更新,不用管,做个301跳蜘蛛我去抓伪静态链接。如果链接不重复,并且有很多新的动态页面,那么肯定有提供给蜘蛛的动态链接的页面。要么是程序处理的问题。虽然是伪静态,但网页上的链接还是动态的;或者内部链接(页面、站点地图)、外部链接等都是左动态链接。

  蜘蛛不会凭空创建链接来捕捉它。既然抓到了,就有蜘蛛爬进去的入口。你必须倾听并相信技术术语,但你必须验证自己。毕竟,这是你的工作。

  A2:我觉得不应该先禁止机器人,要看网站的情况。

  如果蜘蛛正在爬取伪静态链接,而且数量每天都在增加,而且之前爬过的动态页面,伪静态蜘蛛也爬过了,可以考虑使用robots来禁止动态链接的爬取。

  如果蜘蛛没有重新爬取之前的页面,在robots被禁止之后,就意味着这些页面的收录很可能被清除了。我不会做这种事到死。301跳转我都会做,canonical标签也会加,站长工具里的网站改版也会用到。总之,我会尽量让蜘蛛重新抓到旧的伪静态页面,然后再考虑机器人。禁止动态抓取。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线