htmlunit抓取动态网页(邯郸SEO推荐最佳答案：蜘蛛爬行过程中要抓取伪静态的原理)

优采云发布时间: 2021-10-06 19:08

　　补充问题：我们的网站已经伪静态了，但是通过拆分日志，我们发现蜘蛛还是爬取了大量的动态文件。百度也有很多答案，但大部分答案都比较水。什么是正常的？机器人禁止他们。我现在想知道，首先，是什么导致了这种情况。想想蜘蛛的爬行模式，为什么会爬出动态地址呢？我问了程序方，确认没有入口。我想过这个问题。关于伪静态的原理，我不明白怎么爬到动态网址，而且是比较大的量。第二个是这种情况怎么处理，Robots禁止爬行，另一个是使用canonical标签（这个网站还没设置），请问各位兄弟，

　　邯郸SEO推荐最佳答案：伪静态并不是真正的静态，伪静态、动态和伪静态URL后的页面都可以正常打开网页。爬虫爬取伪静态页面有两种方法：一是爬到动态链接，然后网站跳转到伪静态链接，二是爬到伪静态链接直接地。换句话说，这取决于网页的入口是什么样的。

　　回答你的两个问题：

　　A1：蜘蛛爬在前面，伪静态在后面。

　　在伪静态之前，蜘蛛已经爬取了大量的动态页面。比较伪静态前后的日志。如果动态链接重复，应该是蜘蛛在看爬取的页面有没有更新，不用管，做个301跳蜘蛛我去抓伪静态链接。如果链接不重复，并且有很多新的动态页面，那么肯定有提供给蜘蛛的动态链接的页面。要么是程序处理的问题。虽然是伪静态，但网页上的链接还是动态的；或者内部链接（页面、站点地图）、外部链接等都是左动态链接。

　　蜘蛛不会凭空创建链接来捕捉它。既然抓到了，就有蜘蛛爬进去的入口。你必须倾听并相信技术术语，但你必须验证自己。毕竟，这是你的工作。

　　A2：我觉得不应该先禁止机器人，要看网站的情况。

　　如果蜘蛛正在爬取伪静态链接，而且数量每天都在增加，而且之前爬过的动态页面，伪静态蜘蛛也爬过了，可以考虑使用robots来禁止动态链接的爬取。

　　如果蜘蛛没有重新爬取之前的页面，在robots被禁止之后，就意味着这些页面的收录很可能被清除了。我不会做这种事到死。301跳转我都会做，canonical标签也会加，站长工具里的网站改版也会用到。总之，我会尽量让蜘蛛重新抓到旧的伪静态页面，然后再考虑机器人。禁止动态抓取。

0

2021-10-06

htmlunit抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

htmlunit抓取动态网页(邯郸SEO推荐最佳答案：蜘蛛爬行过程中要抓取伪静态的原理)

0 个评论

发起人