网页抓取qq(如何显示一个页面的实际抓取结果呢？(二))

优采云发布时间: 2022-04-04 09:19

　　搜索引擎在抓取网页时，可能会遇到各种情况，有的页面抓取成功，有的页面抓取失败。如何显示一个页面的实际爬取结果？主要由返回码表示，代表捕获成功与否以及遇到的问题。比如我们经常打开一个页面，页面是空白的，上面只显示404。这里的404是一种返回码，表示当前抓取的页面已经过期。如果显示一个404的页面，如果蜘蛛在短时间内再次找到这个URL，就不会爬取了。

　　有时，会返回 503。503 返回码表示网站暂时不可访问。这可能是由于网站服务器关闭或其他临时措施导致网页无法访问。一般来说，蜘蛛会继续爬行几个二流。如果网站恢复正常，则 URL 仍将被视为正常 URL。如果服务器一直处于不可访问状态，搜索引擎会将这些URL从库中彻底删除，这就需要我们保持网站的稳定性，尽量避免临时关闭。返回码403为禁止访问状态。一般来说，和503一样，如果被多次访问后仍处于禁止访问状态，就会被搜索引擎从库中删除。

　　在返回码中，有一个类别需要特别注意，那就是301。301代表永久删除，当前URL永久重定向到另一个URL。一般来说，如果某些URL由于修改等原因需要永久替换为新的URL，则必须使用返回码301进行处理，这样才能带上权重，网站的流量损失可以避免。

　　编写返回码 301 的优化方式如下。

　　(1)创建一个 htaccess.txt 文件。

　　(2)在htaccess.txt中写入返回码301的跳转信息。

　　假设旧 URL 是并且需要重定向到，则需要在文件中写入以下信息。

　　重写引擎

　　RewriteCond%{http_host}^[NC]

　　重写规则^(.*)$[L,R=301]

　　(3)上传 htaccess.txt 到 FTP，然后修改 htaccess.txt 为 .htaccess。

　　需要提醒的是，htaccess目前只适用于Linux系统，需要虚拟主机支持。因此，在考虑.htaccess文件处理301的返回码时，需要检查虚拟主机是否完全支持。

　　事实上，有很多方法可以处理重定向。简单来说，重定向可以分为http30x重定向、metarefresh重定向和js重定向。此外，谷歌、百度等大型搜索引擎公司已经确认支持Canonical标签。通过制定权威页面，他们可以引导蜘蛛只索引一个权威页面。从实际效果来看，也是一种间接重定向。在实际的爬取过程中，蜘蛛会识别出各种重定向效果。

　　重定向的方式有很多，但是从SEO的角度来说，如果是永久重定向的页面，尽量使用返回码301的重定向方式。另外，从时间结果来看，百度对Canonical的支持不如谷歌，采用Canonical可能达不到预期效果。有的网站通过不同的路径进入同一个页面，可能有多个URL。面对这种情况，可能需要一些处理技巧。

　　外链等因素对搜索排名有影响，那么对爬取链接也有影响吗？百度在其爬取策略中有一个优先级描述，即实现包括“深度优先遍历策略、广度优先遍历策略、PR优先策略、反链策略、社交分享引导策略等”。同时，这也说明每种策略都有自己的优势和劣势。在实际情况中，往往会结合使用多种策略来达到最佳的抓取效果。从这个官方的描述中，我们可以看到PR优先策略、反链策略、社交分享等字眼。我们可以认为百度在实际爬取的时候其实是考虑到了这些因素，但是权重可能会有所不同，所以，试试改善网页公关，

　　另外，鉴于网上存在大量“风版”和“采集”的网页，在爬取过程中，蜘蛛会通过技术判断该页面是否被爬取过, 和 URL 不同但实际内容是相同的。页面的URL被规范化，即视为一个URL。就是告诉SEO人员不要为了获取更多的搜索资源而创建大量的页面，如果页面很多，但是每个页面的内容重复性很高，或者只有URL收录无效参数来实现多页面，搜索引擎还是把这些网址当成一个网址，即网站页面尽量不要多，网页以功利的方式拼凑起来，部署了大量的长尾，但页面质量堪忧，效果会适得其反。如果大量此类页面被搜索引擎判断为低质量页面，可能会影响整个网站的SEO效果。

　　蜘蛛的爬行过程实际上是一个基于链接不断探索的过程。如果链路之间发生短路，蜘蛛就无法向前爬行。在网站的实际操作中，我们可以看到很多网页其实都隐藏在网站的后端，是蜘蛛无法捕捉到的。比如没有预留入口链接，或者入口链接已经过期等。这些无法到达的内容和信息对于蜘蛛来说是孤岛，对于SEO人员来说，并没有充分发挥内容引流的作用。同时，由于网络环境或网站规范，蜘蛛可能无法爬取。

　　如何解决无法获取信息的问题？几种可行的解决方案如下。

　　●利用搜索引擎平台提供的开发平台等数据上传渠道，可独立提交数据。

　　●使用Sitemap提交方式。大型网站或网站具有特殊结构，会累积大量历史页面。这些历史页面很多都有 SEO 价值，但是蜘蛛无法通过正常的抓取来抓取它们。对于这些页面，建立一个Sitemap 归档并提交给百度等搜索引擎是非常有必要的。

　　蜘蛛抓取网站时，会按照网站协议进行抓取，比如哪些网页可以被搜索引擎抓取，哪些网页不允许被搜索引擎抓取。常见的协议有HTTP协议、HTTPS协议、Robots协议等。

　　HTTP 协议标准化了客户端和服务器的请求和响应。客户端一般指的是最终用户，服务器指的是网站。终端用户通过浏览器、蜘蛛等方式向服务器的指定端口发送HT请求，发送HTTP请求会返回对应的HTTP Heder信息。我们可以看到是否成功，服务器类型，网页最后更新时间。

　　HTTPS协议是一种加密协议，一般用于用户安全数据的传输。HTTPS就是在HTTP下增加一个SSL层。此类页面的应用大多与支付相关或内部机密信息有关。蜘蛛不会自动抓取此类页面。因此，从SEO的角度来说，在建站的时候，尽量区分页面的性质，对非机密页面进行HTTP处理，以实现网页爬取和收录。网站风格新闻

0

2022-04-04

网页抓取qq

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页抓取qq(如何显示一个页面的实际抓取结果呢？(二))

0 个评论

发起人

AI时代内容工厂

网页抓取qq(如何显示一个页面的实际抓取结果呢？(二))

0 个评论

发起人

相关问题