网页抓取qq(如何显示一个页面的实际抓取结果呢?(二))

优采云 发布时间: 2022-04-04 09:19

  网页抓取qq(如何显示一个页面的实际抓取结果呢?(二))

  搜索引擎在抓取网页时,可能会遇到各种情况,有的页面抓取成功,有的页面抓取失败。如何显示一个页面的实际爬取结果?主要由返回码表示,代表捕获成功与否以及遇到的问题。比如我们经常打开一个页面,页面是空白的,上面只显示404。这里的404是一种返回码,表示当前抓取的页面已经过期。如果显示一个404的页面,如果蜘蛛在短时间内再次找到这个URL,就不会爬取了。

  

  有时,会返回 503。503 返回码表示 网站 暂时不可访问。这可能是由于 网站 服务器关闭或其他临时措施导致网页无法访问。一般来说,蜘蛛会继续爬行几个二流。如果 网站 恢复正常,则 URL 仍将被视为正常 URL。如果服务器一直处于不可访问状态,搜索引擎会将这些URL从库中彻底删除,这就需要我们保持网站的稳定性,尽量避免临时关闭。返回码403为禁止访问状态。一般来说,和503一样,如果被多次访问后仍处于禁止访问状态,就会被搜索引擎从库中删除。

  在返回码中,有一个类别需要特别注意,那就是301。301代表永久删除,当前URL永久重定向到另一个URL。一般来说,如果某些URL由于修改等原因需要永久替换为新的URL,则必须使用返回码301进行处理,这样才能带上权重,网站的流量损失可以避免。

  编写返回码 301 的优化方式如下。

  (1)创建一个 htaccess.txt 文件。

  (2)在htaccess.txt中写入返回码301的跳转信息。

  假设旧 URL 是并且需要重定向到,则需要在文件中写入以下信息。

  重写引擎

  RewriteCond%{http_host}^[NC]

  重写规则^(.*)$$1[L,R=301]

  (3)上传 htaccess.txt 到 FTP,然后修改 htaccess.txt 为 .htaccess。

  需要提醒的是,htaccess目前只适用于Linux系统,需要虚拟主机支持。因此,在考虑.htaccess文件处理301的返回码时,需要检查虚拟主机是否完全支持。

  事实上,有很多方法可以处理重定向。简单来说,重定向可以分为http30x重定向、metarefresh重定向和js重定向。此外,谷歌、百度等大型搜索引擎公司已经确认支持Canonical标签。通过制定权威页面,他们可以引导蜘蛛只索引一个权威页面。从实际效果来看,也是一种间接重定向。在实际的爬取过程中,蜘蛛会识别出各种重定向效果。

  重定向的方式有很多,但是从SEO的角度来说,如果是永久重定向的页面,尽量使用返回码301的重定向方式。另外,从时间结果来看,百度对Canonical的支持不如谷歌,采用Canonical可能达不到预期效果。有的网站通过不同的路径进入同一个页面,可能有多个URL。面对这种情况,可能需要一些处理技巧。

  外链等因素对搜索排名有影响,那么对爬取链接也有影响吗?百度在其爬取策略中有一个优先级描述,即实现包括“深度优先遍历策略、广度优先遍历策略、PR优先策略、反链策略、社交分享引导策略等”。同时,这也说明每种策略都有自己的优势和劣势。在实际情况中,往往会结合使用多种策略来达到最佳的抓取效果。从这个官方的描述中,我们可以看到PR优先策略、反链策略、社交分享等字眼。我们可以认为百度在实际爬取的时候其实是考虑到了这些因素,但是权重可能会有所不同,所以,试试改善网页公关,

  另外,鉴于网上存在大量“风版”和“采集”的网页,在爬取过程中,蜘蛛会通过技术判断该页面是否被爬取过, 和 URL 不同但实际内容是相同的。页面的URL被规范化,即视为一个URL。就是告诉SEO人员不要为了获取更多的搜索资源而创建大量的页面,如果页面很多,但是每个页面的内容重复性很高,或者只有URL收录无效参数来实现多页面,搜索引擎还是把这些网址当成一个网址,即网站页面尽量不要多,网页以功利的方式拼凑起来,部署了大量的长尾,但页面质量堪忧,效果会适得其反。如果大量此类页面被搜索引擎判断为低质量页面,可能会影响整个网站的SEO效果。

  蜘蛛的爬行过程实际上是一个基于链接不断探索的过程。如果链路之间发生短路,蜘蛛就无法向前爬行。在网站的实际操作中,我们可以看到很多网页其实都隐藏在网站的后端,是蜘蛛无法捕捉到的。比如没有预留入口链接,或者入口链接已经过期等。这些无法到达的内容和信息对于蜘蛛来说是孤岛,对于SEO人员来说,并没有充分发挥内容引流的作用。同时,由于网络环境或网站规范,蜘蛛可能无法爬取。

  

  如何解决无法获取信息的问题?几种可行的解决方案如下。

  ●利用搜索引擎平台提供的开发平台等数据上传渠道,可独立提交数据。

  ●使用Sitemap提交方式。大型网站 或网站 具有特殊结构,会累积大量历史页面。这些历史页面很多都有 SEO 价值,但是蜘蛛无法通过正常的抓取来抓取它们。对于这些页面,建立一个Sitemap 归档并提交给百度等搜索引擎是非常有必要的。

  蜘蛛抓取网站时,会按照网站协议进行抓取,比如哪些网页可以被搜索引擎抓取,哪些网页不允许被搜索引擎抓取。常见的协议有HTTP协议、HTTPS协议、Robots协议等。

  HTTP 协议标准化了客户端和服务器的请求和响应。客户端一般指的是最终用户,服务器指的是网站。终端用户通过浏览器、蜘蛛等方式向服务器的指定端口发送HT请求,发送HTTP请求会返回对应的HTTP Heder信息。我们可以看到是否成功,服务器类型,网页最后更新时间。

  HTTPS协议是一种加密协议,一般用于用户安全数据的传输。HTTPS就是在HTTP下增加一个SSL层。此类页面的应用大多与支付相关或内部机密信息有关。蜘蛛不会自动抓取此类页面。因此,从SEO的角度来说,在建站的时候,尽量区分页面的性质,对非机密页面进行HTTP处理,以实现网页爬取和收录。网站 风格新闻

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线