搜索引擎如何抓取网页(小小课堂SEO学网带来的是《页面抓取过程过程简述》)

优采云 发布时间: 2022-03-09 04:03

  搜索引擎如何抓取网页(小小课堂SEO学网带来的是《页面抓取过程过程简述》)

  文章目录

  url,Uniform Resource Locator,通过对url的分析,我们可以更好的了解页面的爬取过程。今天小小教SEO学习网就为大家带来页面爬取过程的简单介绍。希望本次SEO技术培训对您有所帮助。

  

  一、url 是什么意思?

  URL,英文全称是“uniform resource locator”,中文翻译是“uniform resource locator”。

  在网站的优化中,要求每个页面只有一个唯一的统一资源定位符(URL),但往往很多网站同一个页面对应多个URL,如果所有搜索引擎收录 并且不进行 URL 重定向,权重不会集中,通常称为 URL 不规则。

  二、url的组成

  统一资源定位器(URL),由三部分组成:协议方案、主机名和资源名。

  例如:

  www.x**.org/11806

  其中,https是协议方案,***.org是主机名,11806是资源。但是,这个资源不是很明显。一般的资源后缀是.html,当然也可以是.pdf、.php、.word等格式。

  三、页面爬取过程简述

  不管是我们平时使用的互联网浏览器还是网络爬虫,虽然有两种不同的客户端,但是获取页面的方式是一样的。页面抓取过程如下:

  ① 连接到 DNS 服务器

  客户端会先连接DNS域名服务器,DNS服务器会将主机名(***.org)转换成IP地址反馈给客户端。

  PS:最初我们使用的地址是 111.152 。151.45 访问某个网站。为了方便记忆和使用,我们使用了DNS域名系统将其转换为***.org。这就是DNS域名系统的作用。

  ② 连接IP地址服务器

  IP服务器下可能有很多程序(网站),可以通过端口号来区分。同时,每个程序(网站)都会监控端口是否有新的连接请求。HTTP网站 默认为 80,HTTPS网站 默认为 443。

  但是,通常默认情况下不存在端口号 80 和 443。

  例如:

  ***.org:443/ = ***.org/

  ***.org:80/ = ***.org/

  ③ 建立连接并发送页面请求

  客户端与服务器建立连接后,会发送一个页面请求,一般是get或者post。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线