搜索引擎如何抓取网页(小小课堂SEO学网带来的是《页面抓取过程过程简述》)

优采云发布时间: 2022-03-09 04:03

　　文章目录

　　url，Uniform Resource Locator，通过对url的分析，我们可以更好的了解页面的爬取过程。今天小小教SEO学习网就为大家带来页面爬取过程的简单介绍。希望本次SEO技术培训对您有所帮助。

　　一、url 是什么意思？

　　URL，英文全称是“uniform resource locator”，中文翻译是“uniform resource locator”。

　　在网站的优化中，要求每个页面只有一个唯一的统一资源定位符（URL），但往往很多网站同一个页面对应多个URL，如果所有搜索引擎收录并且不进行 URL 重定向，权重不会集中，通常称为 URL 不规则。

　　二、url的组成

　　统一资源定位器（URL），由三部分组成：协议方案、主机名和资源名。

　　例如：

　　www.x**.org/11806

　　其中，https是协议方案，***.org是主机名，11806是资源。但是，这个资源不是很明显。一般的资源后缀是.html，当然也可以是.pdf、.php、.word等格式。

　　三、页面爬取过程简述

　　不管是我们平时使用的互联网浏览器还是网络爬虫，虽然有两种不同的客户端，但是获取页面的方式是一样的。页面抓取过程如下：

　　① 连接到 DNS 服务器

　　客户端会先连接DNS域名服务器，DNS服务器会将主机名（***.org）转换成IP地址反馈给客户端。

　　PS：最初我们使用的地址是 111.152 。151.45 访问某个网站。为了方便记忆和使用，我们使用了DNS域名系统将其转换为***.org。这就是DNS域名系统的作用。

　　② 连接IP地址服务器

　　IP服务器下可能有很多程序（网站），可以通过端口号来区分。同时，每个程序（网站）都会监控端口是否有新的连接请求。HTTP网站默认为 80，HTTPS网站默认为 443。

　　但是，通常默认情况下不存在端口号 80 和 443。

　　例如：

　　***.org:443/ = ***.org/

　　***.org:80/ = ***.org/

　　③ 建立连接并发送页面请求

　　客户端与服务器建立连接后，会发送一个页面请求，一般是get或者post。

0

2022-03-09

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册