浏览器抓取网页(小小课堂SEO学网带来的是《》《》)

优采云发布时间: 2021-10-09 03:05

　　URL，统一资源定位器，通过对URL的分析，可以更好的了解页面的爬取过程。

　　今天，小小课堂SEO学习网就为大家简单介绍一下页面抓取的过程。希望本次SEO技术培训对大家有所帮助。

　　一、url是什么意思？

　　URL英文叫做“uniform resource locator”，中文翻译为“uniform resource locator”。

　　在网站优化中，要求每个页面有一个且只有一个唯一的统一资源定位符（URL），但往往很多网站同一个页面对应多个URL，如果都被搜索引擎搜索到的话收录且没有URL重定向，权重不集中，通常称为URL不规则。

　　二、url的组成

　　统一资源定位符（URL）由三部分组成：协议方案、主机名和资源名。

　　三、页面爬取过程简述

　　不管是我们平时使用的网络浏览器，还是网络爬虫，虽然有两个不同的客户端，但是获取页面的方式是一样的。页面抓取过程如下：

　　① 连接DNS服务器

　　客户端首先会连接到DNS域名服务器，DNS服务器将主机名转换成IP地址并发回给客户端。

　　PS：原来我们用的地址是111.152。151.45 访问某个网站。为了便于记忆和使用，我们使用了DNS域名系统对其进行了转换。这就是 DNS 域名系统的作用。

　　②连接IP地址服务器

　　这个IP服务器下可能有很多程序（网站），可以通过端口号来区分。同时每个程序（网站）都会*敏*感*词*端口上是否有新的连接请求，HTTP网站默认为80，HTTPS网站默认为443。

　　不过一般情况下，80和443端口号默认是不会出现的。

　　③ 建立连接并发送寻呼请求

　　客户端与服务器建立连接后，会发送一个页面请求，通常是get或者post。

0

2021-10-09

浏览器抓取网页

0 个评论

要回复文章请先登录或注册