浏览器抓取网页(小小课堂SEO学网带来的是《》《》)
优采云 发布时间: 2021-10-09 03:05浏览器抓取网页(小小课堂SEO学网带来的是《》《》)
URL,统一资源定位器,通过对URL的分析,可以更好的了解页面的爬取过程。
今天,小小课堂SEO学习网就为大家简单介绍一下页面抓取的过程。希望本次SEO技术培训对大家有所帮助。
一、url是什么意思?
URL英文叫做“uniform resource locator”,中文翻译为“uniform resource locator”。
在网站优化中,要求每个页面有一个且只有一个唯一的统一资源定位符(URL),但往往很多网站同一个页面对应多个URL,如果都被搜索引擎搜索到的话收录且没有URL重定向,权重不集中,通常称为URL不规则。
二、url的组成
统一资源定位符(URL)由三部分组成:协议方案、主机名和资源名。
三、页面爬取过程简述
不管是我们平时使用的网络浏览器,还是网络爬虫,虽然有两个不同的客户端,但是获取页面的方式是一样的。页面抓取过程如下:
① 连接DNS服务器
客户端首先会连接到DNS域名服务器,DNS服务器将主机名转换成IP地址并发回给客户端。
PS:原来我们用的地址是111.152。151.45 访问某个网站。为了便于记忆和使用,我们使用了DNS域名系统对其进行了转换。这就是 DNS 域名系统的作用。
②连接IP地址服务器
这个IP服务器下可能有很多程序(网站),可以通过端口号来区分。同时每个程序(网站)都会*敏*感*词*端口上是否有新的连接请求,HTTP网站默认为80,HTTPS网站默认为443。
不过一般情况下,80和443端口号默认是不会出现的。
③ 建立连接并发送寻呼请求
客户端与服务器建立连接后,会发送一个页面请求,通常是get或者post。