浏览器抓取网页(浏览器输入URL之后发生了什么?输入到获取网页的过程)
优采云 发布时间: 2022-01-29 00:17浏览器抓取网页(浏览器输入URL之后发生了什么?输入到获取网页的过程)
浏览器输入URL获取网页的过程
上图大致描述了浏览器输入 URL 时发生的情况。详细过程总结如下。
条件是:
从浏览器输入 URL 地址
URL,也称为统一资源定位器,描述了特定服务器上资源的特定位置。URL由三部分组成:
scheme 描述了用于访问资源的协议 服务器的 Internet 地址 其余指定 Web 服务器的资源
有效的网址
1
http://video.google.com.uk:80/videoplay?docid=-7246927612831078230&hl=en#00h02m30s
上面的 URL 分解为:
查询流程:
首先会查询浏览器的缓存,浏览器会存储一定时间内的DNS记录。如果没有找到,会在操作系统的缓存中查询;路由器也会被DNS记录查询,并且会继续在路由器的缓存中查询;ISP互联网提供商查询,这里是最后在DNS系统上搜索到的连接互联网的中继站;DNS解析过程
DNS采用迭代查询和递归查询两种方式。因为IP地址很难记住,所以域名可以帮助我们记住网站地址。域名实际上无法找到服务器的位置,而是通过DNS服务器将域名解析为IP地址。确定服务器的位置。
首先,浏览器像本地 DNS 服务器一样发送请求。如果没有查询到本地DNS地址,则需要使用递归和迭代的方式依次向根域名服务器、顶级域名服务器、权威域名服务器发送查询请求,直到找到一个或一组IP。地址,返回给浏览器。
DNS本身的传输协议是UDP协议,但是每次迭代和递归查找都是非常耗时的,所以DNS有这个多级缓存。
缓存分为:浏览器缓存、系统缓存、路由器缓存、IPS服务器缓存、根域名服务器缓存、顶级域名服务器缓存、主域名服务器缓存。
DNS 负载均衡
DNS 不一定每次都返回同一服务器的地址。DNS可以返回合适机器的IP,根据每台机器的负载和机器的物理位置合理分配。CDN技术是利用DNS重定向技术返回离用户最近的服务器。
TCP 连接
建立 TCP 连接,经典的三次握手过程。
TCP是端到端可靠的面向连接的协议,所以HTTP基于传输层协议,无需担心数据传输。