浏览器抓取网页(网页浏览器主要通过HTTP协议连接网页伺服器而取得(图))

优采云 发布时间: 2022-01-08 08:06

  浏览器抓取网页(网页浏览器主要通过HTTP协议连接网页伺服器而取得(图))

  Web浏览器主要通过HTTP协议连接Web服务器获取网页。HTTP 允许网络浏览器向网络服务器发送数据并获取网页。目前最常用的HTTP是HTTP/1.1,在RFC2616中有完整的定义。HTTP/1.1 有自己的一套标准,Internet Explorer 不完全支持,但是许多其他当代 Web 浏览器完全支持这些标准。

  网页的位置由 URL(Uniform Resource Locator)表示,即网页的地址;以http:开头的一​​种是通过HTTP协议登录。许多浏览器还支持其他类型的 URL 和协议,例如 ftp:用于 FTP(文件传输协议)、gopher:用于 Gopher 和 https:用于 HTTPS(SSL 加密的 HTTP)。

  网页通常使用超文本标记语言(标准通用标记语言下的应用程序)文件格式,并在 HTTP 协议中定义为 MIME 内容。大多数浏览器支持 HTML 以外的许多文件格式,例如 JPEG、PNG 和 GIF 图像格式,并且可以使用插件支持其他文件类型。通过结合 HTTP 内容类型和 URL 协议,网页设计者可以在网页中收录图像、*敏*感*词*、视频、声音和流媒体,或者允许人们通过网页访问它们。

  早期的网络浏览器只支持 HTML 的简化版本。专有软件浏览器的快速发展导致了非标准 HTML 代码的产生。这会导致浏览器兼容性问题。现代浏览器(Mozilla、Opera 和 Safari)支持标准 HTML 和 XHTML(从 HTML 4.01 开始)。它们都显示相同的页面效果。Internet Explorer 仍然不完全支持 HTML 4.01 和 XHTML 1.x。现在很多网站都是使用WYSIWYG HTML编辑软件构建的,包括Macromedia Dreamweaver和Microsoft Frontpage。他们通常默认生成非标准的 HTML;这阻止了 W3C 开发统一标准,尤其是 XHTML 和 CSS(级联样式表,在设计网页时使用)。

  一些浏览器还为 Usenet 新闻组、IRC(Internet 中继聊天)和电子邮件加载了附加组件。支持的协议包括 NNTP(网络新闻传输协议)、SMTP(简单邮件传输协议)、IMAP(交互式邮件访问协议)和 POP(邮局协议)。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线