动态网页抓取( 就是网站的概念与具体讲解网页的构成的区别?)
优采云 发布时间: 2022-04-12 02:22动态网页抓取(
就是网站的概念与具体讲解网页的构成的区别?)
网页的基本构成和爬取原理
网页是可以被浏览器等客户端解析的文件。与我们通常遇到的文件不同的是:网页植根于互联网。也就是说,我们通过浏览器浏览的大部分网页文件都不是本地的,它可能在世界上任何一台联网的电脑上。而且,通过互联网的超链接,我们可以在世界任何一个角落浏览网页文件,也就是我们通常所说的上网,足不出户就可以融入整个世界。
爬虫爬取的数据其实就是网页上的内容。本节我们会讲到具体的爬取原理。我们先来看看网站的概念:
1. 网站 的概念
在详细解释网页的结构之前。我们需要先了解 网站 的概念。
网站 是多个向外界提供服务的网页的集合。主要分为静态网站和动态网站。
1.1 静态网站
静态 网站 表示 网站 下的所有页面都是使用 HTML网站 构建的。所谓静态并不意味着网页是静态的,网页中还可以有*敏*感*词*、视频等信息。这里的静态是指无法与服务器交互。只是被动解析显示服务器端响应返回的信息。
静态网站的优点:
便于收录搜索,方便SEO优化。内容独立,不依赖于数据库。
静态网站的缺点:
维护成本比较高,大部分内容需要人工手动更新。该页面不是交互式的,用户体验很差。
1.2 个供稿网站
动态网站相比静态网站,可以提供更多的交互体验。比如用户注册登录、实时推荐等功能。动态 网站 不仅收录静态 HTML 文件,还收录服务器端脚本,如 Jsp、Asp 等。
动态网站的优点:
用户体验好,可以实现更多的个性化设置。服务端可以和客户端进行更多的交互,方便服务端管理和分析数据。
动态网站的缺点:
需要处理数据库,访问速度大大降低。对搜索引擎不友好。
无论是静态网站中的网页还是动态网站中的网页,都有一些共同的基本内容。让我们看一下网页的三个基本元素:
2. 网页的三个基本元素:
在接下来的章节中,我们将详细介绍网页的三个基本要素,但这里只是一些基本概念和用途。
2.1 个 HTML
HTML 是一种标记语言。标记语言不是编程语言,它不能以逻辑编程的方式进行编程。它只是就如何呈现文件达成一致。通过对不同标签所代表的不同含义达成一致,在浏览器端渲染出丰富多彩的网页。它主要包括两个部分:头部和主体。HTML 主要负责页面的结构。
2.2 CSS
级联样式表,有时称为样式表。需要配合HTML使用,才能提供丰富的渲染效果。
2.3 Javascript
它是一种广泛用于前端逻辑实现的脚本语言。很多自定义效果都可以通过 javascript 来实现,javascript 是前端使用最广泛的编程语言。
综上所述,HTML、CSS、Javascript共同构成了丰富的网页样式。三者缺一不可。没有HTML、CSS、Javascript,就是无源之水,毫无意义;没有 CSS,网页将失去颜色和样式,最终会使 HTML 变得相同;没有 Javascript,我们无法看到动态网页。,只是一潭死水。
3. 爬取原理
爬虫爬取的数据其实就是网页上的内容。我们需要通过特定的工具来分析网页,比如Beautiful Soup。然后提取 HTML 中特定标签下的数据。然后,将数据持久化并保存,以方便未来的数据分析。
简单来说,我们使用爬虫,最根本的目的就是在网页中爬取对我们有价值的信息和数据。因此,我们大部分的爬取工作就是过滤我们的有用信息,剔除无用信息。这是爬虫的核心。
4. 总结
通过本节,我们了解了网页的基本元素。在使用爬虫的过程中,我们需要随时随地分析网页的构成元素。分析很有帮助。