js抓取网页内容(Python爬虫爬取模块前的基本结构和编写程序的必备知识)

优采云发布时间: 2021-11-29 14:31

　　爬虫程序之所以能够抓取数据，是因为爬虫可以对网页进行分析，从网页中提取出想要的数据。在学习Python爬虫模块之前，我们有必要熟悉网页的基本结构，这是编写爬虫程序的必备知识。

　　Python爬虫爬取的网页信息中，HTML是网站的主要结构，CSS是网页的外观细节，JavaScript是页面处理动作，通过分析提取信息的 HTML 文本。

　　了解网络

　　以Circlenet()主页为例，抓取Circlenet主页上的信息（标题和链接），数据在源代码中以纯文本形式呈现。在Circlenet首页，按快捷键【Ctrl+U】打开源代码页，如图：

　　网页一般由HTML（超文本标记语言）、CSS（层叠样式表）和JavaScript（简称“JS”动态脚本语言）三部分组成，每部分在网页中承担不同的任务。

　　HTML

HTML是网页的基本结构，相当于人体的骨骼结构。所有同时带有“<”和“>”符号的网页都属于HTML标签。常见的 HTML 标签如下：

　　声明为 HTML5 文档

.. 是网页的根元素

.. 元素包含了文档的元（meta）数据，如定义网页编码格式为 utf-8。

.. 元素描述了文档的标题

.. 表示用户可见的内容

.. 表示框架

.. 表示段落

.. 定义无序列表

..定义有序列表

..表示列表项

表示图片

..表示标题

..</a>表示超链接

　　编写以下代码：

一点Python网

点击访问</a>

一点Python网www.1dit.cn

Python爬虫

认识网页结构

HTML

CSS

　　CSS

　　CSS 代表级联样式表。有三种写法：内联样式、内联样式和大纲样式。CSS代码演示如下：

body{

background-color:yellow;

}

p{

font-size: 30px;

color: springgreen;

}

一点Python网

一点Python网www.1dit.cn

点击访问</a>

Python爬虫

认识网页结构

HTML

CSS

　　如图2所示，内联样式通过style标签写入样式表：

　　内嵌样式使用 HTML 元素的 style 属性来编写 CSS 代码。请注意，每个 HTML 元素都有 style、class、id、name 和 title 属性。

　　外部样式表是指将 CSS 代码单独保存为一个以 .css 结尾的文件，并使用它来将其导入所需的页面：

　　当样式需要应用于多个页面时，使用外部样式表是最好的选择。

　　JavaScript

　　JavaScript 负责描述网页的行为。例如，可以使用 JavaScript 实现交互式内容和各种特殊效果。当然也可以通过其他方式实现，比如jQuery，以及一些前端框架（vue、React等），但都是在“JS”的基础上实现的。

　　简单的例子：

body{

background-color: rgb(220, 226, 226);

}

一点Python网

一点Python网www.1dit.cn

Python爬虫

点击下方按钮获取当前时间

点击这里

function DisplayDate(){

document.getElementById("time").innerHTML=Date()

}

　　如果用人体作为比喻，HTML 就是人体骨架，它定义了人的嘴巴、眼睛、耳朵等应该长在哪里。CSS是一个人的外貌细节，比如嘴巴长什么样，眼睛是双眼皮还是单眼皮，眼睛是大是小，皮肤是黑还是白。JScript 代表人类技能，例如跳舞、唱歌或演奏乐器。

0

2021-11-29

js抓取网页内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

js抓取网页内容(Python爬虫爬取模块前的基本结构和编写程序的必备知识)

0 个评论

发起人

AI时代内容工厂

js抓取网页内容(Python爬虫爬取模块前的基本结构和编写程序的必备知识)

0 个评论

发起人

相关问题