js抓取网页内容(Python爬虫爬取模块前的基本结构和编写程序的必备知识)
优采云 发布时间: 2021-11-29 14:31js抓取网页内容(Python爬虫爬取模块前的基本结构和编写程序的必备知识)
爬虫程序之所以能够抓取数据,是因为爬虫可以对网页进行分析,从网页中提取出想要的数据。在学习Python爬虫模块之前,我们有必要熟悉网页的基本结构,这是编写爬虫程序的必备知识。
Python爬虫爬取的网页信息中,HTML是网站的主要结构,CSS是网页的外观细节,JavaScript是页面处理动作,通过分析提取信息的 HTML 文本。
了解网络
以Circlenet()主页为例,抓取Circlenet主页上的信息(标题和链接),数据在源代码中以纯文本形式呈现。在Circlenet首页,按快捷键【Ctrl+U】打开源代码页,如图:
网页一般由HTML(超文本标记语言)、CSS(层叠样式表)和JavaScript(简称“JS”动态脚本语言)三部分组成,每部分在网页中承担不同的任务。
HTML
HTML是网页的基本结构,相当于人体的骨骼结构。所有同时带有“<”和“>”符号的网页都属于HTML标签。常见的 HTML 标签如下:
声明为 HTML5 文档
.. 是网页的根元素
.. 元素包含了文档的元(meta)数据,如 定义网页编码格式为 utf-8。
.. 元素描述了文档的标题
.. 表示用户可见的内容
.. 表示框架
<p>.. 表示段落
.. 定义无序列表
..定义有序列表
..表示列表项
表示图片
..表示标题
..</a>表示超链接</p>
编写以下代码:
一点Python网
点击访问</a>
一点Python网www.1dit.cn
Python爬虫
<p>认识网页结构
HTML
CSS
</p>
CSS
CSS 代表级联样式表。有三种写法:内联样式、内联样式和大纲样式。CSS代码演示如下:
body{
background-color:yellow;
}
p{
font-size: 30px;
color: springgreen;
}
一点Python网
一点Python网www.1dit.cn
点击访问</a>
Python爬虫
<p>认识网页结构
HTML
CSS
</p>
如图2所示,内联样式通过style标签写入样式表:
内嵌样式使用 HTML 元素的 style 属性来编写 CSS 代码。请注意,每个 HTML 元素都有 style、class、id、name 和 title 属性。
外部样式表是指将 CSS 代码单独保存为一个以 .css 结尾的文件,并使用它来将其导入所需的页面:
当样式需要应用于多个页面时,使用外部样式表是最好的选择。
JavaScript
JavaScript 负责描述网页的行为。例如,可以使用 JavaScript 实现交互式内容和各种特殊效果。当然也可以通过其他方式实现,比如jQuery,以及一些前端框架(vue、React等),但都是在“JS”的基础上实现的。
简单的例子:
body{
background-color: rgb(220, 226, 226);
}
一点Python网
一点Python网www.1dit.cn
Python爬虫
<p>点击下方按钮获取当前时间
点击这里
</p>
function DisplayDate(){
document.getElementById("time").innerHTML=Date()
}
</p>
如果用人体作为比喻,HTML 就是人体骨架,它定义了人的嘴巴、眼睛、耳朵等应该长在哪里。CSS是一个人的外貌细节,比如嘴巴长什么样,眼睛是双眼皮还是单眼皮,眼睛是大是小,皮肤是黑还是白。JScript 代表人类技能,例如跳舞、唱歌或演奏乐器。