js抓取网页内容(Python爬虫爬取模块前的基本结构和编写程序的必备知识)

优采云 发布时间: 2021-11-29 14:31

  js抓取网页内容(Python爬虫爬取模块前的基本结构和编写程序的必备知识)

  爬虫程序之所以能够抓取数据,是因为爬虫可以对网页进行分析,从网页中提取出想要的数据。在学习Python爬虫模块之前,我们有必要熟悉网页的基本结构,这是编写爬虫程序的必备知识。

  Python爬虫爬取的网页信息中,HTML是网站的主要结构,CSS是网页的外观细节,JavaScript是页面处理动作,通过分析提取信息的 HTML 文本。

  了解网络

  以Circlenet()主页为例,抓取Circlenet主页上的信息(标题和链接),数据在源代码中以纯文本形式呈现。在Circlenet首页,按快捷键【Ctrl+U】打开源代码页,如图:

  

  网页一般由HTML(超文本标记语言)、CSS(层叠样式表)和JavaScript(简称“JS”动态脚本语言)三部分组成,每部分在网页中承担不同的任务。

  HTML

  HTML是网页的基本结构,相当于人体的骨骼结构。所有同时带有“<”和“>”符号的网页都属于HTML标签。常见的 HTML 标签如下:

   声明为 HTML5 文档

.. 是网页的根元素

.. 元素包含了文档的元(meta)数据,如  定义网页编码格式为 utf-8。

.. 元素描述了文档的标题

.. 表示用户可见的内容

.. 表示框架

<p>.. 表示段落

.. 定义无序列表

..定义有序列表

..表示列表项

表示图片

..表示标题

..</a>表示超链接</p>

  编写以下代码:

  

一点Python网

点击访问</a>

一点Python网www.1dit.cn

Python爬虫

<p>认识网页结构

HTML

CSS

</p>

  CSS

  CSS 代表级联样式表。有三种写法:内联样式、内联样式和大纲样式。CSS代码演示如下:

  

body{

background-color:yellow;

}

p{

font-size: 30px;

color: springgreen;

}

一点Python网

一点Python网www.1dit.cn

点击访问</a>

Python爬虫

<p>认识网页结构

HTML

CSS

</p>

  如图2所示,内联样式通过style标签写入样式表:

  内嵌样式使用 HTML 元素的 style 属性来编写 CSS 代码。请注意,每个 HTML 元素都有 style、class、id、name 和 title 属性。

  外部样式表是指将 CSS 代码单独保存为一个以 .css 结尾的文件,并使用它来将其导入所需的页面:

  当样式需要应用于多个页面时,使用外部样式表是最好的选择。

  JavaScript

  JavaScript 负责描述网页的行为。例如,可以使用 JavaScript 实现交互式内容和各种特殊效果。当然也可以通过其他方式实现,比如jQuery,以及一些前端框架(vue、React等),但都是在“JS”的基础上实现的。

  简单的例子:

  

body{

background-color: rgb(220, 226, 226);

}

一点Python网

一点Python网www.1dit.cn

Python爬虫

<p>点击下方按钮获取当前时间

点击这里

</p>

function DisplayDate(){

document.getElementById("time").innerHTML=Date()

}

</p>

  如果用人体作为比喻,HTML 就是人体骨架,它定义了人的嘴巴、眼睛、耳朵等应该长在哪里。CSS是一个人的外貌细节,比如嘴巴长什么样,眼睛是双眼皮还是单眼皮,眼睛是大是小,皮肤是黑还是白。JScript 代表人类技能,例如跳舞、唱歌或演奏乐器。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线