网页抓取数据百度百科(,安装Python3.6;2.安装以下库:主要思路)

优采云发布时间: 2022-02-03 18:09

　　重要说明1：本文所列程序均基于Python3.6，低于Python3.6的Python版本可能无法使用。

　　重要说明2：由于捕捉到的网站可能随时改变显示内容，程序也需要及时跟进。

　　重要提示3：本程序仅供学习使用，不能用于做坏事。

　　开始

　　1.安装 Python 3.6;

　　2.安装以下库：

　　主要思想

　　对于整个过程，请按照以下步骤操作：

　　1.获取要爬取页面的URL地址（可以是分页地址，也可以在程序中模拟分页）；

　　2.通过requests将上述URL地址的内容下载到内存中（封装了urllib3的网络库，简化了很多网络请求）（之前的方式是保存临时文件）；

　　3.第二步使用BeautifulSoup（解析HTML的库）读取内存中存储的内容，解析出我们想要的主要内容；

　　4.保存到数据库或显示（特别说明：本示例程序不收录数据库部分），程序最终会输出多条json数据（已收录源码网站（自定义）、创建时间等）

　　以上部分体现在代码中，如下：

　　首先在Main.py中，定义：

　　用来格式化妹子得到的数据，下面也定义了一个Qsyk来处理来自尴尬的东西百科的数据：

　　代码中还有一个爬取的过程，这里就不一一列举了。它们之间唯一的区别是：调用common.formatContent时，传递的第二个参数不同，第二个参数是要爬取的类的内容（HTML）。

　　CommonGrab 依赖于 UserUtils.py 中的代码。

　　以下是CommonGrab的定义，在CommonGrab中主要做了两件事：

　　抓取网页内容并保存到内存中；解析 HTML 内容（使用 BeautifulSoup）并将数据添加到数据库中。（不要将数据库添加到数据库中。）

　　代码如下：

　　然后将以上部分组合起来。

　　运行

　　运行部分代码如下，主要调用以上部分的代码：

　　源码下载

　　CSDN：

　　：

　　文件：

　　main.py：运行

　　UserUtils.py:工具

0

2022-02-03

网页抓取数据百度百科

0 个评论

要回复文章请先登录或注册