网页抓取数据百度百科(,安装Python3.6;2.安装以下库:主要思路)
优采云 发布时间: 2022-02-03 18:09网页抓取数据百度百科(,安装Python3.6;2.安装以下库:主要思路)
重要说明1:本文所列程序均基于Python3.6,低于Python3.6的Python版本可能无法使用。
重要说明2:由于捕捉到的网站可能随时改变显示内容,程序也需要及时跟进。
重要提示3:本程序仅供学习使用,不能用于做坏事。
开始
1.安装 Python 3.6;
2.安装以下库:
主要思想
对于整个过程,请按照以下步骤操作:
1.获取要爬取页面的URL地址(可以是分页地址,也可以在程序中模拟分页);
2.通过requests将上述URL地址的内容下载到内存中(封装了urllib3的网络库,简化了很多网络请求)(之前的方式是保存临时文件);
3.第二步使用BeautifulSoup(解析HTML的库)读取内存中存储的内容,解析出我们想要的主要内容;
4.保存到数据库或显示(特别说明:本示例程序不收录数据库部分),程序最终会输出多条json数据(已收录源码网站(自定义)、创建时间等)
以上部分体现在代码中,如下:
首先在Main.py中,定义:
用来格式化妹子得到的数据,下面也定义了一个Qsyk来处理来自尴尬的东西百科的数据:
代码中还有一个爬取的过程,这里就不一一列举了。它们之间唯一的区别是:调用common.formatContent时,传递的第二个参数不同,第二个参数是要爬取的类的内容(HTML)。
CommonGrab 依赖于 UserUtils.py 中的代码。
以下是CommonGrab的定义,在CommonGrab中主要做了两件事:
抓取网页内容并保存到内存中;解析 HTML 内容(使用 BeautifulSoup)并将数据添加到数据库中。 (不要将数据库添加到数据库中。)
代码如下:
然后将以上部分组合起来。
运行
运行部分代码如下,主要调用以上部分的代码:
源码下载
CSDN:
:
文件:
main.py:运行
UserUtils.py:工具