网页抓取数据百度百科(,安装Python3.6;2.安装以下库:​主要思路)

优采云 发布时间: 2022-02-03 18:09

  网页抓取数据百度百科(,安装Python3.6;2.安装以下库:​主要思路)

  重要说明1:本文所列程序均基于Python3.6,低于Python3.6的Python版本可能无法使用。

  重要说明2:由于捕捉到的网站可能随时改变显示内容,程序也需要及时跟进。

  重要提示3:本程序仅供学习使用,不能用于做坏事。

  开始

  1.安装 Python 3.6;

  2.安装以下库:

  

  主要思想

  对于整个过程,请按照以下步骤操作:

  1.获取要爬取页面的URL地址(可以是分页地址,也可以在程序中模拟分页);

  2.通过requests将上述URL地址的内容下载到内存中(封装了urllib3的网络库,简化了很多网络请求)(之前的方式是保存临时文件);

  3.第二步使用BeautifulSoup(解析HTML的库)读取内存中存储的内容,解析出我们想要的主要内容;

  4.保存到数据库或显示(特别说明:本示例程序不收录数据库部分),程序最终会输出多条json数据(已收录源码网站(自定义)、创建时间等)

  以上部分体现在代码中,如下:

  首先在Main.py中,定义:

  

  用来格式化妹子得到的数据,下面也定义了一个Qsyk来处理来自尴尬的东西百科的数据:

  

  代码中还有一个爬取的过程,这里就不一一列举了。它们之间唯一的区别是:调用common.formatContent时,传递的第二个参数不同,第二个参数是要爬取的类的内容(HTML)。

  CommonGrab 依赖于 UserUtils.py 中的代码。

  以下是CommonGrab的定义,在CommonGrab中主要做了两件事:

  抓取网页内容并保存到内存中;解析 HTML 内容(使用 BeautifulSoup)并将数据添加到数据库中。 (不要将数据库添加到数据库中。)

  代码如下:

  

  然后将以上部分组合起来。

  运行

  运行部分代码如下,主要调用以上部分的代码:

  

  源码下载

  CSDN:

  :

  文件:

  main.py:运行

  UserUtils.py:工具

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线