Python爬虫抓取名人名言网站

优采云 发布时间: 2022-05-04 12:04

  Python爬虫抓取名人名言网站

  

  1、输入网址

  /,进入网站首页,观察网页的结构,我们发现网页的内容很清晰,

  

  主要分为:名人名言,作者,标签三个主要字段,同时三个字段的内容为本次提取的内容。

  2、确定需求,分析网页结构

  打开开发者工具,点击networ进行网络数据抓包分析,网站是以get方式进行请求,不需要携带参数,那我们就可以以request请求库中的get()方法,进行模拟请求,需要带上headers请求,模拟浏览器信息验证,防止被网站服务器检测为爬虫请求。

  也可以点击开发者工具的最左边小箭头,可以帮助我们快速定位,网页数据在element标签页所在的位置。

  3、解析网页结构,提取数据。

  请求成功之后,可以开始提取数据啦~,我用的是xpath的解析方法,所以,先来解析xpath页面,点击最左边小箭头,可以帮助我们快速定位数据所,网页数据在element标签页所在的位置.因为网页的请求方式数据以列表的方式逐条排序,所以我们可以先定位整个列表的数据。在通过lxm中html解析器,逐个字段抓取并保存至列表,方便下一步的数据清洗。

  4、保存至csv文件

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线