Python爬虫抓取名人名言网站

优采云发布时间: 2022-05-04 12:04

　　Python爬虫抓取名人名言网站

　　1、输入网址

　　/，进入网站首页，观察网页的结构,我们发现网页的内容很清晰，

　　主要分为：名人名言，作者，标签三个主要字段，同时三个字段的内容为本次提取的内容。

　　2、确定需求，分析网页结构

　　打开开发者工具，点击networ进行网络数据抓包分析，网站是以get方式进行请求，不需要携带参数，那我们就可以以request请求库中的get()方法，进行模拟请求，需要带上headers请求，模拟浏览器信息验证，防止被网站服务器检测为爬虫请求。

　　也可以点击开发者工具的最左边小箭头，可以帮助我们快速定位，网页数据在element标签页所在的位置。

　　3、解析网页结构，提取数据。

　　请求成功之后，可以开始提取数据啦~，我用的是xpath的解析方法，所以，先来解析xpath页面，点击最左边小箭头，可以帮助我们快速定位数据所，网页数据在element标签页所在的位置.因为网页的请求方式数据以列表的方式逐条排序，所以我们可以先定位整个列表的数据。在通过lxm中html解析器，逐个字段抓取并保存至列表，方便下一步的数据清洗。

　　4、保存至csv文件

0

2022-05-04

爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

Python爬虫抓取名人名言网站

0 个评论

发起人

AI时代内容工厂

Python爬虫抓取名人名言网站

0 个评论

发起人

相关问题