网页数据抓取软件(要用好用使用Firebug插件审查元素的团购信息(组图) )

优采云发布时间: 2021-10-05 19:00

　　网页数据抓取软件(要用好用使用Firebug插件审查元素的团购信息(组图)

)

　　1.首先确定要使用的模块，urrlib、os、re三个模块，

　　2. 获取数据并一一对应，然后使用循环嵌套（一开始就卡住了，然后咨询灵感），

　　3.获取网页的所有数据，爬下来

　　4.分析如何找出这些想要的模块，

　　5. 找出匹配的相对规律，

　　6.获取数据，找到对应的值

　　7.使用循环，配合使用字典，可以完整获取数据，

　　8.保存到对应文档

　　9.关闭文档，

　　10. 提示数据保存成功，爬取结束。

　　由于第一次采集这么多资料，只是爬了一张图什么的，所以作者还是很认真的审核了每一个元素，这里推荐使用火狐浏览器，感觉用Firebug真的很方便插件审查元素。

　　查看元素后，可以得到这个网站的编码形式是utf-8，这对于我们爬取数据也是至关重要的。

　　一开始，作者还开了一个软件fiddler，用来抓包

　　仍然有很多这样的信息。因为我截图的时候遇到了上网，还是找到了我想要的信息，所以可以在我的代码中添加信息来伪装浏览器，那么接下来要做的就是定位我们要查找的数据。

　　分析首页的团购信息，我们可以根据multiple确定这个信息的唯一标识，标签中有一个class="xtitle"的中间文字，那么我们的正则表达式就出来了，r'(.+ ?)'（正则太难，我一一试了）

　　描述也是标签的文本，然后会很快匹配出来，规律就出来了，r'class="short-title">(.+)'

　　后者依次类推。做完这些，接下来我们就开始编写爬虫程序，导入我们要使用的模块，定义我们要使用的变量。抓取、匹配，然后循环获取我们的结果并将它们写入文档。代码显示如下

0

2021-10-05

网页数据抓取软件

0 个评论

要回复文章请先登录或注册