网页数据抓取软件(要用好用使用Firebug插件审查元素的团购信息(组图) )
优采云 发布时间: 2021-10-05 19:00网页数据抓取软件(要用好用使用Firebug插件审查元素的团购信息(组图)
)
1.首先确定要使用的模块,urrlib、os、re三个模块,
2. 获取数据并一一对应,然后使用循环嵌套(一开始就卡住了,然后咨询灵感),
3.获取网页的所有数据,爬下来
4.分析如何找出这些想要的模块,
5. 找出匹配的相对规律,
6.获取数据,找到对应的值
7.使用循环,配合使用字典,可以完整获取数据,
8.保存到对应文档
9.关闭文档,
10. 提示数据保存成功,爬取结束。
由于第一次采集这么多资料,只是爬了一张图什么的,所以作者还是很认真的审核了每一个元素,这里推荐使用火狐浏览器,感觉用Firebug真的很方便插件审查元素。
查看元素后,可以得到这个网站的编码形式是utf-8,这对于我们爬取数据也是至关重要的。
一开始,作者还开了一个软件fiddler,用来抓包
仍然有很多这样的信息。因为我截图的时候遇到了上网,还是找到了我想要的信息,所以可以在我的代码中添加信息来伪装浏览器,那么接下来要做的就是定位我们要查找的数据。
分析首页的团购信息,我们可以根据multiple确定这个信息的唯一标识,标签中有一个class="xtitle"的中间文字,那么我们的正则表达式就出来了,r'(.+ ?)'(正则太难,我一一试了)
描述也是标签的文本,然后会很快匹配出来,规律就出来了,r'class="short-title">(.+)'
后者依次类推。做完这些,接下来我们就开始编写爬虫程序,导入我们要使用的模块,定义我们要使用的变量。抓取、匹配,然后循环获取我们的结果并将它们写入文档。代码显示如下