网页数据抓取软件(要用好用使用Firebug插件审查元素的团购信息(组图) )

优采云 发布时间: 2021-10-05 19:00

  网页数据抓取软件(要用好用使用Firebug插件审查元素的团购信息(组图)

)

  1.首先确定要使用的模块,urrlib、os、re三个模块,

  2. 获取数据并一一对应,然后使用循环嵌套(一开始就卡住了,然后咨询灵感),

  3.获取网页的所有数据,爬下来

  4.分析如何找出这些想要的模块,

  5. 找出匹配的相对规律,

  6.获取数据,找到对应的值

  7.使用循环,配合使用字典,可以完整获取数据,

  8.保存到对应文档

  9.关闭文档,

  10. 提示数据保存成功,爬取结束。

  

  由于第一次采集这么多资料,只是爬了一张图什么的,所以作者还是很认真的审核了每一个元素,这里推荐使用火狐浏览器,感觉用Firebug真的很方便插件审查元素。

  

  查看元素后,可以得到这个网站的编码形式是utf-8,这对于我们爬取数据也是至关重要的。

  一开始,作者还开了一个软件fiddler,用来抓包

  

  仍然有很多这样的信息。因为我截图的时候遇到了上网,还是找到了我想要的信息,所以可以在我的代码中添加信息来伪装浏览器,那么接下来要做的就是定位我们要查找的数据。

  

  分析首页的团购信息,我们可以根据multiple确定这个信息的唯一标识,标签中有一个class="xtitle"的中间文字,那么我们的正则表达式就出来了,r'(.+ ?)'(正则太难,我一一试了)

  

  描述也是标签的文本,然后会很快匹配出来,规律就出来了,r'class="short-title">(.+)'

  后者依次类推。做完这些,接下来我们就开始编写爬虫程序,导入我们要使用的模块,定义我们要使用的变量。抓取、匹配,然后循环获取我们的结果并将它们写入文档。代码显示如下

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线