爬虫抓取网页数据(爬虫抓取网页数据要用到urllib2这个库,但是具体如何找到具体的页面地址)

优采云 发布时间: 2021-10-29 17:05

  爬虫抓取网页数据(爬虫抓取网页数据要用到urllib2这个库,但是具体如何找到具体的页面地址)

  爬虫抓取网页数据要用到urllib2这个库,但是具体如何抓取网页数据呢?用网页爬虫的思路我认为可以分为如下步骤。第一步是如何找到具体的页面地址,如今有urllib2这个库可以免费下载到。具体方法如下:首先在谷歌中输入网页地址:,找到下图红框处的:这个就是咱们要找的网页地址了。然后尝试用浏览器打开它。然后浏览器按f12,可以看到一个虚拟选项,叫做network,大家会发现很多信息,如下图:点击下方,如下图所示,可以看到返回的html内容,因为是在浏览器上看到的。

  然后用浏览器关闭浏览器重新打开一次网页,可以得到那个地址,再用googledoc搜索出它的url--page。恭喜您,离世界上最古老的网址布吉岛nicxxxjeoozusguylsjsnnk2o9i6gd7j1uuixzzjh4hhfa这个地址抓取完成了,上面的小脚本已经自动找到所有的网页了。这个时候用googlef12打开浏览器的开发者工具,可以发现页面地址被封装到一个json数据里了。

  urllib2提供的是解析json数据的方法,而xml、json属于html的子类,都是文本格式。所以我们把所有的页面内容生成一个网页代码,方便进行解析,这里使用xml格式进行解析,如下:首先把要抓取的网页url拷贝到一个指定文件夹,比如urllib2_url,然后把解析出来的网页代码,进行解析生成特定格式的python页面代码,然后存到数据库里面即可。

  这里我们遇到一个问题,每次修改url都得用代码重新输入一遍json数据,太麻烦了,好在有一个很好的工具:dominic。它会将爬虫抓取得到的网页数据保存在本地。然后关闭浏览器,在打开数据库中的网页代码即可抓取对应的数据。这篇文章我也不是原创,当初是最早一篇关于爬虫的文章的代码+关键是看别人的代码和解析方法论,稍微修改了一下,这里以get网页为例,进行说明。

<p>如下:第一步:需要用到urllib2库:classcrawlr:def__init__(self,page):self.page=pageself.source=json.loads(self.source)self.url=urllib2.urlopen(self.url)self.url2=urllib2.urlopen(self.url)self.page=self.url2.read()defget(self,request):url=request.urlopen(request.url).read()returntrueself.page2=self.url.format('<p>(?

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线