爬虫抓取网页数据(爬虫抓取网页数据要用到urllib2这个库，但是具体如何找到具体的页面地址)

优采云发布时间: 2021-10-29 17:05

　　爬虫抓取网页数据要用到urllib2这个库，但是具体如何抓取网页数据呢？用网页爬虫的思路我认为可以分为如下步骤。第一步是如何找到具体的页面地址，如今有urllib2这个库可以免费下载到。具体方法如下：首先在谷歌中输入网页地址：，找到下图红框处的：这个就是咱们要找的网页地址了。然后尝试用浏览器打开它。然后浏览器按f12，可以看到一个虚拟选项，叫做network，大家会发现很多信息，如下图：点击下方，如下图所示，可以看到返回的html内容，因为是在浏览器上看到的。

　　然后用浏览器关闭浏览器重新打开一次网页，可以得到那个地址，再用googledoc搜索出它的url--page。恭喜您，离世界上最古老的网址布吉岛nicxxxjeoozusguylsjsnnk2o9i6gd7j1uuixzzjh4hhfa这个地址抓取完成了，上面的小脚本已经自动找到所有的网页了。这个时候用googlef12打开浏览器的开发者工具，可以发现页面地址被封装到一个json数据里了。

　　urllib2提供的是解析json数据的方法，而xml、json属于html的子类，都是文本格式。所以我们把所有的页面内容生成一个网页代码，方便进行解析，这里使用xml格式进行解析，如下：首先把要抓取的网页url拷贝到一个指定文件夹，比如urllib2_url,然后把解析出来的网页代码，进行解析生成特定格式的python页面代码，然后存到数据库里面即可。

　　这里我们遇到一个问题，每次修改url都得用代码重新输入一遍json数据，太麻烦了，好在有一个很好的工具：dominic。它会将爬虫抓取得到的网页数据保存在本地。然后关闭浏览器，在打开数据库中的网页代码即可抓取对应的数据。这篇文章我也不是原创，当初是最早一篇关于爬虫的文章的代码+关键是看别人的代码和解析方法论，稍微修改了一下，这里以get网页为例，进行说明。

<p>如下：第一步：需要用到urllib2库：classcrawlr:def__init__(self,page):self.page=pageself.source=json.loads(self.source)self.url=urllib2.urlopen(self.url)self.url2=urllib2.urlopen(self.url)self.page=self.url2.read()defget(self,request):url=request.urlopen(request.url).read()returntrueself.page2=self.url.format('<p>(?

0

2021-10-29

爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

爬虫抓取网页数据(爬虫抓取网页数据要用到urllib2这个库，但是具体如何找到具体的页面地址)

0 个评论

发起人