数据抓取学习2|web scraper使用方法—基础篇
优采云 发布时间: 2022-05-11 14:52数据抓取学习2|web scraper使用方法—基础篇
2.安装web scraper插件
如下图,打开chrome浏览器—点击右上角的菜单按钮—选择“更多工具”—选择“扩展程序”。
经过如上步骤后,进入到Chrome插件管理界面如下:
在此界面下,把下载好的web scraper插件拖拽到此界面会弹出是否添加的窗口,点击添加即可。
3.打开web scraper插件
还记得上一篇文章讲到的如何打开谷歌浏览器的控制台吗?web scraper插件,就在谷歌浏览器的控制台里。点击鼠标右键,选择“审查元素”打开控制台。
4.抓取的基本步骤
使用web scraper插件抓取的基本步骤为:
我们以抓取知乎某位用户回答过的问题的标题为例子,来讲一下这三个步骤,具体操作如下。
步骤一:创建一个站点Create sitemap
打开控制台—选择web scraper插件—选择Create new sitemap—选择Create sitemap
在Sitemap name中给站点地图命名,在Start URL中输入抓取网站的链接,最后点击Create Sitemap,就创建好了一个站点地图。
步骤二: 新增选择器Add new selector
新增选择器是很重要的一步,它表示的是选择页面中的哪一个元素去抓取。
点击add new selector
进入到选择器的界面后,进行如下步骤:
对于Selector这个选项再补充一下,在选择页面元素时,有一点需要注意的,如下图,如果出现type(1),说明页面的元素没有选择全。
再选择下一个元素,基本上该页面的所有要选择的元素都选择好了。
可以点击Selector中的Element preview检查一下,页面的元素是否都选择正确了。
Selector中的Data preview,检查的是抓取的数据是不是你想要的。
设置好后,点击Save selector保存该选择器。
步骤三: 点击Scrape抓取
在Sitemap的下拉菜单中选择Scrape抓取。
点击Scrape后,就会出现两个参数。
Request interval (ms)—请求间隔。有些网站不想让别人抓取他们的数据,就会有反爬虫机制,当在页面操作过快的时候,对方网站就会认为这是一个机器在操作,发现后就会把你的ip屏蔽掉,所以这里要有一个请求间隔的时间。还有一个原因是,如果在页面中操作过快,对于一些小站来说,对增加他们服务器的压力,影响他们的用户体验。这个间隔的时间一般就按照它设置好的2000ms,不用修改了。
Page load delay (ms)—跟前面提到的delay一样,网站中有些数据需要动态加载或者有时候会出现网速较卡的情况,会导致数据抓取不全,为了避免这种情况,可以设置一个延时时间,这个根据抓取的网站内容而定,上面的这个例子用500ms就可以了。
点击Start scraping,开始抓取。选择Sitemap中的Export data as CSV,抓取出来的数据可导出到excel中。
5.抓取有规则的多页面
前面讲的是单个页面内容的抓取,如果你想把所有页面的元素都抓取下来该怎么办呢?下面讲一下有规则多页面的内容抓取。
大家注意到没有,它每一个页面对应的链接都是有规则变化的。
对于这些有规则变化的链接的页面,可以通过下面这个方法来抓取。
选择sitemap中的Edit metadata,就可以修改要抓取网站的链接。
[1-3] 中的page=[1-3]表示的是抓取从第一页到第三页的元素。
对于有规则的多页面,要找一下它们的规律,比如豆瓣前250名的电影。
它的页面规则是25的等比数列,这时候的链接规则可以修改成:
[0-50:25]&filter= ,[0-50:25]表示的是从第一页到第二页。
小结
这次讲了用web scarper抓取网站的基本操作,主要的知识点有:
1.抓取网站的基本操作:建一个站点Create sitemap—新增选择器Add new selector—点击Scrape抓取。
2.选择器的各个选项
id—给这个选择器命名
Type—选择抓取的类型
Selector—选择页面的内容去抓取
Multiple—本页中需要抓取多个元素
Delay—设置加载延时
3.规则的多页面抓取
识别它们的分页链接设置,通过[X-X]的形式,进行设置。
4.抓取链接的修改
选择sitemap中的Edit metadata中进行修改。
明天分享的是web scraper使用方法—进阶篇,主要的内容包括一页内提取多个字段、不规则的分页抓取,二三级页面元素的采集,图片、表单的采集。
注:我学习课程为三节课的《人人都能学会的数据爬虫课》,此次仅为纯粹的学习分享。
搬运工的苦劳
赞赏二维码