数据抓取学习2|web scraper使用方法—基础篇

优采云 发布时间: 2022-05-11 14:52

  数据抓取学习2|web scraper使用方法—基础篇

  2.安装web scraper插件

  如下图,打开chrome浏览器—点击右上角的菜单按钮—选择“更多工具”—选择“扩展程序”。

  

  经过如上步骤后,进入到Chrome插件管理界面如下:

  

  在此界面下,把下载好的web scraper插件拖拽到此界面会弹出是否添加的窗口,点击添加即可。

  3.打开web scraper插件

  还记得上一篇文章讲到的如何打开谷歌浏览器的控制台吗?web scraper插件,就在谷歌浏览器的控制台里。点击鼠标右键,选择“审查元素”打开控制台。

  

  4.抓取的基本步骤

  使用web scraper插件抓取的基本步骤为:

  我们以抓取知乎某位用户回答过的问题的标题为例子,来讲一下这三个步骤,具体操作如下。

  步骤一:创建一个站点Create sitemap

  打开控制台—选择web scraper插件—选择Create new sitemap—选择Create sitemap

  

  在Sitemap name中给站点地图命名,在Start URL中输入抓取网站的链接,最后点击Create Sitemap,就创建好了一个站点地图。

  

  步骤二: 新增选择器Add new selector

  新增选择器是很重要的一步,它表示的是选择页面中的哪一个元素去抓取。

  点击add new selector

  

  进入到选择器的界面后,进行如下步骤:

  

  对于Selector这个选项再补充一下,在选择页面元素时,有一点需要注意的,如下图,如果出现type(1),说明页面的元素没有选择全。

  

  再选择下一个元素,基本上该页面的所有要选择的元素都选择好了。

  

  可以点击Selector中的Element preview检查一下,页面的元素是否都选择正确了。

  Selector中的Data preview,检查的是抓取的数据是不是你想要的。

  

  设置好后,点击Save selector保存该选择器。

  步骤三: 点击Scrape抓取

  在Sitemap的下拉菜单中选择Scrape抓取。

  

  点击Scrape后,就会出现两个参数。

  

  Request interval (ms)—请求间隔。有些网站不想让别人抓取他们的数据,就会有反爬虫机制,当在页面操作过快的时候,对方网站就会认为这是一个机器在操作,发现后就会把你的ip屏蔽掉,所以这里要有一个请求间隔的时间。还有一个原因是,如果在页面中操作过快,对于一些小站来说,对增加他们服务器的压力,影响他们的用户体验。这个间隔的时间一般就按照它设置好的2000ms,不用修改了。

  Page load delay (ms)—跟前面提到的delay一样,网站中有些数据需要动态加载或者有时候会出现网速较卡的情况,会导致数据抓取不全,为了避免这种情况,可以设置一个延时时间,这个根据抓取的网站内容而定,上面的这个例子用500ms就可以了。

  点击Start scraping,开始抓取。选择Sitemap中的Export data as CSV,抓取出来的数据可导出到excel中。

  

  5.抓取有规则的多页面

  前面讲的是单个页面内容的抓取,如果你想把所有页面的元素都抓取下来该怎么办呢?下面讲一下有规则多页面的内容抓取。

  

  大家注意到没有,它每一个页面对应的链接都是有规则变化的。

  

  对于这些有规则变化的链接的页面,可以通过下面这个方法来抓取。

  选择sitemap中的Edit metadata,就可以修改要抓取网站的链接。

  

  [1-3] 中的page=[1-3]表示的是抓取从第一页到第三页的元素。

  

  对于有规则的多页面,要找一下它们的规律,比如豆瓣前250名的电影。

  

  它的页面规则是25的等比数列,这时候的链接规则可以修改成:

  [0-50:25]&filter= ,[0-50:25]表示的是从第一页到第二页。

  小结

  这次讲了用web scarper抓取网站的基本操作,主要的知识点有:

  1.抓取网站的基本操作:建一个站点Create sitemap—新增选择器Add new selector—点击Scrape抓取。

  

  2.选择器的各个选项

  id—给这个选择器命名

  Type—选择抓取的类型

  Selector—选择页面的内容去抓取

  Multiple—本页中需要抓取多个元素

  Delay—设置加载延时

  3.规则的多页面抓取

  识别它们的分页链接设置,通过[X-X]的形式,进行设置。

  4.抓取链接的修改

  选择sitemap中的Edit metadata中进行修改。

  

  明天分享的是web scraper使用方法—进阶篇,主要的内容包括一页内提取多个字段、不规则的分页抓取,二三级页面元素的采集,图片、表单的采集。

  注:我学习课程为三节课的《人人都能学会的数据爬虫课》,此次仅为纯粹的学习分享。

  搬运工的苦劳

  

  赞赏二维码

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线