数据抓取学习2|web scraper使用方法—基础篇

优采云发布时间: 2022-05-11 14:52

　　2.安装web scraper插件

　　如下图，打开chrome浏览器—点击右上角的菜单按钮—选择“更多工具”—选择“扩展程序”。

　　经过如上步骤后，进入到Chrome插件管理界面如下：

　　在此界面下，把下载好的web scraper插件拖拽到此界面会弹出是否添加的窗口，点击添加即可。

　　3.打开web scraper插件

　　还记得上一篇文章讲到的如何打开谷歌浏览器的控制台吗？web scraper插件，就在谷歌浏览器的控制台里。点击鼠标右键，选择“审查元素”打开控制台。

　　4.抓取的基本步骤

　　使用web scraper插件抓取的基本步骤为：

　　我们以抓取知乎某位用户回答过的问题的标题为例子，来讲一下这三个步骤，具体操作如下。

　　步骤一：创建一个站点Create sitemap

　　打开控制台—选择web scraper插件—选择Create new sitemap—选择Create sitemap

　　在Sitemap name中给站点地图命名，在Start URL中输入抓取网站的链接，最后点击Create Sitemap，就创建好了一个站点地图。

　　步骤二：新增选择器Add new selector

　　新增选择器是很重要的一步，它表示的是选择页面中的哪一个元素去抓取。

　　点击add new selector

　　进入到选择器的界面后，进行如下步骤：

　　对于Selector这个选项再补充一下，在选择页面元素时，有一点需要注意的，如下图，如果出现type(1)，说明页面的元素没有选择全。

　　再选择下一个元素，基本上该页面的所有要选择的元素都选择好了。

　　可以点击Selector中的Element preview检查一下，页面的元素是否都选择正确了。

　　Selector中的Data preview，检查的是抓取的数据是不是你想要的。

　　设置好后，点击Save selector保存该选择器。

　　步骤三：点击Scrape抓取

　　在Sitemap的下拉菜单中选择Scrape抓取。

　　点击Scrape后，就会出现两个参数。

　　Request interval (ms)—请求间隔。有些网站不想让别人抓取他们的数据，就会有反爬虫机制，当在页面操作过快的时候，对方网站就会认为这是一个机器在操作，发现后就会把你的ip屏蔽掉，所以这里要有一个请求间隔的时间。还有一个原因是，如果在页面中操作过快，对于一些小站来说，对增加他们服务器的压力，影响他们的用户体验。这个间隔的时间一般就按照它设置好的2000ms，不用修改了。

　　Page load delay (ms)—跟前面提到的delay一样，网站中有些数据需要动态加载或者有时候会出现网速较卡的情况，会导致数据抓取不全，为了避免这种情况，可以设置一个延时时间，这个根据抓取的网站内容而定，上面的这个例子用500ms就可以了。

　　点击Start scraping，开始抓取。选择Sitemap中的Export data as CSV，抓取出来的数据可导出到excel中。

　　5.抓取有规则的多页面

　　前面讲的是单个页面内容的抓取，如果你想把所有页面的元素都抓取下来该怎么办呢？下面讲一下有规则多页面的内容抓取。

　　大家注意到没有，它每一个页面对应的链接都是有规则变化的。

　　对于这些有规则变化的链接的页面，可以通过下面这个方法来抓取。

　　选择sitemap中的Edit metadata，就可以修改要抓取网站的链接。

　　[1-3] 中的page=[1-3]表示的是抓取从第一页到第三页的元素。

　　对于有规则的多页面，要找一下它们的规律，比如豆瓣前250名的电影。

　　它的页面规则是25的等比数列，这时候的链接规则可以修改成：

　　[0-50:25]&filter= ，[0-50:25]表示的是从第一页到第二页。

　　小结

　　这次讲了用web scarper抓取网站的基本操作，主要的知识点有：

　　1.抓取网站的基本操作：建一个站点Create sitemap—新增选择器Add new selector—点击Scrape抓取。

　　2.选择器的各个选项

　　id—给这个选择器命名

　　Type—选择抓取的类型

　　Selector—选择页面的内容去抓取

　　Multiple—本页中需要抓取多个元素

　　Delay—设置加载延时

　　3.规则的多页面抓取

　　识别它们的分页链接设置，通过[X-X]的形式，进行设置。

　　4.抓取链接的修改

　　选择sitemap中的Edit metadata中进行修改。

　　明天分享的是web scraper使用方法—进阶篇，主要的内容包括一页内提取多个字段、不规则的分页抓取，二三级页面元素的采集，图片、表单的采集。

　　注：我学习课程为三节课的《人人都能学会的数据爬虫课》，此次仅为纯粹的学习分享。

　　搬运工的苦劳

　　赞赏二维码

0

2022-05-11

动态网页抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

数据抓取学习2|web scraper使用方法—基础篇

0 个评论

发起人