网页抓取数据(WebScraper安装方式及功能说明数据的思路(组图))

优采云发布时间: 2022-01-30 16:04

　　Web Scraper 是一款面向普通用户（无需专业 IT 技能）的免费爬虫工具，通过鼠标和简单的配置即可轻松获取您想要的数据。比如知乎答案列表、微博热门、微博评论、电商网站产品信息、博客文章列表等。

　　安装过程

　　在线安装方式

　　在线安装需要启用 FQ 的网络并访问 Chrome App Store

　　1、在线访问 web Scraper 插件并单击“添加到 CHROME”。

　　2、然后在弹出的窗口中点击“添加扩展”

　　3、安装完成后，在顶部工具栏中显示 Web Scraper 图标。

　　本地安装

　　1、打开Chrome，在地址栏输入chrome://extensions/，进入扩展管理界面，然后下载下载的扩展Web-Scraper_v0.3.7. crx拖放到这个页面，点击“添加到扩展”完成安装。如图所示：

　　2、安装完成后在顶部工具栏中显示 Web Scraper 图标。

　　${{2}}$

　　了解网络爬虫

　　打开网络抓取工具

　　开发者可以路过，回头看看

　　windows系统下可以使用快捷键F12，部分型号的笔记本需要按Fn+F12；

　　Mac系统下，可以使用快捷键command+option+i；

　　也可以直接在Chrome界面操作，点击设置->更多工具->开发者工具

　　打开后的效果如下。绿框部分是开发者工具的完整界面，红框部分是Web Scraper区域，也就是我们后面要操作的部分。

　　注意：如果在浏览器右侧区域打开开发者工具，需要将开发者工具的位置调整到浏览器底部。

　　原理及功能说明

　　数据爬取的思路大致可以简单概括如下：

　　1、通过一个或多个入口地址获取初始数据。比如一个文章列表页，或者一个带有某种规则的页面，比如一个带有分页的列表页；

　　2、根据入口页面的某些信息，如链接指向，进入下一级页面获取必要信息；

　　3、根据上一关的链接继续进入下一关，获取必要的信息（此步骤可无限循环进行）；

　　原理大致相同。接下来我们正式认识一下Web Scraper这个工具。来吧，打开开发者工具，点击Web Scraper选项卡，看到它分为三个部分：

　　创建新的sitemap：首先了解sitemap，字面意思是网站map，这里可以理解为入口地址，可以理解为对应一个网站，对应一个需求，假设你要获取知乎回答问题，创建站点地图，并将问题的地址设置为站点地图的起始 URL，然后单击“创建站点地图”以创建站点地图。

　　站点地图：站点地图的集合，所有创建的站点地图都会显示在这里，您可以在这里输入站点地图来修改和获取数据。

　　站点地图：进入站点地图，可以进行一系列操作，如下图：

　　添加新选择器的红框部分是必不可少的步骤。什么是选择器，字面意思：选择器，一个选择器对应网页上的一部分区域，也就是收录我们要采集的数据的部分。

　　需要说明一下，一个sitemap可以有多个选择器，每个选择器可以收录子选择器，一个选择器可以只对应一个标题，也可以对应整个区域，这个区域可以收录标题、副标题、作者信息、内容等. 和其他信息。

　　选择器：查看所有选择器。

　　选择器图：查看当前站点地图的拓扑图，什么是根节点，收录几个选择器，以及选择器下收录的子选择器。

　　编辑元数据：您可以修改站点地图信息、标题和起始地址。

　　刮：开始数据刮工作。

　　将数据导出为 CSV：以 CSV 格式导出捕获的数据。

　　至此，有一个简单的了解就足够了。只有实践了真知，具体的操作案例才能令人信服。下面举几个例子来说明具体用法。

　　案例实践

　　简单试水hao123

　　由浅入深，先从最简单的例子开始，只是为了进一步了解Web Scraper服务

　　需求背景：见下文hao123页面红框部分。我们的要求是统计这个区域中所有网站的名字和链接地址，最后生成到Excel中。因为这部分内容足够简单，当然实际的需求可能比这更复杂，而且手动统计这么几条数据的时间也很快。

　　开始

　　1、假设我们打开了hao123页面，打开该页面底部的开发者工具，找到Web Scraper标签栏；

　　2、点击“创建站点地图”；

　　3、然后输入站点地图名称和起始网址。名字只是为了方便我们标记，所以命名为hao123（注意不支持中文），起始url是hao123的网址，然后点击create sitemap；

　　4、Web Scraper 自动定位到这个站点地图后，我们添加一个选择器，点击“添加新选择器”；

　　5、首先给选择器分配一个id，这只是一个方便识别的名字。我在这里把它命名为热。因为要获取名称和链接，所以将Type设置为Link，这是专门为网页链接准备的。选择链接类型后，会自动提取名称和链接两个属性；

　　6、之后点击选择，然后我们在网页上移动光标，我们会发现光标的颜色会发生变化，变成绿色，说明是当前选中的区域我们。我们将光标定位到需求中提到的栏目中的一个链接，比如第一条头条新闻，点击这里，这部分会变红，说明已经被选中，我们的目的是选中有多个，所以选中后这个，继续选择第二个，我们会发现这一行的链接都变成了红色，没错，这就是我们想要的效果。然后点击“完成选择！” （数据预览是被选中元素的标识，可以手动修改，元素由类和元素名决定，如：div.p_name a)，最后don'

　　7、最后保存，保存选择器。点击元素预览可以预览选中的区域，点击数据预览可以在浏览器中预览截取的数据。后面文本框中的内容对于懂技术的同学来说是很清楚的。这是xpath。我们可以不用鼠标操作直接写xpath；

　　完整的操作流程如下：

　　8、经过上一步，就可以真正导出了。别着急，看看其他操作，Sitemap hao123下的Selector图，可以看到拓扑图，_root是根选择器，创建站点地图会自动有一个_root节点，可以看到它的子选择器，即我们是否创建了热选择器；

　　9、Scrape 开始抓取数据。

　　10、在Sitemap hao123下浏览，可以通过浏览器直接查看爬取的最终结果，需要重新；

　　11、最后使用Export data as CSV，以CSV格式导出，其中hot栏为标题，hot-href栏为链接；

　　怎么样，马上试试

　　软件定制 | 网站建设 | 获得更多干货

0

2022-01-30

网页抓取数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页抓取数据(WebScraper安装方式及功能说明数据的思路(组图))

0 个评论

发起人