网页抓取数据(WebScraper安装方式及功能说明数据的思路(组图))
优采云 发布时间: 2022-01-30 16:04网页抓取数据(WebScraper安装方式及功能说明数据的思路(组图))
Web Scraper 是一款面向普通用户(无需专业 IT 技能)的免费爬虫工具,通过鼠标和简单的配置即可轻松获取您想要的数据。比如知乎答案列表、微博热门、微博评论、电商网站产品信息、博客文章列表等。
安装过程
在线安装方式
在线安装需要启用 FQ 的网络并访问 Chrome App Store
1、在线访问 web Scraper 插件并单击“添加到 CHROME”。
2、然后在弹出的窗口中点击“添加扩展”
3、安装完成后,在顶部工具栏中显示 Web Scraper 图标。
本地安装
1、打开Chrome,在地址栏输入chrome://extensions/,进入扩展管理界面,然后下载下载的扩展Web-Scraper_v0.3.7. crx拖放到这个页面,点击“添加到扩展”完成安装。如图所示:
2、安装完成后在顶部工具栏中显示 Web Scraper 图标。
${{2}}$
了解网络爬虫
打开网络抓取工具
开发者可以路过,回头看看
windows系统下可以使用快捷键F12,部分型号的笔记本需要按Fn+F12;
Mac系统下,可以使用快捷键command+option+i;
也可以直接在Chrome界面操作,点击设置->更多工具->开发者工具
打开后的效果如下。绿框部分是开发者工具的完整界面,红框部分是Web Scraper区域,也就是我们后面要操作的部分。
注意:如果在浏览器右侧区域打开开发者工具,需要将开发者工具的位置调整到浏览器底部。
原理及功能说明
数据爬取的思路大致可以简单概括如下:
1、通过一个或多个入口地址获取初始数据。比如一个 文章 列表页,或者一个带有某种规则的页面,比如一个带有分页的列表页;
2、根据入口页面的某些信息,如链接指向,进入下一级页面获取必要信息;
3、根据上一关的链接继续进入下一关,获取必要的信息(此步骤可无限循环进行);
原理大致相同。接下来我们正式认识一下Web Scraper这个工具。来吧,打开开发者工具,点击Web Scraper选项卡,看到它分为三个部分:
创建新的sitemap:首先了解sitemap,字面意思是网站map,这里可以理解为入口地址,可以理解为对应一个网站,对应一个需求,假设你要获取 知乎 回答问题,创建站点地图,并将问题的地址设置为站点地图的起始 URL,然后单击“创建站点地图”以创建站点地图。
站点地图:站点地图的集合,所有创建的站点地图都会显示在这里,您可以在这里输入站点地图来修改和获取数据。
站点地图:进入站点地图,可以进行一系列操作,如下图:
添加新选择器的红框部分是必不可少的步骤。什么是选择器,字面意思:选择器,一个选择器对应网页上的一部分区域,也就是收录我们要采集的数据的部分。
需要说明一下,一个sitemap可以有多个选择器,每个选择器可以收录子选择器,一个选择器可以只对应一个标题,也可以对应整个区域,这个区域可以收录标题、副标题、作者信息、内容等. 和其他信息。
选择器:查看所有选择器。
选择器图:查看当前站点地图的拓扑图,什么是根节点,收录几个选择器,以及选择器下收录的子选择器。
编辑元数据:您可以修改站点地图信息、标题和起始地址。
刮:开始数据刮工作。
将数据导出为 CSV:以 CSV 格式导出捕获的数据。
至此,有一个简单的了解就足够了。只有实践了真知,具体的操作案例才能令人信服。下面举几个例子来说明具体用法。
案例实践
简单试水hao123
由浅入深,先从最简单的例子开始,只是为了进一步了解Web Scraper服务
需求背景:见下文hao123页面红框部分。我们的要求是统计这个区域中所有网站的名字和链接地址,最后生成到Excel中。因为这部分内容足够简单,当然实际的需求可能比这更复杂,而且手动统计这么几条数据的时间也很快。
开始
1、假设我们打开了hao123页面,打开该页面底部的开发者工具,找到Web Scraper标签栏;
2、点击“创建站点地图”;
3、 然后输入站点地图名称和起始网址。名字只是为了方便我们标记,所以命名为hao123(注意不支持中文),起始url是hao123的网址,然后点击create sitemap;
4、Web Scraper 自动定位到这个站点地图后,我们添加一个选择器,点击“添加新选择器”;
5、首先给选择器分配一个id,这只是一个方便识别的名字。我在这里把它命名为热。因为要获取名称和链接,所以将Type设置为Link,这是专门为网页链接准备的。选择链接类型后,会自动提取名称和链接两个属性;
6、之后点击选择,然后我们在网页上移动光标,我们会发现光标的颜色会发生变化,变成绿色,说明是当前选中的区域我们。我们将光标定位到需求中提到的栏目中的一个链接,比如第一条头条新闻,点击这里,这部分会变红,说明已经被选中,我们的目的是选中有多个,所以选中后这个,继续选择第二个,我们会发现这一行的链接都变成了红色,没错,这就是我们想要的效果。然后点击“完成选择!” (数据预览是被选中元素的标识,可以手动修改,元素由类和元素名决定,如:div.p_name a),最后don'
7、最后保存,保存选择器。点击元素预览可以预览选中的区域,点击数据预览可以在浏览器中预览截取的数据。后面文本框中的内容对于懂技术的同学来说是很清楚的。这是xpath。我们可以不用鼠标操作直接写xpath;
完整的操作流程如下:
8、经过上一步,就可以真正导出了。别着急,看看其他操作,Sitemap hao123下的Selector图,可以看到拓扑图,_root是根选择器,创建站点地图会自动有一个_root节点,可以看到它的子选择器,即我们是否创建了热选择器;
9、Scrape 开始抓取数据。
10、在Sitemap hao123下浏览,可以通过浏览器直接查看爬取的最终结果,需要重新;
11、最后使用Export data as CSV,以CSV格式导出,其中hot栏为标题,hot-href栏为链接;
怎么样,马上试试
软件定制 | 网站 建设 | 获得更多干货