网页数据抓取怎么写(讲解一个小白是怎么快速上手WebScraper的字段步骤?)
优采云 发布时间: 2021-09-10 09:04网页数据抓取怎么写(讲解一个小白是怎么快速上手WebScraper的字段步骤?)
在新媒体运营中,很多时候你需要借助数据来帮助你的工作。例如,如果您是新公司编辑新媒体内容,您需要盘点公司现有的内容资产,以避免复制内容。这时候就需要把网页上的数据拉下来,放在一起,一目了然。
从网页抓取数据的最佳方式当然是爬虫工具。很多人认为爬行很难学,对吧?一开始也是这么想的,直到遇到了Web Scraper操作工具,才发现抓取网页数据原来可以这么简单。
接下来,我将出现并解释新手如何快速上手 Web Scraper。
第一步:下载网页爬虫
Web Scraper 是 Chrome 浏览器上的插件。需要翻墙才能进入Chrome App Store下载Web Scraper插件。
第 2 步:打开 Web Scraper
首先打开一个要抓取数据的网页。比如我想爬取文章今日头条“吴晓波频道”账号的标题、时间、评论数。那我先打开,然后一一操作。
然后使用快捷键 Ctrl + Shift + I / F12 打开 Web Scraper。
第 3 步:创建新的站点地图
点击创建新站点地图,里面有两个选项。导入站点地图是导入现成站点地图的指南。我们没有现成的,所以我们一般不选择这个,只选择创建站点地图。然后执行这两个操作:
Sitemap Name:表示您的Sitemap适用于哪个网页,因此您可以根据自己的名字为网页命名,但需要使用英文字母。比如今天头条的数据,我就用toutiao来命名;站点地图 URL:将 Web 链接复制到 Star URL 列。比如图中我把“吴晓波频道”的首页链接复制到了这个栏目。第 4 步:设置此站点地图
整个Web Scraper的爬取逻辑如下:设置一级选择器,选择爬取范围;在一级选择器下设置二级选择器,选择爬取字段,然后爬取。
让我们换一个接地的例子。如果要获取福建人的姓名、性别、年龄这三个元素,那么就必须这样:先定位福建省,然后定位福建省姓名、性别、年龄。
这里,一级Selector表示要圈出中国这样的大国的福建省,二级Selector表示要圈出人口中的姓名、性别、年龄三个要素福建省。
对于文章,一级Selector意味着你要圈出这个文章的元素。这个元素可能包括标题、作者、发布时间、评论数等,然后我们会在二级Selector中选择我们想要的元素,比如标题、作者、阅读数。
让我们拆解设置主次选择器的工作流程:
1. 点击添加新选择器,创建一级选择器,步骤如下:
输入id:id代表你抓取的整个范围,比如这里是文章,我们可以命名为wuxiaobo-articles; select Type:type代表你抓取的这部分的类型,比如 element/text/link ,因为这是整个文章元素范围选择,所以我们需要先用Element来选择整个(如果这个页面需要滑动加载更多,然后选择元素向下滚动); check Multiple:勾选Multiple前面的小方框,因为要选择多个元素而不是单个元素,所以我们勾选的时候,爬虫插件会帮我们识别多个相似的文章;保留设置:其余未提及的部分保留默认设置。 2.点击选择选择范围,然后按照以下步骤操作:
选择范围:使用鼠标选择要抓取的数据范围。绿色是要选择的区域。用鼠标点击后,它变成红色选择这个区域;多选:不要只选一个,下面也是要选择的,否则只爬出一行数据;完成选择:记得点击完成选择;保存:单击保存选择器。 3.设置一级选择器后,点击进入设置二级选择器,步骤如下:
新建选择器:点击添加新选择器;输入id:id代表你抓的是哪个字段,这样你就可以取字段的英文了。比如我要选择“作者”,我就写“作者”; select Type:选择Text,因为要抓取文本;不要勾选Multiple:不要勾选Multiple前面的小方框,因为我们这里要抓取单个元素;保留设置:其余未提及的部分保留默认设置。 4.点击选择,然后点击要爬取的字段,按照以下步骤操作:
选择字段:这里要爬取的字段是单个字段,可以通过鼠标点击字段来选择。比如要爬取标题,用鼠标点击一个文章的标题,该字段所在的区域就会变成红色。选择;完成选择:记得点击完成选择;保存:单击保存选择器。 5. 重复以上操作,直到选中你要攀登的场地。第 5 步:抓取数据
Web Scraper之所以是傻瓜式爬虫工具,是因为你只需要设置好所有的选择器,然后就可以开始爬取数据了。怎么样,是不是很简单?
那么如何开始抓取数据呢?只是一个简单的操作:点击Scrape,然后点击Start Scraping,会弹出一个小窗口,然后勤奋的小爬虫就开始工作了。您将获得一个收录您想要的所有数据的列表。
如果你想对数据进行排序,比如按阅读、喜欢、作者等排序,让数据更清晰,那么你可以点击Export Data as CSV并将其导入到Excel表格中。
导入Excel表格后,可以过滤数据。
以上就是Web Scraper快速入门的全部操作流程。就连我的懒癌+残障也能在5分钟内搞定。相信你可以参考下爬的地方。完全没问题。