网站内容抓取(谷歌浏览器使用的网页数据提取插件技巧分享(组图) )
优采云 发布时间: 2021-09-01 01:05网站内容抓取(谷歌浏览器使用的网页数据提取插件技巧分享(组图)
)
Web Scraper 是一款适用于谷歌浏览器的网页数据提取插件。通过使用该插件,可以快速、有效、准确地提取网页数据。抓取范围可以任意选择,让你随心所欲地抓取,还可以将你需要的数据转换成CSV文件并导出。是一款不可多得的网页内容提取插件。有需要的朋友赶紧来本站下载吧!
网页抓取功能
1、抓取多个页面
2、来自动态页面
3、Export 抓取的数据为 CSV
4、导入、导出站点地图
5、 仅依赖于 Chrome 浏览器
6、提取数据(JavaScript AJAX)
7、Scraping 数据存储在本地存储或 CouchDB 中
8、Browse 抓取数据/> 3、多种数据选择类型
插件功能
使用多线程快速扫描任何网站
在 WebScraper 主窗口中,您必须指定要扫描的网页的 URL 地址以及用于完成该过程的线程数。您可以借助一个简单的滑块调整以下参数。
为避免任何不必要的扫描,您可以选择仅抓取单个网页,然后单击鼠标即可开始该过程。在实时查看窗口中,可以看到各个链接返回的状态信息,在处理调试任务时可能会有用。
提取各种类型的信息并将数据导出为CSV或JSON
在 WebScraper 输出面板中,您可以选择希望实用程序从网页中提取的信息类型:URL、标题、描述、与不同类型或 ID 关联的内容、标题、各种格式的页面内容(普通text、HTML) 或 MarkDown) 和上次修改日期。
您还可以选择输出文件格式(CSV 或 JSON),决定合并空格,并在文件超过一定大小时设置警报。如果您选择使用 CSV 格式,您可以选择何时在列周围使用引号、用引号替换引号或行分隔符的类型。
最后但同样重要的是,WebScraper 还允许您更改用户代理、设置主页链接和点击次数的限制、忽略查询字符串以及使用根域的子域作为内部页面。
如何安装插件
1、在Opsoft Park下载本插件,将插件文件从压缩包中解压后即可安装;
2、打开浏览器,进入浏览器插件管理页面【chrome://extensions/】,拖拽未压缩的.crx文件添加;
3、等待插件安装完成,您只需点击界面上的插件图标即可开始使用插件。
插件使用说明
一、安装
1、小编这里是chrome浏览器,先在标签页输入【chrome://extensions/】进入chrome扩展,把你在这个页面下载的Web Scraper插件解压,拖拽进入扩展页面。
2、安装完成后,赶紧试用插件的具体功能。
3、当然可以先在设置页面设置插件的存储设置和存储类型功能。
二、使用抓取功能
安装完成后,只需四步即可完成抓取操作。具体流程如下:
1、Open Web Scraper
首先需要使用插件提取网页数据,并且需要在开发者工具模式下使用。使用快捷键Ctrl+Shift+I/F12,在出现的开发工具窗口中找到与插件同名的列。
2、创建站点地图
点击创建新站点地图,里面有两个选项。导入站点地图是导入现成站点地图的指南。我们通常没有现成的站点地图,所以我们一般不选择这个,只选择创建站点地图。
然后执行这两个操作:
(1)Sitemap Name:代表你的sitemap适用于哪个网页,所以你可以根据自己的名字给网页命名,但是需要用英文字母。比如我从今天的头条中抓取数据,那我就用今日头条来命名;
(2)Sitemap URL:将网页链接复制到Star URL栏。例如,在图片中,我将“吴晓波频道”的首页链接复制到该栏,然后点击下面的创建站点地图创建一个新的站点地图。
3、设置此站点地图
整个Web Scraper的爬取逻辑如下:设置一级选择器,选择爬取范围;在一级选择器下设置二级选择器,选择爬取字段,然后爬取。
对于文章,一级Selector意味着你要圈出这个文章的元素。这个元素可能包括标题、作者、发布时间、评论数等,然后我们会在二级选择Selector中我们想要的元素,比如标题、作者、阅读数。
让我们拆解设置主次选择器的工作流程:
(1)单击添加新选择器以创建一级选择器。
然后按照以下步骤操作:
-输入id:id代表你抓取的整个范围,比如这里是文章,我们可以命名为wuxiaobo-articles;
-Select Type:type代表你抓取的部分的类型,比如element/text/link,因为这是整个文章元素范围选择,所以我们需要先用Element来选择整个(如果这个页面需要滑动Load more,然后选择Element Scroll Down);
-Check Multiple:勾选 Multiple 前面的小框,因为要选择多个元素而不是单个元素。我们检查的时候,爬虫插件会帮我们识别多篇同类文章文章;
-保留设置:其余未提及的部分保留默认设置。
(2)点击选择范围,按照以下步骤操作:
-Select range:用鼠标选择要爬取的数据范围,绿色为要选择的区域,鼠标点击后区域变为红色;该区域被选中;
-多选:不要只选一个,后面的一定要选,否则只会爬出一行数据;
-完成选择:记得点击完成选择;
-保存:点击保存选择器。
(3)设置好这个一级Selector后,点击进入设置二级Selector,步骤如下:
-新建选择器:点击添加新选择器;
-输入id:id代表你抓的是哪个字段,所以你可以取字段的英文,比如我要选择“author”,我就写“writer”;
-Select Type:选择Text,因为你要抓取的是文本;
-Do not check Multiple:不要勾选 Multiple 前面的小方框,因为我们这里要抓取单个元素;
-保留设置:其余未提及的部分保留默认设置。
(4)点击选择,然后点击要爬取的字段,按照以下步骤操作:
-选择字段:这里要爬取的字段是单个字段,可以通过鼠标点击字段来选择。比如要爬取标题,用鼠标点击一个文章的标题,该字段所在的区域会变成红色即被选中;
-完成选择:记得点击完成选择;
-保存:点击保存选择器。
(5)重复以上操作,直到选中你要攀爬的场地。
4、爬取数据
(1)要爬取数据后,只需要设置好所有的Selector即可启动:
点击Scrape,然后点击Start Scraping,会弹出一个小窗口,爬虫开始工作。您将获得一个收录您想要的所有数据的列表。
(2)如果要对数据进行排序,比如按阅读、喜欢、作者等排序,让数据更清晰,那么可以点击Export Data as CSV导入到Excel表格中.
(3)导入Excel表格后,可以过滤数据。