网站内容抓取(谷歌浏览器使用的网页数据提取插件技巧分享(组图) )

优采云发布时间: 2021-09-01 01:05

　　网站内容抓取(谷歌浏览器使用的网页数据提取插件技巧分享(组图)

)

　　Web Scraper 是一款适用于谷歌浏览器的网页数据提取插件。通过使用该插件，可以快速、有效、准确地提取网页数据。抓取范围可以任意选择，让你随心所欲地抓取，还可以将你需要的数据转换成CSV文件并导出。是一款不可多得的网页内容提取插件。有需要的朋友赶紧来本站下载吧！

　　网页抓取功能

　　1、抓取多个页面

　　2、来自动态页面

　　3、Export 抓取的数据为 CSV

　　4、导入、导出站点地图

　　5、仅依赖于 Chrome 浏览器

　　6、提取数据（JavaScript AJAX）

　　7、Scraping 数据存储在本地存储或 CouchDB 中

　　8、Browse 抓取数据/> 3、多种数据选择类型

　　插件功能

　　使用多线程快速扫描任何网站

　　在 WebScraper 主窗口中，您必须指定要扫描的网页的 URL 地址以及用于完成该过程的线程数。您可以借助一个简单的滑块调整以下参数。

　　为避免任何不必要的扫描，您可以选择仅抓取单个网页，然后单击鼠标即可开始该过程。在实时查看窗口中，可以看到各个链接返回的状态信息，在处理调试任务时可能会有用。

　　提取各种类型的信息并将数据导出为CSV或JSON

　　在 WebScraper 输出面板中，您可以选择希望实用程序从网页中提取的信息类型：URL、标题、描述、与不同类型或 ID 关联的内容、标题、各种格式的页面内容（普通text、HTML) 或 MarkDown) 和上次修改日期。

　　您还可以选择输出文件格式（CSV 或 JSON），决定合并空格，并在文件超过一定大小时设置警报。如果您选择使用 CSV 格式，您可以选择何时在列周围使用引号、用引号替换引号或行分隔符的类型。

　　最后但同样重要的是，WebScraper 还允许您更改用户代理、设置主页链接和点击次数的限制、忽略查询字符串以及使用根域的子域作为内部页面。

　　如何安装插件

　　1、在Opsoft Park下载本插件，将插件文件从压缩包中解压后即可安装；

　　2、打开浏览器，进入浏览器插件管理页面【chrome://extensions/】，拖拽未压缩的.crx文件添加；

　　3、等待插件安装完成，您只需点击界面上的插件图标即可开始使用插件。

　　插件使用说明

　　一、安装

　　1、小编这里是chrome浏览器，先在标签页输入【chrome://extensions/】进入chrome扩展，把你在这个页面下载的Web Scraper插件解压，拖拽进入扩展页面。

　　2、安装完成后，赶紧试用插件的具体功能。

　　3、当然可以先在设置页面设置插件的存储设置和存储类型功能。

　　二、使用抓取功能

　　安装完成后，只需四步即可完成抓取操作。具体流程如下：

　　1、Open Web Scraper

　　首先需要使用插件提取网页数据，并且需要在开发者工具模式下使用。使用快捷键Ctrl+Shift+I/F12，在出现的开发工具窗口中找到与插件同名的列。

　　2、创建站点地图

　　点击创建新站点地图，里面有两个选项。导入站点地图是导入现成站点地图的指南。我们通常没有现成的站点地图，所以我们一般不选择这个，只选择创建站点地图。

　　然后执行这两个操作：

　　(1)Sitemap Name：代表你的sitemap适用于哪个网页，所以你可以根据自己的名字给网页命名，但是需要用英文字母。比如我从今天的头条中抓取数据，那我就用今日头条来命名；

　　(2)Sitemap URL：将网页链接复制到Star URL栏。例如，在图片中，我将“吴晓波频道”的首页链接复制到该栏，然后点击下面的创建站点地图创建一个新的站点地图。

　　3、设置此站点地图

　　整个Web Scraper的爬取逻辑如下：设置一级选择器，选择爬取范围；在一级选择器下设置二级选择器，选择爬取字段，然后爬取。

　　对于文章，一级Selector意味着你要圈出这个文章的元素。这个元素可能包括标题、作者、发布时间、评论数等，然后我们会在二级选择Selector中我们想要的元素，比如标题、作者、阅读数。

　　让我们拆解设置主次选择器的工作流程：

　　（1)单击添加新选择器以创建一级选择器。

　　然后按照以下步骤操作：

　　-输入id：id代表你抓取的整个范围，比如这里是文章，我们可以命名为wuxiaobo-articles；

　　-Select Type：type代表你抓取的部分的类型，比如element/text/link，因为这是整个文章元素范围选择，所以我们需要先用Element来选择整个（如果这个页面需要滑动Load more，然后选择Element Scroll Down);

　　-Check Multiple：勾选 Multiple 前面的小框，因为要选择多个元素而不是单个元素。我们检查的时候，爬虫插件会帮我们识别多篇同类文章文章;

　　-保留设置：其余未提及的部分保留默认设置。

　　(2)点击选择范围，按照以下步骤操作：

　　-Select range：用鼠标选择要爬取的数据范围，绿色为要选择的区域，鼠标点击后区域变为红色；该区域被选中；

　　-多选：不要只选一个，后面的一定要选，否则只会爬出一行数据；

　　-完成选择：记得点击完成选择；

　　-保存：点击保存选择器。

　　(3)设置好这个一级Selector后，点击进入设置二级Selector，步骤如下：

　　-新建选择器：点击添加新选择器；

　　-输入id：id代表你抓的是哪个字段，所以你可以取字段的英文，比如我要选择“author”，我就写“writer”；

　　-Select Type：选择Text，因为你要抓取的是文本；

　　-Do not check Multiple：不要勾选 Multiple 前面的小方框，因为我们这里要抓取单个元素；

　　-保留设置：其余未提及的部分保留默认设置。

　　（4)点击选择，然后点击要爬取的字段，按照以下步骤操作：

　　-选择字段：这里要爬取的字段是单个字段，可以通过鼠标点击字段来选择。比如要爬取标题，用鼠标点击一个文章的标题，该字段所在的区域会变成红色即被选中；

　　-完成选择：记得点击完成选择；

　　-保存：点击保存选择器。

　　（5)重复以上操作，直到选中你要攀爬的场地。

　　4、爬取数据

　　（1)要爬取数据后，只需要设置好所有的Selector即可启动：

　　点击Scrape，然后点击Start Scraping，会弹出一个小窗口，爬虫开始工作。您将获得一个收录您想要的所有数据的列表。

　　(2)如果要对数据进行排序，比如按阅读、喜欢、作者等排序，让数据更清晰，那么可以点击Export Data as CSV导入到Excel表格中.

　　(3)导入Excel表格后，可以过滤数据。

0

2021-09-01

网站内容抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容抓取(谷歌浏览器使用的网页数据提取插件技巧分享(组图) )

0 个评论

发起人

AI时代内容工厂

网站内容抓取(谷歌浏览器使用的网页数据提取插件技巧分享(组图) )

0 个评论

发起人

相关问题