网页抓取数据(WebScraper集成入Chrome开发者工具(DeveloperTools)())

优采云 发布时间: 2022-02-23 02:14

  网页抓取数据(WebScraper集成入Chrome开发者工具(DeveloperTools)())

  一、安装

  1、安装

  您可以从 Chrome 商店 (/7bpm9c) 安装此扩展程序 (Extension) [需要科学上网]。安装完成后,需要重启Chrome,确保插件加载完毕。如果您不想重新启动 Chrome,也可以在安装后在新标签页中使用此扩展程序。

  2、要求

  此扩展程序需要 Chrome 版本 31 及更高版本。没有操作系统限制。【查看Chrome版本,可以在浏览器地址栏输入:chrome://settings/help,如下图:Chrome版本63]

  

  二、打开网络爬虫

  Web Scraper 已集成到 Chrome 开发者工具中。图 1 显示了如何打开。您还可以使用以下快捷方式(Shortcuts)来打开开发者工具。打开开发者工具后,请选择 Web Scraper 选项卡。

  热键:

  Windows、Linux:Crtl + Shift + I 或 F12,打开开发者工具

  Mac:Cmd + Opt + I,打开开发者工具

  

  打开网络抓取工具

  三、抢网站

  打开 网站 进行抓取。

  1、创建站点地图

  要创建 Sitemap,首先需要指定起始 URL,它是爬取的起点。如果爬网从多个位置开始,您还可以指定多个起始 URL。例如,如果要爬取多个搜索结果,可以为每个搜索结果创建单独的起始 URL。

  指定多个具有串行关系的 URL

  如果一个 网站 页面 URL 收录一个序列,那么使用指定的序列比使用 Link 选择器爬取网页更合理。将 URL 的页码部分替换为指定的序列 [1-100]。如果页码部分有 0 作为占位符,请使用 [001-100]。输入页码有固定的时间间隔 [0-100:10]。一个例子如下:

  [1-3] 可以爬取以下页面:

  *

  *

  *

  [001-100] 可以爬取以下网页:

  *

  *

  *

  [0-100:10] 可以抓取以下页面:

  *

  *

  *

  创建一个选择器(Selector)

  创建站点地图后,您可以向其中添加选择器。在选择器面板中,您可以添加新选择器、改进现有选择器或浏览选择器树结构。选择器可以以树状结构添加,Web Scraper 也按照这种结构爬取网页。比如有个新闻网站,你想把上面所有的文章都抓起来,这些文章链接在网站首页。以下示例是 网站:

  

  要获取这个 网站,您可以创建一个链接选择器来提取主页上的所有 文章 链接。然后添加一个Text选择器作为子选择器,从上面的Link选择器指向的页面中提取文章。下图显示了如何为此 网站 创建站点地图:

  

  请注意,创建选择器时需要使用元素预览和数据预览功能,以确保选择正确的 Web 元素和数据。

  有关选择器树的更多信息可以在选择器文档中找到。您应该至少阅读以下核心选择器:

  1、文本选择器

  2、链接选择器

  3、元素选择器

  浏览选择器树

  为站点地图创建选择器后,您可以在选择器图形面板中浏览选择器树。下图显示了一个示例选择器图。

  

  抓取 网站

  为站点地图创建选择器后,可以开始抓取 网站。打开“刮擦”面板开始刮擦。

  

  将打开一个网页窗口,抓取工具会在其中加载网页并从中提取数据。该窗口将关闭,爬取完成后会弹出提示。您可以打开浏览面板查看捕获的数据并通过将数据导出为 CSV 面板将其导出。

  相关信息:

  Web Scraper 官方文档中文版(下)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线