网页抓取数据(WebScraper集成入Chrome开发者工具（DeveloperTools）（）)

优采云发布时间: 2022-02-23 02:14

　　一、安装

　　1、安装

　　您可以从 Chrome 商店 (/7bpm9c) 安装此扩展程序 (Extension) [需要科学上网]。安装完成后，需要重启Chrome，确保插件加载完毕。如果您不想重新启动 Chrome，也可以在安装后在新标签页中使用此扩展程序。

　　2、要求

　　此扩展程序需要 Chrome 版本 31 及更高版本。没有操作系统限制。【查看Chrome版本，可以在浏览器地址栏输入：chrome://settings/help，如下图：Chrome版本63]

　　二、打开网络爬虫

　　Web Scraper 已集成到 Chrome 开发者工具中。图 1 显示了如何打开。您还可以使用以下快捷方式（Shortcuts）来打开开发者工具。打开开发者工具后，请选择 Web Scraper 选项卡。

　　热键：

　　Windows、Linux：Crtl + Shift + I 或 F12，打开开发者工具

　　Mac：Cmd + Opt + I，打开开发者工具

　　打开网络抓取工具

　　三、抢网站

　　打开网站进行抓取。

　　1、创建站点地图

　　要创建 Sitemap，首先需要指定起始 URL，它是爬取的起点。如果爬网从多个位置开始，您还可以指定多个起始 URL。例如，如果要爬取多个搜索结果，可以为每个搜索结果创建单独的起始 URL。

　　指定多个具有串行关系的 URL

　　如果一个网站页面 URL 收录一个序列，那么使用指定的序列比使用 Link 选择器爬取网页更合理。将 URL 的页码部分替换为指定的序列 [1-100]。如果页码部分有 0 作为占位符，请使用 [001-100]。输入页码有固定的时间间隔 [0-100:10]。一个例子如下：

　　[1-3] 可以爬取以下页面：

　　*

　　[001-100] 可以爬取以下网页：

　　*

　　[0-100:10] 可以抓取以下页面：

　　*

　　创建一个选择器（Selector）

　　创建站点地图后，您可以向其中添加选择器。在选择器面板中，您可以添加新选择器、改进现有选择器或浏览选择器树结构。选择器可以以树状结构添加，Web Scraper 也按照这种结构爬取网页。比如有个新闻网站，你想把上面所有的文章都抓起来，这些文章链接在网站首页。以下示例是网站：

　　要获取这个网站，您可以创建一个链接选择器来提取主页上的所有文章链接。然后添加一个Text选择器作为子选择器，从上面的Link选择器指向的页面中提取文章。下图显示了如何为此网站创建站点地图：

　　请注意，创建选择器时需要使用元素预览和数据预览功能，以确保选择正确的 Web 元素和数据。

　　有关选择器树的更多信息可以在选择器文档中找到。您应该至少阅读以下核心选择器：

　　1、文本选择器

　　2、链接选择器

　　3、元素选择器

　　浏览选择器树

　　为站点地图创建选择器后，您可以在选择器图形面板中浏览选择器树。下图显示了一个示例选择器图。

　　抓取网站

　　为站点地图创建选择器后，可以开始抓取网站。打开“刮擦”面板开始刮擦。

　　将打开一个网页窗口，抓取工具会在其中加载网页并从中提取数据。该窗口将关闭，爬取完成后会弹出提示。您可以打开浏览面板查看捕获的数据并通过将数据导出为 CSV 面板将其导出。

　　相关信息：

　　Web Scraper 官方文档中文版（下）

0

2022-02-23

网页抓取数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页抓取数据(WebScraper集成入Chrome开发者工具（DeveloperTools）（）)

0 个评论

发起人