chrome抓取网页插件(能出一个一个插件端的插件怎么安装插件)
优采云 发布时间: 2022-03-11 00:01chrome抓取网页插件(能出一个一个插件端的插件怎么安装插件)
Gne 发布后,解决了大家自动爬取新闻正文页面的需求。但伴随着它,总有同学希望能做一个抓取列表页的工具,于是就有了今天的GneList。
什么是 GneList
GneList 是一个浏览器插件,专门用来生成列表页的XPath。使用此 XPath,您可以快速访问列表页面中的每个项目。
如何使用 GneList?
使用 GneList 非常简单,几乎不需要解释。
打开有列表的页面,点击插件输入名称,点击开始用鼠标抓取列表的前两项,GneList会自动选择所有项目点击提交按钮进入数据库查看 XPath 如何安装 GneList?
GneList 由两部分组成:插件端和后端。
插件端下载地址:
后端的代码: ,后端依赖于MongoDB。
安装后端
首先确保你有一个可以连接的 MongoDB,假设它的 URI 是:mongodb://localhost。Github 上克隆后端的代码:.
进入后端代码根目录下的 config 文件夹,你会发现一个 local.yml 文件。打开它,第一行填写MongoDB的URI地址,第二行填写数据库名称,第三行填写集合名称。插件生成的 XPath 将保存在这里以供下游调用。
修改配置文件后,回到后端根目录,分别执行如下命令(需要先安装Pipenv):
1
2
3
4
pipenv install
pipenv shell
export local # 你自己创建的 yml文件的名字
uvicorn main:app --port 8800 --host 0.0.0.0 # 使用8800端口
命令执行后,如果使用浏览器访问:8800,应该会看到下图的内容,说明后端搭建成功。
安装插件
GneList 插件支持所有基于 Chromium 内核的浏览器,包括但不限于 Chrome/Chromium/Edge。
从上述地址下载GneList.zip后,解压到任意文件夹,如下图:
然后打开浏览器的插件管理页面,开启开发者模式。例如,下图是我在 Edge 中启用开发者模式的方法。
然后点击右上角的Load Unzipped Extension,选择GneList文件夹。结束。
现在,刷新现有的列表页面,或者打开一个新的,然后点击插件进行试用。
管理员配置页面
右键单击插件并选择扩展选项。在 Chrome 上,名称可能称为 Options 或 English Options。您可以打开如下所示的页面:
如果不启动后端,或者后端地址不是:8800(比如你把后端部署在服务器上,需要使用IP或者域名访问,或者端口不是8800) ,那么这个页面应该如上图所示。
您可以将输入框中的地址更改为后端地址/规则,例如:8888/规则。然后单击提交按钮。然后刷新页面,可以看到如下图内容:
此页面显示您为 网站 添加的所有 XPath,您可以修改或删除它们。
问答
为什么插件生成的 XPath 这么奇怪?
由于这些 XPath 是从 CssSelector 转换而来的,因此我使用了第 3 方 JavaScript 包。原来那个包裹太奇怪了。但不影响其功能。稍后我将更改为更好的包以使 XPath 看起来更好。
我的爬虫如何使用这些 XPath?
还记得一开始是如何配置 MongoDB 的吗?只需让您的爬虫进入并阅读它。
为什么我启动插件后点击网页上的某个元素第一次没有响应?
第一次点击时,如果发现没有生成红框,点击更多。当您看到红色框时,单击第二个元素。
GneList的原理是什么?
在接下来的几篇文章文章中,我会介绍GneList的原理。如果你等不及,你也可以在 Github 上查看源代码。GneList 和 Gne 一样,是建立在其他伟大的开源项目的基础上的,特别是受到 web-scraper-chrome-extension 的启发。因此,GneList 也是完全开源的,允许非商业用途。