解决方案:胖鼠插件胖鼠采集(Fat Rat Collect) 新建采集规则使用方法 (图文
优采云 发布时间: 2020-09-01 10:49肥胖大鼠采集(肥胖大鼠采集)新的采集规则使用方法(图形
摘要: 胖鼠标采集是可以帮助您网站自动化的工具. 自动采集,由作者Fatrat独立开发,是一个开源WordPress 采集插件,可自动发布,节省烦恼和精力. 通过简单学习掌握爬虫技能是Fat Mouse的核心采集. 简单的采集规则可让不懂代码的学生创建采集规则. 可以点击以下图片放大,请仔细阅读. 在填写采集的过程中,rules>表示渐进层关系的eq语法a: eq jQuery表示取第二个a. 并且内容是排版的,有很多东西,例如图像css js. 上面是调试以测试采集 10个链接是否成功. 每个人还应该使用调试功能来测试是否可以正确获取详细信息页面的标题内容. 测试了链接标题内容三个规则数据是否正确. 目标站点html与此不同,您可以动动脑筋进行更多更改.
Fatmouse插件
Fat Rat 采集(Fat Rat Collect)是可以帮助您网站自动化的工具. 自动采集,由作者Fatrat 采集插件独立开发的开源WordPress,自动发布,省却了工作量.
通过简单的学习来掌握爬行技能是Fat Mouse 采集的核心. 简单的采集规则可让不懂代码的学生学习. 让我们带领所有人创建一个采集规则. 以下图片可以单击放大,请仔细阅读.
采集规则收录两个教程,以下内容为图形教程,如果您需要视频教程,请在文章的底部下载它.
采集 5个最重要的内容步骤
采集地址: 所有人采集目标页面的地址
采集范围: 您想要目标页面的哪段数据采集
采集规则: jQuery选择器,选择页面上的区域
详细信息页面采集范围: 与上述相同
详细信息页面采集规则: 与上述相同
知识普及
Class对应于html中的Jquery. id对应于jQuery#
在填写采集规则的过程中>表示渐进层关系的eq语法. jquery a: eq(1)表示取该区域中的第二个a
[注意: 代码从0开始(一个标签只有一个,您只需填写一个)]
在填写Jquery语法时,href基本上是指标签的href属性(此属性存储单击后的跳转地址)文本占该区域的文本,通常用于标题html,占所有html在该区域中,通常用于检索内容,内容则更多. 内容中收录很多内容,例如排版中的图像CSS js. 因此,请获取所有原创HTML
在过滤规则中,a是删除该区域中的所有标记跳转功能. 保留文本-a删除a标签包括删除a标签中收录的内容(不建议使用,因为a中收录某些图片. a中删除图片然后消失. )-div删除所有div -p与-b相同-b与上面相同-与上面相同-p: 首先删除第一个p标签-p: last删除最后一个p标签-p: eq(-2)删除倒数第二个p -p: eq(2)删除两个正数p这是例行程序...
在下面的示例中,每个选择器都有. 或#请放大图像并仔细看. 不要拉下这些小符号
立即正式开始,如果您不了解某些内容,请考虑一下并尝试!图4是最终配置图,请进行比较!
采集地址
目标采集目标地址(示例URL): 这是国内游戏新闻列表页面
打开页面,右键单击页面->选中,将出现下面的框. 您可以看到页面的源代码
采集范围
如图1所示: 他每页有十篇新闻文章
*敏*感*词*区域是此页面所有文章所在的范围
*敏*感*词*区域对应于右侧class = down-nr的代码区域
说明: 添加ul li将循环文章所在的每个区域. 达到了我们的清单批采集的目的
注意: 在此步骤中,必须使用调试功能进行测试. (使用方法如下所述)
最终列表采集范围结果: .down-nr> ul> li
我在列表中找到了10篇文章文章的区域. 让我们找到十篇文章文章的区域以及相应的文章链接
因为我们获得了特定的文章链接,所以我们可以转到采集每个文章的内容!
恭喜您完成了第一步
采集规则
现在我们已经确定了文章区域,我们需要在该区域中找到文章的链接以编写采集规则
一般的文章区域只有一个a,即文章地址. 但是这个例子是不同的. 在图2中,您可以看到li的文章区域有两个a
第一个a是新闻列表页面的地址,第二个a是我们需要的文章地址
我们使用Jquery的eq语法a: eq(1)表示在区域中取第二个a
注意: 代码从0开始(标签只有一个,您可以只填写一个),
注意: 如果目标站链接是相对链接. 该程序将自动完成
最终列表采集规则: a: eq(1)href
href表示选择标签的href属性(即文章地址)
注意: 请使用Debug功能(下面介绍如何使用它)
第二步完成
详细信息页面采集区域和采集规则
图3: “详细信息”页面采集
根据上面的描述,我们现在已经基本掌握了某些技能,然后采集区域的描述现在很简单,请参见图3和图4进行比较. 注意: 请使用Debug函数,然后使用debug函数在每个步骤中查看结果.
Details 采集 Scope .sub-cont
说明: 请参见图3. sub-cont收录标题和内容,并且是其父区域. 选择该区域.
详细信息采集规则标题= .n_title
详细信息采集规则内容= .sub-nr
说明: 请参见图3. n_title是文章的标题
说明: 请参见图3. sub-nr 文章的内容
href基本上是指a标签的href属性(此属性在单击后存储跳转地址)
text获取该区域的文本,通常用于标题
html提取区域中的所有html通常用于提取内容,并且内容更多. 内容中收录很多内容,例如排版中的图像CSS js. 因此,请获取所有原创HTML
因此,我们应该在图4中获得以下配置
标签过滤(关键字替换)
a是删除该区域中所有的标签跳转功能. 保留文字
-a删除a标签,包括删除a标签中收录的内容(不建议使用,因为a中收录一些图片. a中删除图片. )
-div删除所有div
-p与上述相同
-b与上述相同
-span与上述相同
-p: 先删除第一个p标签
-p: last删除最后一个p标签
-p: eq(-2)删除倒数第二个p
-p: eq(2)删除两个p的正数
这是例行程序...
标签过滤支持所有Jquery语法,这非常强大. 可以帮助您处理各种杂乱数据
请参见下图. 仅部分过滤方法. 请百度.
请看上面的图片,这只是过滤的一部分. 每个人都拥有百度,胖鼠采集具有强大的过滤功能. 新手可以导入默认示例进行品尝. 全部都直接配置和使用
如何使用调试功能
图6: 调试功能
下面的图7是一个实际演示
上面的调试是测试采集 10个链接是否成功. 拥有链接后,您可以采集详细信息页面
每个人还应该使用调试功能来测试是否可以正确获取详细信息页面的标题内容.
经过测试的链接标题内容和所有三个规则数据均正确. 那么采集应该是稳定的.
花一点时间准备一次,您可以随时使用它. 希望大家都花一点时间学习.
这个网站只是一个例子.
目标站点html与此不同,您可以动动脑筋进行更多更改. 使用Debug查看更多结果
视频教程下载