免费的文章采集器(Socks5代理哪些主机可以运行没有环境限制,虚拟主机都可运行)

优采云 发布时间: 2022-03-22 14:43

  免费的文章采集器(Socks5代理哪些主机可以运行没有环境限制,虚拟主机都可运行)

  2. Socks5 代理

  哪些主机可以运行

  无环境限制,虚拟主机可以运行

  蜜蜂采集功能和用法

  如果不想看太多介绍,可以直接点击右侧导航栏中的“下载安装”,直接定位到下载安装区或者滑到底部下载。

  

  任务页面

  功能模块展示了蜜蜂套装的所有功能,是蜜蜂套装的主要入口。

  任务列表区域显示所有任务,包括正在运行和暂停的任务。

  任务编辑区展示了任务下等待采集的文章的修改、删除、查看等操作。

  任务状态区显示任务的状态。任务通常具有三种状态:暂停、运行和等待调度。在等待调度时,它会显示任务还需要多长时间才能开始运行。

  日志区显示当前采集日志,可以快速查看当前任务运行状态,方便观察任务进度。

  1.采集模块

  采集 模块的职责是将网页内容组织成结构化数据。网页上的数据是一段文本,其中的数据不能直接发布到wordpress。在发布到我们的wordpress之前,需要提取标题、正文、类别、图片等信息。没错,采集 模块所做的就是按照规则提取数据!

  

  采集模块基本信息页面

  四步导航区域显示了编写规则所需的四个步骤:

  填写基本信息,即为规则命名。编写列表规则,即提取列表页的文章url地址。编写内容规则,即提取内容页面的标题、内容、分类等数据。测试爬取,可以测试写的规则是否正确,如果正确可以保存,写一条规则。

  

  采集模块列表规则页面

  

  采集模块内容规则页面

  采集 模块支持一些预设过滤器来过滤文章 中不需要的内容,比如链接(包括文本链),比如列表,比如一些风格不好的html代码,还有一些分散注意力的文本,这些不能在本地直接完成,需要服务器才能执行。

  发布模块

  发布模块负责将 采集 的内容通过一定的规则转换成与你当前的 wordpress 支持相匹配的字段。

  

  任务模块

  任务模块是最小的执行单元。通过添加一个任务模块,一个新的 采集 任务就完成了!

  

  下载并安装

  采集器取决于 wp 扩展 (imwpf) 和蜜蜂集 (imwprobot)。注意:在安装 BeeSet采集器 之前必须安装并启用 imwpf!(重要的东西需要加粗和红色)

  第一步:下载wp扩展,通过wp后台安装并启用。

  第二步:下载Beeji采集器,通过wp后台安装并启用。

  wordpress 站长工具箱 wordpress 蜜蜂合集采集器

  使用教程

  教程导航:

  视频教程:

  附录

  imwpf 框架介绍

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线