免费的文章采集器(Socks5代理哪些主机可以运行没有环境限制,虚拟主机都可运行)
优采云 发布时间: 2022-03-22 14:43免费的文章采集器(Socks5代理哪些主机可以运行没有环境限制,虚拟主机都可运行)
2. Socks5 代理
哪些主机可以运行
无环境限制,虚拟主机可以运行
蜜蜂采集功能和用法
如果不想看太多介绍,可以直接点击右侧导航栏中的“下载安装”,直接定位到下载安装区或者滑到底部下载。
任务页面
功能模块展示了蜜蜂套装的所有功能,是蜜蜂套装的主要入口。
任务列表区域显示所有任务,包括正在运行和暂停的任务。
任务编辑区展示了任务下等待采集的文章的修改、删除、查看等操作。
任务状态区显示任务的状态。任务通常具有三种状态:暂停、运行和等待调度。在等待调度时,它会显示任务还需要多长时间才能开始运行。
日志区显示当前采集日志,可以快速查看当前任务运行状态,方便观察任务进度。
1.采集模块
采集 模块的职责是将网页内容组织成结构化数据。网页上的数据是一段文本,其中的数据不能直接发布到wordpress。在发布到我们的wordpress之前,需要提取标题、正文、类别、图片等信息。没错,采集 模块所做的就是按照规则提取数据!
采集模块基本信息页面
四步导航区域显示了编写规则所需的四个步骤:
填写基本信息,即为规则命名。编写列表规则,即提取列表页的文章url地址。编写内容规则,即提取内容页面的标题、内容、分类等数据。测试爬取,可以测试写的规则是否正确,如果正确可以保存,写一条规则。
采集模块列表规则页面
采集模块内容规则页面
采集 模块支持一些预设过滤器来过滤文章 中不需要的内容,比如链接(包括文本链),比如列表,比如一些风格不好的html代码,还有一些分散注意力的文本,这些不能在本地直接完成,需要服务器才能执行。
发布模块
发布模块负责将 采集 的内容通过一定的规则转换成与你当前的 wordpress 支持相匹配的字段。
任务模块
任务模块是最小的执行单元。通过添加一个任务模块,一个新的 采集 任务就完成了!
下载并安装
采集器取决于 wp 扩展 (imwpf) 和蜜蜂集 (imwprobot)。注意:在安装 BeeSet采集器 之前必须安装并启用 imwpf!(重要的东西需要加粗和红色)
第一步:下载wp扩展,通过wp后台安装并启用。
第二步:下载Beeji采集器,通过wp后台安装并启用。
wordpress 站长工具箱 wordpress 蜜蜂合集采集器
使用教程
教程导航:
视频教程:
附录
imwpf 框架介绍