简单采集器

优采云 发布时间: 2020-08-17 09:42

  简单采集

  插件说明:

  没有后端、没有UI、没有设计,页面确实不怎样好看

  仅支持MySQL

  插件只提供功能,不保证所有网址均可正常采集,请按照实际情况选择是否订购插件

  本采集插件使用非框架采集,因此功能上会比采集框架少

  仅130K达到绝大多数采集框架功能

  运行速率更快

  负载更低

  1.采集方式

  1.1.本采集插件使用非框架采集,因此功能上会比采集框架少

  1.2.采集方式目前只有正则采集

  1.2.1.截取形式支持“

  [内容]

  ”写法

  1.3.支持采集间隔设置(未防止高频访问拉黑或服务器中断)

  1.4.自定义数组必须使用ZBP的发布数组能够正常使用

  2.其他说明

  2.1.腾讯新闻和新浪新闻已测试可以正常采集

  2.2.采集教程:《简单采集器》基础采集教程

  2.3.已知绝大部分JS内容未能采集

  2.4.已知绝大部分须要二次拼接的链接难以获取

  3.其他说明

  3.2.现在仍然不能正确在不仅数据处理->内容替换以外的地方使用HTML转义字符

  3.2.1.可以保存一次,但是二次保持将会让内容被通配符,需要重新设置

  3.3.现在仍然不能在开启PHP安全模式的空间下正常运行

  更多详情请查看下方更新说明

  更多有趣的,实用的SEO工具,请抵达ZBlogSEO工具包

  1.3.5.更新说明(2020-08-01)

  1.优化

  1.1.优化一个手动采集任务结束时的处理方法,避免手动采集占用独立进程

  1.3.4.更新说明(2020-07-31)

  1.优化

  1.1.优化内容处理,获取的最终内容将手动补全url地址(a标签href地址 和img标签src地址)

  1.1.1.采集规则设置时,使用的是未补全地址的html内容

  1.3.3.更新说明(2020-07-30)

  1.优化

  1.1.优化数据处理的次序,将工具箱调整为最后一步执行,避免个别情况下难以获取”定位“的问题

  1.2.优化数据处理-内容替换的显示疗效,避免个别情况下,使用特殊字符,如冒号、斜杠等

  1.3.优化数据处理-内容替换,当被替换的内容为空时不能手动删掉的问题

  1.3.2.更新说明(2020-07-25)

  1.修复

  1.1.修复一个问题,该问题曾引起个别特定情况下的UA、COOKIES、REFERER设置不生效

  1.3.1.更新说明(2020-07-21)

  1.修复

  1.1.修复当前站点开启SSL后并使用HTTPS登陆后,部分站点不能正常手动运行的问题

  1.2.修复部份情况两次运行间隔实际比预设过长的问题

  1.3.修复任务编辑界面->基本设置->内容发布设置遗忘未设置造成的不能正常发布,但是记录已发布的问题

  1.3.1.只是调整为赋于一个默认变量而已

  1.3.0.更新说明(2020-07-20)

  1.新增

  1.1.新增手动采集

  1.1.1.任务添加后,可选开启手动采集功能

  1.1.1.1.在任务管理页面点击手动采集(是|否)可开启或关掉手动采集功能

  1.1.2.自动采集功能依赖网站前台的用户访问,暂不支持纯静态网站或开启纯静态插件的网站,暂不支持开启部份文件缓存插件的网站

  1.1.3.自动采集默认访问任意以index.php页面为入库的恳求开始进行手动采集计划任务

  1.1.4.自动采集每次仅形成一个线程,有插件目录下指定文件进行开关控制,安装插件请确认网站插件文件夹为可读写,切所有权为www或其他正常权限用户

  1.1.5.若任务配置不齐全,将手动关掉该任务的手动采集功能

  1.1.6.为防止不必要的售后问题,每次手动采集任务间隔最低5分钟

  1.1.7.支持查看当前执行的任务或最后一个任务的执行结果,且手动刷新30秒

  1.2.数据处理中的替换数组,现在可以正确的删掉,而非仍然保留

  1.3.数据处理中的替换数组,现在可以正确的使用HTML通配符字符了,但还是请不要使用一些JS中的特殊字符,

  1.4.现在可以正确的防止重复采集相同的链接了。

  1.5.现在可以正确的获取一些gbk、gb2312的页面了,但是须要在基本设置中进行设置或指定选择

  1.5.1.可选手动获取,但是不保证一定就能获取到正确的内容,虽然可以适配绝大多数

  2.优化

  2.1.优化编辑任务中基本设置的放置款式

  2.1.1.将之前的竖向展示调整为纵向展示,现在可以更好的查看是否设置完全了

  3.其他

  3.1.这里是为了重复指出一些事情

  3.2.现在依然不能正确在不仅数据处理->内容替换以外的地方使用HTML转义字符

  3.2.1.可以保存一次,但是二次保持将会让内容被通配符,需要重新设置

  1.2.

  1.新增

  1.1.调整数组

  1.1.1.将标题和内容设为固定必须有的值

  1.1.2.将新增数组添加变为选项,可以选择既有的内容,或自定义

  1.1.3.自定义仅可输入大小写字母和数字(因为我相信没有人会在PHP里使用英文自定义变量)

  1.2.将简单采集器快捷入口添加至后台底部两侧栏

  1.3.新增一个按键,点击该按键可以解决在采集报错后未能再度执行采集的问题

  2.新增ZBlogPHP本地发布形式

  2.1.取消内容发布必须经由优采云采集器发布插件能够发布的问题

  2.2.现在可以直接在插件内容发布配置页面选择发布的方式

  2.3.可选严禁重复标题

  2.3.1.开启严禁重复标题后,重复标题的链接将不会写入数据库(也就是说上次采集依旧会访问该页面),处理方式已有头绪,将会在后续更新时调整

  2.优化

  2.1.调整任务管理页面显示的款式,使其显得稍为好看这么一丢丢

  2.2.调整测试页面的显示款式,使其显得稍为这么好看一丢丢

  2.3.大区域中的小区域也可以点击小标题进行隐藏了

  1.1.

  1.新增

  1.1.新增键值(*)和[内容]现在可以直接点击写入规则中

  1.2.新增动态加载的内容可以同时删掉而非之前的须要刷新后才会删掉

  1.3.将主体模块分为四块,每次只会显示一块的内容,现在看起来更简约了

  1.3.1.虽然仍然是没有WEB后端和UI的锅,看起来仍然不这么好看,至少我感觉过得去了

  2.修复

  2.1.修复一个问题,该问题曾引起开始采集后,任务会重复执行,现在可以正确的只执行一次,直至当前任务执行结束后才能继续执行

  3.优化

  3.1.为防止误操作,将“重建数据库”按钮调整至新建任务的最左侧浮动,虽然可能对移动端不太友好,但是起码可以在一定程度上放置误操作了

  下为演示,每当主要内容被更改后,会同步更新演示图片(2020-03-29更新)

  

  

  

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线