完美:如何用优采云进行关键词采集

优采云 发布时间: 2022-10-29 13:23

  完美:如何用优采云进行关键词采集

  新网站。一个站点是一个大整体,一个站点下可以设置多个任务。也可以直接创建任务。

  在站点下,新建一个任务,需要填写任务名称,然后根据你的采集的URL填写对应的数据。其中,采集 URL的深度可以从0开始,表示当前页面采集。1的深度多用于列表页采集的内容页的处理,也可以是2、3等,根据需要填写。

  

  添加 采集 URL 时,可以单独添加,也可以多个添加。此示例对 URL 执行深度为 1 的 采集。*通配符表示添加的 URL “更改”的位置,其中数字更改表示它是哪个数字。一定要保证URL的存在和正确,否则会影响采集。

  添加 URL 后,您需要处理 采集 区域。必须收录或不收录的内容可以根据自己的需要填写。采集URL区域需要检查所有采集网页的源代码,根据代码的唯一性确定采集区域。可以测试URL采集,如果不正确,需要修改采集区域。如果正确,直接进行下一个采集内容处理。

  点击第二步,需要填写所需的网址。删除不需要的标签。由于我们只有采集关键词,所以只留下标题,其余的可以删除。对于“Title”标签,可以根据源码搜索采集想要的区域,也可以替换或删除采集的内容文本。

  

  采集内容选定后,就是发布处理的问题了。发布时分为在线发布、本地保存和导入自定义数据库三种。一般采集关键词会保存在本地,可以保存txt、xml等不同的形式。右下角是发布模式,可以自定义发布。完成发布设置后,您可以单击“更新”进行保存。

  更新成功后,点击开始任务整理 URL 采集关键词。

  最新版本:SiteTeam企业自助建站系统在线安装版与优采云采集器(www.ucaiyun.com)

  优采云采集器是一个多线程的内容采集发布程序,适用于各大主流文章系统、论坛系统等。有优采云采集器你可以立即构建具有海量内容的 网站。Zol提供优采云采集器正式版下载。

  优采云采集器()是一款专业强大的网络数据/信息挖掘软件。通过灵活的配置,您可以轻松地从网页、文件等中抓取文本和图片。

  优采云采集器()程序支持远程下载图片文件,支持登录后获取网站信息,支持检测文件真实地址,支持代理,支持防盗链网站@采集,支持采集数据直接存储、模仿人手动释放等多项功能。

  优采云采集器支持从任何类型的网站采集获取你需要的信息,比如各种新闻类网站、论坛、电商网站、求职网站等

  还有强大的网站登录采集、多页分页采集、网站跨层采集、POST采集、脚本页面<高级采集功能如@采集、动态页面采集等。

  强大的php和c插件支持,让你通过二次开发实现任何你想要的更强大的功能。

  优采云采集器() 软件特色:

  1、通用性强

  不管新闻、论坛、视频、黄页、图片、下载网站,只要是可以通过浏览器看到的结构化内容,通过指定匹配规则,就可以采集得到你想要的内容需要 。

  2.稳定高效

  五年磨一剑,软件不断更新完善,采集速度快,性能稳定,占用资源少。

  3、扩展性强,应用范围广

  自定义web发布,自定义主流数据库的保存和发布,自定义本地php和.net对外编程接口处理数据,让数据为你所用。

  优采云采集器版本 V9.21

  1:优化自动获取cookies功能

  2:数据库发布增加事务,优化数据库发布速度

  3:数据转换速度优化(针对Mysql和SqlServer数据库的导入),同时去掉URL库的清零逻辑

  4:html标签处理错误问题处理

  5:关于将数字转换为科学记数法问题的json提取

  

  6:发布测试时,图片上传无效问题处理

  7:采集在内容页处理错误时,添加当前错误标签的提示,以便快速定位错误标签

  8:批量编辑任务,增加操作范围

  9:循环匹配匹配空间问题处理

  10:增加刷新组中统计的刷新

  11:后分页处理

  12:部分功能逻辑优化

  优采云采集器V9.9

  1.优化效率,修复运行大量任务时卡顿的问题

  2.修复大量代理时配置文件被锁定,程序退出的问题

  3.修复MySQL在某些情况下无法链接的问题

  4.其他界面及功能优化

  优采云采集器V9.8

  1:“远程管理”正式升级为“私有云”,全面优化调整。

  2:发布模块增加了自定义头信息的添加。

  3:采集线程间隔调整,添加自定义间隔设置。

  4:修复了长时间使用后卡死的问题。

  5:二级代理,IP输入框修改为普通TextBox。增加免代理认证功能。

  6:修复丢包和死循环问题。

  7:ftp上传,增加超时处理。

  优采云采集器优采云采集器V9.6

  1:多级URL列表,增加列表名称重命名和上下调整功能。

  

  2:修复了SqlServer数据库格式下采集个数不能正确显示的问题。

  3:添加标签时,如果最后编辑的是固定格式数据,新标签会显示错误的内容。

  4:修复数据包登录过程中如果登录失败,无法自动重新登录的问题。

  5:修复FTP上传失败后本地数据也被删除的问题。

  6:修复采集时发送文件上传FTP失败的问题。

  7:优化Excel保存时,对于ID,PageUrl显示列的位置。

  8:修复任务不能多选的问题。

  9:在采集发布时,最大发布数的功能调整(原:最大发布数无效。现在:最大发布数生效,任务完成后,之前的未发布的数据将不再发布)

  10:修复存储过程语句,当数据为空时,意外判断为“语句错误”的问题。

  11:二级代理功能,修复定时拨号失败的问题。

  12:二级代理功能,常规采集的API功能优化,重新采集时会自动删除前一批数据。

  13:批量URLs添加数据库导入模式

  14:导出到文件时,添加不合理错误命名提示。

  15:导出规则时,对于名称过长的规则,增加提示功能。

  16:编辑规则时,复制粘贴多行“收录”和“排除”数据时,会自动分割成多条数据。

  17:增加芝麻代理的合作支持。

  优采云采集器V9.4

  1. 批量URL更新,日期可以支持大于今天的数据。标签可以与多个参数同步

  2.标签组合,增加对循环组合的支持。

  3.优化了URL库的重载逻辑,大大加快了大URL库下任务的加载速度,优化了URL库重载的内存占用。

  4.数据库发布模块,增加对“插入忽略”模式的支持

  5、新增任务云备份和同步功能

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线