优采云采集器免费版 V9.10

优采云 发布时间: 2020-08-25 18:40

  优采云采集器免费版 V9.10

  优采云采集器英文名www.ucaiyun.com,它是一款专业的互联网数据抓取、处理、分析、挖掘软件,它拥有网址采集、内容采集、数据处理、数据发布、日志管理等等功能,且支持多数据库,能够无限级多页采集、全自动运行、分布式高速采集、多辨识系统、采集监控系统,可以非常好的帮助网站管理优化人员对网站进行剖析优化。现在早已被电商营运人员、企业人员、 网站站长等各行业的人使用。有须要的用户快来下载优采云采集器免费版吧,小编在下文还为你们附上了简单的使用教程!

  

  采集器教程1、新建分组--新建任务

  

  2、添加网址+ 编辑获取网址的规则

  

  选择范围在 ul 里面的 li 里面的链接,注意排除重复地址,可以点击下边测试网址采集获取。

  

  可以见到有采集到的文章链接了。

  

  3、采集内容规则

  我那边须要采集下面图上展示数据(catid是栏目id,可以将采集到的数据装入对应栏目,设置固定值就好)

  

  着重说下内容和图片的采集,标题和描述同理内容采集

  

  内容采集:

  打开一个采集的文章页面,查看源代码(禁了右键的f11 或者在网址后面加上 view-source: 一样可以查看):选中文章开头一个位置,截取一段在ctrl+f 搜下是否惟一一段,若是就可以放到位置右图1处,结尾同开头一样。我截取内容不想上面还带有链接图片可以数据处理,添加--html标签排除--选好确定--确定

  

  还有须要下载页面图片,勾选和填写下边选项

  

  图片采集:

  (1)选中范围和内容一样(文章内图片)

  (2)数据处理选 提取第一张图片,内容是:

  (3)只要aa.jpg,正则过滤,获取内容:aa.jpg

  (4)数据库储存有前缀,添加上, upload/xxxxx/

  

  找一个页面测试一下,可以看见对应项目都获取到了。

  

  4、发布内容设置,这里以形式三发布到数据库为反例,编辑后回到那边勾选刚定义的模块就好:

  

  

  5、我需要保存图片到本地,要设置下保存文件的路径(ftp后续会试着使用)。

  

  6、保存,查看刚新建的任务,右键 开始任务运行,这边就可以看见文字和图片都下载出来了,数据库上面也可以见到了。

  

  功能介绍一、网址采集

  1、可以通过网址采集规则的设定,快速采集到所需的网址信息。可自动输入、批量添加或直接从文本导出网址,并能手动筛选消除重复的网址信息。

  2、支持多级页面网址的采集,多级网址采集可以使用页面剖析手动得到地址、手动填写规则两种形式。应对多级分页中内容不同,但地址相同的页面网址采集,软件设置了 GET,POST 和 ASPXPOST 三种 HTTP 请求方法。

  3、支持网址采集测试,可以验证操作的正确性,避免操作有误造成采集结果不确切。

  二、内容采集

  1、可以通过剖析网页源代码,设定内容采集规则,精准采集到网页中散乱分布的内容数据,并支持多级多页等复杂页面中的内容采集。

  2、通过定义标签,能够将数据进行分类采集,比如将文章内容的标题与正文分开采集。软件配置了三种内容提取的方法:前后截取、正则提取、正文提取。可选性强,用户可以根据使用需求进行选择。

  3、内容采集同样支持测试功能,可选用一个典型页面来测试内容采集的正确性,以便及时更正和进行下一步数据处理。

  三、数据处理

  对于采集到的信息数据,软件可以对其进行一系列的智能处理,使采集到的数据愈发符合我们的使用标准。主要包括 1)标签过滤:过滤掉内容中不需要的空格,链接等标签;2)替换:支持近义、同义词替换;3)数据转换:支持汉译英、简转繁、转换为拼音等;4)自动摘要、自动分词:支持手动生成摘要和手动动词功能;5)下载选项:支持任意格式的文件侦测下载,并才能将相对地址智能补全为绝对地址。

  四、数据发布

  1、将数据采集下来后默认将数据保存在本地数据库(sqlite 、mysql、sqlserver),用户可以按照自己的需求选择对数据的后续操作以完成数据发布,支持直接查看数据、在线发布数据和入数据库,并支持用户进行发布插口的使用和开发。

  2、根据数据库类型用相关软件打开可以直接查看数据,配置一个发布模块即可将数据在线发布到网站,可以设置手动登入网站,获取栏目列表等;如果入到用户自己的数据库中,用户只需写几个 SQL 语句,程序都会根据用户的 SQL 语句导出数据;保存为本地文件时支持本地 SQL 或文本文件(word、excel、html,txt)格式。

  五、多任务多线程运行

  可以选择同时运行多个任务,支持不同网站或同一站点下不同栏目的内容同时采集,能够有计划的调度任务。单个任务在采集内容和发布内容时均可以使用多线程运行,提升运行效率。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线