大数据时代的优采云规则定制(二)介绍及应用

优采云 发布时间: 2021-08-13 19:13

  大数据时代的优采云规则定制(二)介绍及应用

  1、优采云简介

  2、什么是信息采集

  3、什么是优采云

  4、优采云它有什么用?

  5、优采云规则自定义

  6、Rule 编写过程

  7、采网站详解

  8、采内容详解

  9、Notes

  什么是优采云?

  

  我们开了一个网站,看到一篇文章很好的文章,就复制文章的标题和内容,把这个文章转给我们的网站。我们这个过程可以称为一个采集,把别人网站的有用信息传递给自己网站;网上的大部分内容都是复制-修改-粘贴信息采集非常重要和常见,因为它是在过程中产生的。我们平台发了网站上的文章,大部分也是这样的过程;为什么很多人觉得新闻更新麻烦,因为这个工作重复,无聊,浪费时间;

  优采云是目前国内用户最多、功能最全、网站程序支持最全面、数据库支持最丰富的软件产品;现在大数据时代,可以快速、批量、海量地访问互联网,并以我们需要的格式存储;简单来说,它对我们有什么用?我们需要更新新闻,发出商机。如果要求你准备1000个文章,你需要多长时间? 5个小时?在规则的情况下,优采云只需要5分钟!前提是有规则,所以我们要先学会写规则。如果规则数量足够,一个规则几分钟就可以了,但是刚开始学习的时候会慢一些;

  名称解释和规则编写过程

  n以优采云8.6版本为准 第一步:打开—登录 第二步:新建组

  

  第三步:右击组,新建任务,填写任务名称;

  

  第四步:编写采集网址规则(起始网址和多级网址获取)

  

  第五步:写采集内容规则(如标题、内容)

  

  第 6 步:发布内容设置

  查看激活方法二

  (1)保存格式:一条记录​​保存为txt;

  (2)保存位置自定义;

  (3)File 模板不需要移动;

  (4)文件名格式:点击右侧倒笔字选择[label:title];

  (5)file编码可以先选择utf-8,如果测试时数据正常,但保存的数据有乱码,选择gb2312;

  

  第七步:采集设置,全部选择100;

  一个。单任务采集内容线程数:采集同时多个网址;

  b.采集Content 间隔时间,单位毫秒:两个任务之间的间隔时间;

  c.单任务发布内容线程数:一次保存多少条数据;

  d。发布内容间隔时间,单位毫秒:两次保存数据的时间间隔;

  

  注意:如果网站有反阻塞采集机制(比如很多数据但是只有采集的一部分,或者打开页面需要多长时间),那么调整a 并适当增加 b 的值;

  第八步:保存、检查并启动任务(如果在同一个组中,可以在组中批量选择)

  

  以前的方法:比如我要准备n篇文章,首先要搞清楚这个文章在哪个网站(比如采集銆淹击A或者鈥淹B ),在哪个栏目下(比如产品信息或者新闻信息),这个栏目下有n条信息,我要选择哪一条,输入后复制标题,复制内容然后去另一个页面复制标题内容,依此类推,然后我要执行n次相同的过程;

  如何转换:如何将这个过程转换成软件操作?我要准备n篇新闻文章,也就是说我需要n个标题+对应的内容,还有n个新闻链接。这n个新闻链接是从网站的一个新闻栏目找到的,而网站的这个新闻栏目可能有很多页,比如10页。此时,来自Peer A的网站—专栏—内页;即先找到你想要的网站采集,打开网站栏目页面(OK 是采集新闻还是产品),在URL规则采集栏目下写上所有新闻链接,然后然后在所有新闻链接中写上内容规则采集标题和内容,最后保存;

  网站获取具体操作详解

  找到你想要采集网址的版块页面,比如新闻版块

  复制栏目首页链接网址,在起始网址右侧点击添加,将栏目首页链接粘贴到单个网址中点击添加,如

  用右边的 (*) 代替,因为已经添加了第 1 页,还剩 9 页。这时候把算术数列的行中的项数改为9,第一项是2(因为第2页的链接是的,然后点击Add-Finish;

  

  1、点对应右边的加法,再以下图为例,右边的大图是说明;

  

  2、点击保存并点击右下角

  看看能不能采集到新闻网址,

  如果采集可以到达,则正确,双击新闻网址进入下一步;如果采集错误到达,返回修改直到成功; URL过滤可自行观察其对应规律;

  这里的1、到采集content规则后,选择作者、时间、来源并删除,如右图第一张,因为这些标签一般情况下不会用到;

  2、选择标题标签点击修改,或者直接双击标签进入编辑界面;

  

  3、 输入后,不要更改标签名称的“标题”。更改后需要更改相应的模板;

  4、以下数据提取方法:截取前后和开始结束字符串,尽量使用默认,不熟练的不要改;

  5、点击下方数据处理的添加——内容替换,如右图;

  6、content 替换将标题后面的所有内容都替换为空,如果不替换采集 是页面标题,那么你需要打开两个新闻页面,看看这两个新闻页面的共同部分是什么are , 替换通用部分

  例:对于下面两个标题,“-”为公共部分,即替换为“空”;

  【图文】你知道螺旋上料机的加工方法吗?螺旋上料机的原理你知道吗

  【图文】气动送粉机的优点有哪些,送粉机的工作原理你知道吗

  

  1、选择内容点击编辑,或双击进入内容标签编辑界面,不要更改标签名称;

  2、写开始和结束字符串,就是找一个能把所有消息都包裹起来的字符串。它收录在所有新闻页面中,并且是所有新闻页面中唯一的字符串;即这个页面模板中唯一的代码串;

  

  例如:采集内容时,需要选择内容区域,因为采集可能有n篇文章,比如100篇。这时候就需要考虑怎么给大家写一个采集,方式是打开两个新闻链接。例如,查看第一篇新闻的源文件,找到新闻文本,然后查找最接近新闻第一句的那个,也就是这个页面上唯一的一段代码(如果不是唯一的,软件可以知道你从哪一个开始?),但它不在新闻中,例如

  复制后,在第二个新闻页面的源文件中搜索,看看有没有,如果有,就可以使用了;同理,找到新闻的最后一句,找到最近页面中唯一的一段代码。复制后,在第二个新闻页面的源文件中搜索,看看有没有,如果有,就可以使用了;数据处理:因为采集是其他网站信息,里面可能有其他网站信息,比如公司名称、*敏*感*词*、品牌等信息,也可能有其他网站超链接等信息这时候需要对信息进行过滤;数据处理-添加-以下对应参数HTML标签过滤:滚动轴水平拉到最后,在所有标签前打勾,点击确定;内容替换:把这条网站信息替换成自己的,原理是整改后拆机,有公司名称、电话号码(拆分)、手机号码(拆分)、邮箱、公司地址(拆分)、品牌名称、网址(拆分); split 的意思是拆解替换这个数据,这个时候需要进行如下替换:因为在新闻中,这是拆解替换的时候,才能把它替换干净。你可以多看看他的新闻,可能用什么格式;

  注意:数据处理还有很多技巧,需要在使用的过程中思考,也是采集的核心。如果处理不好,可能是别人的嫁衣,所以一定要仔细观察考虑综合,如果处理好,文章 from 采集甚至可以直接发帖(不是你自己的企业网站)

  注释()

  1、右键分组:出现如下菜单,可以正常使用;

  新建任务:在本组新建一个任务;

  运行该组中的所有任务:顾名思义;

  新建任务:在该组下创建另一个组;

  编辑/删除组:编辑/删除当前组;

  导入/导出分组规则:当前组下的所有任务都可以导出导入到同一版本优采云上;

  导入任务到该组:将导出的单个任务导入到该组;

  粘贴该组下的任务:此项目只有在任务被复制后才会出现,您可以粘贴多个相同的任务,然后在粘贴的任务上进行编辑;

  

  启动任务:同菜单栏启动;

  编辑任务:编辑已经写入的任务;

  导出任务:可以将当前规则导出并在同版本的其他工具上导入,但需要重复上述步骤6-导入数据时发布内容设置,必须重新选择/填写;

  复制任务到粘贴板:复制后,选择一个任务组,右击将不同数量的任务粘贴到该组中,避免多次写入同一任务;

  清除任务的所有采集数据:new 如果采集已经通过任务,想要重新采集,需要先清除;

  

  3、Other settings:点击顶部菜单栏中的Tools-Options,配置全局选项和默认选项;

  全局选项:可以调整可以同时运行的最大任务数。正常情况下是5,但不需要调整;

  默认选项:是否忽略case point为;

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线