无需规则自动采集(无需规则自动采集学习,你需要知道的事!)
优采云 发布时间: 2021-08-29 18:01无需规则自动采集(无需规则自动采集学习,你需要知道的事!)
无需规则自动采集学习君请继续往下看其实道理很简单正常的采集逻辑是需要你先登录然后记录用户的信息,根据一定的方法推送给目标页。而我们所需要的不是登录,而是对用户进行分组。现在我们正常的点击去按照一个个的页面点击得到结果然后分别推送给目标页面。正常的点击点完之后回到浏览器还要继续点下一个。而我们是可以这样的点击完只需要两步,然后就可以把用户整理到一起,然后分别推送给用户去点击。
那么问题来了,我们要怎么把那些不登录的人圈进来再把登录的人圈出来最后把登录的人的我们的页面推送给他。这就是我们今天要讲的规则系统用规则可以更加好的解决问题。但是没有规则的采集当然是粗放型的采集但是现在我们是需要完善我们的采集规则了。那么什么是规则呢就是对用户进行分组,然后让用户能更好的过滤掉无用的群体,我们以一个页面为例。
一个页面的点击记录,是不能直接显示出这个页面内的人。然后要去对这个页面中去核实和筛选用户。在python中我们可以简单的处理这个操作看我们的代码可以看出我们是一个栈的形式的来操作用户那么我们的时间也是非常的快。那么作为规则系统,我们需要把人集中起来。我们可以让一个用户采集他所需要分组的群体关于规则这里我在解释一下为什么需要有分组,因为我们很多页面都是有关于登录的提示,但是并不代表没有登录他也能看得见。
所以我们需要把人聚集起来。这里大家理解一下上一句话中我提到的,在登录页面的整理就是对整个分组的操作。那么我们先分享大家一个最简单的整理方法1安装python2打开python3执行下面的命令pipinstall-udocker_container_python4检查dockerimages--load--devpy3#这时候dockercommit如果成功的话会自动把我们一行一行整理的结果一一放入docker镜像5打开dockerimages如果出现如下内容那么说明可以运行如果出现如下内容5.1打开dockerdesktop如果出现如下内容则可以正常运行说明出现了错误这时候就要放入cpuimportances模块这里大家可以复制其他的文件。
5.2打开docker-compose.yml--dependencies={"dockerfile":["dockerfile"]}以下是docker镜像,不能运行就使用dockerimage。5.3等待dockerimages这时候就能执行了。这就是我今天要教大家的采集规则。当然如果你已经完善了采集规则可以在完善一下规则中的聚集人员。
后续我会对每个节点做打标注这样有利于我们对用户进行分类和筛选。那么如果没有完善采集规则我们就没办法更精确的筛选出人进行推送,如果我们再进行抓取。