采集工具太多了,如何匹配上边的规则?(一)
优采云 发布时间: 2021-03-30 23:01采集工具太多了,如何匹配上边的规则?(一)
采集工具太多了。一般的是需要编写算法实现这个功能。因为不知道你的具体需求是什么。
现在的采集软件都是连接多个公网ip,先把查询结果导入到软件里边进行修改或者采集,比如连接一个搜狗公网ip,然后对同个ip做点击进行采集,采集完成后软件自动生成一个html版本,下面要做的就是对html进行解析,将页面里的文字提取出来,然后对html进行解析。具体的采集逻辑可以关注我的博客大概的,想了解更多在这个博客上有写。
最普通的就是查询需要的网站规则了,加上预存记录的话,一般都能实现。
请问采集有关注的微博本来就是应该很麻烦的工作,我觉得仅仅使用一些简单的采集工具就足够了。很好用(不要用ajax的,没有用过的),你可以试试。有ios的app,
,web版/可以查看很多网站的相关规则,试用一下就知道好用不好用了。
可以试试【麦子采集器】采集微博微信*敏*感*词*
先在网站上设置登录,然后利用网页反向工程进入这个网站,分析网站结构,匹配上边的规则。
1.一个人采集所有站点需要多人协作,而且最好是专人去做,并且准备相应的规则库2.首先采集公网站有各种要求,需要域名解析才可以。或者部署一个采集引擎,大致流程就是匹配条件-下发规则-完成(采集时的前端配置还是要精确到json数据)-匹配条件-下发规则-完成。3.采集微博微信是各种要求,需要方便采集,匹配常见的要求,然后细化规则。(这个是真正的技术活,有资源可以寻找专业的团队)如果有用的话也可以推荐一个。