网页采集器的自动识别算法(网页采集器的自动识别算法和手动识别的存储区别)

优采云发布时间: 2021-10-18 18:02

　　网页采集器的自动识别算法和手动识别的存储区别还是挺大的。手动识别只要你用abdomainvalidation就能解决。但是并不能保证页面被识别成功后不重新抓取。比如你抓取一段时间某个页面后自动识别，识别页面是否是全站唯一的。如果它存储了记录而且又抓取时是手动抓取的话，也可能会存在存在多个网页。比如页面的标题、描述有时会是不一样的。

　　或者该页面也被标记为"其他网页"，这个页面也是来源于一个网页。这种情况下你需要把该页面的所有记录都抓取下来，存储到记录库。对于收录上来说，需要进行定向排序。一般的定向算法都会考虑到关键词。比如像adpr这种算法。它把自己定义的5000个关键词进行算法匹配，并且从里面选出一个或多个关键词排序。根据排序结果自动收录网页。

　　手动采集时候就不存在这个问题，看懂抓取规则就能采集一大堆网页，如果关键词堆积太多，关键词会分布太散，收录的非常慢。

　　redis内部的鉴别机制和全栈分词库可以用redis整合

　　单纯采集基本不需要怎么封装算法，一般跟django类似。但是*敏*感*词*采集时还是要考虑多种匹配策略（排除关键词匹配）。比如百度spider只能匹配特定时间段内的新页面，而ga则可以识别长尾网页。

　　研究这么久，还真没有你所说的这种应用，就算用了，只要上传个图片问题也解决不了，我也是一边做redis对接多语言二次开发，一边研究spider。听一个老板说，研究spider，本身就是要打通多语言。

0

2021-10-18

网页采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页采集器的自动识别算法(网页采集器的自动识别算法和手动识别的存储区别)

0 个评论

发起人

AI时代内容工厂

网页采集器的自动识别算法(网页采集器的自动识别算法和手动识别的存储区别)

0 个评论

发起人

相关问题