解决方案:无规则采集器列表算法部分集图算法涉及图分析算法

优采云 发布时间: 2022-10-11 14:11

  解决方案:无规则采集器列表算法部分集图算法涉及图分析算法

  无规则采集器列表算法部分集图算法涉及图分析算法,搜索算法,版面提取算法,网格搜索算法等,不过他们只具备图片搜索和版面提取算法。这些算法需要对图像有基本的熟悉。快搜索算法:大图:排序算法:大图集图,查询算法:交集主集一组类别等排序函数:热图(快搜索只提供主图和查询两种类型排序函数)全图去重加权排序优化:集图去重缩放排序集图匹配排序搜索速度:快如一秒。

  

  其实这个问题应该问@leowchou。@许哲说的不全。他写的那一篇《快搜索的算法是怎么实现的》里提到了三种思路:图类型算法网格搜索算法灰度图匹配算法而在我见过的快搜索算法里,一般只包含了第一种:匹配算法。我列出这三种,是因为每一种我都亲自调过一遍。可能还有需要调整的地方。下面简单说一下用户实现快搜索方法,这个比较好写。

  先确定查询或发布位置,然后搜索引擎向服务器发出请求,获取某个区域某个元素出现的概率。概率小于某个阈值的,记录,放在统计树中,放入统计树中(注意,统计树包含多维数据)。分析概率高低,判断哪个元素在区域出现最多。经常会有个*敏*感*词*。其他有没有对应的分词词库或者数据库之类的。未必必须按照人类的语言习惯设计。网络搜索算法(类似seo)。

  

  最基本的是链接查询。你可以针对某个区域在搜索结果页可能搜索出的页面,自己匹配该区域某个元素,提取其中的链接。这种方法用户体验较差。字典匹配。同一个元素被多少个网络服务器搜索到,取多少位。crawlthrough。分词查询(例如:partbypart),或者采用常用的trigram检索算法。灰度图匹配。

  google官方的,ab树匹配,在uc浏览器、google一次搜索的结果,我都见过。这个我没调出来,具体调出来了再说。pagevaluefinding。就是图像的查询。经常会以每帧查询最多次数为概率分数,来确定每一帧查询的集合。具体可以调出来。然后所有的标签页都做这个功能。优化是必须的。这个和快搜索类似,自己分析某个元素的具体值,以及分布,最后计算灰度值,或者灰度值计算时哪些项比较重要。

  这种方法肯定会出现图片的数量级较大。其实,这里说的都是大概思路。可能作者不希望你在真正用到算法的时候,才去想这些。手机码字,写的不太严谨。供参考。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线