“去重”步骤在共享搜索引擎架构中的应用
优采云 发布时间: 2021-06-30 06:02“去重”步骤在共享搜索引擎架构中的应用
在互联网如此发达的今天,同样的信息会在多个网站上发布,同样的新闻也会被大多数媒体网站报道,再加上小小不知疲倦的网络采集站长和SEO人员,导致网上有很多重读的资料。但是,当用户搜索某个关键词时,共享搜索引擎一定不希望将搜索结果呈现给具有相同内容的用户。从某种意义上说,爬取这些重复的网页是对搜索引擎自身资源的浪费。因此,去除重复内容网页成为搜索引擎面临的一大难题。
在一般的共享搜索引擎架构中,网页去重通常存在于蜘蛛爬取部分。在整个搜索引擎架构中越早实施“去重”步骤,越能节省后续处理系统的资源占用。 搜索引擎一般都会对已经爬取过的重复页面进行分类,例如判断一个站点是否收录大量重复页面,或者该站点是否完全是采集其他站点等,以确定该站点以后的爬取是否直接阻止抓取的状态。
去重的工作一般会在分词之后,索引之前进行。搜索引擎会从与页面分离的共享关键词中提取一些有代表性的关键词,然后计算这些关键词“指纹”。每个网页都会有这样一个特征指纹。当新抓取的网页的王健辞职帖与被索引网页的关键词指纹重叠时,则该网页可能被搜索引擎视为重复内容而放弃索引。 .
实际工作中的搜索引擎不仅使用分词步骤分离出有意义的关键词,还使用连续切割的方式提取关键词并进行指纹计算。连续切割就是用一个单词向后移动来切割单词。例如,“百度开始打击买卖链接”将切分为“百度打开”、“度数启动”、“启动命中”、“启动命中”、“攻击购买”、“点击”。 Buy and sell”“Buy Link”和“Sell Link”。然后从这些词中提取关键词的一部分进行指纹计算,并参与重复内容的比对。具体请参考中文分词技术搜索引擎原理文章,这只是搜索引擎识别重复网页的基本算法,处理重复页面的算法还有很多。
所以,网上的Meteor的伪原创工具大部分是骗不了搜索引擎的,或者是看不懂内容如鬼,所以理论上用普通的伪原创工具是搜不到的引擎的正常收录 和排名。但是,由于搜索百度并不会直接丢弃所有没有索引的重复页面,它会根据重复页面网站的权重适当放宽索引标准,这让一些骗子利用网站的高权重, 很多来自其他网站的采集 内容获得了搜索流量。然而,经过多次百度搜索升级算法,采集重复信息和垃圾页面屡屡被点击。
所以SEO在面对网站内容的时候,不应该从伪原创的角度去构建,而是从用户游泳的角度去构建,虽然后者的内容不一定都是原创,一般来说,如果网站weight 不是大问题,就会健康发展。
另外,不仅搜索引擎需要“去重网页”,你还需要自己做网站对网站页面去重。比如UGC网站等分类信息和B2B平台,如果不加以限制,用户发布的信息难免会有大量重复,不仅在SEO方面表现不佳,还会降低用户体验。网站。
再比如SEOer在设计流量产品生成大量页面的时候,也需要做一个重复的过滤,否则会大大降低产品的质量。 seoer设计的流量产品通常是基于“聚合”的索引页、主题页或目录页。 “聚合”必须有核心词。如果没有过滤,海量核心词扩展的页面可能会有大量重复导致产品性能不佳,甚至可能被搜索引擎降级。