网页flash文本抓取器(内容处理就是搜索引擎对Spider抓取回来的页面进行处理。)
优采云 发布时间: 2022-01-15 14:07网页flash文本抓取器(内容处理就是搜索引擎对Spider抓取回来的页面进行处理。)
内容处理是指搜索引擎处理蜘蛛检索到的页面。处理步骤简述如下。
1.判断页面的类型
首先要确定页面的类型是普通网页还是PDF、Word、Excel等特殊文件文档。如果是普通网页,则需要判断网页的类型是普通文字内容、视频内容还是图片内容。它甚至会判断网页是普通的文章页面还是论坛发帖页面,然后有针对性地处理内容。
2.从网页中提取文本信息
虽然目前的搜索引擎都在尝试阅读 JavaScript、Flash、图片和视频,但普通网页的索引仍然以文本为主。这时,页面的标题、关键词、描述等标签中的内容也会被提取出来。虽然一直有消息称关键词标签已被主流大型搜索引擎抛弃,但经过实际测试,至少百度会或多或少参考关键词标签。.
3.去除页面噪音
如果该网页是普通网页,搜索引擎会删除所有与网页内容无关的广告、导航、链接、图片、登录框、网站版权信息等内容,只提取网页的主题内容。事实上,在这一步中,百度不会放弃除主题内容以外的所有内容,相关推荐内容也会在一定程度上算作本页内容,或补充本页主题内容,搜索排名也会有直观的回撤。即使是与页面无关的链接文本也会被保留用于索引。比如百度搜索“复制本页链接”,再翻几页,就会看到下图的结果。
实际上,“复制此页面链接”只存在于这些页面按钮上,但它也被索引了。因此,搜索引擎的去噪不是很严格。因此,SEO人员也应该善用网页主题内容之外的所有推荐内容、链接、链接描述文字等元素,而不是堆砌一些不相关的内容。很多人都说SEO需要注意细节,但真正关注这些细节的站长和SEO人员并不多。
4.从内容中删除停用词
下一步应该是对剩余文本内容进行分词,然后搜索引擎会去除“de”、“de”、“ah”、“地”、“ya”等停用词。事实上,这一步是有问题的。对于普通的文章,去掉这些停用词有利于搜索引擎对内容的分割和理解,可以减少搜索引擎的计算量。但是,单独在搜索引擎中搜索这些词也有比较丰富的搜索结果,如下图所示:
在搜索收录这些词的关键词时,也会有更丰富的搜索结果,但是这些停用词对搜索结果的影响会减弱。
所以搜索引擎对普通文章的处理应该有这一步,但不是严格机械去除,还要看这些词在页面上的作用(搜索引擎也会进行词性在对词进行分词识别时,同一个词可能在不同的位置有不同的词性)。另外,它对SEO人员影响不大,所以没必要深究。
经过这些处理后,蜘蛛检索到的网页内容被“洗掉”,经过分词和去重处理后,搜索引擎会将经过初步处理和可索引的网页内容转发出去。处理索引和倒排索引。@祥宇峰