抓取网页flash视频(内容处理即搜索引擎对Spider抓取回来的页面进行处理。)

优采云 发布时间: 2022-02-22 16:08

  抓取网页flash视频(内容处理即搜索引擎对Spider抓取回来的页面进行处理。)

  内容处理是指搜索引擎处理蜘蛛检索到的页面。处理步骤简述如下。

  Step 01 确定页面类型

  首先要确定页面的类型是普通网页还是PDF、Word、Excel等特殊文件文档。如果是普通网页,则需要判断网页的类型是普通文字内容、视频内容还是图片内容。它甚至会判断该网页是普通的文章页面还是论坛帖子,然后有针对性地进行内容处理。

  Step 02 提取网页的文本信息

  虽然目前的搜索引擎都在尝试阅读 JavaScript、Flash、图片和视频,但普通网页的索引仍然以文本为主。这时,页面的标题、关键词、描述等标签中的内容也会被提取出来。虽然一直有消息称关键词标签已经被主流大型搜索引擎抛弃,但经过很多人的实际测试,至少百度还是会多多少少参考关键词。标记。

  Step 03 去除页面噪音

  如果该网页是普通网页,搜索引擎会删除所有与网页内容无关的广告、导航、链接、图片、登录框、网站版权信息等内容,只提取网页的主要内容。. 事实上,目前这一步,百度不会放弃除主要内容以外的所有内容。相关推荐内容在一定程度上也会算作本页内容,或补充本页主要内容。它将直接反映在搜索排名中。即使是与页面无关的链接文本也将保留用于索引。比如百度搜索“复制本页链接”,再翻几页,就会看到如图2-7所示的结果。实际上,“复制此页面链接” 只存在于这些页面按钮上,但也有索引,如图2-8所示。因此,搜索引擎的去噪不是很严格。因此,EO人员也应该善用网页主体内容之外的所有推荐内容、链接、链接锚文本等元素,而不是堆砌一些不相关的内容。很多人说SEO需要注意细节,但有多少站长和SEO人员真正关注、研究和利用这些细节呢?而不是堆积一些不相关的内容。很多人说SEO需要注意细节,但有多少站长和SEO人员真正关注、研究和利用这些细节呢?而不是堆积一些不相关的内容。很多人说SEO需要注意细节,但有多少站长和SEO人员真正关注、研究和利用这些细节呢?

  步骤 04 从内容中删除停用词

  下一步应该是对剩余文本内容进行分词处理,然后搜索引擎会去除“de”、“de”、“ah”、“地”、“ya”和“but”等停用词。事实上,这一步是有问题的。对于普通的文章,去掉这些停用词有利于搜索引擎对内容的分割和理解,可以减少搜索引擎的计算量。但是在搜索引擎中单独搜索这个

  这些词也有丰富的搜索结果。在搜索收录这些词的关键词时,也会有更丰富的搜索结果,但是这些停用词对搜索结果的影响会减弱,所以搜索引擎对文章@的处理应该有这一步>,但不是严格机械去除,还要看这些词在页面上的作用(搜索引擎在分词的时候也会进行词性识别,同一个词在不同位置的词性可能各不相同)。对这里的EO人员的工作影响不大,无需深究。经过这些处理,Spider检索到的网页内容被“洗掉”,经过分词和去重处理,搜索引擎将转发初步处理和可索引的网页内容。处理索引和倒排索引。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线