浏览器抓取网页(关键词的提取和转载和修改再带来的便利性)

优采云 发布时间: 2022-04-12 22:38

  浏览器抓取网页(关键词的提取和转载和修改再带来的便利性)

  搜索引擎在抓取大量原创网页时,会进行预处理,主要包括四个方面,关键词的提取,“镜像网页”(网页内容完全一致)未经任何修改)或“转载网页”。”(近副本,主题内容基本相同但可能有一些额外的编辑信息等,转载的页面也称为“近似镜像页面”)消除,链接分析和页面的重要性计算。

  提取1.关键词,取一个网页的源文件(比如通过浏览器的“查看源文件”功能),可以看出情况比较复杂。从知识和实践的角度来看,收录的关键词就是这个特性的最佳代表。因此,作为预处理阶段的一项基本任务,就是提取网页源文件内容部分收录的关键词。对于中文来说,就是使用所谓的“切字软件”,根据字典Σ从网页文本中剪出Σ中收录的单词。之后,一个网页主要由一组词来近似,p = {t1, t2, ..., tn}。一般来说,我们可能会得到很多词,而同一个词可能会在一个网页中出现多次。从有效性和效率的角度来看,所有的词都不应该出现在网页的表示中。“de”、“in”等没有表示意义的内容的词要去掉,称为“停用词”。”(停用词)。这样,对于一个网页来说,有效词的数量大约是 200 个。

  2. 消除重复或转载网页,固有的数字化和网络化为网页的复制、转载和再版带来了便利,因此我们在网络上看到了大量的重复信息。这种现象对广大网民来说是积极的,因为有更多的机会获取信息。但对于搜索引擎来说,主要是负面的;不仅在采集网页时会消耗机器时间和网络带宽资源,而且如果出现在查询结果中,会毫无意义地消耗电脑屏幕资源,还会招来用户的抱怨,“这么多重复,给我一个就够了”。因此,剔除具有重复内容或主题内容的网页是搜索引擎在网页抓取阶段的一项重要工作。

  3、链接分析,大量的HTML标签不仅给网页的预处理带来了一些麻烦,也带来了一些新的机会。从信息检索的角度来看,如果系统只处理内容的文本,我们可以依靠的是“shared bag of words”(共享词袋),即关键词@的集合> 收录在内容中,最多加上一个词条在文档集合中的词条频率(或tf,TF)和文档频率(document frequency 或df,DF)等统计信息。而 TF 和 DF 等频率信息可以在一定程度上表明词在文档中的相对重要性或某些内容的相关性,这是有意义的。使用 HTML 标签,情况可能会进一步改善,例如在同一个文档中,和之间的信息可能比和之间的信息更重要。特别是HTML文档中收录的其他文档的链接信息是近年来特别关注的对象,相信它们不仅给出了网页之间的关系,而且在判断网页内容方面也起着重要作用。页。

  4、网页重要性的计算,搜索引擎其实追求的是一种统计意义上的满足感。人们认为谷歌目前比百度好,或者百度比谷歌好,参考取决于前者返回的内容在大多数情况下更符合用户的需求,但并非在所有情况下。查询结果的排序方式需要考虑很多因素。如何说一个网页比另一个网页更重要?人们引用科学文献重要性的评价方法,其核心思想是“被引用越多越重要”。通过 HTML 超链接,网页之间可以很好地体现“引用”的概念。PageRank,这是谷歌创造的核心技术,是这一理念的成功体现。此外,人们还注意到网页和文档的不同特点,即有些网页主要链接大量没有明确主题的外部链接,而有些网页则由大量其他网页链接。页。从某种意义上说,这形成了一种二元关系,允许人们在网页上建立另一种重要性度量。这些指标有的可以在爬取网页的阶段计算,有的需要在查询的阶段计算,但都在查询服务阶段作为最终形成结果排名的参数的一部分. 有的网页主要是链接了大量没有明确主题的外部链接,而有的网页则是由大量的其他网页链接而成。从某种意义上说,这形成了一种二元关系,允许人们在网页上建立另一种重要性度量。这些指标有的可以在爬取网页的阶段计算,有的需要在查询的阶段计算,但都在查询服务阶段作为最终形成结果排名的参数的一部分. 有的网页主要是链接了大量没有明确主题的外部链接,而有的网页则是由大量的其他网页链接而成。从某种意义上说,这形成了一种二元关系,允许人们在网页上建立另一种重要性度量。这些指标有的可以在爬取网页的阶段计算,有的需要在查询的阶段计算,但都在查询服务阶段作为最终形成结果排名的参数的一部分.

  这篇文章的链接:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线