如何抓取网页数据(关键词的提取和转载和修改再带来的便利性)

优采云 发布时间: 2021-09-12 11:14

  如何抓取网页数据(关键词的提取和转载和修改再带来的便利性)

  搜索引擎在抓取大量原创网页时,会对其进行预处理,主要包括四个方面,关键词的提取、“镜像网页”(网页内容完全相同,不做任何修改)或“转载”网页(near-replicas,主题内容基本相同但可能有一些额外的编辑信息等,转载网页也称为“近似镜像网页”)消除,链接分析和计算网页的重要性。

  1.关键词的提取,取一个网页的源文件(比如通过浏览器的“查看源文件”功能),可以看出情况是乱七八糟的。从知识和实践的角度来看,所收录的关键词就是这个特性的最好代表。因此,作为预处理阶段的一项基本任务,就是提取网页源文件内容部分中收录的关键词。对于中文,需要使用所谓的“切词软件”,根据字典Σ从网页文本中切出Σ中收录的词。之后,一个网页主要由一组词表示,p = {t1, t2, ..., tn}。一般来说,我们可能会得到很多词,同一个词可能会在一个网页中出现多次。从有效性和效率的角度来看,并不是所有的词都应该出现在网页的呈现中,“的”、“在”等没有内容表示意义的词应该去掉,称为“停用词”“ (停用词)。这样,对于一个网页,有效词的数量大约为 200 个。

  2.消除网页的复制或重印,固有的数字化和网络化为网页的复制、重印、修改和重新发布带来了便利。因此,我们在 Web 上看到了大量重复的信息。这种现象对广大网民来说具有积极意义,因为有更多的信息获取机会。但对于搜索引擎来说,主要是负面的;它不仅在采集网页时消耗机器时间和网络带宽资源,而且如果出现在查询结果中,会毫无意义地消耗计算机显示资源,还会引起用户的抱怨,“重复这么多,就给我一个。”因此,消除重复内容或主题内容的网页是搜索引擎抓取网页阶段的一项重要任务。

  3、Link 分析,大量的HTML标签不仅给网页的预处理带来了一些麻烦,也带来了一些新的机会。从信息检索的角度来看,如果系统只处理内容的文本,我们可以依靠“共享词袋”,即内容中收录的关键词集合,加上词频在词在文档集合中出现的最多(词频(tf,TF)和文档频率(文档频率或df,DF)等统计信息。TF和DF等频率信息可以在一定程度上表明词的相对重要性在一个文档中或者某个内容的相关性,这是有意义的。有了HTML标签,这种情况可能会进一步改善。例如,在同一个文档中,and之间的信息很可能比and之间的信息更重要。尤其是HTML文档中收录的其他文档的链接信息是近年来特别受关注的对象,相信它们不仅给出了网页之间的关系,而且在判断中起着重要的作用。制作网页的内容。

<p>4、计算网页的重要性,搜索引擎实际上追求的是统计意义上的满意度。人们认为谷歌优于百度或百度优于谷歌。在大多数情况下,引用依赖于前者返回的内容来满足用户的需求,但并非在所有情况下都是如此。有很多因素需要考虑如何对查询结果进行排序。如何说一页比另一页更重要?人们参考科学文献重要性的评价方法。核心思想是“引用最多的就是重要的”。 “引用”的概念恰好通过 HTML 超链接在网页之间得到很好的体现。 PageRank作为谷歌创造的核心技术,就是这一理念的成功体现。此外,人们还注意到网页和文档的不同特点,即有的网页主要是大量的外链,基本没有明确的主题内容,有的网页是由大量的其他外链链接的。网页。从某种意义上说,这形成了一种双重关系,允许人们在网络上建立另一个重要性指标。这些指标有的可以在网页抓取阶段计算,有的必须在查询阶段计算,但都作为查询服务阶段结果最终排名的一部分参数。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线