搜索引擎如何抓取网页(关键词的提取和转载和修改表带来的便利)
优采云 发布时间: 2022-02-12 13:18搜索引擎如何抓取网页(关键词的提取和转载和修改表带来的便利)
搜索引擎如何抓取网页?搜索引擎在抓取大量原创网页时,会进行预处理,主要包括四个方面,提取关键词,“镜像网页”(网页内容完全一样,没有任何修改)或“转载网页”。”(近仿,主题内容基本相同但可能有一些额外的编辑信息等,转载网页也称为“近似镜像网页”)消除,链接分析和网页重要性的计算。提取1.关键词,取一个网页的源文件(比如通过浏览器的“查看源文件”功能),可以看出情况复杂复杂。从知识和实践的角度来看,收录的关键词就是这个特性的最佳代表。因此,作为预处理阶段的一项基本任务,就是提取网页源文件内容部分所收录的关键词。对于中文来说,就是使用所谓的“切字软件”,根据字典Σ从网页文本中剪出Σ中收录的单词。之后,一个网页主要由一组词来近似,p={t1,t2,…,tn}。一般来说,我们可能会得到很多词,而同一个词可能会在一个网页中出现多次。从有效性和效率的角度来看,所有的词都不应该出现在网页的表示中。删除“de”、“in”等没有表示意义的内容,被称为“停用词”。”(停用词)。
这样,对于一个网页,有效字数约为200个。 2.去除重复或转载的网页。固有的数字化和网络化为网页的复制、转载和再版带来了便利。因此,我们在网络上看到了很多重复的信息。这种现象对广大网民来说是积极的,因为有更多的机会获取信息。但对于搜索引擎来说,主要是负面的;不仅在采集网页时会消耗机器时间和网络带宽资源,而且如果出现在查询结果中,会毫无意义地消耗电脑屏幕资源,还会招来用户的抱怨,“这么多重复,给我一个就够了”。所以,剔除重复内容或主题内容的网页是搜索引擎在网页抓取阶段的一项重要工作。厦门租车网厦门app开发3、链接分析,大量的HTML标签不仅给网页的预处理带来了一些麻烦,也带来了一些新的机会。从信息检索的角度来看,如果系统只处理内容的文本,我们可以依靠“shared bag of words”(shared bag of words),即收录的关键词的集合在内容中,最多加上词频。或 tf, TF) 以及文档集合中单词的文档频率 (documentfrequency df, DF) 等统计信息。
有了HTML标签,这种情况可能会得到进一步的改善,例如在同一个文档中,and之间的信息可能比and之间的信息更重要。特别是HTML文档中收录的其他文档的链接信息是近年来特别关注的对象,相信它们不仅给出了网页之间的关系,而且在判断网页内容方面也起着重要作用。页。4、网页重要性的计算,搜索引擎其实追求的是一种统计意义上的满足感。人们认为谷歌目前比百度好,或者百度比谷歌好,在大多数情况下取决于前者返回什么,但并非所有情况都如此。查询结果的排序方式需要考虑很多因素。如何说一个网页比另一个网页更重要?人们引用科学文献重要性的评价方法,其核心思想是“越被引用越重要”。“引用”的概念可以通过 HTML 超链接很好地体现在网页之间。PageRank是谷歌创立的核心技术,就是这一理念的成功体现。此外,人们还注意到网页和文档的不同特点,即有的网页主要链接大量的外部链接,基本没有明确的主题内容,而其他网页则以链接方式链接。大量其他网页。从某种意义上说,这形成了一种二元关系,允许人们在网页上建立另一种重要性度量。