js 抓取网页内容(2021-12-17选择策略(劳伦斯和盖尔斯))
优采云 发布时间: 2022-02-23 20:21js 抓取网页内容(2021-12-17选择策略(劳伦斯和盖尔斯))
2021-12-17
选择策略:
鉴于当今网络资源的规模,即使是大型搜索引擎也只能访问网络上可用资源的一小部分。Lawrence 和 Gales 的一项研究指出,没有搜索引擎会抓取 16% 的网络(Lawrence 和 Gales,200 1)。虽然 网站 通常只下载部分网页内容,但每个人仍然强烈敦促下载收录大部分相关页面的部分。
这就需要一个共同的标准来区分网页的重要性。一个页面的重要性与它本身的质量有关,它的受欢迎程度根据链接数,访问量,甚至是它自己的网站(后来把搜索放在顶级域上或在固定页面上进行垂直搜索) ) 是相关的。设计一个好的搜索策略还有一个额外的困难,它必须处理不完整的信息,因为整个页面的集合在抓取时是未知的。
乔等人。(Cho等人,1998)做了第一个爬取策略的研究。他们的数据是斯坦福大学的18万页网站,使用不同的策略来模仿爬取Take。排序方式采用广度优先,后退-链式计数和部分pagerank算法。计算表明,如果你想先下载pagerank高的页面,那么部分PageRank策略更好,其次是广度优先和反向链接。计数。并且,这样的结果是针对一个站点的只要。
Najork 和 Wiener(Najork 和 Wiener,2001) 使用了实际的爬虫,对 3.28 亿网页进行了广度优先研究。他们发现广度优先会更早地爬取 PageRank 高的页面(但他们确实做到了)不使用其他策略进行研究。)作者解释说:“最重要的页面将有许多主机连接到它们,并且这些链接将更早被发现,无论从哪个主机开始。”
Abiteboul (Abiteboul et al., 2003), 设计了一种基于 OPIC (Online Page Importance Index) 的爬取策略。在 OPIC 中,每个页面都有相等的初始权重,并将这些权重分配给 值均匀分布到它指向的页面。这个算法和Pagerank类似,但是速度很快,可以一次性完成。OPIC程序首先抓取权重最大的页面,实验以100,000次方分布,实验没有与其他策略进行比较,也没有在真实的 WEB 页面上进行测试。
通过模拟检索实验Boldiet.2004,得到.it网络4000万页和webbase1亿页,测试广度优先、深度优先、随机顺序和有序顺序。比较的基础是真实页面的 pageRank 值与计算的 pageRank 值的接近程度。令人惊讶的是,一些计算 pageRank 非常快的页面(特别是广度优先策略和有序序列)只能达到很小程度的近似。
Baeza-Yates 等人。(Baeza-Yates et al., 2005) 对从 .gr 域和 .cl 域 sub网站 获取的 300 万个页面进行了 2005) 模拟实验,比较了几种爬取策略。结果表明,无论是 OPIC 策略还是站点队列长度优于广度优先,如果可行的话,使用之前爬取的爬取结果来指导这次爬取总是有效的。
Daneshpajouh 等人。(Daneshpajouh 等人,2008) 设计了一个社区来寻找好*敏*感*词*。他们的方法从来自不同社区的高 PageRank 页面开始,与使用随机*敏*感*词*检索相比,迭代次数明显减少。通过这种方式,可以从以前爬过的页面中找到好的*敏*感*词*,使用起来非常有效。
限制访问链接
爬虫可能只是在寻找 html 页面的*敏*感*词*,避免使用其他文件类型。如果只获取html资源,爬虫可以先发起http head请求,判断web文件的类型,然后再使用request方式获取所有资源。为了避免发送过多的头部请求,爬虫可以交替检查 url,只发送以 html、htm 和反斜杠结尾的文件的资源请求。这种策略可能会导致许多 html 资源在不经意间丢失。类似的策略是使用网络资源的扩展名与一组已知为 html 文件类型的扩展名(例如 .html、.htm、.asp、.php、.aspx、反斜杠)进行比较。
某些爬虫会被限制在任何一个爬虫上吗?这些动态生成的资源用于获取请求,避免爬虫爬到某个网站下载无数的URL。
路径搜索
一些爬虫会尝试从特定站点下载尽可能多的资源。Cothey(Cothey, 2004) 引入了一个路径检索爬虫,它将尝试爬取所有需要检索资源的 URL。例如,给定一个 torrent 地址:它将尝试检索 /hamster/menkey/、/hamster/和/. Cothey Discovery Path Search 对于发现独立资源,或者一些爬虫通常搜索不到的链接非常有效。
一些路径检索爬虫也被称为收割机软件,因为它们通常用于采集或采集所有内容,可能是来自特定页面或主机的相册照片。
焦点抓取
爬虫爬取的页面的重要性也可以表示为它与给定查询的相似程度的函数。网络爬虫尝试下载相似的页面,这可以称为焦点检索或主题检索。主题检索和聚焦检索的概念最早由 Menczer 提出(Menczer 1997;Menczer 和 Belew,1998) 和 Chakrabarti 等人,1999)。
聚焦检索的主要问题是使用网络爬虫的上下文,我们想在实际下载页面之前知道给定页面和查询之间的相似性。一种可能的方法是在链接中设置锚点,这是平克顿 (Pinkerton, 1994)) 早期在爬虫中使用的策略。勤勉等人。(Diligenti et al., 2000)建议使用爬取页面的内容来推断查询与未访问页面的相似度。焦点查询的性能主要取决于查询主题的丰富程度内容,通常还取决于页面查询引擎提供的查询起点。
爬取深网
许多页面隐藏在网络深处或隐藏在网络中,不为人所见。这些页面通常只有在向数据库提交查询时才能访问,而普通爬虫在没有指向它们的链接的情况下无法访问这些页面。Google 站点地图协议和 mod oai(Nelson 等人,2005) 试图允许发现这些深层资源。
深度页面爬虫增加了爬取网页的链接数量。一些爬虫只爬取内容、标签和超文本等图形。
WEB3.0 搜索
Web3.0 为下一代搜索技术定义了更高级的技术和新规则,可以概括为语义网和网站模板解析的概念。第三代检索技术将基于人机之间的巧妙连接。
重温政策
网络非常动态。在网络上抓取一小段内容可能需要很长时间,通常以几周或几个月为单位。爬虫完成爬取任务后,可能会发生很多操作,包括创建、更新和删除。
从搜索引擎的角度来看,不检测这些事件是有代价的,代价是我们只是拥有过时的资源。最常用的成本函数是新鲜度和过时度(2000,Cho 和 Garcia-Molina)
分类:
技术要点:
相关文章: