搜索引擎优化培训seo8(网络爬虫（多种）技术就是为解决如何有效抓取网页数据应运而生)

优采云发布时间: 2022-01-29 15:07

　　导读

　　如何有效地提取和利用互联网上数百亿网页的信息，从互联网诞生到今天一直是一个巨大的挑战。通用搜索引擎具有地域性等局限性，无法满足各种应用场景的需求。网络爬虫（多）技术应运而生，以解决如何有效地爬取网络数据。接下来海耀SEO小编为您详细讲解

　　传统的网络爬虫技术主要用于爬取静态网页。随着AJAX/Web2.0的普及，如何爬取AJAX（Asynchronous Java And XML）等动态页面成为搜索引擎亟待解决的问题，因为AJAX颠覆了传统的纯HTTP请求/响应协议机制，如果搜索引擎依然采用“爬取”机制，无法爬取AJAX页面的有效数据。

　　AJAX 采用 Java 驱动的异步请求/响应机制。之前的爬虫缺乏对Java的语义理解，基本无法模拟触发Java的异步调用，解析返回的异步回调逻辑和内容。另外，在AJAX的应用中，Java会对DOM结构做很多改动，甚至页面的所有内容都是通过Java直接从服务器读取并动态绘制的。

　　这对于一个习惯了相对不变的 DOM 结构的静态页面来说，简直是难以理解。由此可以看出，之前的爬虫都是协议驱动的，而对于AJAX等技术来说，所需的爬虫引擎必须是事件驱动的。在互联网数据时代，您需要了解三种主要的搜索策略。

　　深度优先搜索策略

　　深度优先搜索是爬虫开发早期使用较多的一种方法。其目的是到达搜索结构的叶节点（即那些不收录任何超链接的 HTML 文件）。In an HTML document, when a hyperlink is selected, the linked HTML document will perform a depth-first search, ie a single chain must be searched in its entirety before searching the rest of the hyperlink results.

　　深度优先搜索跟随 HTML 文档上的超链接，直到不能再进一步，然后返回到某个 HTML 文档，然后继续选择 HTML 文档中的其他超链接。当没有其他超链接可供选择时，搜索结束。优点是它可以遍历网站或深度嵌套的文档集合。缺点是因为网状结构比较深，有可能一旦进去就出不来了。

　　2.广度优先搜索策略

　　在广度优先搜索中，首先搜索网页中的所有超链接，然后继续搜索到下一层，直到最底层。比如一个HTML文件有3个超链接，选择其中一个，处理对应的HTML文件，然后不再选择第二个HTML文件中的任何超链接，而是返回，选择第二个超链接，处理对应的HTML文件，然后返回，选择第三个超链接，处理对应的HTML文件。

　　一旦选择了一个级别上的所有超链接，就可以开始搜索刚刚处理的 HIML 文件中的剩余超链接。这确保了首先处理浅层。当遇到无限深的分支时，没有办法卡在 WWW 的深层文档中。广度优先搜索策略还具有查找两个 HTML 文件之间最短路径的优势。

　　广度优先搜索策略通常是实现爬虫的最佳策略，因为它易于实现并且具有大部分所需的功能。但是如果你想遍历一个指定的站点或者一组深度嵌套的 HTML 文件，采用广度优先的搜索策略，需要很长时间才能到达深度 HTML 文件。

　　3.聚焦搜索策略

　　聚焦爬虫的爬取策略只跳出特定主题的页面，按照“最佳优先原则”进行访问，快速有效地获取更多与主题相关的页面，主要通过内容的链接结构和网络抓取。焦点爬虫会给它下载的页面打分，并根据分数将其插入队列。在分析弹出队列中的第一页之后执行最佳的下一个搜索。这种策略确保爬虫会优先考虑那些最有可能链接到目标页面的页面。

　　决定网络爬虫搜索策略的关键是如何评估链接值，即链接值的计算方法。搜索策略。由于页面中收录链接，而通常价值较高的页面收录价值较高的链接，因此链接价值的评价有时会转化为网页价值的评价。这种策略通常用于专门的搜索引擎，它只关心特定主题的页面。

　　来源; 海耀SEO免费分享百度快速排名优化软件：密码：x237

0

2022-01-29

搜索引擎优化培训seo8

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎优化培训seo8(网络爬虫（多种）技术就是为解决如何有效抓取网页数据应运而生)

0 个评论

发起人

AI时代内容工厂

搜索引擎优化培训seo8(网络爬虫（多种）技术就是为解决如何有效抓取网页数据应运而生)

0 个评论

发起人

相关问题