网页内容抓取 php(从网上编辑整理而成,很有参考价值!:聚焦爬虫工作原理及关键技术)
优采云 发布时间: 2022-01-26 23:04网页内容抓取 php(从网上编辑整理而成,很有参考价值!:聚焦爬虫工作原理及关键技术)
整理自网络,很有参考价值!
搜索引擎蜘蛛爬虫的原理:
1、聚焦爬虫工作原理及关键技术概述
网络爬虫是一种自动提取网页的程序。它从互联网上为搜索引擎下载网页,是搜索引擎的重要组成部分。传统爬虫从一个或多个初始网页的URL开始,获取初始网页上的URL。在对网页进行爬取的过程中,不断地从当前页面中提取新的 URL 并放入队列中,直到满足系统的某些停止条件。焦点爬虫的工作流程比较复杂。它需要按照一定的网页分析算法过滤掉与主题无关的链接,保留有用的链接,并放入等待抓取的URL队列中。然后,它会根据一定的搜索策略从队列中选择下一个要爬取的网页URL,并重复上述过程,直到系统达到一定条件并停止。存储、执行一定的分析、过滤、建立索引,以供后续查询和检索;对于重点爬虫来说,这个过程中得到的分析结果也可以为后续的爬取过程提供反馈和指导。
与通用网络爬虫相比,聚焦爬虫还需要解决三个主要问题:
(1) 抓取目标的描述或定义;
(2)网页或数据的分析和过滤;
(3) URL 的搜索策略。
爬取目标的描述和定义是决定如何制定网页分析算法和URL搜索策略的基础。网页分析算法和候选URL排序算法是确定搜索引擎提供的服务形式和爬虫爬取行为的关键。这两部分的算法密切相关。
2、抓取目标描述
现有的焦点爬虫对爬取目标的描述可以分为三种类型:基于目标网页的特征、基于目标数据模式和基于领域概念。
爬虫根据目标网页的特征爬取、存储和索引的对象一般为网站或网页。根据*敏*感*词*样品的获取方法,可分为:
(1)预先给定的初始抓取*敏*感*词*样本;
(2)预先给定的网页类别和类别对应的*敏*感*词*样本,如Yahoo!类别结构等;
(3) 由用户行为决定的抓取目标示例分为:
a) 在用户浏览过程中显示标记的抓取样本;
b) 通过用户日志挖掘获取访问模式和相关样本。
网页特征可以是网页的内容特征,也可以是网页的链接结构特征等。
现有的聚焦爬虫对爬取目标的描述或定义可以分为基于目标网页的特征、基于目标数据模式和基于领域概念的三种类型。
爬虫根据目标网页的特征爬取、存储和索引的对象一般为网站或网页。
具体方法可分为:
(1)预先给定的初始抓取*敏*感*词*样本;
(2)预先给定的网页类别和类别对应的*敏*感*词*样本,如Yahoo!类别结构等;
(3)由用户行为决定的抓取目标样本。其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征等。
基于目标数据模式的爬虫针对网页上的数据,抓取到的数据一般都符合一定的模式,或者可以转化或映射成目标数据模式。