php 爬虫抓取网页数据(基于目标网页特征的爬虫所抓取行为的关键所在所研究)
优采云 发布时间: 2022-04-12 15:11php 爬虫抓取网页数据(基于目标网页特征的爬虫所抓取行为的关键所在所研究)
网络爬虫技术是指在万维网上按照一定的规则自动爬取信息的技术。网络爬虫也被称为网络蜘蛛、网络机器人,在 FOAF 社区中,更多的时候是网络追逐者;其他不太常用的名称是蚂蚁、自动索引器、模拟器或蠕虫。
网络爬虫技术是指按照一定的规则自动从万维网上抓取信息的技术。
网络爬虫(也称为网络蜘蛛、网络机器人,在 FOAF 社区中,更常被称为网页追逐者)是根据一定的规则自动爬取万维网上信息的程序或脚本。其他不太常用的名称是 ant、autoindex、emulator 或 worm。
爬取目标的描述和定义是决定如何制定网页分析算法和URL搜索策略的基础。网页分析算法和候选URL排序算法是确定搜索引擎提供的服务形式和爬虫爬取行为的关键。这两部分的算法密切相关。
现有的焦点爬虫对爬取目标的描述可以分为三种类型:基于目标网页的特征、基于目标数据模式和基于领域概念。
基于着陆页特征
爬虫根据目标网页的特征爬取、存储和索引的对象一般为网站或网页。根据*敏*感*词*样品的获取方式,可分为:
(1) 预先给定的初始抓取*敏*感*词*样本;
(2) 预先给定的网页类别和类别对应的*敏*感*词*样本,如Yahoo!类别结构等;
(3) 由用户行为决定的抓取目标示例分为:
(a) 在用户浏览过程中显示标记的抓取样本;
(b) 通过用户日志挖掘获取访问模式和相关样本。
网页特征可以是网页的内容特征,也可以是网页的链接结构特征等。
基于目标数据架构
基于目标数据模式的爬虫针对网页上的数据,抓取到的数据一般符合一定的模式,或者可以转化或映射成目标数据模式。
基于领域的概念
另一种描述是构建目标域的本体或字典,用于从语义角度分析主题中不同特征的重要性。