php 爬虫抓取网页数据(基于目标网页特征的爬虫所抓取行为的关键所在所研究)

优采云发布时间: 2022-04-12 15:11

　　网络爬虫技术是指在万维网上按照一定的规则自动爬取信息的技术。网络爬虫也被称为网络蜘蛛、网络机器人，在 FOAF 社区中，更多的时候是网络追逐者；其他不太常用的名称是蚂蚁、自动索引器、模拟器或蠕虫。

　　网络爬虫技术是指按照一定的规则自动从万维网上抓取信息的技术。

　　网络爬虫（也称为网络蜘蛛、网络机器人，在 FOAF 社区中，更常被称为网页追逐者）是根据一定的规则自动爬取万维网上信息的程序或脚本。其他不太常用的名称是 ant、autoindex、emulator 或 worm。

　　爬取目标的描述和定义是决定如何制定网页分析算法和URL搜索策略的基础。网页分析算法和候选URL排序算法是确定搜索引擎提供的服务形式和爬虫爬取行为的关键。这两部分的算法密切相关。

　　现有的焦点爬虫对爬取目标的描述可以分为三种类型：基于目标网页的特征、基于目标数据模式和基于领域概念。

　　基于着陆页特征

　　爬虫根据目标网页的特征爬取、存储和索引的对象一般为网站或网页。根据*敏*感*词*样品的获取方式，可分为：

　　(1) 预先给定的初始抓取*敏*感*词*样本；

　　(2) 预先给定的网页类别和类别对应的*敏*感*词*样本，如Yahoo!类别结构等；

　　(3) 由用户行为决定的抓取目标示例分为：

　　(a) 在用户浏览过程中显示标记的抓取样本；

　　(b) 通过用户日志挖掘获取访问模式和相关样本。

　　网页特征可以是网页的内容特征，也可以是网页的链接结构特征等。

　　基于目标数据架构

　　基于目标数据模式的爬虫针对网页上的数据，抓取到的数据一般符合一定的模式，或者可以转化或映射成目标数据模式。

　　基于领域的概念

　　另一种描述是构建目标域的本体或字典，用于从语义角度分析主题中不同特征的重要性。

0

2022-04-12

php 爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册