爬虫抓取网页数据(基于目标网页特征的爬虫所提供的网络爬虫技术分析)

优采云发布时间: 2021-11-17 22:11

　　网络爬虫技术是指按照一定的规则自动抓取万维网上信息的技术。网络爬虫也被称为网络蜘蛛和网络机器人。在 FOAF 社区中，他们更多地被称为网络追逐者；其他不常用的名称包括蚂蚁、自动索引、模拟程序或蠕虫。

　　网络爬虫技术是指按照一定的规则自动抓取万维网上信息的技术

　　网络爬虫（也称为网络蜘蛛、网络机器人，在 FOAF 社区中，更常见的是网络追逐者）是按照一定的规则自动抓取万维网上信息的程序或脚本。其他不太常用的名称是蚂蚁、自动索引、模拟器或蠕虫。

　　爬取目标的描述和定义是决定如何制定网页分析算法和网址搜索策略的基础。网页分析算法和候选网址排序算法是决定搜索引擎提供的服务形式和网页抓取行为的关键。这两部分的算法是密切相关的。

　　现有的聚焦爬虫对爬取目标的描述可以分为三种类型：基于目标网页的特征、基于目标数据模型和基于领域概念。

　　基于登陆页面特征

　　爬虫根据目标网页的特征抓取、存储和索引的对象一般为网站或网页。根据*敏*感*词*样品的获取方式，可分为：

　　（1）预先给定的初始抓取*敏*感*词*样本；

　　（2）预先给定的网页分类目录和分类目录对应的*敏*感*词*样本，如Yahoo!分类结构等；

　　（3）由用户行为决定的爬取目标示例，分为：

　　(a) 用户浏览时显示标记的抓样；

　　(b) 通过用户日志挖掘获取访问模式和相关样本。

　　其中，网页特征可以是网页的内容特征，也可以是网页的链接结构特征等。

　　基于目标数据模式

　　基于目标数据模式的爬虫是针对网页上的数据，抓取的数据一般必须符合一定的模式，或者可以转化或映射为目标数据模式。

　　基于领域的概念

　　另一种描述方法是建立目标领域的本体或字典，用于从语义角度分析主题中不同特征的重要性。

0

2021-11-17

爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册