c 抓取网页数据( 网络爬虫又称网页蜘蛛、网络机器人、在FOAF社区常称)

优采云 发布时间: 2021-12-26 11:21

  c 抓取网页数据(

网络爬虫又称网页蜘蛛、网络机器人、在FOAF社区常称)

  

  网络爬虫——专业强大的网络资源定向抓取爬取工具

  网络爬虫在 FOAF 社区中也称为网络蜘蛛、网络机器人和网络追逐者。网络爬虫是按照一定的规则自动抓取万维网上信息的程序或脚本。其他不常用的名称是蚂蚁、自动索引、模拟器或蠕虫。

  随着互联网的飞速发展,万维网已经成为海量信息的载体,如何有效地提取和利用这些信息成为一个巨大的挑战。搜索引擎,如AltaVista、雅虎、谷歌、百度、360搜索、好搜、搜狗、必应等传统搜索引擎,作为辅助人们检索信息的工具,已成为用户访问世界的入口和指南万维网。但是,这些通用的搜索引擎也有一定的局限性。例如:

  01、 不同领域、不同背景的用户往往有不同的检索目的和需求。一般搜索引擎返回的结果中含有大量不关心网页的用户;

  02、 一般搜索引擎的目标是最大化网络覆盖。有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深;

  03、 万维网数据形式丰富,网络技术不断发展。图片、数据库、音频、视频和多媒体等不同的数据大量出现。一般的搜索引擎往往无法获取这些信息内容密集、具有一定结构的数据。良好的发现和获取;

  04、一般搜索引擎大多提供基于关键字的检索,难以支持基于语义信息的查询。

  为了解决上述问题,有针对性地抓取相关网络资源的聚焦爬虫应运而生。Focus Crawler 是一个自动下载网页的程序。它根据建立的爬取目标有选择地访问万维网上的网页和相关链接,以获取所需的信息。与通用网络爬虫不同,聚焦爬虫不追求大的覆盖范围,而是将目标设定为抓取与特定主题内容相关的网页,并为面向主题的用户查询准备数据资源。

  

  专注爬虫工作原理及关键技术

  网络爬虫是一种自动提取网页的程序。它从万维网上下载网页供搜索引擎使用,是搜索引擎的重要组成部分。传统爬虫从一个或多个初始网页的网址开始,获取初始网页上的网址。在抓取网页的过程中,他们不断地从当前页面中提取新的URL并将它们放入队列中,直到满足系统的某个停止条件。

  聚焦爬虫的工作流程更为复杂。需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接,放入URL队列等待被抓取。然后,根据一定的搜索策略,从队列中选择下一步要爬取的网页的URL,重复上述过程,直到达到系统的某个条件时停止。另外,爬虫爬过的所有网页都会被系统存储起来,进行一定的分析、过滤、索引,以备以后查询检索;对于专注的爬虫,这个过程中得到的分析结果也可能是正确的 反馈和指导会在后续的爬虫过程中给出。

  与一般的网络爬虫相比,聚焦爬虫还需要解决三个主要问题:

  01、 捕获目标的描述或定义;

  02、网页或数据的分析和过滤;

  03、 URL 搜索策略。

  爬取目标的描述和定义是决定如何制定网页分析算法和网址搜索策略的基础。网页分析算法和候选URL排序算法是决定搜索引擎提供的服务形式和爬虫爬行行为的关键。这两部分的算法是密切相关的。

  获取目标描述

  现有的聚焦爬虫对爬取目标的描述可以分为三种类型:基于目标网页的特征、基于目标数据模型和基于领域概念。

  一、 爬虫根据目标网页的特征抓取、存储和索引的对象一般是网站或网页。根据*敏*感*词*样品的获取方式,可分为:

  01、 预先给定的初始抓*敏*感*词*样本;

  02、 预先给定的网页分类目录和分类目录对应的*敏*感*词*样本,如Yahoo! 分类结构等;

  03、 由用户行为决定的爬取目标示例,例如:

  a) 用户浏览过程中显示标记的抓样;

  b) 通过用户日志挖掘获取访问模式和相关样本。

  其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征等。

  二、 基于目标数据模型的爬虫针对网页上的数据。捕获的数据一般必须符合某种模型,或者可以转换或映射到目标数据模型中。

  三、另一种描述方法是建立目标域的本体或字典,用于从语义角度分析主题中不同特征的重要性。

  网络搜索策略

  网络爬取策略可以分为三种类型:深度优先、广度优先和最佳优先。深度优先会导致爬虫在很多情况下被困。目前,广度优先和最佳优先的方法很常见。

  01、广度优先搜索

  广度优先搜索策略是指在爬取过程中,当前一级搜索完成后,再进行下一级搜索。

  该算法的设计和实现比较简单。目前,为了覆盖尽可能多的网页,一般采用广度优先搜索的方法。也有许多研究将广度优先搜索策略应用于聚焦爬虫。基本思想是,距离初始 URL 一定链接距离内的网页具有很高的主题相关性概率。

  另一种方法是将广度优先搜索与网络过滤技术相结合。首先使用广度优先策略抓取网页,然后过滤掉不相关的网页。这些方法的缺点是随着抓取网页的增多,会下载和过滤大量不相关的网页,算法的效率会变低。

  02、最佳优先搜索

  最佳优先级搜索策略根据一定的网页分析算法预测候选网址与目标网页的相似度或与主题的相关性,选择一个或几个评价最好的网址进行爬取。最佳优先级搜索仅访问被网络分析算法预测为“有用”的网页。

  问题是爬虫爬取路径上的很多相关网页可能会被忽略,因为最好的优先级策略是局部最优搜索算法。因此,有必要将最佳优先级与特定应用程序结合起来进行改进以克服此限制。研究表明,这样的闭环调整可以将不相关网页的数量减少30%到90%。

  03、 深度优先搜索

  深度优先搜索策略从起始网页开始,选择一个网址进入,分析该网页中的网址,选择一个然后进入。这样一个链接被一个一个地爬取,直到处理完一条路由,然后再处理下一条路由。深度优先的策略设计比较简单。

  但是,门户网站提供的链接往往是最有价值的,Page Rank也非常高。但是,页面的价值和 Page Rank 会随着深度的每个级别相应降低。这意味着重要的网页通常更接近*敏*感*词*,而被抓取过深的网页价值较低。同时,该策略的抓取深度直接影响抓取命中率和抓取效率,抓取深度是该策略的关键。与其他两种策略相比。这种策略很少使用。

  网页分析算法

  网页分析算法可以概括为三种类型:基于网络拓扑、基于网页内容和基于用户访问行为。

  01、 拓扑分析算法

  基于网页之间的链接,一种通过已知网页或数据评估与其有直接或间接链接关系的对象(可以是网页或网站等)的算法。分为页面粒度、网站粒度、页面块粒度三种。

  a) 网页粒度分析算法

  Page Rank 和 HITS 算法是最常见的链接分析算法,两者都是通过对网页之间的链接度的递归和标准化计算来获得每个网页的重要性。Page Rank算法虽然考虑了用户访问行为的随机性和Sink网页的存在,但忽略了大部分用户访问的目的性,即网页和链接与查询主题的相关性。针对这个问题,HITS算法提出了两个关键概念:权威和枢纽。

  基于链接的爬取问题是相关页面的主题组之间的隧道现象,即爬行路径上很多偏离主题的网页也指向目标页面,本地评价策略中断了上的爬行行为。当前路径。因此,有人提出了基于反向链接的分层上下文模型(Context Model),用于描述指向目标网页在一定物理跳跃半径内的网页拓扑中心。第 0 层是目标网页。层次划分是根据到目标网页的物理跳数来划分的,从外部网页到内部网页的链接称为反向链接。

  b) 网站粒度分析算法

  网站粒度的资源发现和管理策略比网页粒度的资源发现和管理策略更简单有效。网站粒度爬虫爬取的关键在于站点的划分和站点排名(Site Rank)的计算。Site Rank的计算方法与Page Rank类似,但需要对网站之间的链接进行一定程度的抽象,并在一定模型下计算链接权重。

  网站划分有两种类型:按域名和按IP地址。在分布式情况下,将站点划分为同一域名下不同的主机和服务器IP地址来构建站点地图,并使用类似于Page Rank的方法来评估Site Rank。同时,根据各个站点不同文件的分布情况,构建文档地图,结合Site Rank的分布式计算,得到Doc Rank。采用分布式Site Rank计算,不仅大大降低了单站的算法成本,而且克服了单个站点对全网覆盖有限的缺点。一个附带的优势是普通的 Page Rank 欺诈很难欺骗 Site Rank。

  c) 网页块粒度分析算法

  在一个页面中,往往有多个指向其他页面的链接,其中只有一部分链接指向与主题相关的网页,或者网页的链接锚文本表明它的重要性很高。但是,在Page Rank和HITS算法中,这些链接并没有被区分,因此往往会给网页分析带来来自广告等噪声链接的干扰。

  块级链接分析算法的基本思想是通过VIPS网页分割算法将网页划分为不同的页面块,然后为这些页面块矩阵建立page to block和block to page链接。有人实现了块级Page Rank和HITS算法,实验证明效率和准确率都优于传统的对应算法。

  02、网页分析算法

  基于网页内容的分析算法是指利用网页内容的特征(文本、数据等资源)对网页进行评价。网页的内容已经从基于超文本的数据演变为后来的动态页面(或隐藏网页)数据。后者的数据量大约是直接可见页面数据(PIW,Publicly Indexable Web)的 400 到 500 倍。.

  另一方面,多媒体数据、Web Service等各种形式的网络资源日益丰富。因此,基于网页内容的分析算法也从原来的简单的文本检索方法发展为涵盖网页数据提取、机器学习、数据挖掘、语义理解等多种方法的综合应用。根据网页数据的不同形式,基于网页内容的分析算法可以归纳为以下三类:

  a) 对于没有结构或结构非常简单的以文本和超链接为主的网页;

  b) 对于结构化数据源(如RDBMS)动态生成的页面,不能直接批量访问数据;

  c) 目标数据介于 a) 和 b)\data 之间,具有良好的结构,表明它遵循一定的模式或风格,可以直接访问。

  03、 基于文本的网页分析算法

  a) 纯文本分类和聚类算法

  很大程度上借用了文本检索技术。文本分析算法可以快速有效地对网页进行分类和聚类,但由于忽略了网页之间和网页内部的结构信息,因此很少单独使用。

  b) 超文本分类和聚类算法

  根据网页链接的网页的相关类型对网页进行分类,并根据关联的网页推断网页的类型。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线