爬虫抓取网页数据(第24卷第6期:通用搜索引擎搜索的网页相关度高)

优采云 发布时间: 2021-09-26 12:15

  爬虫抓取网页数据(第24卷第6期:通用搜索引擎搜索的网页相关度高)

  并将抓取到的网页URL作为鸟巢个体计算要选择的URL集合中所有网页的相关性,使用Levi's flight进行多次迭代寻找相关性高的,然后将随机数与发现的进行比较Pa 生成新 URL 的概率。实验结果表明,与主题爬虫的其他相关技术相比,该策略在爬取主题相关网页时具有更高的效率。关键词:布谷鸟搜索算法;主题爬虫;网页相关性;健康中文分类号:TP391 文档标记代码:基于布谷鸟搜索算法的聚焦爬行策略设计 钱景远 1 , 杨慧华 1,2 , 刘振兵 1(1. 桂林工业大学电气工程与自动化学院电子科技, 广西, 桂林, 541004, 中国;2. 北京邮电大学自动化学院, 北京, 100876) 摘要:通用搜索引擎搜索大量网页,以及介绍主题爬虫搜索策略与网络高度相关,减少不相关网页的采集。为了提高爬虫的搜索效率,设计了一种基于布谷鸟搜索算法的爬虫搜索策略。爬取网页URL作为鸟巢,计算所选URL集中所有页面的相关性。多次迭代找到相关性高的,然后通过随机数和发现概率Pa进行比较,生成新的URL。实验结果表明,该策略比爬取主题爬虫相关网页的效率更高。专注的爬虫;页面相关性;Fitness0 简介 作为搜索引擎的重要组成部分,网络爬虫是一种抓取网页的程序。

  主题爬虫是一种页面爬取工具,旨在查询某个主题或某个字段[1]。与一般搜索引擎不同,话题搜索引擎本身具有专业性强、针对性强的特点,可以在很大程度上削弱搜索相关话题网页的难度。抓取的网页是否相关很大程度上取决于搜索策略。因此,使用哪种搜索策略是主题爬虫的首要考虑因素。目前比较成熟的搜索策略主要有:基于网页内容的搜索策略和基于链接结构的搜索策略。首先是通过网页之间的链接关系来确定网页的重要性。基于链接结构,只考虑链接结构和页面之间的链接关系,不考虑页面本身是否与主题相关,容易导致“主题漂移”[2,3]。第二种主要考虑网页的内容。优点是思路清晰,计算简单。但是这种方法没有考虑网页的链接关系,忽略了链接网页的价值预测。基于上述搜索策略,提出将布谷鸟搜索算法应用于主题爬虫。1 基于布谷鸟搜索算法的主题爬虫1.1 网络爬虫 通用型网络爬虫(Crawler)(又称蜘蛛),是一款功能强大的网页自动爬取程序,也是搜索引擎不可或缺的一部分。通过在采集网站上遍历互联网和网页,我们可以从某个角度判断某个搜索引擎的性能,而且规模很大。以及小、高、低DOI的扩展能力:10.3969/j.issn.1671-1041.2017.06.006文章: 1671-1041(2017)06-0020-04 接收日期:2017-04-06 基金项目:国家自然科学基金项目(61562013);广西重点研发计划项目(桂科AB1638029) 3)。

  作者简介:钱景远(1990-),男,江苏连云港人,硕士*敏*感*词*,研究方向:网络爬虫等万方数据钱景远·基于杜鹃搜索算法的主题爬虫策略设计第621期评网络爬虫采集 和处理网页的能力。页面下载的主要功能是访问和采集互联网上的相关页面。为了便于存储在待抓取的URL队列中,URL队列按照主题相关性进行排序。从当前采集 网页中提取的新网页链接一般存储在URL 数据库中[4]。与普通爬虫相比,主题爬虫更加复杂。需要开发网页分析算法,过滤不相关的链接,将使用过的链接放入URL队列中进行爬取。最后,根据既定的搜索策略,从待爬取的队列中选择下一步待爬取的URL[4]。1.2 布谷鸟搜索算法简介布谷鸟搜索算法是一种具有全局收敛性的随机算法。布谷鸟搜索算法模拟布谷鸟寻找巢穴产卵的行为。该算法简单,需要设置的参数少,易于实现,具有最优随机搜索路径和优化能力强的特点。已成功应用于工程。应用程序。布谷鸟搜索算法的实现定义了三个理想化的规则: 1) 每只布谷鸟一次只产 1 个蛋,并存储在随机选择的鸟巢中。2) 鸟' 最好的鸡蛋(溶液)的巢将保存到下一代。3) 可用的鸟巢数量是固定的,巢的主人发现外来蛋的概率是Pa∈[0,1]。基于这三种理想状态,布谷鸟巢搜索的路径和位置更新公式如下: 其中Xi(t)表示第t代鸟巢中第i个鸟巢的位置,⊕为点对点乘法,α表示步长控制量,L(λ)为Levy随机搜索路径,L~u =t-λ,(1Pa,则随机改变Xi(t+1)),而反之亦然。

  @1.3 网页基础知识 互联网上的网页是具有一定格式和结构的无格式文本。复杂但经常找到。搜索算法中使用了四种类型的 Web 信息:父页面信息。一般来说,从一个页面(父页面)链接的页面(子页面)的内容与页面的主题相关;链接文字信息是指直接概括页面链接的主题;网页的 URL 信息一般与主题相关;兄弟链接信息,页面设计者通常会集中存储与话题相关的链接。以上4类搜索方法与网页主题的对应程度不一致,网页主题的准确率也不一样。

  1.4 网页主题相关度计算 对于下载的网页,需要计算主题相关度。这里使用向量空间模型计算网页主题相关度。该模型将文本内容转化为易于数学处理的向量形式,同时将文本内容表达为多维空间中的一个点,从而将文本内容的处理转化为向量运算在向量空间中,这降低了问题的复杂性。文档向量由一个n维向量表示,每个坐标值代表不同的关键词权重。对应的关键词通过权重来描述文档的重要性。使用相同的方法来表示主题关键词 向量。是否关键词 对主题很重要也可以通过主题 关键词 向量中的权重来解释。由于网页的文本结构是半结构化的,需要充分利用网页的HTML标签,才能更准确地提取出文档的主题。一般情况下,最重要的文本如, 和, 是出现在超链接和和之间的关键词,权重应该更高[6,7]。假设F(x)是应该给第x个关键字的权重,那么相关度的计算公式为: 函数F(i)的值如下: 1.5 Fitness function计算燕窝中的选择将直接由个体数量和燕窝的平均适应度决定。当算法第一次运行时,可能有一些适应性很强的燕窝。随着迭代次数的增加,这种适应性很强的燕窝及其后代将成为总数的大部分。这样,种群中新个体的数量减少,布谷鸟搜索算法提前收敛到一个局部最优解,导致“早熟”现象。

  考虑网页的内容和链接结构,在CS算法中选择网页与其父网页的相关值作为个体适应度函数值。计算公式为:(2)(3)(4)万方数据卷24 22 Instrumentation User INSTRUMENTATION 其中是第i个URL对应的适应度值,是对应的父网页的相关性值,k为第i个对应的相关性值,对应父网页链接的网页数量[8,9]。1.6 基于布谷鸟搜索算法的主题爬虫设计在主题爬虫中布谷鸟搜索算法的应用具有明显的优势:1)布谷鸟搜索算法具有分组搜索特性,这可以提高主题爬虫的全局搜索性能。2)布谷鸟搜索算法具有随机搜索特性,可以引导主题爬虫在利用一定的适应度函数评价个体的同时,也可以利用李维斯的飞行来指导搜索方向。3)布谷鸟搜索算法是在随机搜索过程中不容易陷入局部最优。4)布谷鸟搜索算法 可扩展性强,在主题爬虫的设计中可以很容易地与其他技术混合使用。CS算法主要分为4个阶段:更新个体位置。评估个体适应度值,如果该值更好,则旧个体将被新个体取代。使用发现概率去除旧个体并重建新个体。找到最好的人。

   对3)中新生成的URL进行评估,如果更好则接受更新,否则保持原URL不变。 记录全局最优URL。 当满足搜索精度或达到最大搜索次数时,切换到7),否则切换到2)进行下一轮搜索。 输出最优URL。2 实验设计与数据分析2.1 实验设计测试环境:eclipse开发,Java语言编写,Windows 7系统运行,8G内存,1T硬盘容量。为了验证上述设计策略,设计了以下测试。测试是Broad.First(BF)算法和Hits算法的搜索结果进行比较,记录抓取的网页数据,计算准确率。选择 ”

  是主题 根据设置的不同阈值,如图3、4,是“数据库”的主题。根据设置的阈值不同,从图中可以看出基于3种算法的爬虫爬取网页的相关性对比图。可以看出,无论阈值是0.90还是0.95,基于布谷鸟搜索算法的准确率普遍高于其他两种算法(准确率=(获取的相关网页)数) /抓取的网页总数)×100%)。

  而且,CS算法的Levi Flight增加的搜索范围不容易导致主题爬虫陷入局部最优。3 总结通过以上实验表明,使用布谷鸟搜索策略进行主题爬取,爬取的网页比普通算法的相关度更高,布谷鸟搜索算法具有很强的全局搜索能力。未来的方向是将布谷鸟搜索算法与其他算法结合,形成一种新的爬虫搜索策略来研究爬取网页的效果。参考文献:Milad shokouhi、Pirooz Chubak、Zaynab Raeesy。Enhancing Focused Crawling with Genetic Algorithms[C].Proceedings of the International Conference on Information Technology: Coding and Computing, March 15,2005.Liu Guojing, Kang Li, Luo Changshou. 基于遗传算法的主题爬虫策略[J]. 计算机应用, 2007, 27(12):172-176.罗林波, 陈琦. 基于Shark-Search and Hits算法的主题爬虫研究[J]. J]. 2010 , 20(11): 76-79.陈一峰.. 基于遗传算法的主题爬虫策略改进[J].. 计算机仿真, 2010, 27 (10): 87-90.蓝少峰, 刘胜. 布谷鸟搜索算法研究综述[J]. 计算机工程与设计, 2015, 36 (4):1603-1607. 罗长寿,程新荣. 基于遗传算法的学科信息获取系统研究[C]. “第二届计算机与计算机技术在农业中的应用国际会议”和“中国农村信息化发展论坛” 论文集, 2008 :.87-92.张海亮, 袁道华. 基于遗传算法的主题爬虫[J]. 计算机技术与发展, 2012, 22: 48-52.陈越、陈云.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线