如何抓取网页flash(网络Flash爬虫搜索方法比较研究(1)_光明网(组图))

优采云 发布时间: 2021-09-18 20:07

  如何抓取网页flash(网络Flash爬虫搜索方法比较研究(1)_光明网(组图))

  网络flash爬虫搜索方法比较研究网络flash爬虫搜索方法比较研究flash资源以其生动、易交互、制作简单等特点越来越受到人们的追捧。然而,随着网络技术的飞速发展,flash资源在网络中的存在形式变得尤为复杂。传统搜索引擎对网络flash资源的获取不能达到令人满意的水平。作为搜索引擎的基本组成部分,网络爬虫的作用必须引起足够的重视。因此,改进网络爬虫的搜索方法越来越受到人们的重视。本文提出了一种新的搜索方法,并与传统爬虫的基本结构和搜索结果进行了比较,验证了新的搜索方法的优越性。1网络闪存资源的优势和现有形式网络闪存资源的优势1)Flash*敏*感*词*通常很短。由于flash*敏*感*词*只占用有限的网络带宽,通常为数兆字节,因此flash*敏*感*词*的平均时间比传统*敏*感*词*短2)Flash*敏*感*词*可以与观众互动,满足更多观众的需求。观众可以通过某些操作更改*敏*感*词*的播放过程。传统*敏*感*词*没有这样的特点3)Flash*敏*感*词*制作比传统*敏*感*词*容易。Flash*敏*感*词*爱好者很容易成为制作人。他们只需要掌握一些与*敏*感*词*相关的软件就可以尝试制作flash*敏*感*词*

  flash*敏*感*词*的制作需要在计算机上进行。flash制作软件所需的条件相对简单,对硬件的要求相对较低,因此无需大量投资4)Flash*敏*感*词*占用更少的空间。Flash*敏*感*词*可以使用矢量图形,所以文件空间小;flash*敏*感*词*制作完成后,可以上传到互联网上,网民可以欣赏和下载,并可以在网络上以更快的速度传播。本论文由论文联盟采集整理。一个优势使得flash*敏*感*词*在网络上迅速流行。一些用传统方法制作的*敏*感*词*很难在网络上传播,因为它们占据了很大的空间5)Flash*敏*感*词*受作者水平和技术的限制。不可否认,互联网上的许多Flash*敏*感*词*仍然粗糙和简单,但Flash*敏*感*词*仍在开发一些新的视觉效果,如三维效果。我相信未来会有新的发展。它比传统*敏*感*词*更简单、更智能,更符合大众口味6)Flash*敏*感*词*大大减少了人力物力的消耗,存储方式更加方便,制作成本大大降低。同时,与传统*敏*感*词*相比,flash*敏*感*词*的制作周期也将大大缩短。对于相同时间长度的*敏*感*词*,使用flash技术制作所需的时间将大大缩短,而使用传统方法制作通常需要更长的时间。网络flash资源的存在形式flash资源通常存储在web服务器中,并且往往以独立文件的形式存在

  有两种传统的方法。第一个作为网页的一部分嵌入到网页中。有很多方法可以将flash*敏*感*词*嵌入到网页中,情况更为复杂。目前,flash资源主要是通过使用标签(object和embed)、脚本、函数或对象,通过web浏览器解析网页的HTTP标签和脚本,然后以相应的形式显示和播放flash*敏*感*词*,嵌入到网页中。第二种是通过网页中的锚文本链接。链接flash*敏*感*词*与网页中的锚文本非常简单,可以免费下载。然而,通过java脚本展示flash*敏*感*词*资源,作为一种丰富的存在形式,人们对其研究较少。2网络爬虫的定义和工作原理网络爬虫的定义网络爬虫是搜索引擎系统结构中搜索者的通用名称,也称为网络蜘蛛。它是一个自动采集网页的系统程序。它的功能是日夜在互联网上爬行,采集信息,通常从主页开始,阅读网页信息,在网页中找到其他链接地址,然后找到下一个网页,然后在新网页中找到新的链接地址。此循环的目的是捕获所有网站网页。它负责采集新信息和更新旧信息。网络爬虫的工作原理当蜘蛛抓取网页时,通常有两种信息采集策略1)从一组URL开始,并在这些URL之间循环,以宽度优先和深度优先的方式采集web上的信息

  它沿着网页中的超链接爬行到其他网页,循环处理,并保存所有采集的网页。这些起始URL通常是非常正式的站点,有许多链接2)网站空间根据域名和IP地址划分。每个网络蜘蛛负责一个子空间的穷尽搜索。爬虫采集各种信息,包括web文件(如HTML、JSP、ASPX和其他格式)。一些网络爬虫可以处理文档(如word、Excel、PPT等),甚至数据库。爬虫将以过滤字符格式采集所有文档,并从全文数据中提取文本。每个文档都与全文文件有对应关系,包括网页的标题、URL、大小、类型和其他属性,以及文本内容。3网络爬虫面临的问题截至2014年1月底,中国互联网上的网页数量已超过1500亿,其中静态页面占%,动态页面占%,其中大量页面重复,每页字节约为50KB。至于网页数量和字节数的增长率,2013年的增长率与2012年相比分别为%和%。动态网页的存在以及客户端和服务器端脚本语言的使用导致指向同一页面的URL数量爆炸性增长。上述特点使网络爬虫面临一些困难:首先,海量的网页信息使得网络爬虫只能在有限的时间内抓取少量的网页;其次,动态网页的一些技术原因使得网络爬虫无法抓取它们

  仅在中国就有这么多的网页。如果我们考虑全世界的网页,没有搜索引擎可以索引互联网上所有的网页。即使我们可以抓取所有页面,也没有足够的空间容纳它们。4网络爬虫搜索方法比较网络爬虫基本组成结构比较如图1、所示的基本组成结构比较图2网络爬虫搜索结果比较在本实验中,选择flash资源较多、权限较大的10网站作为*敏*感*词*网站,传统爬虫搜索的flash数量与JS(JavaScript)相同,脚本文件搜索爬虫搜索的flash数量分别在后两列,如表1所示。实验结果分析本实验中使用的带JS脚本文件搜索的爬虫不仅具有传统爬虫的功能,还可以抓取网页中收录的JS脚本文件,下载JS文件,将其放在网页源文件后面,然后整体统计flash的数量。在本实验中,相同的10网站分别由传统爬虫和使用JS脚本文件搜索的爬虫进行爬虫。爬行时间为24小时。在抓取65626个页面后,使用JS脚本文件搜索的爬虫比传统爬虫搜索的flash数量超过4000个。这说明JS脚本文件中也收录了很多flash资源,可以让网络爬虫找到更多的flash资源;同时,CSS(层叠样式表)文件也可能收录flash资源。如果搜索网页中收录的CSS文件,还可以扩展搜索flash资源的范围

  此方法还可用于查找其他网络资源,如图片和视频。本实验为寻找和下载更多的flash资源提供了参考。结论随着flash制作技术的蓬勃发展,其在教育教学中的作用日益突出。一些flash资源可以直接应用于教学,一些具有潜在的教学价值。网络的快速发展使得flash*敏*感*词*的发布和共享摆脱了时间和空间的限制,成为获取这些资源的重要途径。另一方面,海量、丰富、动态更新的网络资源使得人们越来越难以找到自己需要的flash*敏*感*词*资源。网络爬虫技术将被用来处理越来越多的互联网上的flash资源。它在发现隐藏在网页中的flash资源、建立数字化学习资源库等方*敏*感*词*有重要的应用价值。与此同时,挑战也很大。本文的下一步是找到更多的flash资源并下载它们进行研究

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线