设计一个网路爬虫系统 用哪些手段

优采云 发布时间: 2020-05-20 08:02

  展开全部

  网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更时不时的称为网页追逐者),是一种根据一定的规则,自动的抓取万维网信息的程序或则脚本。另外一些不常使用的名子还有蚂蚁网络爬虫设计,自动索引,模拟程序或则蠕虫。基于目标数据模式的爬虫针对的是网页上的数据,所抓取的数据通常要符合一定的模式,或者可以转化或映射为目标数据模式。另一种描述方法是构建目标领域的本体或辞典,用于从语义角度剖析不同特点在某一主题中的重要程度。网页爬虫的高层体系结构一个爬虫不能象里面所说的网络爬虫设计,仅仅只有一个好的抓取策略,还须要有一个高度优化的结构。Shkapenyuk和Suel(Shkapenyuk和Suel,2002)指出:设计一个短时间内,一秒下载几个页面的颇慢的爬虫是一件很容易的事情,而要设计一个使用几周可以下载百万级页面的高性能的爬虫,将会在系统设计,I/O和网路效率,健壮性和易用性方面碰到诸多挑战。网路爬虫是搜索引擎的核心,他们算法和结构上的细节被当成商业机密。当爬虫的设计发布时,总会有一些为了制止他人复制工作而缺位的细节。人们也e68a847a6431333363386135开始关注主要用于制止主要搜索引擎发布她们的排序算法的“搜索引擎垃圾电邮”。爬虫身分辨识网路爬虫通过使用http请求的用户代理(UserAgent)字段来向网路服务器表明她们的身分。网络管理员则通过检测网路服务器的日志,使用用户代理数组来辨别哪一个爬虫以前访问过以及它访问的频度。用户代理数组可能会包含一个可以使管理员获取爬虫信息的URL。邮件抓取器和其他怀有恶意的网路爬虫一般不会留任何的用户代理数组内容,或者她们也会将她们的身分伪装成浏览器或则其他的著名爬虫。对于网络爬虫,留下用户标志信息是非常重要的;这样,网络管理员在须要的时侯就可以联系爬虫的主人。有时,爬虫可能会深陷爬虫圈套或则让一个服务器超负荷,这时,爬虫主人须要让爬虫停止。对这些有兴趣了解特定爬虫访问时间网络管理员来讲,用户标示信息是非常重要的。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线