网页内容抓取工具(什么是网络DOM数据结构的分类及分类?网络爬虫种类)

优采云 发布时间: 2022-01-16 09:03

  网页内容抓取工具(什么是网络DOM数据结构的分类及分类?网络爬虫种类)

  有许多类型的网络爬虫。以下是粗略的分类,并说明网页抓取/数据提取/信息提取工具包 MetaSeeker 属于哪一类爬虫。

  如果按照部署在哪里来划分,可以分为:

  1、服务器端:一般是多线程程序,同时下载多个目标HTML,可以用PHP、Java、Python(目前很流行)等来完成。一般综合搜索引擎的爬虫都是这样做的. 但是,如果对方讨厌爬虫,服务器的IP很可能会被封杀,服务器的IP不容易更改,消耗的带宽相当昂贵​​。

  2.客户端:非常适合部署主题爬虫,或者聚焦爬虫。成为与谷歌、百度等竞争的综合搜索引擎的机会很小,而垂直搜索或比价服务或推荐引擎的机会要多得多。这种爬虫不会抓取所有页面,只抓取关注页面,只抓取页面上感兴趣的内容,例如提取黄页信息、商品价格信息、提取竞争对手广告信息等。这种类型的爬虫可以部署很多,而且可以非常具有攻击性,让对手难以阻挡。

  网页抓取/数据提取/信息提取工具包 MetaSeeker 中的爬虫属于客户端爬虫(更详细的产品特性),可以低成本大批量部署。由于客户端IP地址是动态的,因此很难被针对网站屏蔽。

  我们只讨论固定主题的爬虫。普通爬虫就简单多了,网上也有很多。如果分为如何提取数据,可以分为两类:

  1.通过正则表达式提取内容。HTML 文件是文本文件。您可以直接使用正则表达式提取指定位置的内容。“指定地点”不一定是绝对定位。比如可以参考HTML标签定位,比较准确。

  2.使用DOM提取内容,HTML文件先转换成DOM数据结构,然后遍历这个结构提取内容。

  有人会问,为什么要用DOM的方式,然后转过来呢?DOM方法存在的原因有很多:第一,不需要自己做DOM结构的分析,有现成的库,编程不会变得复杂;其次,它可以实现非常复杂但灵活的定位规则,而正则表达式很难编写;第三,如果定位是考虑HTML文件的结构,用正则表达式解析不好,HTML文件经常出错。如果把这个任务交给一个现成的库,那就容易多了。第四,假设需要解析Javascript的内容,正则表达式是无能为力的。当然DOM方法本身是无能为力的,但是可以提取AJAX网站 通过使用某个平台的能力的内容。还有很多原因。

  网页抓取/数据提取/信息提取工具包MetaSeeker中的爬虫采用DOM方式。只要 Firefox 看到它,它就会使用 Mozilla 平台的功能进行提取。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线