网页内容抓取工具(什么是网络DOM数据结构的分类及分类？网络爬虫种类)

优采云发布时间: 2022-01-16 09:03

　　有许多类型的网络爬虫。以下是粗略的分类，并说明网页抓取/数据提取/信息提取工具包 MetaSeeker 属于哪一类爬虫。

　　如果按照部署在哪里来划分，可以分为：

　　1、服务器端：一般是多线程程序，同时下载多个目标HTML，可以用PHP、Java、Python（目前很流行）等来完成。一般综合搜索引擎的爬虫都是这样做的. 但是，如果对方讨厌爬虫，服务器的IP很可能会被封杀，服务器的IP不容易更改，消耗的带宽相当昂贵。

　　2.客户端：非常适合部署主题爬虫，或者聚焦爬虫。成为与谷歌、百度等竞争的综合搜索引擎的机会很小，而垂直搜索或比价服务或推荐引擎的机会要多得多。这种爬虫不会抓取所有页面，只抓取关注页面，只抓取页面上感兴趣的内容，例如提取黄页信息、商品价格信息、提取竞争对手广告信息等。这种类型的爬虫可以部署很多，而且可以非常具有攻击性，让对手难以阻挡。

　　网页抓取/数据提取/信息提取工具包 MetaSeeker 中的爬虫属于客户端爬虫（更详细的产品特性），可以低成本大批量部署。由于客户端IP地址是动态的，因此很难被针对网站屏蔽。

　　我们只讨论固定主题的爬虫。普通爬虫就简单多了，网上也有很多。如果分为如何提取数据，可以分为两类：

　　1.通过正则表达式提取内容。HTML 文件是文本文件。您可以直接使用正则表达式提取指定位置的内容。“指定地点”不一定是绝对定位。比如可以参考HTML标签定位，比较准确。

　　2.使用DOM提取内容，HTML文件先转换成DOM数据结构，然后遍历这个结构提取内容。

　　有人会问，为什么要用DOM的方式，然后转过来呢？DOM方法存在的原因有很多：第一，不需要自己做DOM结构的分析，有现成的库，编程不会变得复杂；其次，它可以实现非常复杂但灵活的定位规则，而正则表达式很难编写；第三，如果定位是考虑HTML文件的结构，用正则表达式解析不好，HTML文件经常出错。如果把这个任务交给一个现成的库，那就容易多了。第四，假设需要解析Javascript的内容，正则表达式是无能为力的。当然DOM方法本身是无能为力的，但是可以提取AJAX网站通过使用某个平台的能力的内容。还有很多原因。

　　网页抓取/数据提取/信息提取工具包MetaSeeker中的爬虫采用DOM方式。只要 Firefox 看到它，它就会使用 Mozilla 平台的功能进行提取。

0

2022-01-16

网页内容抓取工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页内容抓取工具(什么是网络DOM数据结构的分类及分类？网络爬虫种类)

0 个评论

发起人

AI时代内容工厂

网页内容抓取工具(什么是网络DOM数据结构的分类及分类？网络爬虫种类)

0 个评论

发起人

相关问题