集搜客网页抓取软件(大数据获取平台Magic,ExtractorExtractor,,ConnectorConnectorConnector)

优采云发布时间: 2022-03-31 08:18

　　摘要：大数据采集平台import.io有四个功能：Magic、Extractor、Crawler、Connector。在上一篇文章中，我们对前两者进行了评估，并将它们与中国的 Jisouke GooSeeker 进行了比较。在本文中，我们将评估剩余的两个功能。1. 爬虫 (import.io) 与爬虫...

　　大数据采集平台import.io有四大功能特点：Magic、Extractor、Crawler、Connector。在上一篇文章中，我们对前两者进行了评估，并将它们与中国的 Jisouke GooSeeker 进行了比较。在本文中，我们将评估剩余的两个功能。

　　3. 爬虫 (import.io) VS 爬虫路线 (GooSeeker)

　　Crawler：Crawler 字面意思是网络爬虫。顾名思义，就是在深度和广度上进行扩展，以便采集更多的数据。Crawler在Extractor的基础上实现了自动翻页功能。假设你想要采集100页的网页数据，通过import.io的爬虫功能可以一键下载100页信息采集，那么具体的采集@是什么> 过程？为了实现，笔者带大家简单了解一下爬虫的采集流程。

　　如图5所示，以同城58的租房信息为例，搜索关键词后，共找到N页租房信息，以提取租房信息。爬虫的操作如下：

　　（1）采集样本数据，在首页提取需要采集的数据（图5），采集原理和Extracor一样，所以我不会在这里重复。

　　图 5：爬取提取数据示例

　　（2）训练数据集，进入第二页（图6），爬虫会自动采集第二页数据（提取出来的字段和第一页一样），然后翻到下一页），由于网页结构没有改变，Crawler也会自动采集，循环这个训练过程，当Crawler认为已经采集到足够的训练集时（据说支持up到5个样本）（如图7），训练完成，点击结束，保存，即可成功采集所有页面数据。

　　图 6：爬取添加页面示例

　　图 7：已完成的爬网训练样本

　　Import.io 的爬虫训练过程的操作确实非常简单易懂。你只需要选择几个结构相同的页面进行测试，相当于告诉爬虫我只想采集这些相似的页面。信息、爬虫了解了这些需求后，同样结构的信息可以采集下来，但是也会有一些小问题，当一些字段稍微变化的时候，因为之前的训练需要采集如果数据不同，会漏掉这个信息，所以爬虫比较适合结构很固定的页面。

　　综上所述：

　　优点：灵活采集，操作简单，采集过程可视化

　　缺点：继承Extractor的缺点，对数据结构要求高

　　GooSeeker爬虫路由：Jisouke的爬虫路由的实现是基于排序框的。原理与爬虫基本类似，但适应性更广，负面影响是操作相对复杂。

　　让我们首先回顾一下组织盒子的概念。GooSeeker 一直声称“造一个盒子，把你需要的内容放进去”。这个概念非常简单。您可以直观地挑选出所需的网页内容并将其存储在一个盒子中。

　　如图8所示，以采集京东的手机信息为例，如果要采集手机信息的所有页面，操作如下：

　　(1）创建一个排序框，把要提取的数据丢进去，抓取规则就会自动生成。不过，操作可不是这句话那么简单，而是：

　　a) 创建一个排序框，这个很简单，点击“新建”按钮

　　b) 在排序框中创建字段，这些字段称为“抓取内容”，即页面上的内容要拖放到这些字段中

　　c) 在 DOM 树上选择要抓取的节点，并将其映射到一个字段。

　　既然它说“建立一个盒子并放入你需要的东西”，你为什么不真的在视觉上这样做呢？这个地方需要改进，因此请继续关注即将发布的新版本中提供的直观注释功能。

　　(2）构造爬虫路线，将“下一页”映射为标记线索（如图8），设置完成后，保存后可自动获取所有页面的信息采集@ >.this虽然过程说起来简单，但是操作起来相比Crawer还是有点不直观，需要做几个简单的映射，就是告诉爬虫：“这里是我要点击的”、“这里是我要提取的”，如下图，主要操作是针对HTML DOM的个数做的，用户最好有一个简单的HTML基础，这样才能准确定位到DOM节点，而不是仅限于可见文本。

　　图8：爬虫路由转向原理页面示例

　　优点：采集精度高，适用范围广。

　　缺点：可视化效果一般，需要学习实践才能上手。

　　综上所述，Import.io的Crawler和GooSeeker的爬虫路由主要完成了扩展网络爬虫的爬取范围和深度的任务。上面我们只以翻页为例，大家可以自行实践和体验分层爬取。爬虫的操作比较简单，但适应性也比较窄，对网站的结构一致性要求比较高，而爬虫路由的功能相对比较强大，可以适应各种复杂的网站，但操作也比较复杂。

　　4. 连接器 (import.io) VS 连续点击 (Jisooke)

　　连接器：import.io的连接器是对网页执行动作，主要是URL不变，但信息在深层页面。需要做完才可以显示，但是页面的url没有变化，大大增加了采集数据的难度，因为即使配置了规则，爬虫进入的页面也是初始的页面，不能采集@采集来定位信息，Connector的存在就是为了解决此类问题。连接器可以记录这个点击过程，然后采集到目标页面信息。

　　也以58同城租房信息为例，测试Connector功能的可操作性。

　　(1）通过点击可以找到你需要的信息采集所在的页面。如图9所示，Connector可以记录用户每次的点击行为。

　　图 9：连接器操作示例

　　(2）在目标页面上创建规则并提取信息。到达目标页面后，需要做的操作和前面一样，提取需要采集的信息。

　　通过动手实践发现，连续点击的失败率比较高。如果是搜索，这个动作很容易被记录，但如果只是点击动作，则很难记录成功。如果可能的话，读者可以自己尝试一下，看看究竟是什么原因造成的。

　　有没有似曾相识的感觉？没错，它有点像网络测试工具。它记录动作并回放它们。用户体验非常好。录制有时会失败。似乎有一些代价。估计还是定位不准的问题。稍后，当网页的 HTML DOM 发生轻微变化时，可能会在错误的地方进行操作。

　　优点：操作简单，采集过程完全可视化。

　　缺点：点击动作最多只能点击10次，功能比较单一。同时，从使用上来看，连接器的录音功能故障率高，操作失败的情况很多，这可能是直观可视化的代价。

　　GooSeeker 连续点击：吉搜客的连续点击功能和它的名字一模一样。实现点击和采集的功能，结合爬虫路线，可以产生更强大的采集效果，这是一个比较高级的收客功能，可以产生很多意想不到的采集 @>方式，这里是一个简单的例子

　　如图10所示，到采集微博个人相关信息，因为这些数据必须通过将鼠标放在人物头像上来显示，都需要使用吉索客的连续点击功能。操作如下：

　　(1）采集目标字段，先定位网页，采集这些字段为采集，方法同上，不再赘述。

　　(2）设置连续动作，在执行采集之前可以做一系列动作，所以叫“连续”。不像import.io的直观记录那么简单，需要点击“Create”按钮创建一个Action，指定它点击的位置（一个web节点，用xpath表示），并指定什么样的action，根据需要设置一些高级选项。

　　(3）如图11所示，GooSeeker也相当于记录了一组动作，也可以重新排序或添加或删除。从图11可以看出，没有那么亲民界面类似import.io的录制流程，再看GooSeeker的特点：严谨的制作工具

　　图 10：连续点击操作示例

　　图 11：连续动作的编排界面

　　优点：强大，采集有能力。

　　缺点：上手比较困难，操作比较复杂。

　　综上所述，import.io 的连接器在操作上还是坚持了一贯的风格，简单易用，同时Jisouke 也再次给人一种“生产工具”的感觉。在连续动作的功能上，两者基本相同。

　　通过以上对比，相信大家对大数据采集软件import.io和Jisouke有了一个直观的了解。从各种功能的对比来看，Import.io的特点主要体现在可视化、易学、操作简单。致力于打造纯傻瓜式操作的采集软件。集搜客的特点主要体现在半可视化、功能齐全、采集能力强，致力于为用户提供完整强大的数据采集功能。总之，两者各有千秋，都是非常不错的数据采集软件。

　　最后，有兴趣的读者可以去深入体验和研究一下，因为两者所宣称的价值，其实不仅仅是一个软件工具，而是“将互联网数据结构化转换，把网络变成所有人的数据库”的目标。希望以后有机会分享这个经验

　　如有疑问，您可以或

　　1

　　花卉

　　握手

　　雷

　　经过

　　蛋

　　朋友（）

0

2022-03-31

集搜客网页抓取软件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

集搜客网页抓取软件(大数据获取平台Magic,ExtractorExtractor,,ConnectorConnectorConnector)

0 个评论

发起人