集搜客网页抓取软件(大数据获取平台Magic,ExtractorExtractor,,ConnectorConnectorConnector)

优采云 发布时间: 2022-03-31 08:18

  集搜客网页抓取软件(大数据获取平台Magic,ExtractorExtractor,,ConnectorConnectorConnector)

  摘要:大数据采集平台import.io有四个功能:Magic、Extractor、Crawler、Connector。在上一篇文章中,我们对前两者进行了评估,并将它们与中国的 Jisouke GooSeeker 进行了比较。在本文中,我们将评估剩余的两个功能。1. 爬虫 (import.io) 与爬虫...

  大数据采集平台import.io有四大功能特点:Magic、Extractor、Crawler、Connector。在上一篇文章中,我们对前两者进行了评估,并将它们与中国的 Jisouke GooSeeker 进行了比较。在本文中,我们将评估剩余的两个功能。

  3. 爬虫 (import.io) VS 爬虫路线 (GooSeeker)

  Crawler:Crawler 字面意思是网络爬虫。顾名思义,就是在深度和广度上进行扩展,以便采集更多的数据。Crawler在Extractor的基础上实现了自动翻页功能。假设你想要采集100页的网页数据,通过import.io的爬虫功能可以一键下载100页信息采集,那么具体的采集@是什么> 过程?为了实现,笔者带大家简单了解一下爬虫的采集流程。

  如图5所示,以同城58的租房信息为例,搜索关键词后,共找到N页租房信息,以提取租房信息。爬虫的操作如下:

  (1)采集样本数据,在首页提取需要采集的数据(图5),采集原理和Extracor一样,所以我不会在这里重复。

  

  图 5:爬取提取数据示例

  (2)训练数据集,进入第二页(图6),爬虫会自动采集第二页数据(提取出来的字段和第一页一样),然后翻到下一页),由于网页结构没有改变,Crawler也会自动采集,循环这个训练过程,当Crawler认为已经采集到足够的训练集时(据说支持up到5个样本)(如图7),训练完成,点击结束,保存,即可成功采集所有页面数据。

  

  图 6:爬取添加页面示例

  

  图 7:已完成的爬网训练样本

  Import.io 的爬虫训练过程的操作确实非常简单易懂。你只需要选择几个结构相同的页面进行测试,相当于告诉爬虫我只想采集这些相似的页面。信息、爬虫 了解了这些需求后,同样结构的信息可以采集下来,但是也会有一些小问题,当一些字段稍微变化的时候,因为之前的训练需要采集如果数据不同,会漏掉这个信息,所以爬虫比较适合结构很固定的页面。

  综上所述:

  优点:灵活采集,操作简单,采集过程可视化

  缺点:继承Extractor的缺点,对数据结构要求高

  GooSeeker爬虫路由:Jisouke的爬虫路由的实现是基于排序框的。原理与爬虫基本类似,但适应性更广,负面影响是操作相对复杂。

  让我们首先回顾一下组织盒子的概念。GooSeeker 一直声称“造一个盒子,把你需要的内容放进去”。这个概念非常简单。您可以直观地挑选出所需的网页内容并将其存储在一个盒子中。

  如图8所示,以采集京东的手机信息为例,如果要采集手机信息的所有页面,操作如下:

  (1)创建一个排序框,把要提取的数据丢进去,抓取规则就会自动生成。不过,操作可不是这句话那么简单,而是:

  a) 创建一个排序框,这个很简单,点击“新建”按钮

  b) 在排序框中创建字段,这些字段称为“抓取内容”,即页面上的内容要拖放到这些字段中

  c) 在 DOM 树上选择要抓取的节点,并将其映射到一个字段。

  既然它说“建立一个盒子并放入你需要的东西”,你为什么不真的在视觉上这样做呢?这个地方需要改进,因此请继续关注即将发布的新版本中提供的直观注释功能。

  (2)构造爬虫路线,将“下一页”映射为标记线索(如图8),设置完成后,保存后可自动获取所有页面的信息采集@ >.this虽然过程说起来简单,但是操作起来相比Crawer还是有点不直观,需要做几个简单的映射,就是告诉爬虫:“这里是我要点击的”、“这里是我要提取的”,如下图,主要操作是针对HTML DOM的个数做的,用户最好有一个简单的HTML基础,这样才能准确定位到DOM节点,而不是仅限于可见文本。

  

  图8:爬虫路由转向原理页面示例

  优点:采集精度高,适用范围广。

  缺点:可视化效果一般,需要学习实践才能上手。

  综上所述,Import.io的Crawler和GooSeeker的爬虫路由主要完成了扩展网络爬虫的爬取范围和深度的任务。上面我们只以翻页为例,大家可以自行实践和体验分层爬取。爬虫的操作比较简单,但适应性也比较窄,对网站的结构一致性要求比较高,而爬虫路由的功能相对比较强大,可以适应各种复杂的网站,但操作也比较复杂。

  4. 连接器 (import.io) VS 连续点击 (Jisooke)

  连接器:import.io的连接器是对网页执行动作,主要是URL不变,但信息在深层页面。需要做完才可以显示,但是页面的url没有变化,大大增加了采集数据的难度,因为即使配置了规则,爬虫进入的页面也是初始的页面,不能采集@采集来定位信息,Connector的存在就是为了解决此类问题。连接器可以记录这个点击过程,然后采集到目标页面信息。

  也以58同城租房信息为例,测试Connector功能的可操作性。

  (1)通过点击可以找到你需要的信息采集所在的页面。如图9所示,Connector可以记录用户每次的点击行为。

  

  图 9:连接器操作示例

  (2)在目标页面上创建规则并提取信息。到达目标页面后,需要做的操作和前面一样,提取需要采集的信息。

  通过动手实践发现,连续点击的失败率比较高。如果是搜索,这个动作很容易被记录,但如果只是点击动作,则很难记录成功。如果可能的话,读者可以自己尝试一下,看看究竟是什么原因造成的。

  有没有似曾相识的感觉?没错,它有点像网络测试工具。它记录动作并回放它们。用户体验非常好。录制有时会失败。似乎有一些代价。估计还是定位不准的问题。稍后,当网页的 HTML DOM 发生轻微变化时,可能会在错误的地方进行操作。

  优点:操作简单,采集过程完全可视化。

  缺点:点击动作最多只能点击10次,功能比较单一。同时,从使用上来看,连接器的录音功能故障率高,操作失败的情况很多,这可能是直观可视化的代价。

  GooSeeker 连续点击:吉搜客的连续点击功能和它的名字一模一样。实现点击和采集的功能,结合爬虫路线,可以产生更强大的采集效果,这是一个比较高级的收客功能,可以产生很多意想不到的采集 @>方式,这里是一个简单的例子

  如图10所示,到采集微博个人相关信息,因为这些数据必须通过将鼠标放在人物头像上来显示,都需要使用吉索客的连续点击功能。操作如下:

  (1) 采集目标字段,先定位网页,采集这些字段为采集,方法同上,不再赘述。

  (2)设置连续动作,在执行采集之前可以做一系列动作,所以叫“连续”。不像import.io的直观记录那么简单,需要点击“Create”按钮创建一个Action,指定它点击的位置(一个web节点,用xpath表示),并指定什么样的action,根据需要设置一些高级选项。

  (3) 如图11所示,GooSeeker也相当于记录了一组动作,也可以重新排序或添加或删除。从图11可以看出,没有那么亲民界面类似import.io的录制流程,再看GooSeeker的特点:严谨的制作工具

  

  图 10:连续点击操作示例

  

  图 11:连续动作的编排界面

  优点:强大,采集有能力。

  缺点:上手比较困难,操作比较复杂。

  综上所述,import.io 的连接器在操作上还是坚持了一贯的风格,简单易用,同时Jisouke 也再次给人一种“生产工具”的感觉。在连续动作的功能上,两者基本相同。

  通过以上对比,相信大家对大数据采集软件import.io和Jisouke有了一个直观的了解。从各种功能的对比来看,Import.io的特点主要体现在可视化、易学、操作简单。致力于打造纯傻瓜式操作的采集软件。集搜客的特点主要体现在半可视化、功能齐全、采集能力强,致力于为用户提供完整强大的数据采集功能。总之,两者各有千秋,都是非常不错的数据采集软件。

  最后,有兴趣的读者可以去深入体验和研究一下,因为两者所宣称的价值,其实不仅仅是一个软件工具,而是“将互联网数据结构化转换,把网络变成所有人的数据库”的目标。希望以后有机会分享这个经验

  如有疑问,您可以或

  

  1

  

  花卉

  

  握手

  

  雷

  

  经过

  

  蛋

  朋友()

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线