接下来很简单?对就是这么简单!就去优采云里再配置下吧

优采云 发布时间: 2021-08-26 18:04

  接下来很简单?对就是这么简单!就去优采云里再配置下吧

  ”

  容易吗?就是这么简单!接下来去优采云重新配置

  根据工具的配置向导添加要爬取的网址

  

  下一步是在内容采集规则中创建您需要采集的标签逻辑。不说了,看下图,进入之前的逻辑。

  

  至此,一个字段的抽取逻辑配置完成。我们来看看效果?所有地址采集 都到了吗?其他字段配置方法相同,这里不再赘述。

  

  

  接下来,将数据库中的数据导出,放到excel预览中,如下所示。为什么要导入到excel中,因为我们还需要根据店铺网址爬取店铺的详细数据(其实高手可以通过一个爬取任务来完成这两个任务) 部分数据的爬取,我来介绍一下如何配置以后有机会再说)。

  

  第二步:爬取店铺详情数据。将第一步爬取的“店铺网址”的所有数据保存成txt文本

  

  URL采集rule 的 URL 可以改成保存的文本,然后配置一堆规则。 . . . .

  

  采集 详细数据整理好后,通过URL对两个表做JOIN(我用的是Mysql,所以做了类似的语句)

  

  到此为止,我们已经把结果再次导出到excel了(你可以继续在数据库中操作,你喜欢吗)

  

  第三步,采集经纬度信息。 XGeocoding 工具在这里。

  首先,您需要为 XGeocoding 准备一个数据源。为了使提取的经纬度更加准确,这里需要4个字段

  

  通过“新建”→“导入文件”→“txt/csv”导入准备好的数据

  

  选择字段 0 为“同步 ID”,字段 1 为“市/县”,字段 2 为“企业名称”,字段 3 为“地址”。坐标类型选择“百度”。当然,你有其他地图的KEY,也可以使用其他地图源。

  

  下一步后,您将被要求选择“工作地图”并输出地图坐标。在这里您可以根据实际需要进行选择。工作图需要配置API KEY才能调用(去他们的开发者门户申请)

  

  然后使用“结果”→“导出数据”预览已经采集的经纬度数据,然后导出。

  

  

  清理导出的数据,保留ID、经纬度。只需通过ID和第二步数据JOIN即可。

  

  最后,我们通过 tableau 预览数据。

  

  总结:

  本文以采集北京区土虎门门店信息为例,对数据采集tool操作做一个基础演示(部分细节不解释,不明白的可以留言) ,借助工具,即使不是IT,也可以自己爬取在线数据。不过还是有几点要提醒大家:

  1.Tools 一定有局限性,不是万能的。

  2.采集的结果也会有一定的偏差。这时候就需要采取一些手段和方法来避免偏差。例如,在本文中,我们使用省份、地址和商店名称进行多数据验证。即便如此,仍然会有异常数据。由于地址本身同名或相近,当输入信息不足时,仍会出现错误。如果需要进一步完善data采集

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线