采集采集器(各个平台的旅游评价数据采集教程_新手入门必看_优采云采集器)

优采云 发布时间: 2021-11-23 00:08

  采集采集器(各个平台的旅游评价数据采集教程_新手入门必看_优采云采集器)

  由于目前写论文需要爬一些旅游景点数据进行数据分析,所以摸索了一些评价数据采集,打算在这里记录下整个过程。以前我爬数据的思路是各种F12然后找http请求解析数据和各种操作,但是发现这种方法在这里不太适合使用。单个平台的反爬虫已经很麻烦了,更何况携程、马蜂窝、美团、大众点评这四个平台。估计做完之后,黄花菜就凉了。不过因为之前听说过一些自动采集的软件,好像还挺强大的,所以就下载了一个优采云采集器来试用一下。我没想到它真的很容易使用。四个平台的数据全部爬取需要多长时间。由于我使用的不是很深入,但是爬取数据的效果还不错,不多说了,先上传效果图吧:

  携程采集 结果:

  

  马蜂窝采集 结果:

  

  当然,有些平台的数据不全,或者有问题,我会在最后指出。

  先介绍一下优采云采集器:(请先注意,不代表这个采集器一定是最好的。其他的比如优采云采集器它估计是可以实现的,不过我用过这个,我觉得用起来比较简单,也可以完成任务采集)

  优采云采集器

  优采云采集器是原谷歌搜索技术团队基于人工智能技术开发的新一代网页采集软件。具有以下特点;

  官网下载地址:优采云采集器_免费!导出无限网络爬虫软件_人工智能数据采集软件

  文档中心:资料采集教程_新手入门_新手入门必看_优采云采集器

  具体下载安装步骤请参考文档。

  下面一一介绍采集各个平台旅游评价数据的流程。

  携程发现一个需要采集的网页

  以景区“清江画廊”为例。在携程官网首页搜索后,出现了关于该地点的详细介绍。向下滚动后,可以看到最后一个面板是`User Comments`,出现了我们需要的评价数据。分页列表显示,每页10项,共238页,数据项总数为2373。

  复制这个页面的地址:

  ``

  德天瀑布门票,德天瀑布门票价格,德天瀑布门票团购【携程门票】

  ``

  

  2. 配置规则

  打开优采云采集器,在首页输入上一步找到的页面地址,点击`Smart采集`,Smart采集表示采集器会识别你输入的Page结构,找到列表数据,自动翻页,直到采集到达最后一页数据。

  

  然后进入采集界面,采集器会自动打开你在软件中输入的网页,识别网页结构,找到数据列表。这需要一些时间,请耐心等待。

  但是,一开始被认出来后可能是这样的:

  

  好像不是我们需要的评价数据。证明自动识别的列表不是我们想要的。我们应该做什么?

  可以这样解决:

  

  3. 开始采集 任务

  至此,我们已经配置好了需要采集的页面和数据列表,可以在页面底部预览前10个数据。确认无误后,点击`Start采集开始`采集Tasks。这里可以配置各种选项,比如定时采集、加速、反阻塞、代理激活等,根据需要配置。携程无需任何配置即可采集访问数据。点击开始后会进入采集页面

  最后自动采集完成后,会提示采集完成,只需将数据导出到本地即可。

  由于后续在其他平台上的操作类似,所以只说明需要注意的地方。

  马蜂窝

  马蜂窝页面显示的数据其实并不完整,如下图:

  

  每页有 15 个项目。总共只有5页,总共75项,但实际上总共有333项。因此,无论显示多少条评论,采集的结果最终都只有75条。

  美团

  类似于携程,可以自动识别页面列表。

  公众意见

  大众点评有点特别,看评论的时候可以看到,需要登录才能看到所有评论。

  

  所以优采云采集器需要解决的问题之一就是登录后获取数据,我该怎么办?

  在采集页面,有预登录功能

  

  在弹出的页面中,登录后点击“登录完成”。

  但是需要注意的是,每页数据的url是不同的,比如:首页`/shop/3328354/review_all`,第二页:`/shop/3328354/review_all/p2`,这种url呢?

  可以看到,每个页面的前缀是一样的,但是最后的p2和p3数字是不同的。采集器 为这种规律提供了一个 url *敏*感*词*。详见下图。填写参数。输入要生成的起始页码和结束页码,将URL预览中的url复制到`手动输入`栏,并进行一定的修改。

  

  总结

  实际上,就过程而言,它非常简单。只是一些配置规则和预登录可能会用几次来熟悉。网页上能看到的大部分数据都可以通过采集器采集访问。当然,还有很多高级复杂的东西,这里就不赘述了。如果您以后遇到它们,请去研究和学习。

  有一个问题

  由于采集器和各个平台的不同,采集接收到的数据难免会出现一些问题。以下只是我观察到的比较明显的问题:

  不管马蜂窝的数据评论多少,最后采集收到了75条(网页就这么多)。采集在美团收到的一些评价内容是空的,不知道是什么问题。大众点评的评价数据我还没搞清楚。部分内容需要手动点击【展开评论】才能看到完整的内容,所以采集的部分结果是不完整的。目前,携程的点评数据比较完整。

  我的网站提供了一系列POI数据爬取、人流爬取、数据可视化、地图在线工具等功能。欢迎使用。地址:【BLT-LEAD 一个专注分享地图数据相关网站_】的爬虫、可视化、应用工具和知识(BLT-LEAD是一个网站_专注于分享爬虫、可视化、应用与地图数据相关的工具和知识)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线