微信公众号搜索插口采集分享-如何借助优采云工具采集微信公众号内容

优采云 发布时间: 2020-08-29 20:10

  微信公众号搜索插口采集分享-如何借助优采云工具采集微信公众号内容

  摘要:重点研究了一下优采云这个第三方采集工具,由于优采云是一个收费的软件,所以只能先申请一个体验账号,体验一下基本的采集功能,但个人认为 该工具因为和搜狗存在插口上的合作,所以其采集功能非常强悍,有着别的工具做不到的优势。所以我找到一些免费的采集工具,是须要时常自动更换公众号列表的地址就能进行正常的采集工作。下面介绍一下优采云和搜狗合作之后,是如何解决这个问题的。

  微信公众号搜索插口采集

  

  重点研究了一下优采云这个第三方采集工具,由于优采云是一个收费的软件,所以只能先申请一个体验账号,体验一下基本的采集功能,但个人认为 该工具因为和搜狗存在插口上的合作,所以其采集功能非常强悍,有着别的工具做不到的优势。

  先来了解下陌陌的反扒虫机制(链接过期):

  微信公众号的列表链接中都收录一个加密的字符串,以海霞中学的微信公众号为例:

  若超过陌陌后台控制的时间,访问了该链接则会出现:

  所以我找到一些免费的采集工具(比如微信派),是须要时常自动更换公众号列表的地址就能进行正常的采集工作。

  下面介绍一下优采云和搜狗合作之后,是如何解决这个问题的。

  优采云的采集接口中,有搜狗陌陌的插口:

  采集只须要输入搜狗的搜索结果页面就可以采集到了

  搜狗链接我在微信派采集工具中使用结果为采集失败,说明这个链接不是所有采集工具都能辨识,至于为何搜狗陌陌的搜索结果不会过期,我怀疑可能是因为搜狗和腾讯的关系(腾讯竞购了搜狗大部分的股份),腾讯本身就开发好了这个插口给合作伙伴用,所以绿城那边腾讯来做的话也不需要开发,可以直接拿这个插口下来用(连百度都不能直接搜索微信公众号的内容,我如今找到能不过期的陌陌搜索引擎只有搜狗)。

  采集结果:

  付费版可以导入数据到数据库以及API、免费版只能导入数据到数据库,10条数据1000积分(积分可以做任务分享获取,也可以买,1000积分1块钱,即免费版每导入10条数据实际还是须要1块钱)。

  不知道是不是免费版的缘由,我认为导入到数据库的功能不够强悍,只能抓取到的数组进行导出,不能对数据库中的剩余数组进行默认值的写入,这样就不能处理bigclassid、passed等数组,更没办法解决newscontent的问题。专业版可以导出到API接口,可能能够解决。

  特别说明:我觉得该抓取工具强悍的地方就是抓取到的图片路径是完整路径,能保证图片正常显示,不会出现象之前直接复制陌陌页面到我们的编辑器后图片出不来的情况。

  定时抓取、云抓取:

  付费版本还有一个用处是支持云采集,即不用每位用户都安装一个优采云的客户端,只须要在我们的服务器上安装一个优采云,并设置一个云采集任务,就可以实现将采集数据发送到对应的中学网站中去。

  云抓取服务还可以避免抓取时对网站服务器引起的CPU影响(东莞抓取时CPU占有率顿时满格,所以抓取活动都安排在半夜2点)。

  定时抓取只能在云抓取任务中设置(即定时抓取功能须要付费)

  理想的模式,有待进一步和优采云客服确认是否可行以及价钱:

  我们在自己的某一台内网服务器上布署一个优采云用于配置符合每位中学需求的云抓取任务(每个校区对应的公众号可以是一个也可以是多个,并且每位中学的云抓取任务互相独立),每天定时抓取(甚至可以调用任务控制API在网站后台做一个同步按键)之后通过API(Http协议)将抓取到的新闻内容保存到每位中学的数据库中(news表和newscontent表),实现公众号的同步工作。

  在CMS平台化之后实现更容易,因为所有网站可能都部署在我们的服务器上(云服务器),所以都不需要通过Http合同传输恳求,只须要按我们的规则保存到本地数据库就可以了。

  加强功能:微信后台数据图形化剖析结果可以传递数据到网站后台,所以之后可能网站后台不止能看到网站的发文统计图形,还能见到陌陌推送的统计图。

  最后附上优采云旗舰版的价钱(我们不用高并发,所以不用私有云,以后可以布署在我们的服务器上与CMS平台一起集中管理):

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线