网页手机号抓取程序(爬虫访问小程序内页面时,会携带特定的user-agent)

优采云 发布时间: 2021-09-22 14:00

  网页手机号抓取程序(爬虫访问小程序内页面时,会携带特定的user-agent)

  在2019年上半年,微信根据小程序页发行搜索。为了更好地发现和理解小程序的页面,结合我们在过去的一段时间内遇到的各种情况,我们强烈推荐开发人员。一些宝贵的时间仔细阅读了本文:)

  当爬网程序访问小程序中的页面时,它将携带特定的用户 - 代理“MPCrawler”和场景:1129

  1.小程序页(网址)直接打开。

  小程序页面中的跳跃URL是我们爬网的发现页面的重要来源,搜索引擎调用的结果页面(URL)必须能够直接打开,而不是依赖于上下文状态。特殊:推荐页面所需的参数收录在URL

  中

  2. page跳转优先级导航器组件。

  applet提供两种类型的页面:

  a.navigator组件

  b。路由API,包括NavigateTo / redirectto / switchtab / navigateback / stranslaunch

  建议使用导航器组件。如果您必须使用API​​,则可以在访问爬网程序时屏蔽时间锁定或可变锁以单击设置。

  3.清除和简单的页面参数。

  querystring,清除,简洁,参数,对爬行和后续分析有很大的帮助,但JSON数据实现了差。

  4.用户请求用户授权,登录和绑定移动电话号码等。

  建议要求用户授权(例如读文章可以是匿名的,并且评论需要命名)。

  5.我们没有收录 web-view任何东西。

  我们不能为时间做到这一点。在很长一段时间里,我们可能不这样做。

  6.使用sitemap配置爬虫的指导,同时屏蔽路径而无需搜索值。

  7.设置一个清晰的标题和页面缩略图。

  页面标题和缩略图在我们的理解页面中具有重要作用,并增加曝光转换。

  使用wx.setNavigationBartitle或自定义前进内容OnShareAppMessage,页面的标题和缩略图设置还提供给视频,音频组件重新介绍了海报/后爬行物。

  8.使用页面路径推送功能

  可以丰富微信可以收录,然后改善小程序内容的曝光机会。请参阅:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线