整套解决方案:博特智能|采集资源池管理技术
优采云 发布时间: 2020-09-04 22:43Bot Smart | 采集资源池管理技术
在Bot Smart的采集流程中,由于许多网站或平台服务器将识别访问者的身份,因此只有通过身份验证的用户才能登录系统,并具有无限的信息访问权限。如果不登录,将严重限制可访问的内容。在前面关于社交网站中的隐私的讨论中已经对此进行了解释。
但是,对于用户的帐户,如果平台服务器发现该用户频繁违反规则(例如频繁访问后台),则该用户也会被判定为非法帐户并被阻止。浪费帐户资源。
因此,有必要为采集系统方便地提供用户帐户,以在需要用户登录验证的某些链接中使用。同时,应采取合理措施以减少用户帐户被阻止的可能性。提高帐户生存率。
另一方面,平台服务器将识别访问者的IP。有两个目的,一个是提供有限的服务,并且只允许指定区域中的IP访问网站或平台服务。一种是用于IP监视。一旦发现IP违规,该IP将被阻止。因此,有必要维护IP代理的集合。
为了确保采集的持续发展,基本上所有采集系统都维护一个用户资源池和一个代理资源池。中国科学院信息技术研究所数据智能获取框架资源层的实质是通过资源管理子系统管理用户资源池和代理资源池,供上层执行者在执行时调用操作。它还使用全球分布式代理技术通过自建的VPN和公共代理采集为数据获取应用程序提供稳定可靠的代理服务,解决了在数据获取中检测和阻止目标应用程序访问行为的问题。