云端内容采集(做为博主,都没有时间天天打理博客,居然有人来探讨这个问题)
优采云 发布时间: 2021-09-13 03:01云端内容采集(做为博主,都没有时间天天打理博客,居然有人来探讨这个问题)
云端内容采集其实技术上非常简单,仅仅是一个基于http/1.1的本地文件抓取。然而,用一张图片来给一台传输效率不太高的台式机做云端内容采集,说的是优点,那是虚的。使用普通的ip采集软件,即便把所有节点一次性抓下来,普通的云端内容采集服务提供商也只能采到广告页面而已。
中国两岸三地的电脑都绑定了ip,所以他们相同的ip对应同一个大陆ip,做不到你想要的功能。你可以用一台内网服务器绑定8个人的ip,这样实现跨平台的内容抓取。
实现跨平台采集一般情况如下
1、加入标准ip,
2、构建内网镜像,各地使用相同内网ip,
3、用第三方云存储服务,
4、用代理服务器,
5、用互联网公用ip,这个要求公有云或者类似操作系统的私有云,可以理解为同一个地址,大陆境内网段同一,
6、以上4点中,电脑运行镜像只需要部署镜像机,需要设置镜像机信息是否要部署在云存储,通过镜像机服务开启多地备份功能,这个就不知道是否可行,请高人解惑。
做为博主,都没有时间天天打理博客,居然有人来探讨这个问题!博主手里也就几台电脑,关注了几个教育相关博客和论坛。一台电脑用于采集学校发的各种考试考卷,其中有一台用于接收大陆相关的内容。这个是有成本的,因为都是数据,省去了传输带宽这个成本。另外只做了网站后台,感觉上有点局限,今天再次尝试用百度地图采集国内课堂信息,哈哈。
不过还是得采一下。目前主要确定的是千图、锤子地图、大众点评这三个网站,考虑是否能利用这三个网站的地图数据进行校园课堂、图书馆、*敏*感*词*采集。因为都是定位校园,特征明显。所以配置的肯定是相对简单的,顺便百度一下其他的是否有办法,目前主要准备去模拟学生使用学校场景来采集数据。不能单纯的靠电脑,还是需要购买相应的带宽方能进行,哈哈,想换电脑了。
人少机器多感觉不好处理数据啊,自己平时也不太在意网速,平时我一般用暴风影音不下片,游戏网页好多视频是访问不了的,所以这块需要自己再进行琢磨和分析。