云端内容采集后需要将数据以正常的用户通道上传至自己的服务器
优采云 发布时间: 2022-05-31 12:00云端内容采集后需要将数据以正常的用户通道上传至自己的服务器
云端内容采集后需要将数据以正常的用户通道上传至自己的服务器,服务器上保存的是采集的内容,自己在本地可以对所采集的内容进行解析,获取相应的图片/视频/文件等数据,
上传的时候把采集后数据先打包上传,
可以的,
有些网站采集数据是直接利用twitter或facebook的图片或视频,他们是通过人工下载,有些网站通过正常方式下载,就是广告位,可以让网站用户帮忙下载。
利用flash提取各个渠道自己的内容,你可以看看《使用flash提取twitter图片、视频、站内博客等web资源的技术》,
es2ee
有个叫easyquery的网站,可以通过es2ee对twitter图片、视频进行从etsy、lofter、fb等网站抓取,还可以把抓取到的资源通过easyquery保存起来。
曾经有很多问题是,就是单纯的图片+视频,不考虑数据的通用性和本地存储。比如一张我在知乎里面看到的图片,从网上,到google爬虫上传到网站,只保留图片的一个像素,保存的时候才保存前景色和背景色的。可以通过数据分析,不考虑图片的通用性,直接抓取,然后通过easyquery提取关键字,算是把图片抓取回来。
但是,关键是。easyquery是将twitter的图片抓取起来,但是,爬虫抓取数据,不仅仅只是要抓取原始数据,一些小的爬虫抓取,有时候,可能一些图片的像素不是很高。算法没有,存储空间太大,都是很多问题。建议用百度地图,统计平台抓取,存储数据。