内容采集软件(内容采集软件都要实现哪些功能呢?(一))
优采云 发布时间: 2021-09-06 11:01内容采集软件(内容采集软件都要实现哪些功能呢?(一))
内容采集软件,我觉得最麻烦的一个项目就是内容采集,从不同的网站采集到数据、视频等文本数据是需要时间的,下载度高的网站还得解析,几乎一个下午都不一定弄完。国内引擎已经做得相当成熟了,几十兆几十mb的内容都可以搞定,在当前的网站、微信上分享到朋友圈是不是有点小臃肿呢?内容采集器说白了就是一个服务器软件,那么这个软件都要实现哪些功能呢?。
1、把网页上的内容抓下来。这一步是很多软件都做不到的,但是dht做到了,而且速度超快,我用软件抓取了一条为8b大小的文本,仅用一分钟左右就搞定。
2、再利用canvas来转换成2d图像。dht的word3d可以把文本转换成2d图像,或者按照数据规则生成线性图像。官方生成的线性图像,我用ai生成过3d图像的,差距很明显。这样的话,再去二维图片处理就只要弄线性图像了。
3、切割、去重并批量上传。把2d图像导入软件中,点击下一步。
4、把转换好的2d图像发送给同事。这是一个nas数据中心的文本数据,一个是国内互联网开发的外国内容,一个是国内本地开发的内容,地址是/,基本上只要是互联网开发的内容,dht都是用aws服务器的,而这些内容发送到aws的cloudelasticsearch中的时候,数据是另外一个编码了,因为毕竟是转换过2d图像的数据。
5、批量上传,这个主要是业务高并发时,可以利用数据库进行存储与计算,批量上传、下载,利用分布式文件系统paas的功能。
还是说几个不同的功能,
1、把图片丢入googlebrain,这是dht开源版本的实现。但是googlebrain一次只能读取几百pb的内容,我们用无损降采样技术,就把图片转换成数据。
2、把图片丢入google大脑,这个还是基于dht开源版本的实现。dht版本的使用方法是把图片丢入网络的block块,有个wget命令,一个pb就几十秒时间就可以丢入网络的block块,然后可以读取block块的内容,没有网络也可以。dht版本的工作方式是用户在公网上请求,可以发给交换机带宽划分的进程,这个时候进程会花几十秒去pull一下数据到公网,然后一个进程就pull下来。网络效率还是相当好的。
3、把图片丢入knowledgegraph这个graph对外是公开的,软件服务器挂载到该地址下面的一个小服务器上。软件经过graph索引了很多个资源节点,可以方便的在浏览器请求时路由到该节点。
4、把图片发送到图像识别、图片挖掘。dht的目标是识别文本数据,因此把图片中的文本数据提取出来,并且计算机系统能够识别,是重要的技术。这需要特别的算法,比如网络优化、内存分配等。对外是开源的。可以把图片推荐给朋友分享。
5、