云端内容采集应用linux上可以有云采集专门用于采集页面的配置
优采云 发布时间: 2022-07-26 21:03云端内容采集应用linux上可以有云采集专门用于采集页面的配置
云端内容采集应用linux上可以有云采集专门用于采集页面的配置,我们通常推荐使用webrtc协议进行内容的采集,linecontentbookmarking。content-bookmarking是一个高性能的页面广告聚合技术。优点:content-bookmarking基于flash,无需安装客户端,只需安装linecontentbookmarkingtoolkit即可通过flash浏览器运行客户端。
在转发和搜索页面中可以带有链接,消息选项卡或彩虹卡等来标记对象的页面。内容采集、聚合、分析和自动化,除了能够捕捉页面上可能存在的所有广告形式,还能帮助你看到每个可能的内容或互动形式中的一个。在完成页面广告聚合后,还能够显示在终端,这样就可以直接在终端展示相应的页面广告了。云采集—linecontentbookmarkingv3.5.1特性:linecontentbookmarking通过push-content-bookmarking实现增量服务(其他contentbookmarking通过stop-webpages支持)通过cleancontents从web抓取全部内容每个页面返回json数据需要安装客户端webrtc,并启用sslv3特性:。
1、支持两种方式:通过push-content-bookmarking框架和push-content-bookmarking插件方式;其中一种方式是在浏览器或chrome浏览器设置中启用,一种方式是在本地装使用虚拟机来运行客户端。
2、无需content-bookmarking客户端和网页代码,linecontentbookmarking会自动从它们抓取任何内容:所有广告,真的广告或基于html的任何内容。
3、实现全图抓取,
4、其他类型的抓取,可以配置外观,自定义缩放比例。
5、push-content-bookmarking会在所有浏览器显示客户端页面,无需安装客户端。
6、支持txt-format。
7、通过linecontentbookmarking抓取所有页面,并在每个页面上实现缩放。
8、每个页面抓取包括一个静态image/css数据文件。
9、所有内容都可通过云端content-bookmark实现增量抓取,并且可以在chrome浏览器或其他任何浏览器上启用。
1
0、所有页面获取过程尽可能快。内容抓取端抓取的每个页面都必须是一个整体,即是一个广告的。抓取的广告页面可能包含canvas、javascript、html、ajax、restfulapi、dom、flash、png、websocket、map、poi、tagl等元素。
1、每个抓取每帧只能完成一次抓取。
2、所有抓取端提供的控制端(我们称为controller)必须安装linecontentbookmark(与其他webrtc客户端共享)。