内容采集器(CowSwing迷你采集器-CRAWLER模块介绍及使用方法介绍)

优采云发布时间: 2021-09-05 02:02

　　CowSwing 简介

　　丑牛Mini采集器是一款基于Java Swing开发的专业网络数据采集/信息挖掘处理软件。通过灵活的配置，可以方便快捷的抓取网页中的结构化文本，可以对图片、文件等资源信息进行编辑过滤发布到网站

　　软件架构

　　JAVACOO-CRAWLER 采用模块化设计，每个模块由一个控制器类（CrawlController 类）协调，控制器是爬虫的核心。 CrawlController类是整个爬虫的整体控制器，控制着整个采集工作的起点，决定采集任务的开始、暂停、继续、结束。 CrawlController类主要包括以下模块：爬虫的配置参数、字符集助手、HttpCilent对象、HTML解析器包装类、爬虫边界控制器、爬虫线程控制器、处理器链、过滤器工厂。整体架构图如下：

　　CrawlScope：存放当前爬虫的配置信息，如采集page代码、采集filter列表、采集seed列表、爬虫持久化对象实现类等，根据配置参数初始化CrawlController其他模块。字符集助手（CharsetHandler）：根据当前爬虫配置参数中的字符集配置进行初始化，为整个采集进程做准备。 HttpCilent对象（HttpClient）：根据当前爬虫配置参数初始化HttpClient对象，如设置代理、设置连接/请求超时、最大连接数等。 HTML解析器包装类（HtmlParserWrapper）：对HtmlParser的专门封装解析器来满足采集任务的需要。 Frontier：主要是加载爬取的*敏*感*词*链接，并根据加载的*敏*感*词*链接初始化任务队列，准备线程控制器（ProcessorManager）开启的任务执行线程（ProcessorThread）。爬虫线程控制器（ProcessorManager）：主要控制任务执行线程的数量，开启指定数量的任务执行线程来执行任务。过滤器工厂：为采集任务查询注册当前爬虫配置参数中设置的过滤器。主机缓存（HostCache）：缓存HttpHost对象。处理器链（ProcessorChainList）：默认构建了5条处理链，依次是预取链、提取链、提取链、写链、提交链，任务处理线程会用到。系统登录界面使用说明

　　系统启动界面

　　系统主界面

　　(1)我的爪牛：系统信息、插件信息、内存监控、任务监控

　　(2)采集Configuration：采集相关基础配置，包括远程数据库配置、FTP配置、自定义数据配置

　　（3)数据采集：统一管理采集进程，包括采集public参数设置、采集rule列表、采集historical列表、采集content列表

　　（4)任务监控：包括采集任务监控、仓储任务监控、图像处理任务监控、上传任务监控

　　(5)定时任务：定时执行采集task

　　(6)utility tools: 包括图像处理

　　安装包

　　链接：提取码：l50r

　　参与贡献Fork，在这个仓库新建一个Feat_xxx分支，提交代码并新建一个Pull Request成为开发者：

　　马云特效使用Readme_XXX.md来支持不同的语言，比如Readme_en.md、Readme_zh.md，马云官方博客，可以在这里获取这个地址。解码云端优秀开源项目，GVP是马云最有价值的开源项目。该项目是马云综合评价的优秀开源项目。马云提供的官方手册。马云封面人物是用来展示马云成员风采的专栏。

0

2021-09-05

内容采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

内容采集器(CowSwing迷你采集器-CRAWLER模块介绍及使用方法介绍)

0 个评论

发起人

AI时代内容工厂

内容采集器(CowSwing迷你采集器-CRAWLER模块介绍及使用方法介绍)

0 个评论

发起人

相关问题