内容采集器(CowSwing迷你采集器-CRAWLER模块介绍及使用方法介绍)

优采云 发布时间: 2021-09-05 02:02

  内容采集器(CowSwing迷你采集器-CRAWLER模块介绍及使用方法介绍)

  CowSwing 简介

  丑牛Mini采集器是一款基于Java Swing开发的专业网络数据采集/信息挖掘处理软件。通过灵活的配置,可以方便快捷的抓取网页中的结构化文本,可以对图片、文件等资源信息进行编辑过滤发布到网站

  软件架构

  JAVACOO-CRAWLER 采用模块化设计,每个模块由一个控制器类(CrawlController 类)协调,控制器是爬虫的核心。 CrawlController类是整个爬虫的整体控制器,控制着整个采集工作的起点,决定采集任务的开始、暂停、继续、结束。 CrawlController类主要包括以下模块:爬虫的配置参数、字符集助手、HttpCilent对象、HTML解析器包装类、爬虫边界控制器、爬虫线程控制器、处理器链、过滤器工厂。整体架构图如下:

  

  CrawlScope:存放当前爬虫的配置信息,如采集page代码、采集filter列表、采集seed列表、爬虫持久化对象实现类等,根据配置参数初始化CrawlController其他模块。字符集助手(CharsetHandler):根据当前爬虫配置参数中的字符集配置进行初始化,为整个采集进程做准备。 HttpCilent对象(HttpClient):根据当前爬虫配置参数初始化HttpClient对象,如设置代理、设置连接/请求超时、最大连接数等。 HTML解析器包装类(HtmlParserWrapper):对HtmlParser的专门封装解析器来满足采集 任务的需要。 Frontier:主要是加载爬取的*敏*感*词*链接,并根据加载的*敏*感*词*链接初始化任务队列,准备线程控制器(ProcessorManager)开启的任务执行线程(ProcessorThread)。爬虫线程控制器(ProcessorManager):主要控制任务执行线程的数量,开启指定数量的任务执行线程来执行任务。过滤器工厂:为采集任务查询注册当前爬虫配置参数中设置的过滤器。主机缓存(HostCache):缓存HttpHost对象。处理器链(ProcessorChainList):默认构建了5条处理链,依次是预取链、提取链、提取链、写链、提交链,任务处理线程会用到。系统登录界面使用说明

  

  系统启动界面

  

  系统主界面

  (1)我的爪牛:系统信息、插件信息、内存监控、任务监控

  

  (2)采集Configuration:采集相关基础配置,包括远程数据库配置、FTP配置、自定义数据配置

  

  (3)数据采集:统一管理采集进程,包括采集public参数设置、采集rule列表、采集historical列表、采集content列表

  

  (4)任务监控:包括采集任务监控、仓储任务监控、图像处理任务监控、上传任务监控

  

  (5)定时任务:定时执行采集task

  

  (6)utility tools: 包括图像处理

  

  安装包

  链接:提取码:l50r

  参与贡献Fork,在这个仓库新建一个Feat_xxx分支,提交代码并新建一个Pull Request成为开发者:

  

  马云特效使用Readme_XXX.md来支持不同的语言,比如Readme_en.md、Readme_zh.md,马云官方博客,可以在这里获取这个地址。解码云端优秀开源项目,GVP是马云最有价值的开源项目。该项目是马云综合评价的优秀开源项目。马云提供的官方手册。马云封面人物是用来展示马云成员风采的专栏。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线