天宇(CGSEEK)集成网页搜索、内容智能提取与过滤

优采云 发布时间: 2021-01-27 10:28

  天宇(CGSEEK)集成网页搜索、内容智能提取与过滤

  该系统集成了Web搜索,智能内容提取和过滤,自动分类,自动重复数据删除和其他技术,以实现Internet信息采集的自动化和集成,过滤,提取和批量上传。

  一、系统简介

  新闻媒体,政府部门和大型企事业单位已经使用Internet技术来构建网络信息采集平台:新闻媒体需要在Internet上获取大量新闻材料以丰富新闻数据库;政府机构需要采集与自身业务有关的文件,提高办公和决策效率;大型企业和机构需要快速获取行业的宏观环境,政策动态和竞争对手的信息……

  天宇智能互联网信息采集系统(CGSEEK)集成了Web搜索,智能内容提取和过滤,自动分类,自动重复数据删除等技术,实现了互联网信息采集的过滤,提取和批量上传自动化和整合。

  二、系统结构

  

  三、系统的主要功能

  ◆支持采集各种标准格式的信息资源,例如HTML页面,文本信息,表格,图片,声音,视频等。

  ◆实现网页和嵌入式图片采集的统一。

  ◆支持传统页面的采集(BIG5代码),并自动转换为标准的简化代码(GB代码),支持Unicode代码集。

  ◆采集支持程序自动生成的页面内容,例如JavaScript生成的页面。

  ◆它可以轻松捕获网站后端数据库(JSP,ASP,CGI)的内容,并捕获需要通过用户身份验证的网站内容。

  ◆支持批量下载单个网页和网站历史数据。

  ◆支持采集各种标准格式的信息资源,例如HTML页面,文本信息,表格,图片,声音,视频等。

  ◆实现网页和嵌入式图片采集的统一。

  ◆支持传统页面的采集(BIG5代码),并自动转换为标准的简化代码(GB代码),支持Unicode代码集。

  ◆采集支持程序自动生成的页面内容,例如JavaScript生成的页面。

  ◆它可以轻松捕获网站后端数据库(JSP,ASP,CGI)的内容,并捕获需要通过用户身份验证的网站内容。

  ◆支持批量下载单个网页和网站历史数据。

  ◆支持采集各种标准格式的信息资源,例如HTML页面,文本信息,表格,图片,声音,视频等。

  ◆实现网页和嵌入式图片采集的统一。

  ◆支持传统页面的采集(BIG5代码),并自动转换为标准的简化代码(GB代码),支持Unicode代码集。

  ◆采集支持程序自动生成的页面内容,例如JavaScript生成的页面。

  ◆它可以轻松捕获网站后端数据库(JSP,ASP,CGI)的内容,并捕获需要通过用户身份验证的网站内容。

  ◆支持批量下载单个网页和网站历史数据。

  信息使用

  ◆您可以将采集中的网页信息放置在本地计算机指定的文件夹中以供使用。

  ◆该系统支持将采集的文本内容批量上传到天语CGRS全文数据库,天语采集分配系统和全文检索系统可用于信息采集,编辑,查看,发布和全文检索。

  ◆智能提取的文本内容可以上传到主流关系数据库(例如SQL Server)以丰富数据库,并且第三方应用程序系统也可以用于采集,发布和检索信息。

  四、系统功能

  ◆网页采集具有全面的内容

<p>适应网站内容格式的可变性,可以完全获取需要采集的页面,几乎没有遗漏,并且网页采集的内容完整性高于99%。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线