基于计算机网络爬虫技术领域的通用性搜索引擎(图)

优采云发布时间: 2021-02-20 10:02

　　基于网络爬虫的自动采集方法

　　[技术领域]

　　[0001]本发明涉及计算机Web爬虫的技术领域，尤其是一种基于Web爬虫的自动采集方法。

　　[背景技术]

　　[0002]近年来，随着信息技术和Internet的持续快速发展，Internet信息在社会和生活中越来越突出。

　　[0003]互联网是大量信息的载体。如何有效地提取和使用这些信息已成为一个巨大的挑战。作为帮助人们检索信息的工具，搜索引擎已成为用户访问Internet的入口和指南。但是，这些通用搜索引擎也有一定的局限性。例如，不同领域和不同背景的用户通常具有不同的检索目的和需求，并且一般搜索引擎返回的结果收录大量用户不关心的网页。为了解决上述问题，针对相关网络资源的目标爬行的集中爬行器应运而生。 Focus Crawler是一个自动下载网页的程序。它根据已建立的搜寻目标有选择地访问万维网上的网页和相关链接，以获得所需的信息。与一般的采集器不同，专注的采集器不会追求较大的覆盖范围，而是将目标设定为搜寻与特定主题内容相关的网页，并为面向主题的用户查询准备数据资源。

　　[0004]当前，每天有数百台服务器连接到Internet 采集，这需要大量手动访问每个服务器来进行配置和采集，这无疑增加了采集。

　　[发明内容]

　　[0005]本发明的技术任务是提供一种基于Web爬虫的自动化采集方法。

　　[0006]本发明的技术任务通过以下方式实现。自动采集方法是使用集中式Web采集器来获取采集服务器的采集功能地址，并更改服务器采集的功能，该地址已添加到管理节点中以实现统一采集和配置管理；每个采集节点服务器都部署相应的采集程序，该程序中的采集项将基于平台差异，并且采集项也将对应更改通过http访问资源的功能，获取子节点的采集项，并对其进行操作。

　　在[0007]中描述的采集程序是一个网络版本的操作程序。

　　在[0008]中描述的自动采集方法的步骤如下：

　　[0009]步骤1：确定采集节点地址和采集项目功能地址；

　　[0010]步骤2：在管理节点数据中确定适当的采集节点地址和功能地址；

　　[0011]步骤3：通过重点浏览器获取采集节点的功能页，并将其加载到管理节点；

　　[0012]步骤4：在加载到管理节点的每个采集页面上配置采集；

　　[0013]步骤5：在所有采集节点上一键点击采集。

　　在[0014]中所述的步骤I中，首先打开所有采集节点的采集服务，然后确定采集节点地址和采集项目的功能地址。

　　[0015]与现有技术相比，本发明的基于Web爬虫的自动采集方法采用集中式爬虫技术，不需要对每个服务器进行大量的手动访问即可进行配置，采集不仅大大减轻了技术人员的工作量，有效地提高了工作效率，而且还促进了采集管理，有效地提取和使用了信息。

　　[图纸说明]

　　[0016]图1是基于Web采集器的自动采集方法的体系*敏*感*词*。

　　[详细实现]

　　[0017]示例1：

　　[0018]自动化的采集方法是使用集中式Web采集器来获取采集服务器的采集功能地址，并将服务器采集的功能地址添加到管理节点，以用于统一采集和配置管理；每个采集节点服务器都部署相应的采集程序。程序中的采集项目将根据平台差异而更改，并且采集项目也会相应地更改。通过http访问资源的功能可以获取节点的子项采集并对其进行操作。

　　[0019]中所述的自动采集方法的步骤如下：

　　[0020]步骤1：确定采集节点地址和采集项目功能地址；

　　[0021]步骤2：在管理节点数据中确定适当的采集节点地址和功能地址；

　　[0022]步骤3：通过重点网页抓取工具获取采集节点的功能页面，并将其加载到管理节点；

　　[0023]步骤4：为每个加载到管理节点的采集页配置采集；

　　[0024]第5步：在所有采集节点上一键点击采集。

　　[0025]示例2：

　　[0026]自动化的采集方法是使用集中式Web采集器来获取采集服务器的采集功能地址，并将服务器采集的功能地址添加到管理节点，以用于统一采集和配置管理；每个采集节点服务器都部署相应的采集程序，采集程序是一个Web版本的操作程序，该程序中的采集项将根据平台的不同而变化，而采集项目也会相应地更改。通过http访问资源的功能，获得子节点的采集项并对其进行操作。

　　[0027]中所述的自动采集方法的步骤如下：

　　[0028]步骤1：首先打开所有采集节点的采集服务，然后确定采集节点地址和采集项目的功能地址；

　　[0029]步骤2：在管理节点数据中确定适当的采集节点地址和功能地址；

　　[0030]步骤3：通过重点浏览器获取采集节点的功能页面，并将其加载到管理节点；

　　[0031]步骤4：在加载到管理节点的每个采集页面上配置采集；

　　[0032]步骤5：启动一个键采集，然后在所有采集节点上执行一个键采集。

　　[0033]示例3：

　　[0034]每天可以访问数百台服务器的互联网采集：

　　[0035]首先打开所有服务器采集节点的采集服务，然后确定采集节点地址和采集项目的功能地址；为管理节点数据采集中的每个服务器确定合适的服务器节点地址和功能地址；然后，为采集配置配置适当的采集页面，最后启动一键采集以一键式采集所有服务器的采集节点。

　　[0036]通过以上的[具体实施方式]，本领域技术人员可以容易地实施本发明。然而，应当理解，本发明不限于上述[特定实施例]。基于公开的实施例，本领域技术人员可以任意组合不同的技术特征，以实现不同的技术方案。

　　[主权物品]

　　1.一种基于Web采集器的自动采集方法，其特征在于，该自动采集方法是使用集中式Web采集器来获取采集服务器的采集功能地址，以及将服务器采集的功能转移到采集的功能地址，以进行统一采集和配置管理。每个采集节点服务器都会部署相应的采集程序，该程序中的采集项将基于平台的差异，采集项也会相应地更改。通过http访问资源的功能，获得子节点的采集项并对其进行操作。

　　2.根据权利要求1所述的基于网络爬虫的自动化采集方法，其中，所述采集程序是网络版本操作程序。

　　2.根据权利要求1所述的基于网络爬虫的自动化采集方法，其中，所述自动化采集方法的步骤如下：步骤1：确定采集节点地址，并且采集项起作用地址;步骤2：在管理节点数据中确定适当的采集节点地址和功能地址；步骤3：通过重点浏览器获取采集节点的功能页面，并将其加载到管理节点；步骤4：在加载到管理节点的每个采集页面上执行采集配置；步骤5：在所有采集节点上单击采集。

　　2.根据权利要求1所述的基于网络爬虫的自动化采集方法，其特征在于，在步骤I中，首先开启所有采集个节点的采集个服务，然后确定采集个]节点地址和功能地址采集。

　　[专利摘要]本发明公开了一种基于Web爬虫的自动化采集方法，属于计算机Web爬虫技术领域。自动化的采集方法是使用集中的Web爬虫来获取采集个服务器采集的功能地址，并将服务器采集的功能地址添加到管理节点以进行统一采集和配置管理；每个采集节点服务器都部署相应的采集程序，该程序中的采集项将根据平台的不同而相应地更改采集项。通过http访问资源的功能可以获得子节点的项目采集并对其进行操作。与现有技术相比，本发明的基于网络爬虫的自动化方法采集采用集中式爬虫技术，不需要对每个服务器进行大量手动配置和访问采集，不仅大大减少了技术人员数量工作量有效地提高了工作效率，可以方便采集管理，并有效地提取和使用信息。

　　[IPC分类] G06F17-30

　　[公开号] CN104866555

　　[申请号] CN2

　　[发明人]邱继昭，王传超，徐宏伟

　　[申请人]

　　[公开日] 2015年8月26日

　　[申请日期] 2015年5月15日

0

2021-02-20

利用采集器采集的平台

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

基于计算机网络爬虫技术领域的通用性搜索引擎(图)

0 个评论

发起人