算法 自动采集列表( 【专利说明】一种仰力数据自动采集的方法和方法)
优采云 发布时间: 2021-09-25 01:06算法 自动采集列表(
【专利说明】一种仰力数据自动采集的方法和方法)
一种网页数据自动采集的方法
[专利摘要] 本发明公开了一种网页数据自动化采集的方法,包括以下步骤:网页机器人技术和网页数据提取技术;网络机器人技术包括设计网络机器人工作流程和制定网络机器人设计原则、深度优先搜索策略和广度优先搜索策略、网络陷阱、平衡访问和超链接提取;网页数据提取技术包括网页纯文本的提取和文本中特殊字符的分析处理。本发明提供一种Web数据自动采集方法,充分利用网络机器人技术和网页数据提取技术,形成Web自动采集方法,从海量信息中采集有价值的数据并进行分析和研究,形成公司的各种决策依据,解决了数据采集人员和市场研究人员面临的问题,同时扩展了Web的可用性. 对数据采集的发展很重要,尤其是自动化数据采集做出了一定的贡献。
[专利说明] 一种自动采集杨利数据的方法
【技术领域】
[0001] 本发明涉及数据采集技术,尤其涉及一种数据自动采集的方法。
【背景技术】
[0002] 随着网络资源的不断丰富和网络信息量的不断扩大,人们对网络的依赖程度越来越高,但也带来了服务对象从广阔的互联网中快速找到自己需要的特定资源资源。不便; 自古以来,信息的价值是无限的。随着时代的不断发展,人类在不知不觉中进入了信息时代,各行各业都充斥着无数的信息,信息的价值在于数据的流通。只有能够及时传播和传递,才能真正发挥出信息无可比拟的价值;在市场经济条件下,采集数据已经成为重要的工具和方法。
[0003] 如何从海量信息中采集有价值的数据并进行分析研究,为企业的各种决策提供依据,是数据人员和市场研究人员面临的问题;需要大量数据 快速查找和获取您需要的信息和服务变得越来越困难。服务对象在查询信息时往往会失去目标或得到一些有偏差的结果;必须对数据进行汇总、整合和分析。产生价值,分散的信息只能是新闻,不能体现真正的商业价值;对于企业和信息分析师来说,一方面需要从大量信息中筛选出有效的价值点,
[0004] 互联网的普及和信息技术的发展,形成了大量的信息资源;从海量信息中提取有用资源是当前亟待解决的问题,1613页面表达的主要信息通常隐藏在海量信息中。不相关的结构和文本阻碍了用户快速获取主题信息,从而限制了166的可用性。自动采集帮助解决了这个问题。自动采集省时省力,信息覆盖面广,但信息提取质量不高,会影响准确率;因此,大部分数据采集工作现在使用自动采集方法;自动采集
[发明概要]
[0005] 针对上述问题,本发明通过网络机器人技术和网页数据提取技术的应用,开发了一种166位数据自动采集的方法。
[0006] 本发明的技术手段如下:
[0007] 一种自动数据采集的方法,其特征在于包括以下步骤:
[0008]八、网络机器人技术:
[0009] 八1、设计网络机器人的工作流程:机器人以一张或一组嘴为起点浏览访问对应的胃文档,胃文档为文档;
[0010] 8个2、制定了网络机器人的设计原则;
[0011]纟21、制定机器人未收录的项目标准:在服务器上创建机器人文本文件,文本文件声明网站不可访问链接和网站拒绝访问Robot;[0012]A22、指定robot META标签:即用户给页面添加META标签,META标签允许页面所有者指定是否允许机器人程序索引该页面或从页面中提取链接;
[0013] A3、深度优先搜索策略和广度优先搜索策略;
[0014] Α31、 深度优先搜索策略是从起始节点开始,分析第一个文档,检索第一个链接指向的页面,分析该页面后检索。重复执行第一个链接所指向的文档,直到找到一个不收录任何超链接的文档,并将其定义为一个完整的链,然后返回某个文档,文档中其余的超链接为继续被选中,搜索结束 标志是所有的超链接都被搜索过了;
[0015] Α32、 广度优先搜索策略是分析第一个文档,搜索网页中的所有超链接,然后继续下一层搜索,直到底层搜索完成;
[0016]Α4、网络陷阱;
[0017] Α41、与待搜索的URL对列表中的URL进行比较,在访问新的URL之前进行搜索。这个比较是URL对象之间的比较,将不在URL对列表中的URL加入到要搜索的URL列表中,避免落入网络陷阱;
[0018] Α42、 提取Web文档的超链接时,忽略所有带参数的URL;
[0019] Α43、限制机器人搜索深度;当达到阈值搜索深度时,停止向下搜索,每进入下一层子链接都表示达到了新的搜索深度;或设置访问Web服务器 当机器人访问Web服务器的第一个网页时,它开始计数。最长时间后,在服务器上爬取的机器人程序会立即断开与服务器的所有链接;
[0020] Α5、平衡接入;设置访问Web服务器的最大线程数,并使用等待方式将机器人程序或进程的访问频率限制在特定的服务器和网段;每当从 Web 服务器访问机器人程序或进程 站点获取文档后,机器人程序或进程将等待一定的时间间隔,然后再重新访问该 Web 站点。等待时间的长短根据站点处理能力和网络通信能力确定。下次访问该网站的时间Tl为当前时间T2加上访问该网站所需的时间,访问该网站所需的时间取网络传输时间T3乘以设定系数;
[0021] Α6、超链接提取;机器人程序在获取URL链接的同时,不断对获取到的链接对应的Web源文档进行数据采集,将Web源文档转换为字符流形式。
[0022] B.网页数据提取技术;
[0023] B1、网页纯文本提取;对获取的HTML源文件进行过滤,删除标签控制字符提取文本信息,对网页数据进行过滤后统一网页数据的字符格式;
[0024] B2、分析处理文本中的特殊字符。
[0025] 由于采用了上述技术方案,本发明提供了一种Web数据自动采集方法,充分利用网络机器人技术和网页数据提取技术,形成Web自动采集 @采集方法,可以从大量的信息中采集有价值的数据并进行分析研究,形成企业各种决策的依据,解决数据采集人员和市场研究人员,并扩展 Web 的可用性。采集,特别是自动数据采集的开发做出了一定的贡献。
【专利图】
【图纸说明】
[0026] 图 附图说明图1为本发明网络机器人的流程图;
[0027] 图 图2为本发明HTML网页纯文本提取的工作流程图。; 为自己的页面添加腿钉巴标记;标尺 01301:标尺 01301 程序以索引您自己的页面或从此页面
战略;
出发,解析第一个文档后,检索第一个链接指向的第一个文档,重复执行,直到是一个完整的链,然后返回某个结束标志,即没有其他的超链接可以搜索到
分析后,首先在胃613页面中搜索所有3层;:确定设计者采用的优先级策略;因为机器实现的关键问题是我们从末尾添加要搜索的队列,从头取出就构成了广度优先遍历;构成深度优先遍历;1:描述该过程,直到文档中的“<8”标记全部处理完毕:连接时,需要不断检查获取的链接对应的II连接和数据;为了更正确的执行显示
确定信息的效率和质量采集;
我的肌肉 11 源文件被过滤以删除它们。一切 ”?” 标记和“?” 将源文件上的标记放在模具后相邻“>”标记的位置,然后去掉两个书写位置。旁边是“<”标记的位置,然后是Ji描述的文本的特征,所以在提取文本的时候要进行注释,如果遇到开始标签,可以分析一下;另一种排除方法是暂时将其视为3。如果是脚本,则不会采集;网页中的分隔符;在实际处理文本时,需要根据标签的含义。
凡熟悉本发明技术范围内的【技术领域】的技术人员根据本发明的技术方案和发明构思,作出等同替换或变更,该等标识均受本发明保护。 .
【权利要求】
1.一种网络数据自动化采集的方法,其特点包括以下步骤: A.网络机器人:Al.网络机器人工作流程设计:以一个或一组URL为起点,浏览机器人访问对应的WWW文档,WWW文档为HTML文档;A2、 制定网络机器人的设计原则;A21、 制定机器人不收录的项目标准:在服务器上创建机器人文本文件,文本文件声明网站不可访问链接和网站拒绝访问机器人;A22、指定robot META标签:即用户给页面添加META标签,META标签允许页面所有者指定是否允许robot对页面进行索引或从页面中提取链接; A3、 深度优先搜索策略和广度优先搜索策略;A31、 深度优先搜索策略从起点开始,分析第一个文档,检索第一个链接指向的页面。页面解析后,检索第一个链接指向的文档,重复执行,直到搜索不收录任何超链接文档,定义为完整链,然后返回某个文档,继续选择文档中剩余的超链接,搜索结束的标志是所有的超链接都被搜索过了;A32、 广度优先搜索策略是分析第一个文档,搜索网页中的所有超链接,然后继续下一级搜索,直到底部搜索完成;A4、 网络陷阱;A41、 在访问新的URL之前,将要搜索和搜索的URL列表中的URL进行比较。这个比较是 URL 对象之间的比较。将未收录在 URL 对列表中的 URL 添加到要搜索的 URL 列表中。避免落入网络陷阱的网址列表;A42、从Web文档中提取超链接时,忽略所有带参数的URL;A43、限制机器人的搜索深度;当达到阈值搜索深度时停止向下搜索,每进入下一级子链接都表示达到了新的搜索深度;或者设置访问web服务器的最长时间,当机器人访问Web服务器的第一个网页时,时间开始计时。最长时间过后,在服务器上爬行的机器人程序立即断开与服务器的所有链接;A5、 平衡访问;设置对Web服务器的访问 最大线程数和等待方式,用于限制机器人程序或进程对特定服务器和网段的访问频率;每次机器人程序或进程从网站获取文档时,机器人程序或进程都会等待一定的时间间隔,然后再响应。对于网站的新访问,等待时间的长短取决于网站的处理能力和网络通信能力。下次访问网站的时间 T1 是当前时间 T2 加上访问网站所需的时间。所需时间为网络传输时间T3乘以设定系数;A6、 超链接提取;机器人程序在获取到URL链接的同时,继续对获取到的链接对应的Web源文档进行数据处理。采集,将Web源文档转换为字符流;B、网页数据提取技术;B1、 网页纯文本提取;过滤获取的HTML源文件并删除标签控制字符提取文本信息,并在过滤网页数据后统一网页数据的字符格式;B2、 分析处理文本中的特殊字符。平衡访问;设置访问Web服务器的最大线程数,并使用等待方式限制机器人程序或进程访问特定服务器和网段的频率;机器人程序或进程每次从网站获取文档时,机器人程序或进程会等待一定的时间间隔,才会再次访问该网站,并根据站点处理情况确定等待时间的长短能力和网络通信能力。下次访问该网站的时间Tl为当前时间T2加上访问该网站的时间。访问该网站所需的时间为网络传输时间T3乘以设定系数;A6、 超链接提取;机器人程序在获取URL链接的同时,继续检查获取到的链接对应的Web源文档进行数据采集,将Web源文档转换为字符流的形式;B、网页数据提取技术;乙1、 网页纯文本提取;对得到的HTML源文件进行过滤和删除标签控制字符提取文本信息,过滤网页数据后统一网页数据字符格式;B2、 分析处理文本中的特殊字符。平衡访问;设置访问Web服务器的最大线程数,并使用等待方式限制机器人程序或进程访问特定服务器和网段的频率;机器人程序或进程每次从网站获取文档时,机器人程序或进程会等待一定的时间间隔,才会再次访问该网站,并根据站点处理情况确定等待时间的长短能力和网络通信能力。下次访问该网站的时间Tl为当前时间T2加上访问该网站的时间。访问该网站所需的时间为网络传输时间T3乘以设定系数;A6、 超链接提取;机器人程序在获取URL链接的同时,继续检查获取到的链接对应的Web源文档进行数据采集,将Web源文档转换为字符流的形式;B、网页数据提取技术;B1、 网页纯文本提取;对得到的HTML源文件进行过滤和删除标签控制字符提取文本信息,过滤网页数据后统一网页数据字符格式;B2、 分析处理文本中的特殊字符。
【文件编号】G06F17/30GK103838786SQ2
【出版日期】2014年6月4日申请日期:2012年11月27日优先权日期:2012年11月27日
【发明人】苏晓华、李勇申请人: