php如何抓取网页数据库(本发明技术领域的本发明涉及数据解析及采集技术的专利)
优采云 发布时间: 2021-11-09 12:15php如何抓取网页数据库(本发明技术领域的本发明涉及数据解析及采集技术的专利)
专利名称:一种网页数据抓取方法
技术领域:
: 本发明涉及数据分析和采集
技术领域:
,特别是涉及一种网页数据抓取的方法。
背景技术:
:随着信息技术的不断发展,企业拥有的系统数量也在不断增加。多系统相对独立的数据存储机制,会给未来数据的整合和分析带来一定的困难。尤其是部分经销商技术实力雄厚。网站 企业公共数据查询,但一个企业对应多个经销商,很难挨家挨户登录查询数据。本发明主要解决这个问题。
发明内容为了解决现有技术存在的问题,本发明提供了一种网页数据抓取的方法,能够在数据采集。数据信息。本发明采用的技术方案如下: 一种网页数据抓取的方法,包括以下步骤: A.建立描述网页数据的配置文件,描述获取网页数据所需的登录信息、页面结构和数据获取区域; B、实现对配置文件的处理程序;C.建立定时任务处理程序,定时调用网页提取程序所有配置信息,完成任务自动化,并比较每次获取的数据,消除重复信息。步骤B具体包括: B1、 程序首先通过登录信息连接到指定的网页,对网页进行解析,提取网页的文字信息;B2、根据配置文件中描述的网页结构进行网页文本分析,截取字符串,得到二维表数据。程序会根据表数据在数据库中创建一个相同结构的数据表,并将数据内容存储在数据表中。步骤BI中的网页解析包括使用AJAX技术解析网页。在步骤B2中,每次存储时都使用全局唯一标识符作为存储数据的标识符,并将全局唯一标识传递给后续的数据处理程序。本发明提供的技术方案的有益效果是:本发明为ERP软件开发者提供了方便快捷的相应网站数据采集程序的定义,后台定时自动执行数据采集,免去手动访问网站下载资料的麻烦。
本发明的方法可以在数据采集的过程中,快速有效地捕获一些具有访问权限网站的数据信息。本发明适用于数据采集,尤其适用于制药公司,其分销商流量数据往往存在于自己的一些网站系统中,因此对流量数据(分销商)的捕获造成很大困难。业务数据库无法打开),通过网页数据抓取工具,可以自动输入用户名和密码登录经销商系统,然后打开指定页面地址,下载该网页的HTML数据,并解析变成一个普通的二维表。存储在本地数据库中,极大程度上自动处理了流量数据的捕获,解决了问题。为使本发明的目的、技术方案和优点更加清楚,下面对本发明的实施例作进一步详细说明。一种网页数据的抓取方法,包括以下步骤: A、建立描述网页数据的配置文件,描述获取网页数据所需的登录信息、页面结构和数据获取区域。B. 配置文件处理程序。程序首先通过登录信息连接到指定的网页,分别分析普通网页或使用AJAX技术的网页,提取网页的文字信息;根据配置文件中描述的网页结构截取网页文本的字符串,获取二维表数据,程序会根据表数据在数据库中创建一个相同结构的数据表,并将数据内容存储在数据表中。在每个存储中,全局唯一标识符作为存储数据的标识,并将全局唯一标识符传递给后续的数据处理程序;C、建立定时任务处理程序,通过定时调用网页程序提取所有配置信息程序,完成自动化任务,比较每次获取的数据,去除重复获取的信息。并将全局唯一标识符传递给后续的数据处理程序;C、建立定时任务处理程序,通过定时调用网页程序提取所有配置信息程序,完成自动化任务,比较每次获取的数据,去除重复获取的信息。并将全局唯一标识符传递给后续的数据处理程序;C、建立定时任务处理程序,通过定时调用网页程序提取所有配置信息程序,完成自动化任务,比较每次获取的数据,去除重复获取的信息。
本实施例的技术任务可以通过以下方式实现: 1、 建立并发执行的数据通道;通过委托进行信息的异步执行调用;2、定义网站进程的数据捕获;2.1 定义进程号和名称以及当前步骤序号;2.2 指定每一步要打开的URL,如果需要输入用户名和密码,也需要同时指定;2.3 指定查询页面最终需要打开的地址,同时可以在查询页面定义查询条件;2.4 通过查看后台HTML源代码,找出需要获取的信息的特征,数据采集模板由特征和后台数据存储表结构定义。开发者可以通过在软件实现过程中定义数据采集模板,实现网页数据的自动分析。分析模板格式如下:<tabledefname="**林网站"><collength="300">产品<collength=〃20〃>客户代码<collength=〃120〃>客户名称<collength=〃20〃>销售数量<collength=〃120〃>送货地址<collength=〃20〃>销售代表<collength=〃20〃>批号<collength=〃20〃>订购日期<collength=〃80 〃>客户专区 <collength=〃20〃> 单元声明1. 一种网页数据的抓取方法,包括以下步骤: A.建立一个描述网页数据的配置文件,描述获取网页数据所需的登录信息、页面结构和数据获取区域;B、实现对配置文件的处理程序;C、建立定时任务处理程序,定时调用所有配置信息的网页提取程序,完成任务自动化。比较数据以去除重复信息。
2.根据权利要求1所述的网页数据抓取方法,其特征在于,步骤B具体包括: B1、 程序首先通过登录信息连接到指定的网页,解析网页并获取文本信息提取网页的;B2、 根据配置文件中描述的网页结构,截取网页文本的字符串,得到二维表格数据。程序会根据表数据在数据库中建立相同结构的数据表,并将数据内容存储到数据表中。3.如权利要求2所述的网页数据抓取方法,其特征在于,所述步骤BI中对网页的解析包括使用AJAX技术对网页进行解析。4. 如权利要求2所述的网页数据抓取方法,其特征在于,在步骤B2中,每次存储数据时都使用一个全局唯一的标识作为存储数据的标识。并将全局唯一标识符传递给后续的数据处理程序。`全文摘要本发明涉及数据分析和采集
技术领域:
,特别是涉及一种网页数据抓取的方法。本发明通过建立并发执行的数据通道,定义网站的数据捕获流程,实现了对具有访问权限网站的部分数据信息的快速有效捕获。本发明面向ERP软件开发者,方便快捷地定义相应的网站数据采集方案,后台定时自动执行数据采集,省去了手动访问网站@的麻烦> 下载信息。文献编号 G06F17/30GK103246709SQ20131013717 公开日期 2013 年 8 月 14 日 申请日期 2013 年 4 月 19 日 优先权日期 2013 年 4 月 19 日 发明人 李海晓、付传伟、肖竹川、刘清华 申请人: