php如何抓取网页数据库(本发明技术领域的本发明涉及数据解析及采集技术的专利)

优采云发布时间: 2021-11-09 12:15

　　专利名称：一种网页数据抓取方法

　　技术领域：

　　: 本发明涉及数据分析和采集

　　技术领域：

　　，特别是涉及一种网页数据抓取的方法。

　　背景技术：

　　：随着信息技术的不断发展，企业拥有的系统数量也在不断增加。多系统相对独立的数据存储机制，会给未来数据的整合和分析带来一定的困难。尤其是部分经销商技术实力雄厚。网站企业公共数据查询，但一个企业对应多个经销商，很难挨家挨户登录查询数据。本发明主要解决这个问题。

　　发明内容为了解决现有技术存在的问题，本发明提供了一种网页数据抓取的方法，能够在数据采集。数据信息。本发明采用的技术方案如下：一种网页数据抓取的方法，包括以下步骤： A.建立描述网页数据的配置文件，描述获取网页数据所需的登录信息、页面结构和数据获取区域; B、实现对配置文件的处理程序；C.建立定时任务处理程序，定时调用网页提取程序所有配置信息，完成任务自动化，并比较每次获取的数据，消除重复信息。步骤B具体包括： B1、程序首先通过登录信息连接到指定的网页，对网页进行解析，提取网页的文字信息；B2、根据配置文件中描述的网页结构进行网页文本分析，截取字符串，得到二维表数据。程序会根据表数据在数据库中创建一个相同结构的数据表，并将数据内容存储在数据表中。步骤BI中的网页解析包括使用AJAX技术解析网页。在步骤B2中，每次存储时都使用全局唯一标识符作为存储数据的标识符，并将全局唯一标识传递给后续的数据处理程序。本发明提供的技术方案的有益效果是：本发明为ERP软件开发者提供了方便快捷的相应网站数据采集程序的定义，后台定时自动执行数据采集，免去手动访问网站下载资料的麻烦。

　　本发明的方法可以在数据采集的过程中，快速有效地捕获一些具有访问权限网站的数据信息。本发明适用于数据采集，尤其适用于制药公司，其分销商流量数据往往存在于自己的一些网站系统中，因此对流量数据（分销商）的捕获造成很大困难。业务数据库无法打开），通过网页数据抓取工具，可以自动输入用户名和密码登录经销商系统，然后打开指定页面地址，下载该网页的HTML数据，并解析变成一个普通的二维表。存储在本地数据库中，极大程度上自动处理了流量数据的捕获，解决了问题。为使本发明的目的、技术方案和优点更加清楚，下面对本发明的实施例作进一步详细说明。一种网页数据的抓取方法，包括以下步骤： A、建立描述网页数据的配置文件，描述获取网页数据所需的登录信息、页面结构和数据获取区域。B. 配置文件处理程序。程序首先通过登录信息连接到指定的网页，分别分析普通网页或使用AJAX技术的网页，提取网页的文字信息；根据配置文件中描述的网页结构截取网页文本的字符串，获取二维表数据，程序会根据表数据在数据库中创建一个相同结构的数据表，并将数据内容存储在数据表中。在每个存储中，全局唯一标识符作为存储数据的标识，并将全局唯一标识符传递给后续的数据处理程序；C、建立定时任务处理程序，通过定时调用网页程序提取所有配置信息程序，完成自动化任务，比较每次获取的数据，去除重复获取的信息。并将全局唯一标识符传递给后续的数据处理程序；C、建立定时任务处理程序，通过定时调用网页程序提取所有配置信息程序，完成自动化任务，比较每次获取的数据，去除重复获取的信息。并将全局唯一标识符传递给后续的数据处理程序；C、建立定时任务处理程序，通过定时调用网页程序提取所有配置信息程序，完成自动化任务，比较每次获取的数据，去除重复获取的信息。

　　本实施例的技术任务可以通过以下方式实现： 1、建立并发执行的数据通道；通过委托进行信息的异步执行调用；2、定义网站进程的数据捕获；2.1 定义进程号和名称以及当前步骤序号；2.2 指定每一步要打开的URL，如果需要输入用户名和密码，也需要同时指定；2.3 指定查询页面最终需要打开的地址，同时可以在查询页面定义查询条件；2.4 通过查看后台HTML源代码，找出需要获取的信息的特征，数据采集模板由特征和后台数据存储表结构定义。开发者可以通过在软件实现过程中定义数据采集模板，实现网页数据的自动分析。分析模板格式如下：<tabledefname="**林网站"><collength="300">产品<collength=〃20〃>客户代码<collength=〃120〃>客户名称<collength=〃20〃>销售数量<collength=〃120〃>送货地址<collength=〃20〃>销售代表<collength=〃20〃>批号<collength=〃20〃>订购日期<collength=〃80 〃>客户专区 <collength=〃20〃> 单元声明1. 一种网页数据的抓取方法，包括以下步骤： A.建立一个描述网页数据的配置文件，描述获取网页数据所需的登录信息、页面结构和数据获取区域；B、实现对配置文件的处理程序；C、建立定时任务处理程序，定时调用所有配置信息的网页提取程序，完成任务自动化。比较数据以去除重复信息。

　　2.根据权利要求1所述的网页数据抓取方法，其特征在于，步骤B具体包括： B1、程序首先通过登录信息连接到指定的网页，解析网页并获取文本信息提取网页的；B2、根据配置文件中描述的网页结构，截取网页文本的字符串，得到二维表格数据。程序会根据表数据在数据库中建立相同结构的数据表，并将数据内容存储到数据表中。3.如权利要求2所述的网页数据抓取方法，其特征在于，所述步骤BI中对网页的解析包括使用AJAX技术对网页进行解析。4. 如权利要求2所述的网页数据抓取方法，其特征在于，在步骤B2中，每次存储数据时都使用一个全局唯一的标识作为存储数据的标识。并将全局唯一标识符传递给后续的数据处理程序。`全文摘要本发明涉及数据分析和采集

　　技术领域：

　　，特别是涉及一种网页数据抓取的方法。本发明通过建立并发执行的数据通道，定义网站的数据捕获流程，实现了对具有访问权限网站的部分数据信息的快速有效捕获。本发明面向ERP软件开发者，方便快捷地定义相应的网站数据采集方案，后台定时自动执行数据采集，省去了手动访问网站@的麻烦> 下载信息。文献编号 G06F17/30GK103246709SQ20131013717 公开日期 2013 年 8 月 14 日申请日期 2013 年 4 月 19 日优先权日期 2013 年 4 月 19 日发明人李海晓、付传伟、肖竹川、刘清华申请人：

0

2021-11-09

php如何抓取网页数据库

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php如何抓取网页数据库(本发明技术领域的本发明涉及数据解析及采集技术的专利)

0 个评论

发起人

AI时代内容工厂

php如何抓取网页数据库(本发明技术领域的本发明涉及数据解析及采集技术的专利)

0 个评论

发起人

相关问题