网页信息抓取软件(技术探讨牛学军(锦州师专)对网站页面中大量有规律的数据信息进行采集和利用)

优采云 发布时间: 2021-12-18 10:47

  网页信息抓取软件(技术探讨牛学军(锦州师专)对网站页面中大量有规律的数据信息进行采集和利用)

  手工方式用于对网站页面采集中的大量常规数据信息进行手工处理,使用起来费时费力。如果你能按照网站页面上信息的唯一规则来编写软件,它会自动将所需的信息和数据存储在你自己的数据库中,然后使用它会事半功倍。笔者经过几年的摸索,有了一定的体会,愿与大家共同探讨。设计思路首先判断网站页面是否满足编程要求,然后建立用户数据库存储信息,最后通过不同数据的源代码分析表中的位置,

  使用该控件的 Navigate 方法从 Internet 上读取和浏览指定的 网站 页面。获取当前页面的HTML源代码。每个WEB页面对应一个Document对象,而WebBrowser控件恰好提供了一个属性Document,它实际上对应着当前浏览器窗口中打开的页面。Document 对象的Body 属性对应于HTML 文档的Body 标签,以及Body 对象的inner-html HTML 代码。参考格式为:BrwWebBrowser。文档。身体。.innerhtml 获取当前页面的有用数据。通常页面使用表格来分隔数据。然后使用页面的 HTML 代码来识别行和列。只要找到表中信息数据的行列映射关系,使用该程序来标记这些标签很容易。分析位置以找到所需的数据。另外,一般在数据前的单元格中有文字提示,比如在产品名称前的单元格中提示“Product Name:”,一些数据如自身(如E-mail)也有固定格式,结合文字提示和数据本身的格式,可以更准确的找到每一个需要的数据。我们写了一个程序getpagedata(),用上面的方法在当前页中查找并读取所有需要的数据,然后将其转换成数据表中需要的数据类型,然后以如下形式写入数据库一个或多个记录。信息采集 表格”。一般在数据前的单元格中有文字提示,如产品名称前的单元格中提示“产品名称:”,有些数据如自身(如E-mail)也有固定格式,结合文字提示和数据本身的格式可以更准确地找到每个需要的数据。我们写一个程序getpagedata(),用上面的方法在当前页中查找并读取所有需要的数据,然后将其转换成数据表中需要的数据类型,然后以如下形式写入数据库一个或多个记录。信息采集 表格”。一般在数据前的单元格中有文字提示,如产品名称前的单元格中提示“产品名称:”,有些数据如自身(如E-mail)也有固定格式,结合文字提示和数据本身的格式可以更准确地找到每个需要的数据。我们写一个程序getpagedata(),用上面的方法在当前页中查找并读取所有需要的数据,然后将其转换成数据表中需要的数据类型,然后以如下形式写入数据库一个或多个记录。信息采集 表格”。结合文字提示和数据本身的格式,可以更准确的找到每一个需要的数据。我们写一个程序getpagedata(),用上面的方法在当前页中查找并读取所有需要的数据,然后将其转换成数据表中需要的数据类型,然后以如下形式写入数据库一个或多个记录。信息采集 表格”。结合文字提示和数据本身的格式,可以更准确的找到每一个需要的数据。我们写一个程序getpagedata(),用上面的方法在当前页中查找并读取所有需要的数据,然后将其转换成数据表中需要的数据类型,然后以如下形式写入数据库一个或多个记录。信息采集 表格”。

  在这个过程中,使用全局变量counter_page_rec来记录在当前页中找到并写入数据库的记录数。如果页面没有自动切换,使用定时器控件的Timer事件周期性地从“URL表”中读取。创建一个新的URL,连接到新的页面,获取所需的数据等数据,达到自动页面切换和连续工作的目的。3.1 根据关键词生成“URL地址表”。一般用户需要输入关键词等信息,根据关键词和后面的GET方法传递的变量数据,生成对应页面的URL,通过观察找出其中的规律两个映射。假设关键词“辽宁”和“北京” 对应:在省的实际应用中,尾随变量值往往是用户输入的关键词、选择的类别、数据表中记录的数量等内容的组合,但一般映射法则可以被发现。你可以把提前准备好的关键词保存到文本文件keys.txt中。然后编写代码,导入keys.txt中指定的每一个关键词,生成对应页面的URL地址和*敏*感*词*传递的变量数据,存入数据库的“URL地址表”中,以备不时之需以后用。3.2 从“URL地址表”中读取URL地址 我们写了一个字母GetNextURL(),函数就是从“URL地址表”中读取一个URL地址作为函数的返回值,读出后,地址从“URL地址表”中删除。如果地址表中没有 URL 地址,则函数的返回值为空字符串。

  3.3 从当前页面检测下一个页面的URL地址,我们写一个字母AutoDetectAddr()从当前页面的HTML源代码中找到“下一个页面”的超链接,并将URL地址分隔为a function 如果当前页面中没有“next page”超链接,则该函数的返回值为空字符串。3.4 使用定时器控件自动切换页面网站 作者简介:牛学军,辽宁黑山人,本科,讲师,研究方向:软件设计,以VB形式插入一个定时器控件,设置名称为“tim-Timer”。在它的定时器事件代码中,只要 BrwWebBrowser 控件空闲,它就会调用函数 GetNextURL() 来读出一个新的 URL 地址,Else BrwWebBrowser。导航 nextaddr 结束连接到新页面。如果连接成功并且网页下载成功,则调用过程getpagedata()获取页面上的信息数据;同时调用函数AutoDetectAddr()检测页面中是否有“下一页”。接下来三个页面中获取的数据记录数均为0,然后从“URL地址表”中调用函数GetNextURL()读取下一个地址,并继续连接到对应的新页面,循环往复,实现自动获取数据的目的。

  关键事件代码 Publichavenavigate Boolean´ HTTP 请求是否连接成功 Public flag Download 当前页面是否已下载 Public counter_page_rec 当前页面获取的记录数 Public continue_zero_times 不同页面获取的连续记录数 Private Sub brwWebBrowser_BeforeNavigate2 (ByVal pDisp Object,URL Variant,Flags Variant,TargetFrameName Variant,PostData Variant,Headers Variant,Cancel Boolean)havenavigate False: flagDownload FalseEnd Sub Private Sub brwWebBrowser_NavigateComplete2 ValpDisp Object,URL SubPrariant Variant Navigatenextaddr Else nextaddr BrwWebBrowser。

  对于需要从互联网上获取大量信息的用户来说,按照这个思路编写自动获取的软件是一个不错的方法。参考文献:VisualBasic 编程及应用案例[M]. 北京:高等教育出版社,2004. MichaelHalvorson。Microsoft Visual Basic 6.0 Professional 北京:希望电子出版社,1999. SoftwareDesign Mentality InformationAutomatically from specificWebsite Pages 牛学军(锦州师范专科学校,辽宁锦州 121000 使用大量来自网站页面的reglardata信息,人工可以根据唯一规则的网站页面信息编写软件。自动获取需要的信息,再次使用可以动态网站;自动处理;数据库;VB;WebBrowser控件

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线