动态网页抓取( 基于IE内核和DOM的面向垂直搜索引擎中怎样动态生成的主题网页)

优采云 发布时间: 2021-09-29 02:08

  动态网页抓取(

基于IE内核和DOM的面向垂直搜索引擎中怎样动态生成的主题网页)

  

  一种为垂直搜索引擎抓取动态网页的方法 fetcher 的一个难题。本文提出了一种基于IE内核和DOM的垂直搜索引擎动态网页爬取方法。实验表明,该方法抓取动态网页和主题网页的准确率平均在95以上,平均召回率为97以上。 [关键词] 动态网页IE核心DOM提取模式1简介垂直搜索引擎只抓取与主题相关的网页,同时必须在缩小搜索范围的前提下对网页进行更深的抓取,包括占网页总数的比例越来越大的动态网页. 目前的网络爬虫一般无法抓取动态网页。为了解决动态网页的抓取问题,同时只抓取与主题相关的动态网页,本文提出了一种面向垂直搜索引擎的抓取。获取动态网页的方法基于IEInternetExplorer核心和DHTML对象模型[1]利用DHTML对象模型提取页面中收录的页面元素信息,获取动态网页相关的网页元素信息。每个网页元素对应于 IE 核心的 MSHTML 组件中的一个界面。对应界面的操作实现了网页的自动填充。相关链接或查询按钮的自动点击模拟用户在浏览器上浏览网页的行为。数据库交互动态生成的主题网页 2 基于 IE core 和 DOM 的动态网页抓取方法 21 IE core 和 DOM 介绍 功能参考 [1] 给出了 IE 架构,其中 WebBrowser 组件、MSHTML 组件、URLMon 组件和 WinInet 位于底层是IE的核心。在该方法中,这些IE内核用于模拟用户在网页中查找和点击链接或按钮的动作,以触发浏览器下载网页MSHTML可以读取和显示HTML网页。DOM 是在 MSHTML 组件中定义的。[2] DocumentObjectModel 封装了 HTML 语言中的所有元素和属性。DOM 模型中的每个元素都有对应的对象和接口。这些接口的操作是访问指定网页中的所有元素。22 模拟浏览操作,获取动态网页。动态页面需要执行aspphpjspnet等程序生成客户端网页代码。静态网页的网址以html超链接的形式直接嵌入到客户端网页中。目前已知的 HTML 文件中的网络爬虫程序可以轻松抓取相应的页面。[3] 仔细研究网页的结构和HTML语言发现,在指定网页中获取动态网页的方式主要有两种: 1 用按钮点击后提供的界面网页元素的形式图片等。需要在客户端执行相应的一段脚本代码,动态生成URL2查询接口,用户填写表单提交查询到服务器,服务端返回动态生成的查询结果页面,无论采用哪种方式,都是从浏览器用户Forms或者鼠标点击的角度来填写,所以只要找到需要填写的表单元素以获取指定网页上需要点击的动态页面或按钮图标等元素,然后操作相关元素模拟用户在浏览器中的各种填写形式或点击操作实现自动浏览,最后下载动态页面到本地抓取到23。生成提取方式定位相关元素。IE 核心的 MSHTML 组件定义了 DOM。网页中的每个元素通过IE对应DOM树的一个节点。内核支持 DOM 树。每一个指定的网页对应一棵DOM树,因此在网页中搜索元素转化为元素在DOM树中对应节点的位置和搜索。为了通过一个或多个指定的示例网页,学习抓取所有此类结构相似的网页。必须生成提取模式。使用生成的提取方式提取所有相似的网页,获取动态网页的网页元素信息。在DHTMLDOM模型的支持下,可以对应收录需要提取的信息的网页元素。搜索网页的类别,会得到属于该类别的所有元素的集合,然后在该集合中找到提取信息所在的网页元素。为了找到提取的信息所在的具体元素,您可以识别网页元素的属性,例如nameid或网页元素的其他属性。如valuehref等方法定位时这些方法无法区分网页元素。最后,可以通过表示网页元素的标签中的文本内容来进行识别。辅助生成工具*敏*感*词*生成抽取模式,然后进入抽取模式作为爬取配置信息进入网络爬虫。网络爬虫WebCrawler仅在抽取模式的引导下定位和查找与动态生成的主题网页相关的网页 表单中的文本输入元素或可点击按钮图片等元素信息,然后通过定位到的网页元素对应的界面对元素进行操作,执行自动填表和自动点击功能触发网页抓取,集成IE核心组件WebBrowser fetcher执行客户端脚本代码并发送请求到服务器下载对应的主题网页。服务器响应该请求,将动态生成的页面返回给抓取器,以最终抓取提取方式确定的对应的主题网页。3 实验验证方便评估预先设置一些垂直的站点位置,具有层次结构网站 动态网页从网页提供的查询条目的爬取深度为4,最大爬取5500页。使用本文提出的IE核心并与之结合。辅助生成工具的网页爬取方法的准确率采集 目标页面数 ö 总爬取次数超过95,远优于大多数系统采用的分类器方法展示。本文采用的方法的召回率是召回率。Rate 采集 目标页面数 ö 目标页面总数达到97左右,而分类器方法一般只有70左右。 4 结论 本文重点介绍垂直搜索引擎网络爬取的关键技术——动态网络爬取-深入研究在IE核心事件激发机制和DOM支持的基础上,提出了一种新的方法。自动浏览功能是通过自动填写表单并模拟用户在浏览器上点击鼠标,然后抓取动态网页来实现的。实验表明,该方法在构建辅助生成工具的基础上*敏*感*词*生成爬取配置信息,使用基于IE核心主题网页的爬取方法可以有效爬取动态网页参考[1]internetexplorerdevelopmentMSDNdevelopment2Center[DBöOL]httpööwwwmsdn2comözh-cnöieödefaulten-usaspx2007-03[2]DocumentObjectModelW3CRecommendation1998[DBöOL]httpö-wwww8ölöl [3]AllanHeydonMarcNajorkMercatorAscalabelex2tensibleWebCrawler[J]WorldWideWeb199924219-229502科技信息计算机与网络目标页面数平均爬行总数在95以上,比大多数系统使用的分类方法要好很多。本文方法的召回率是采集 目标页面数 ö 目标页面总数达到97左右,分类器方法一般只有70左右。4 结束语 本文在深入研究垂直搜索引擎网络爬虫的关键技术——动态网络爬虫的基础上,提出了一种新的方法。此方法由 IE 核心中的事件激发。DOM的机制和支持通过在浏览器上自动填写表单,模拟用户鼠标点击,然后抓取动态网页,实现自动浏览功能。实验表明,该方法基于辅助生成工具的构建和基于IE的抓取配置信息的*敏*感*词*生成。核心主题网页爬取方法可有效爬取动态网页引用[1]internetexplorerdevelopmentMSDNdevelopment2Center[DBöOL]httpööwwwmsdn2comözh-cnöieödefaulten-usaspx2007-03[2]DocumentObjectModelW3CRecommendation1998[DBöOL]httpööwwww3orgöT-Röwwww3orgöT-10REC-DOMLevelww8 3]AllanHeydonMarcNajorkMercatorAscalabelex2tensibleWebCrawler[J]WorldWideWeb199924219-229502科技信息计算机与网络目标页面数平均爬行总数超过95个,比大多数系统使用的分类方法好很多。本文方法的召回率是采集 目标页面数 ö 目标页面总数达到97左右,分类器方法一般只有70左右。4 结束语 本文在深入研究垂直搜索引擎网络爬虫的关键技术——动态网络爬虫的基础上,提出了一种新的方法。此方法由 IE 核心中的事件激发。DOM的机制和支持通过在浏览器上自动填写表单,模拟用户鼠标点击,然后抓取动态网页,实现自动浏览功能。实验表明,该方法基于辅助生成工具的构建和基于IE的抓取配置信息的*敏*感*词*生成。核心主题网页爬取方法可有效爬取动态网页引用[1]internetexplorerdevelopmentMSDNdevelopment2Center[DBöOL]httpööwwwmsdn2comözh-cnöieödefaulten-usaspx2007-03[2]DocumentObjectModelW3CRecommendation1998[DBöOL]httpööwwww3orgöT-Röwwww3orgöT-10REC-DOMLevelww8 3]AllanHeydonMarcNajorkMercatorAscalabelex2tensibleWebCrawler[J]WorldWideWeb199924219-229502科技信息计算机与网络目标页面总数ö目标页面总数达到97左右,分类器方法一般只有70左右的一种新方法。该方法利用IE内核的事件触发机制和对DOM的支持,通过自动填写表单并模拟用户在浏览器上的鼠标点击来实现自动浏览功能,然后抓取动态网页。使用基于IE核心的主题网页爬取方法自动生成爬取配置信息,可有效爬取动态网页引用[1]internetexplorerdevelopmentMSDNdevelopment2Center[DBöOL]httpööwwwmsdn2comözh-cnöieödefaulten-usaspx2007-03[2]DocumentObjectModelW3CRecommendation19örorg[1] RöREC-DOM-Level-1ö1998-10[3]AllanHeydonMarcNajorkMercatorAscalabelex2tensibleWebCrawler[J]WorldWideWeb199924219-229502科技信息计算机与网络目标页面总数ö目标页面总数达到97左右,分类方法一般只有70左右一种新方法。该方法利用IE内核的事件触发机制和对DOM的支持,通过自动填写表单,模拟用户在浏览器上鼠标点击,然后抓取动态网页来实现自动浏览功能。使用基于IE核心的主题网页爬取方法自动生成爬取配置信息,可有效爬取动态网页引用[1]internetexplorerdevelopmentMSDNdevelopment2Center[DBöOL]httpööwwwmsdn2comözh-cnöieödefaulten-usaspx2007-03[2]DocumentObjectModelW3CRecommendation19örorg[1] RöREC-DOM-Level-1ö1998-10[3]AllanHeydonMarcNajorkMercatorAscalabelex2tensibleWebCrawler[J]WorldWideWeb199924219-229502科技信息计算机与网络 s 鼠标点击浏览器,然后抓取动态网页。使用基于IE核心的主题网页爬取方法自动生成爬取配置信息,可有效爬取动态网页引用[1]internetexplorerdevelopmentMSDNdevelopment2Center[DBöOL]httpööwwwmsdn2comözh-cnöieödefaulten-usaspx2007-03[2]DocumentObjectModelW3CRecommendation19örorg[1] RöREC-DOM-Level-1ö1998-10[3]AllanHeydonMarcNajorkMercatorAscalabelex2tensibleWebCrawler[J]WorldWideWeb199924219-229502科技信息计算机与网络 s 鼠标点击浏览器,然后抓取动态网页。使用基于IE核心的主题网页爬取方法自动生成爬取配置信息,可有效爬取动态网页引用[1]internetexplorerdevelopmentMSDNdevelopment2Center[DBöOL]httpööwwwmsdn2comözh-cnöieödefaulten-usaspx2007-03[2]DocumentObjectModelW3CRecommendation19örorg[1] RöREC-DOM-Level-1ö1998-10[3]AllanHeydonMarcNajorkMercatorAscalabelex2tensibleWebCrawler[J]WorldWideWeb199924219-229502科技信息计算机与网络

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线