浏览器抓取网页(一个获取目标页面的方法、装置、搜索引擎和浏览器技术)
优采云 发布时间: 2022-02-16 05:13浏览器抓取网页(一个获取目标页面的方法、装置、搜索引擎和浏览器技术)
本发明专利技术提供了一种获取目标页面的方法、装置、搜索引擎和浏览器,该方法包括:搜索引擎抓取接收到的统一资源定位符(URL)对应的基础页面和该目标页面的脚本。基本页面;对抓取的基础页面和脚本进行分析,生成多个基础页面对应的状态路径并收录动态信息,并使用生成的状态路径来抓取目标页面;其中,状态路径包括:基本页面的URL、基本页面中生成动态信息的文档对象模型(DOM)事件的位置信息以及该DOM事件对应的回调函数的索引。
下载所有详细的技术数据
【技术实现步骤总结】
本专利技术涉及互联网技术,具体涉及一种获取目标页面的方法、装置、搜索引擎和浏览器II/T PLP。
技术介绍
随着网络的飞速发展,互联网已经成为海量信息的载体,如何有效地提取和利用这些信息成为了巨大的挑战。作为帮助人们检索信息的工具,搜索引擎成为用户访问互联网的门户和指南。网络爬虫(Spider)是一种自动提取网页的程序,是搜索引擎的重要组成部分。传统的网络爬虫从一个或多个初始网页的统一资源定位符(URL)开始,抓取该URL的基本页面,解析当前基本页面内容得到目标页面的URL,并进行数据处理,包括建立页面摘要后,将快照、索引和存储返回给浏览器供用户选择。然而,传统网络爬虫在获取目标页面的URL时,只能爬取静态页面。但是,随着互联网技术的不断发展,页面的内容已经从以前的静态方式变成了动态方式来生成数据。传统的网络爬虫技术显然无法满足这种过渡要求,无法爬取页面的动态内容。
技术实现思路
本专利技术提供了一种获取目标页面的方法、装置、搜索引擎和浏览器,使得搜索引擎在搜索目标页面时能够抓取页面中的动态内容。具体技术方案如下: 一种获取目标页面的方法,该方法包括以下步骤A、获取接收到的Uniform Resource Locator URL对应的基本页面和该基本页面的脚本;B、对抓取分析的基本页面和脚本,生成多个与收录动态信息的基本页面对应的状态路径,并使用生成的状态路径来抓取目标页面;其中,状态路径包括基本页面的URL,基本页面中生成动态信息的文档对象模型DOM事件的位置信息和DOM事件对应的回调函数索引。其中,步骤B具体包括在基础页面和脚本的爬取过程中,下载各个DOM节点,在下载的DOM节点上依次执行步骤B11~B13,执行步骤B14,直到所有DOM节点下载完成. ; B11、判断当前下载的DOM节点是否为脚本标签,如果是,则对下一个下载的DOM节点进行步骤B11,否则,执行步骤B12;B12、判断当前下载到达的DOM节点是否收录DOM事件和回调函数,如果没有,则转到步骤B11到下一次下载到的DOM节点,如果是,执行步骤B13;DOM事件产生状态路径,产生的状态路径保存在状态路径队列中,进入步骤B11到下一个下载的DOM节点;B14、获取状态队列中每个状态路径一一对应 目标页面判断是否出现新的页面内容或页面跳转,确定生成新页面内容或页面跳转的状态路径为对应的状态路径到基本页面。
或者,步骤B具体包括:下载基本页面和脚本获取过程中的各个DOM节点,对下载的DOM节点依次执行步骤B21~B23,直至所有DOM节点下载结束。B21、判断当前下载的DOM节点是否为脚本标签,如果是,则转到下一个下载的DOM节点执行步骤B21,否则执行步骤B22;B22、判断当前下载的DOM节点是否收录DOM事件和回调函数,如果没有,则转到下一次下载的DOM节点执行步骤B21,如果是,执行步骤B23;B24、获取状态路径对应的目标页面,判断是生成新的页面内容还是生成页面跳转。如果是这样,确定状态路径为基本页面对应的状态路径,将Go to step B21下载到到达的DOM节点;否则转到步骤 B21 到下一个下载的 DOM 节点。上述方式中,判断是否发生页面跳转包括如果获取到的目标页面和基础页面的URL不同,则确定发生了页面跳转。具体地,判断是否生成新的页面内容包括将获取的目标页面与基础页面进行句子签名或字符串比较,如果比较结果表明目标页面和基础页*敏*感*词*有不同的页面内容,则确定为生成新的页面内容。或者,计算获取的目标页面与基础页面的相似度,
其中,DOM事件的位置信息包括DOM节点标识、DOM节点的路径Xpath和DOM事件标识。进一步地,在步骤B之后,该方法还包括C、存储步骤B生成的基本页面对应的状态路径和抓取的目标页面的快照,建立并存储目标页面的索引。一种获取目标页面的方法,基于上述方法,包括:在接收到浏览器的搜索请求后,将搜索请求中收录的关键词与存储的目标页面的索引进行匹配,匹配匹配到的目标页面 将对应的状态路径收录在搜索结果中并返回给浏览器,供浏览器通过用户选择的状态路径获取对应的目标页面。此外,搜索结果还可以包括匹配的目标页面的快照信息。在接收到浏览器返回的用户选择的目标页面的快照信息后,将相应的目标页面快照返回给浏览器。进一步的,将匹配的目标页面对应的状态路径收录在搜索结果中返回给浏览器后,该方法还包括,在接收到浏览器发送的用户选择状态路径后,根据用户选择的状态路径向目标页面站点发送目标页面请求,以便目标页面站点将目标页面推送到浏览器。一种获取目标页面的方法,该方法包括:浏览器向搜索引擎发送搜索请求后,接收搜索引擎返回的收录状态路径的搜索结果;根据用户选择的状态路径向目标页面站点发送目标页面请求;接收目标页面站点推送的目标页面;9.其中,收录状态路径的搜索结果是由搜索引擎通过权利要求8所述的方法返回的。
一种目标页面获取装置,该装置包括第一抓取单元,用于抓取接收到的统一资源定位符URL对应的基础页面和基础页面的脚本;分析单元,对第一爬取单元捕获的基本页面和脚本进行分析,生成与收录动态信息的基本页面对应的一个或多个状态路径;其中,状态路径包括基本页面的URL和在基本页面中产生动态信息的文档对象。模型DOM事件的位置信息和DOM事件对应的回调函数索引;第二抓取单元,用于利用分析单元生成的状态路径抓取目标页面。其中,分析单元具体包括第一判断模块、第二判断模块、第一路径生成模块和第一路径确定模块;第一个爬取单元是在基本页面及其脚本的爬取过程中。下载每个DOM节点,将当前下载的DOM节点发送给第一判断模块,直到所有DOM节点下载完成后,发送确认通知给第一路径判断模块;第一判断模块,用于判断当前下载的DOM节点是否为脚本标签,如果是,则触发第一抓取单元下载下一个DOM节点,否则,向第二判断模块发送判断通知。第二判断模块,用于判断当前下载的DOM节点是否收录DOM事件和回调函数,如果没有,触发第一抓取单元下载下一个DOM节点,如果是,则向第一路径生成模块发送执行通知;第一路径生成模块,用于接收到执行通知后,使用当前下载的DOM节点生成状态路径,并将生成的状态路径保存在状态路径队列中,触发第一抓取单元下载下一个DOM节点;第一路径确定模块,用于在接收到确定通知时,触发第二抓取单元逐一获取状态队列中各状态路径对应的目标页面,根据第二抓取单元的获取结果判断是否有新的页面内容或页面跳转发生,将新的页面内容或发生页面跳转的状态路径确定为基本页面对应的状态路径。具体地,分析单元可以包括第三判断模块、第四判断模块、第二路径生成模块和第二路径确定模块。
【技术保护点】
一种获取目标页面的方法,其特征在于,该方法包括以下步骤: A、对接收到的统一资源定位符URL对应的基本页面和基本页面的脚本进行爬取。B.爬取基本页面和基本页面。脚本分析生成多个基本页面对应的状态路径并收录动态信息,并使用生成的状态路径抓取目标页面;其中,状态路径包括:基本页面的URL,以及基本页面中生成的动态信息。文档对象模型DOM事件的位置信息和DOM事件对应的回调函数索引。
【技术特点总结】
一种获取目标页面的方法,其特征在于,该方法包括以下步骤: A、获取接收到的统一资源定位符URL对应的基本页面和基本页面的脚本。B、检索基本页面和脚本分析,生成多个收录动态信息的基本页面对应的状态路径,并使用生成的状态路径抓取目标页面;其中,状态路径包括基本页面的URL、在基本页面中生成动态信息的文档对象、模型DOM事件的位置信息和DOM事件对应的回调函数索引。2.根据权利要求1所述的方法,其特征在于,所述步骤B具体包括:下载基础页面和脚本爬取过程中的各个DOM节点,依次对下载的DOM节点B11~B13执行上述步骤,完成所有DOM节点的下载后,执行步骤B14。B11、判断当前下载的DOM节点是否为脚本标签,如果是则执行步骤B11下载下一个DOM节点,否则执行步骤B12;B12、判断当前下载的DOM节点是否收录DOM事件和回调函数,如果没有,则转到下一步下载的DOM节点,如果是,则执行步骤B13;B13、利用下载到的DOM节点当前收录的DOM事件产生状态路径,产生的状态路径保存在状态路径队列中,对下载到的DOM节点进行步骤B11下一个; B14、
3.根据权利要求1所述的方法,其特征在于,所述步骤B具体包括:在基本页面和脚本的爬取过程中,下载各个DOM节点,在下载的DOM节点B21~B23上依次执行上述步骤,直至结束。所有 DOM 节点的下载;B21、判断当前下载的DOM节点是否为脚本标签,如果是,则执行步骤B21到下一个下载的DOM节点,否则执行步骤B22;B22、判断当前下载的DOM节点是否收录DOM事件和回调函数,如果没有,则转到下一步下载的DOM节点执行步骤B21,如果是,执行步骤B23;B23、@ >使用当前下载的DOM节点中收录的DOM事件生成状态路径;B24、获取状态路径对应的目标页面,判断是生成新的页面内容还是生成页面跳转,如果是,则判断状态路径为基本页面对应的状态路径,下一个下载的DOM节点进行步骤B21;否则,下一个下载的DOM节点进入步骤B21。4.如权利要求2或3所述的方法,其特征在于,判断是否发生页面跳转包括:如果获取的目标页面和基本页面的URL不同,则确定发生页面跳转。5.根据权利要求2或3所述的方法,其特征在于,判断是否生成新的页面内容包括:将获取的目标页面与基本页面进行句子签名或字符串比较。结果表明目标页面和基础页面的页面内容不同,则确定生成新的页面内容;
6.根据权利要求1至3任一项所述的方法,其特征在于,所述DOM事件的位置信息包括DOM节点标识、DOM节点的路径Xpath、DOM事件标识。7.根据权利要求1至3中任一项所述的方法,其特征在于,在步骤B之后,该方法还包括C,存储步骤B生成的基本页面对应的状态路径和快照目标页面,建立并存储目标页面的索引。8.一种获取目标页面的方法,其特征在于,在根据权利要求7所述的方法之后,在接收到浏览器的搜索请求后,将搜索请求中收录的关键词与存储索引一起存储目标页面的匹配,将匹配的目标页面对应的状态路径收录在搜索结果中并返回给浏览器,以便浏览器通过用户选择的状态路径获取对应的目标页面。9.如权利要求8所述的方法,其特征在于,所述搜索结果还包括匹配的目标页面的快照信息。接收到浏览器返回的用户选择的目标页面的快照信息后,将对应目标页面的快照返回给浏览器。1.根据权利要求8所述的方法,其特征在于,将匹配的目标页面对应的状态路径收录在搜索结果中并返回给浏览器后,该方法还包括接收发送的用户选择状态路径后通过浏览器,
11.一种获取目标页面的方法,其特征在于,该方法包括:浏览器向搜索引擎发送搜索请求后,接收搜索引擎返回的收录状态路径的搜索结果;根据用户选择的状态路径,向目标页面站点发送目标页面请求;接收目标页面站点推送的目标页面;9.其中,收录状态路径的搜索结果是由搜索引擎通过权利要求8所述的方法返回的。12.一种目标页面获取装置,其特征在于,该装置包括第一抓取单元,用于抓取接收到的统一资源定位符URL对应的基础页面和基础页面的脚本;分析单元,用于分析第一爬取单元捕获的基本页面和脚本,生成与收录动态信息的基本页面对应的一个或多个状态路径;其中,状态路径包括基本页面的URL、在基本页面中产生动态信息的文档对象模型DOM事件的位置信息以及DOM事件对应的回调函数索引。第二抓取单元,用于利用分析单元生成的状态路径抓取目标页面。1.根据权利要求12所述的装置,其特征在于,所述分析单元具体包括第一判断模块、第二判断模块、第一路径生成模块和第一路径确定模块;一个爬取单元在对基本页面及其脚本的爬取过程中下载每个DOM节点...
【专利技术性质】
技术研发人员:潘云红,
申请人(专利权)持有人:,
类型:发明
国家省份:11[中国|北京]
下载所有详细的技术数据 我是该专利的所有者