c 抓取网页数据(全部详细技术资料下载【技术实现步骤摘要】(一))
优采云 发布时间: 2022-03-19 23:21c 抓取网页数据(全部详细技术资料下载【技术实现步骤摘要】(一))
本发明专利技术实施例公开了一种基于C/S架构浏览器的数据传输方法,包括:根据客户端的网页访问请求,从网络获取被请求网页的页面数据,其中,页面数据包括网页的所有源内容和网页的图片文件;对得到的网页的源内容进行排版处理,对得到的网页的图片文件进行优化处理;根据预设的二进制传输协议,对排版处理后的源内容和优化处理后的图像文件进行二进制数据编码,将编码后的二进制数据包传输给客户端。相应地,本发明专利技术的实施例还公开了一种服务器。采用本发明专利技术,可以大大减少客户端与排版引擎服务器之间的数据传输流量,提高传输效率,提升用户体验。
下载所有详细的技术数据
【技术实现步骤总结】
本专利技术涉及无线互联网领域,具体涉及一种基于C(Client,client)/S(Server,server)架构浏览器的数据传输方法及服务器。
技术介绍
C/S 架构是客户端和服务器端的架构。它是一种软件系统架构。可以充分利用两端硬件环境的优势,将任务合理分配给两端执行,降低了系统的通信开销。排版引擎服务器负责获取网页内容(包括源代码和图片等),整理信息,计算网页的显示方式,然后输出到客户端进行显示或打印。所有 Web 浏览器、电子邮件客户端和其他需要编辑和显示 Web 内容的应用程序都需要排版引擎服务器进行排版。现有的基于C/S架构浏览器的数据传输方案主要是基于客户端浏览器的类型,
专利技术人员发现,现有基于C/S架构浏览器的数据传输方案主要存在以下缺陷1、用户体验低。在 HTML 到 ML 或 XHTML-MP 的转换过程中,无法准确有效地转换 HTML 中的样式表信息,通常的处理方法会破坏原创页面的视觉效果,如背景图片和颜色、字体颜色等。客户端渲染可能很乏味并降低用户体验。2、传输效率低。由于HTML页面直接转换传输,客户端与排版引擎服务器之间的数据传输流量大,传输效率低。3、客户端性能要求高,并且客户端渲染复杂度很高。现有的数据传输方案需要客户端有硬件(例如客户端是WAP手机)或软件(客户端配备WAP浏览器)的支持。“重服务器端,轻客户端”的架构趋势。为了避免上述缺陷,可以使用预定义的数据传输协议进行数据传输。基于C/S架构浏览器的数据传输协议是C/S架构浏览器开发中最重要的部分之一。它是客户端和服务器之间的桥梁。协议定义的质量与网络直接相关。流量大小和客户端的渲染效果,特别是对于资源有限的中低端客户端,数据传输协议的定义直接关系到客户端浏览器的用户体验。因此,如何平衡客户端呈现的复杂性、传输的数据量和交互性来定义数据传输协议来实现基于C/S架构浏览器的数据传输方案是一个亟待解决的问题。
技术实现思路
本专利技术实施例要解决的技术问题是提供一种基于C/S架构浏览器的数据传输方法及服务器,能够大大减少客户端与排版引擎服务器之间的数据传输流量,提高传输效率,提升用户体验。为了解决上述技术问题,本专利技术实施例提供了一种基于C/S架构浏览器的数据传输方法,包括根据用户的网页访问请求,从网络上获取被请求网页的页面数据。客户端,使页面数据包括网页的源内容和网页的图片文件;对得到的网页的源内容进行排版处理,对得到的网页的图片文件进行优化处理;根据预设的二进制传输协议,对排版处理后的源内容和优化后的图像文件的二进制数据进行编码,并将编码后的二进制数据包传输给客户端。其中,对获取的网页源内容进行排版处理包括:解析网页源内容,生成DOM(Document Object Model,文档对象模型)树,DOM树包括网页节点和属性和数据;对DOM树进行布局排版,得到网页的渲染树,渲染树包括网页节点和网页节点的排版信息、属性和数据。序列化网页节点。属性和数据,并将序列化后的属性和数据存储在渲染数据文件中;将网页节点的排版信息和网页节点的属性和数据的序列化信息存储在渲染树文件中。
其中,对获取的网页图片文件进行优化处理包括过滤图片文件中的广告图片信息、修剪图片文件大小、压缩图片文件、缩小图片文件大小。图片文件中的颜色数量,图片文件转换为高压缩率存储格式的任意一个或多个图片文件。其中,在从网络获取请求访问的网页的页面数据之前,还包括预先设置二进制传输协议;资源包括图像文件和/或网页的源内容。网页的源内容包括网页的各个标签和各个标签的属性数据;网页节点与网页的标签一一对应。相应地,本专利技术实施例还提供了一种服务器,包括获取单元,用于根据客户端的网页访问请求,从网络获取所请求网页的页面数据,该页面数据包括:网页。网页的源内容和图片文件;排版单元,用于对获取单元获取的网页的源内容进行排版处理;图像处理单元,用于对获取单元得到的网页的图片文件进行优化编码单元用于对排版单元排版处理后的源内容和图片处理单元根据优化处理后的图片文件进行二进制数据编码到预设的二进制传输协议;将编码单元编码后的二进制数据包发送给客户端。
其中,排版单元包括解析单元,用于解析网页的源内容生成DOM树,DOM树包括网页节点和网页节点的属性和数据。布局排版单元,用于根据解析单元解析出的DOM树进行布局排版得到网页的渲染树,渲染树包括网页节点和网页的排版信息、属性和数据节点; 序列化单元用于对排版单元得到的网页节点的属性和数据进行序列化;第一存储单元,用于将序列化单元序列化后的属性和数据存储在渲染数据文件中。第二存储单元,用于将布局排版单元得到的网页节点的排版信息和序列化单元对渲染树文件中的网页节点的属性和数据进行序列化后的序列化信息进行存储。其中,图片处理单元包括图片过滤单元,用于过滤图片文件中的广告图片信息。和/或图片修剪单元,用于修剪图片文件的大小;和/或,图片压缩单元,用于压缩图片文件;和/或,图片优化单元,用于减少图片文件的颜色数据,并将图片文件转换为高压缩率存储格式的图片文件。其中,所述服务器还包括预设单元,用于预设二进制传输协议。
其中,服务器为排版引擎服务器。实施本专利技术实施例具有以下有益效果1、通过对网页源内容进行排版处理,优化网页图像文件,按照预设的二进制传输协议,将处理后的源内容被处理。将图像文件数据编码成二进制数据包进行传输,大大减少了客户端与排版引擎服务器之间的数据传输流量,大大节省了客户端的资源需求和响应时间,提高了传输效率;2、服务器端对网页的页面数据进行排版和优化,
【技术保护点】
一种基于C/S架构浏览器的数据传输方法,其特征在于,包括:根据客户端的网页访问请求,从网络获取所请求网页的页面数据,所述页面数据包括所述网页的来源。网页内容及网页图片文件;对获取的网页的源内容进行排版处理,对获取的网页的图像文件进行优化处理;根据预设的二进制传输协议,进行排版处理,对源内容和优化后的图像文件进行二进制数据编码,将编码后的二进制数据包传输给客户端。
【技术特点总结】
【专利技术性质】
技术研发人员:齐小龙、李成良、杨木香、张国良、余恒兵、
申请人(专利权)持有人:Aspire Digital Technology,
类型:发明
国家、省、市:94 [中国|深圳]
下载所有详细的技术数据 我是该专利的所有者