htmlunit抓取动态网页(静态网页和动态网页主要根据网页制作的语言来区分)
优采云 发布时间: 2021-12-27 14:05htmlunit抓取动态网页(静态网页和动态网页主要根据网页制作的语言来区分)
静态网页和动态网页主要根据网页的制作语言来区分。
☑ 静态网页语言:HTML,如图1.1。
图1.1 静态网页显示的URL
☑ 动态网页使用的语言:HTML+ASP、HTML+PHP或HTML+JSP等,如图1.2。
图1.2 动态网页显示的网址
动态网页的程序都是在服务器端运行,最后将运行结果返回给客户端浏览器进行显示。静态网页是预先制作好的,通过服务器直接传递给客户端浏览器。
静态网页和动态网页各有特点。网站采用动态网页还是静态网页,主要取决于网站的功能需求和网站内容的数量。如果网站功能比较简单,内容更新量不是很大,采用纯静态网页的方式会更简单,相反,采用动态网页技术来实现。
简而言之,静态网页具有以下特点:
☑ 静态网页的每个网页都有一个固定的网址,网页网址后缀为.htm、.html、.shtml等常见形式,不收录
“?”。
☑ 网页内容一旦发布到网站服务器上,无论是否有用户访问,每个静态网页的内容都会保存在网站服务器上。也就是说,静态网页是一个实际保存在服务器上的文件。网页是一个独立的文件。
☑ 静态网页内容相对稳定,容易被搜索引擎检索到。
☑ 静态网页没有数据库支持,网站制作和维护的工作量比较大。因此,在网站信息量较大的情况下,难以单纯依靠静态网页*敏*感*词*式。
☑ 静态网页交互性较差,在功能上有较大局限。
动态网页具有以下特点:
☑ 动态网页基于数据库技术,可大大减少网站维护工作量。
☑ 使用动态网页技术的网站可以实现更*敏*感*词*。例如用户注册、用户登录、在线调查、用户管理、订单管理等。
☑ 动态网页实际上并不是独立存在于服务器上的网页文件。服务器仅在用户请求时才返回完整的网页。
☑ “?” 在动态网页中给搜索引擎检索带来了一定的问题。搜索引擎一般无法访问一个网站的数据库中的所有网页,或者出于技术考虑,搜索蜘蛛不会抓取网址“?” “后者的内容,所以使用动态网页的网站在被搜索引擎推广时需要做一定的技术处理,以满足搜索引擎的要求。
静态网页是网站建设的基础。静态网页和动态网页并不矛盾。为了使网站适应搜索引擎的需要,即使采用动态网站技术,也可以将网页内容转换为静态网页进行发布。
动态网站也可以采用动静结合的原则。使用动态网页的地方适合使用动态网页。如果必须使用静态网页,可以考虑静态网页相关图片由静态网页实现。动态网页内容和静态网页内容在同一个网站上共存是很常见的。