htmlunit抓取动态网页(搜索引擎来说静态页面的优点和html结尾有什么区别?)

优采云 发布时间: 2022-02-22 04:23

  htmlunit抓取动态网页(搜索引擎来说静态页面的优点和html结尾有什么区别?)

  首先,原则上我们要知道,静态页面对于搜索引擎来说绝对是最好的,具有最快的抓取和响应速度。另外,伪静态链接本质上是动态链接,只是动态链接是通过相应的算法规则伪装的。进入静态链接,htm或者html结束页面一般都是静态或者伪静态页面。本站采用伪静态处理,一小部分是我自己写的静态页面。zblog 主题静态插件可以在商店中找到并使用。

  

  一、动态链接地址(例如 /?13.sd234554 )

  一般来说,带有问号等参数的链接可以称为动态链接。与程序开发相比,这一步一般都会做。

  优点:占用空间很小,使用动态页面时文件会很小,因为数据是从数据库中调出来的。如果需要修改某个具体的值,可以直接在数据库上修改,然后所有的动态页面都会自动更新。现在,服务器的数据占用会很小,特别是一些大公司平台本身的数据量是企业级的。

  (据我所知,很多b2b平台每次生成一个页面都需要几个小时来更新缓存)

  缺点:由于需要进行计算,用户访问速度较慢,动态页面的数据是从数据库中获取的。如果访问者数量很大,对数据库的压力就会很大。虽然目前的动态程序大多使用缓存技术,但总的来说,动态页面对服务器的压力更大。同时,动态页面的网站一般对服务器有更高的要求,同时访问的人越多,对服务器的压力就越大。另外,对于搜索引擎来说,动态页面是非常不友好的,所以也会有爬取和收录,但是相比其他静态和伪静态,还是少了很多。很多懂SEO的公司都会做伪静态处理。.

  二、静态链接地址(例如 /2343.html )

  优点:与其他两种动态和伪静态页面相比,静态页面的访问速度最快,而且访问时不需要从数据库中调用数据,不仅访问速度快,而且不会造成服务器上的任何压力。

  缺点:由于数据全部存储在HTML中,文件数据非常大。更严重的是,如果需要更改,必须更改所有源代码,而不仅仅是一个地方。而如果是很大的网站,就会有很多数据,占用大部分服务器空间资源,每次添加内容都会生成一个新的静态页面。它比动态和伪静态更麻烦。

  三、伪静态链接地址

  优点:结合了动态链接和静态链接,主要是让搜索引擎把自己的网页当成静态页面

  缺点:如果流量有轻微波动,使用伪静态会导致CPU使用率超载。由于伪静态使用的是正则判断而不是真实地址,所以区分显示哪个页面的职责也是直接指定并转交给CPU,所以CPU占用的增加确实是伪静态最大的缺点。

  总结:我个人建议小网站单页,以后很少更新。可以使用静态页面。如果批量多或大网站建议使用伪静态页面,而动态页面适合无搜索引擎爬取。对于注册、会员等功能,对于需要登录的功能,建议使用动态页面。

  PS:如果肉眼无法判断是静态页面还是伪静态怎么办?我们可以在谷歌浏览器(360也可以使用谷歌内核)、火狐浏览器等中按crtl+shift+j打开控制台,在控制台输入alert()代码,记录当前页面的时间,然后重新输入一遍,并再次记录时间,如果每次时间都不一样,则可以判断该页面是伪静态页面。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线