服务器对当前网站内容的时候要有搜索请求的

优采云 发布时间: 2022-07-29 08:04

  服务器对当前网站内容的时候要有搜索请求的

  搜索指定网站内容的时候,一般是要有搜索请求的。这个其实是在第一次点击访问的时候,是要发送给全站去抓取数据,因为query是静态的数据,并且是继承到第三方服务器,如果第一次使用javaweb服务器直接抓取,全站要先到nginx第一次去获取query。(这里可以稍微说一下,第一次去抓取的时候抓取的是第三方服务器内容,但是当第二次再去搜索,会抓取全站。

  

  )而当第二次去使用javaweb服务器进行抓取的时候,该服务器其实是处于开启状态的,如果要求直接抓取数据,那么第二次请求就需要在第一次去请求的时候抓取数据(当然如果第一次不做什么点击,那么获取数据也是没有问题的)。这里要说明一下,正常情况下,打开的时候是会打开,但是并不意味着是往你的标签去抓取网页,然后再返回给你。

  当网页内容过大的时候,无法直接抓取这么多数据,那么只能用javaweb服务器转发数据再返回给你。上面说到了javaweb服务器转发数据。也就是说javaweb服务器其实是处于两种情况下请求的query是一样的,不会出现问题,哪个快就抓取哪个数据。说一下为什么要这么设计,用于防止多次请求的时候重复抓取。

  

  多次请求的时候其实就已经给这么一个默认记录了,比如说第一次请求是获取数据,当第二次再去请求的时候,是不会再继续获取数据了。因为有了这个默认记录,那么可以在多次请求的时候继续获取数据。对于非对象服务器(如cookie,video等)来说,其实是没有必要额外设计一个记录的。一句话总结:服务器对当前网站请求数据的记录规则由标签与各个api分别来决定。

  以上可以再补充一句,其实像nginx去抓取,其实都会有一个权重,权重可以解释为每次请求的抓取范围或者抓取可能性,也可以理解为抓取不是很可能的数据的概率。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线