如何更新网站内容(网页判断更细没有固定套路(简易信息聚合)(图))

优采云 发布时间: 2022-02-11 03:17

  如何更新网站内容(网页判断更细没有固定套路(简易信息聚合)(图))

  RSS(Simple Information Syndication),一种基于XML格式的内容打包和传递协议,可用于同步网页内容,目前适用于博客、新闻等。

  这种想法的问题在于,并非所有 网站 都提供 RSS 提要。虽然有无所不能的 rsshub,但 rsshub 也需要开发者自己维护。

  想法 3:If-Modified-Since 状态码

  if-Modified-Since:如果对应的内容没有被修改,则允许返回 304 Not Modified ( 304 Not Modified ) 维基百科,

  示例:If-Modified-Since:1994 年 10 月 29 日星期六 19:43:31 GMT

  if-Modified-Since 可以用于网页缓存,它是 HTTP 头的一部分,如果 HTTP 响应有 Last-Modified 头,缓存可以使用 If-Modified-Since 头进行条件请求查看如果它改变了。

  这个想法的工作原理如下:

  1 第一次请求一个网页并在本地爬取,假设文件名为a.html。此时,文件系统具有文件的修改时间。

  2 第二次访问网页。如果发现本地已经存在a.html,发送If-Modified-Since请求到服务器。将a.html的修改时间写入请求中。

  3 如果网页更新,服务器会返回200响应,然后重新爬取网页并更新本地文件。

  4 如果网页没有更新,服务器会返回 304 响应。此时无需更新文件。

  这种思路的问题在于,这种方法适用于更新静态网页,但不适用于从服务器动态获取数据的动态网页。

  思路四:网页内容相似度比较

  这里的网页内容是指网页的正文内容,不包括流量等非关键区域的文字。

  网上提供的方法是网页指纹+汉明距离的算法。两个网页的汉明距离越大,变化越大。汉明距离的大小需要根据实际情况进行调整。

  总结

  网页的判断没有固定的套路。需要根据项目和网站的情况选择合适的方法进行判断。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线