如何更新网站内容(网页判断更细没有固定套路(简易信息聚合)(图))
优采云 发布时间: 2022-02-11 03:17如何更新网站内容(网页判断更细没有固定套路(简易信息聚合)(图))
RSS(Simple Information Syndication),一种基于XML格式的内容打包和传递协议,可用于同步网页内容,目前适用于博客、新闻等。
这种想法的问题在于,并非所有 网站 都提供 RSS 提要。虽然有无所不能的 rsshub,但 rsshub 也需要开发者自己维护。
想法 3:If-Modified-Since 状态码
if-Modified-Since:如果对应的内容没有被修改,则允许返回 304 Not Modified ( 304 Not Modified ) 维基百科,
示例:If-Modified-Since:1994 年 10 月 29 日星期六 19:43:31 GMT
if-Modified-Since 可以用于网页缓存,它是 HTTP 头的一部分,如果 HTTP 响应有 Last-Modified 头,缓存可以使用 If-Modified-Since 头进行条件请求查看如果它改变了。
这个想法的工作原理如下:
1 第一次请求一个网页并在本地爬取,假设文件名为a.html。此时,文件系统具有文件的修改时间。
2 第二次访问网页。如果发现本地已经存在a.html,发送If-Modified-Since请求到服务器。将a.html的修改时间写入请求中。
3 如果网页更新,服务器会返回200响应,然后重新爬取网页并更新本地文件。
4 如果网页没有更新,服务器会返回 304 响应。此时无需更新文件。
这种思路的问题在于,这种方法适用于更新静态网页,但不适用于从服务器动态获取数据的动态网页。
思路四:网页内容相似度比较
这里的网页内容是指网页的正文内容,不包括流量等非关键区域的文字。
网上提供的方法是网页指纹+汉明距离的算法。两个网页的汉明距离越大,变化越大。汉明距离的大小需要根据实际情况进行调整。
总结
网页的判断没有固定的套路。需要根据项目和网站的情况选择合适的方法进行判断。