网站改版 内容排序( :网站更新监测方法及系统(信息源)(组图))

优采云 发布时间: 2021-10-03 22:33

  网站改版 内容排序(

:网站更新监测方法及系统(信息源)(组图))

  监控系统更新内容的方法及*敏*感*词*法

  【技术领域】

  [0001] 本发明涉及互联网数据处理领域,尤其涉及一种更新内容的监控方法及系统。

  【背景技术】

  [0002] 随着互联网的飞速发展,当今社会已经进入全面信息时代。各种网站如春后雨。到2011年底,中国网民规模达到4.85亿,位居全球第一,网页数量超过600亿W,而且这些网页还在不断变化更新,近40个% 的网页将在一周内更新。监控网站的更新,从豪漫信息海洋中获取最需要、最新的内容,长期以来一直是信息时代公众的迫切需求。

  [0003] RSS(Really Simple Syndication)阅读器应该算是更新监控领域最成功的产品了。它的发明给人们带来了极大的便利,加快了人们获取信息的速度。速度快,节省大量时间和精力。RSS阅读器是一种软件或程序。用户可以添加各种类型的网站、博客(云这些网站或博客都可以称为频道),并接受RSS提要(信息源)的最新内容。RSS feeds其实是网站或博客开发者提供的XMU Extensible Markup Language(可扩展标记语言)文件,其中收录很多Item(项)。项目是一条新闻或一篇博客文章。摘要、上次更新时间等。每当频道有新内容时,RSS 提要文件就会有新项目,并且会同时推送给添加了RSS提要的阅读器,用户可以在阅读器上接收各个频道的最新信息。用户从W之前主动浏览大量网站变成了被动接收大量感兴趣的网站的最新信息。另外还有使用MD5算法(Message Digest Algorithm 5,Message Digest Algorithm 5)判断前后两个网页的内容是否有变化,然后对网站实施更新监控方法. 还有浏览器的“消息框”。用户添加消息框支持的微博、邮箱、博客、新闻网等后,更新时会弹出提醒。点击提醒查看具体更新内容。

  [0004] 由于订阅源的限制,RSS订阅严重影响了订阅频道的范围。对于不提供RSS提要的频道,RSS阅读器显得无能为力。并且由于版权、信息保护、维护成本等原因,很多网站不提供RSS提要,RSS阅读器无法订阅。报购的“留言箱”也是如此,只支持部分网站。MD5算法虽然对监控网页更新有效,但由于只能判断一定时间间隔内是否有变化,无法获取变化的内容,因此不实用;并且网页内容的任何微小变化都会导致 MD5 不同的值,例如数字、标点符号、

  [发明概要]

  [0005] 本发明的目的在于提供一种网站更新内容监控方法及系统,以解决现有网站更新监控方法存在的网站局限性和准确性低的问题和系统监控技术问题。

  [0006] 为实现上述目的,本发明提供了一种网站内容更新监控方法,包括以下步骤:

  [0007] S2:估计待测网站的更新频率,并存储待测网站的更新时间间隔;

  [0008] S4:在每个间隔的更新时间间隔的时间点获取待测试的网站的网页内容;

  [0009] S6:从获取的网页内容中提取条目的文本值;

  [0010] S8:将本次获取的网页内容中提取的条目的文本值与上次获取的网页内容中提取的条目的文本值进行比较;

  [0011] Sio:通过比较,计算出文本值发生变化的项目。

  [0012] 作为本发明方法的进一步改进:

  [0013] 优选地,在完成步骤S6之后,该方法还包括:

  [0014] S7:将本次获取的网页内容条目存储到数据库中。

  [0015] 除第一次外,在每次执行步骤S时,将从当前网页内容中提取的条目的文本值与从数据库中存储的最后一个网页内容中提取的条目的文本值进行比较。比较的。

  [0016] 优选地,在完成步骤S10之后,该方法还包括:

  [0017] S12:计算出文本值变化的词条后,存储文本值变化的词条,并根据词条的发布或修改时间对文本值变化的词条进行排序,返回给用户。

  [0018] 优选地,步骤S6中从获取的网页内容中提取条目的文本值包括以下步骤:

  [0019] S601:提取获取的网页内容,去除网页内容中的网页标签和链接,保留网页内容中所有超链接的文本值。

  [0020] 优选地,步骤S8将当前网页内容中提取的条目的文本值与上次计算出的网页内容中提取的条目的文本值进行比较,包括以下步骤:

  [0021] S801:将本次获取的网页内容中提取的条目的文本值与上次获取的网页内容中提取的条目的文本值进行比较,通过字符串比较的方式找出当前字符串以及所有最后一个字符串中最长的公共子序列;

  [0022] S802:根据找到的所有最长公共子序列,分别回溯匹配各个最长公共子序列,得到当前字符串与最后一个字符串的差值;

  [0023] S803:选择差异部分插入新内容引起的差异部分,并与最后一个字符串匹配:

  [0024] S804A:当最后一个字符串中存在新内容插入引起的差异部分时,确定新内容插入引起的差异部分不是新内容,插入新内容引起的差异部分新内容排除W部分和对应回溯匹配的匹配结论;

  [0025] S804B:当最后一个字符串中不存在新内容插入引起的差异部分时,确定新内容插入引起的差异部分插入了新内容,差异部分由插入新内容引起的保留并存储回溯匹配的匹配结论。

  [0026] 优选地,在步骤S801中,采用字符串比较的方法找出当前字符串和前一字符串中所有的最长公共子序列,查找方法如下:

  [0027] 当前字符串和最后一个字符串分别用字符串A和字符串B表示,执行以下步骤:

  [00%] S8011:用A(l:i)表示长度为m的串A的连续子序列A[1]A[2]...A[i],用B(l:j)表示表示长度是n的字符串B的连续子序列B[1ization[2]....8。'], ^化)表示所有长度为k的最长公共子序列与字符串4(1:.. 2 3… m 1 L(IJ) L{1,2) L(l,3) ... L(l. News) 2 null L 货2) L port,< @3)...L口。新闻)

  [0029] 3 null null L (3,3) ..... U3,m)??? ?.?'?. ??????>:?? T null null null null L( t,m) l+l null imll。地柳我!大甲

  [0030] 其中,Uk, i)=LKk), l[0031] S8012: 对于矩阵,1^1, 3), (3[0032] S8013: 对于每个对角元素Uk, I),化>l,i>l),如果Uk-l,il)不是零点或虚点,且1 -14-1) [0033] 作为一般技术思想,本发明还提供了一种网站更新内容的监控系统,包括:

  [0034] 预算模块用于估计待测网站的更新频率,并存储待测网站的更新时间间隔;

  [0035] 网络爬虫用于在每个间隔的更新间隔的时间点获取待测网页的内容网站;

  [0036] 去噪模块用于从获取的网页内容中提取条目的文本值;

  [0037] 比较计算模块,用于将本次获取的网页内容中提取的条目的文本值与上次获取的网页内容中提取的条目的文本值进行比较。和

  [0038] 匹配模块用于通过比较获得文本值发生变化的项目。

  [0039] 作为本发明系统的进一步改进,

  [0040] 监测系统还包括:

  [0041] 存储模块用于在数据库中存储当前网页内容条目。

  [0042] 监测系统还包括:

  [0043] 排序模块用于在计算文本值改变的条目后存储文本值改变的条目,并根据条目的发布或修改时间对文本值改变的条目进行排序,然后返回给用户。

  [0044] 比较计算模块包括:

  [0045] LCS计算单元,用于将本次获取的网页内容中提取的条目的文本值与上次获取的网页内容中提取的条目的文本值进行比较,采用字符串比较的方法找出当前第二次的字符串和上一次的字符串中的最长公共子序列;

  [0046] 匹配单元用于查找所有最长公共子序列

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线