抓取网页音频(哪些网页才是重要性高的呢?如何定义链接欢迎度为IB)

优采云 发布时间: 2021-11-02 17:17

  抓取网页音频(哪些网页才是重要性高的呢?如何定义链接欢迎度为IB)

  也称为“页面选择问题”(page Selection),通常是尽可能先抓取重要的网页,以确保在有限的资源内尽可能多地照顾到最重要的网页。那么哪些页面最重要?如何量化重要性?

  重要性度量由链接流行度、链接重要性和平均链接深度确定。

  将链接流行度定义为IB(P),主要由backinks的数量和质量决定。先看号码。直观地说,一个网页指向它的链接越多(反向链接的数量越多),其他网页就会识别它。同时,该网页被网民访问的机会更大,推测其重要性会更高;其次,如果是由更重要的网站引导,其重要性会更高。如果不考虑质量,就会有局部最优而不是全局最优。最典型的是作弊网页,在某些网页上人为设置大量反策略链接指向自己的网页,以增加网页的重要性。如果不考虑链接质量,

  定义链接重要性为IL(P),它是URL字符串的函数,只检查字符串本身。链接重要性主要采用一些方式,例如收录“.COM”或“HOME”的URL被认为更重要,斜线较少的URL被认为更重要。

  定义平均链接深度为 ID(P),由作者创建。ID(P)是指在一组*敏*感*词*站点中,如果每个*敏*感*词*站点都有一个链接(广度优先遍历规则)到达该网页,那么平均链接深度是该网页的另一个重要指标。因为离*敏*感*词*站点越近,访问的机会就越多,离*敏*感*词*站点越远,重要性越低。其实按照广度优先遍历规则,这样重要的网页先被爬取就可以满足了。

  最后,定义网页重要性的指标是I(P),由上述两个量化值线性决定,即:

  I(P)=a*IB(P)+β*IL(P)

  平均链接深度由宽度优先遍历规则保证,因此不用作重要性评估的指标。在抓取能力有限的情况下,尽可能多抓取最重要的网页是合理和科学的,而用户最终查询到的网页往往是重要性高的网页。

  虽然这看起来已经足够完美了,但实际上还是忽略了一个重要的 element-time。时间通向万维网的动态一面。如何抓取那些新添加的网页?如何重新访问那些被修改过的页面?如何找到已删除的页面?为了跟上万维网网页的变化,必须有网页重访策略。该策略可以识别三种类型的网页更改:添加、修改和删除网页。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线