动态网页抓取((19)中华人民共和国国家知识产权局(12)申请(10)申请公布号CN106055619A)

优采云 发布时间: 2022-04-14 14:42

  动态网页抓取((19)中华人民共和国国家知识产权局(12)申请(10)申请公布号CN106055619A)

  crawling 获取待爬取网页的url及其优先级并存储在至少两个队列中,根据至少两个队列中存储的url优先级进行调度;接收至少两个队列中的调度元素,获取要解析的元素的url;根据调度队列元素的url,解析得到网页的内容。本发明可以同时根据优先级调度爬取解析过程和链接的url,从而保证高优先级的网页优先爬取;通过至少两个队列的调度,提高了出队和进入网页的效率,时间复杂度为logN,大大提高了网页的爬取效率。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线