动态网页抓取((19)中华人民共和国国家知识产权局(12)申请(10)申请公布号CN106055619A)
优采云 发布时间: 2022-04-14 14:42动态网页抓取((19)中华人民共和国国家知识产权局(12)申请(10)申请公布号CN106055619A)
crawling 获取待爬取网页的url及其优先级并存储在至少两个队列中,根据至少两个队列中存储的url优先级进行调度;接收至少两个队列中的调度元素,获取要解析的元素的url;根据调度队列元素的url,解析得到网页的内容。本发明可以同时根据优先级调度爬取解析过程和链接的url,从而保证高优先级的网页优先爬取;通过至少两个队列的调度,提高了出队和进入网页的效率,时间复杂度为logN,大大提高了网页的爬取效率。