从网页抓取数据(本发明公开了一种的访问策略基于IP级的网页)
优采云 发布时间: 2022-01-06 08:08从网页抓取数据(本发明公开了一种的访问策略基于IP级的网页)
摘要:本发明公开了一种在网站中从多个不同IP的服务器抓取网页的方法和系统。本发明首先为客户端的网页抓取任务分配目标网站服务器IP。网页抓取任务包括要抓取的网页的网页地址;礼貌的访问条件;如果满足,则使用该IP与服务器建立连接,并从服务器抓取该网页地址的网页。本发明的访问策略基于IP级别,更容易控制采集工作线程礼貌地访问网站;通过缓存DNS,同时使用多个IP,优先分配最快的IP,极大地提高了网页抓取效率;当目标 网站
抽象的:
申请人:
申请人:UNIV PEKING FOUNDER GROUP CO; 北京大学;北京方正电子*敏*感*词*
地址:北京市海淀区成府路100871号*******(隐藏)
发明人(设计师):
发明人:李向军;于晓明;杨建武;吴新丽
主要分类号:H04L29/08(2006.01)I
分类号: