从网页抓取数据(本发明公开了一种的访问策略基于IP级的网页)

优采云 发布时间: 2022-01-06 08:08

  从网页抓取数据(本发明公开了一种的访问策略基于IP级的网页)

  摘要:本发明公开了一种在网站中从多个不同IP的服务器抓取网页的方法和系统。本发明首先为客户端的网页抓取任务分配目标网站服务器IP。网页抓取任务包括要抓取的网页的网页地址;礼貌的访问条件;如果满足,则使用该IP与服务器建立连接,并从服务器抓取该网页地址的网页。本发明的访问策略基于IP级别,更容易控制采集工作线程礼貌地访问网站;通过缓存DNS,同时使用多个IP,优先分配最快的IP,极大地提高了网页抓取效率;当目标 网站

  抽象的:

  申请人:

  申请人:UNIV PEKING FOUNDER GROUP CO; 北京大学;北京方正电子*敏*感*词*

  地址:北京市海淀区成府路100871号*******(隐藏)

  发明人(设计师):

  发明人:李向军;于晓明;杨建武;吴新丽

  主要分类号:H04L29/08(2006.01)I

  分类号:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线