网页内容抓取工具(易用的抓取工具怎么使用?首先你需要创建一个对应站点的规则文件)

优采云 发布时间: 2021-10-19 23:02

  网页内容抓取工具(易用的抓取工具怎么使用?首先你需要创建一个对应站点的规则文件)

  这是一个非常简单易用的爬虫工具

  怎么用?首先需要创建一个站点对应的规则文件,比如testsite.yaml

  action: main name: "vc*敏*感*词*" subaction: - action: fetcher url: http://www.verycd.com/base/cartoon/page${1,1}${0,9} subaction: - action: parser rule: .entry_cover_list li subaction: - action: shell group: default subaction: - {action: parser, rule: '.entry_cover .cover_img', setField: img} - {action: parser, rule: 'a', pos: 0, attr: href, setField: src} - {action: parser, strip: 'true', rule: '.entry_cover .score', setField: score} - {action: parser, rule: '.bio a', setField: dest} - action: fetcher url: http://www.verycd.com${#src} subaction: - {action: parser,strip: 'true', rule: '#contents_more', setField: description}

  然后将其作为代码中的任务添加到 railgun

  from railgun import RailGun railgun = RailGun() railgun.setTask(file("testsite.yaml")); railgun.fire(); nodes = railgun.getShells('default') print nodes

  那么就可以得到一个收录所有解析数据的节点列表[{img:xxx,src:xxx,score:xxx,dest:xxx,description:xxx},{img:xxx,src:xxx, score: xxx,dest:xxx,描述:xxx}]

  项目主页:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线