网页内容抓取工具(易用的抓取工具怎么使用？首先你需要创建一个对应站点的规则文件)

优采云发布时间: 2021-10-19 23:02

　　网页内容抓取工具(易用的抓取工具怎么使用？首先你需要创建一个对应站点的规则文件)

　　这是一个非常简单易用的爬虫工具

　　怎么用？首先需要创建一个站点对应的规则文件，比如testsite.yaml

　　action: main name: "vc*敏*感*词*" subaction: - action: fetcher url: http://www.verycd.com/base/cartoon/page${1,1}${0,9} subaction: - action: parser rule: .entry_cover_list li subaction: - action: shell group: default subaction: - {action: parser, rule: '.entry_cover .cover_img', setField: img} - {action: parser, rule: 'a', pos: 0, attr: href, setField: src} - {action: parser, strip: 'true', rule: '.entry_cover .score', setField: score} - {action: parser, rule: '.bio a', setField: dest} - action: fetcher url: http://www.verycd.com${#src} subaction: - {action: parser,strip: 'true', rule: '#contents_more', setField: description}

　　然后将其作为代码中的任务添加到 railgun

　　from railgun import RailGun railgun = RailGun() railgun.setTask(file("testsite.yaml")); railgun.fire(); nodes = railgun.getShells('default') print nodes

　　那么就可以得到一个收录所有解析数据的节点列表[{img:xxx,src:xxx,score:xxx,dest:xxx,description:xxx},{img:xxx,src:xxx, score: xxx,dest:xxx,描述:xxx}]

　　项目主页：

0

2021-10-19

网页内容抓取工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页内容抓取工具(易用的抓取工具怎么使用？首先你需要创建一个对应站点的规则文件)

0 个评论

发起人

AI时代内容工厂

网页内容抓取工具(易用的抓取工具怎么使用？首先你需要创建一个对应站点的规则文件)

0 个评论

发起人

相关问题