动态网页抓取(用RSelenium打造灵活强大的网络爬虫(youtobe+XML) )
优采云 发布时间: 2022-03-11 16:02动态网页抓取(用RSelenium打造灵活强大的网络爬虫(youtobe+XML)
)
关于基础网络数据爬取相关内容,本公众号做了很多分享,尤其是R语言的爬虫框架(RCurl+XML/httr+rvest[xml2+selectr])形成了比较丰富的教程体系。
但是这一切都是基于静态页面(抓包和API访问除外),而很多动态网页并没有提供API访问,所以我们只能希望selenium是基于浏览器驱动的技术来完成的。
幸运的是,R语言中已经有了一个selenium接口包,即RSelenium包,它让我们爬取动态网页成为可能。今年年初,我给实习生网站写了一个爬虫,是用Rwebdriver完成的,Rwebdriver是另一个R语言基于selenium驱动的接口包。
实习僧招聘网络爬虫数据可视化
当时技术还不成熟,想法也比较幼稚。我用导航器突然遍历了 500 页的内容。虽然最后全部数据都爬完了,但是耗时比较长(将近40分钟),效率也比较低。(有兴趣的朋友可以参考上面的文章,不过练习生和尚官网最近大改版,现在爬的难度肯定比以前难多了!那个代码可能不可用)
最近抽空学习了RSelenium包的相关内容。在此感谢陈延平先生在 R 语言上海会议上的“用 RSelenium 构建灵活强大的 Web Crawler”的演讲。,其中的一些细节解决了我最近的一些困惑,在此感谢。
陈彦平老师讲课:《用RSelenium搭建灵活强大的网络爬虫》 一个老外关于RSelenium的介绍视频(各位青年请自行出国网站):
目前有几个R语言可以解析动态网页的包(欢迎补充):
本节以下内容正式分享今天的案例,目标是拉钩网(不要问为什么,因为我之前没有爬过钩)!
在介绍案例之前,请确保系统具备以下条件:
本地有selenium服务器,添加系统路径;本地有一个plantomjs浏览器并添加系统路径;RSelenium 软件包已安装。
因为涉及到自动点击操作,Chrome浏览器整个下午都在点击链接失败,找到原因,是因为拉钩页面很长,而且下一页按钮不在默认窗口内,还有js脚本用于控制滑块。失败了,原因不明,看到有人用firefox浏览器测试成功,我还没试过,这里我用的是plantomjs无头浏览器(不用考虑元素是否被窗口挡住了。)
R语言版本:
#!!!这两句是在cmd后者PowerShell中运行的!
#RSelenium服务未关闭之前,请务必保持该窗口状态!
###启动selenium服务:
cd D:\
java -jar selenium-server-standalone-3.3.1.jar
##selenium服务器也可以直接在R语言中启动(无弹出窗口)
system("java -jar \"D:/selenium-server-standalone-2.53.1.jar\"",wait = FALSE,invisible = FALSE)
#加载包
library("RSelenium")
library("magrittr")
library("xml2")
启动服务
#给plantomjs浏览器伪装UserAgent
eCap % xml_text(trim=TRUE)
#职位所述行业
position.industry % read_html() %>% xml_find_all('//div[@class="industry"]') %>% xml_text(trim=TRUE) %>% gsub("[[:space:]\\u00a0]+|\\n", "",.)
#职位福利
position.bonus % read_html() %>% xml_find_all('//div[@class="list_item_bot"]/div[@class="li_b_l"]') %>% xml_text(trim=TRUE) %>% gsub("[[:space:]\\u00a0]+|\\n", "/",.)
#职位工作环境
position.environment% read_html() %>% xml_find_all('//div[@class="li_b_r"]') %>% xml_text(trim=TRUE)
#收集数据
mydata% xml_find_all('//div[@class="page-number"]/span[1]') %>% xml_text() !="30"){
#如果页面未到尾部,则点击下一页
remDr$findElement('xpath','//div[@class="pager_container"]/a[last()]')$clickElement()
#但因当前任务进度
cat(sprintf("第【%d】页抓取成功",i),sep = "\n")
} else {
#如果页面到尾部则跳出while循环
break
}
}
#跳出循环后关闭remDr服务窗口
remDr$close()
#但因全局任务状态(也即任务结束)
cat("all work is done!!!",sep = "\n")
#返回最终数据
return(myresult)
}
运行抓取功能
<p>url