可采集文章(可采集文章的页面地址或者是抓取文章中的每个网页)
优采云 发布时间: 2022-04-07 11:00可采集文章(可采集文章的页面地址或者是抓取文章中的每个网页)
可采集文章的页面地址或者是抓取文章中的每个网页,都需要知道页面地址,这样我们才能知道这个页面有多少行,也就是文章的总字数。在python中采用selenium获取页面地址有两种方式:1)seleniumdriver的方式:这种方式需要配置,通过采用webdriver.webdriver.chromedriver驱动来获取页面地址。
在操作过程中有两种url形式:list-down、get,如下面:可以看到list-down的,也就是从1-99的页面中获取页面地址;get的时候就是从网站url的后面获取地址。2)selenium.executable.browserdriver.open()的方式:使用这种方式,就不需要配置,通过单独安装一个驱动,操作的时候也是从网页中获取,只是从网页的url后面获取地址。
#-*-coding:utf-8-*-importseleniumimporttimeimporttimedriver=webdriver.chrome()driver.get('')#在请求url上必须要有要在url后面加冒号,比如获取时加:8888driver.get(':8888')#.format(':8888')#判断url是否是xml格式的,还要判断网页的路径,是否有链接地址selenium.executable.browserdriver.open('')#验证的文件路径是driver.quit()withdriver.quit()asselenium:text=selenium.quit()获取页面地址就这么简单。