可采集文章(可采集文章的页面地址或者是抓取文章中的每个网页)

优采云发布时间: 2022-04-07 11:00

　　可采集文章的页面地址或者是抓取文章中的每个网页，都需要知道页面地址，这样我们才能知道这个页面有多少行，也就是文章的总字数。在python中采用selenium获取页面地址有两种方式：1）seleniumdriver的方式：这种方式需要配置，通过采用webdriver.webdriver.chromedriver驱动来获取页面地址。

　　在操作过程中有两种url形式：list-down、get，如下面：可以看到list-down的，也就是从1-99的页面中获取页面地址；get的时候就是从网站url的后面获取地址。2）selenium.executable.browserdriver.open()的方式：使用这种方式，就不需要配置，通过单独安装一个驱动，操作的时候也是从网页中获取，只是从网页的url后面获取地址。

　　#-*-coding:utf-8-*-importseleniumimporttimeimporttimedriver=webdriver.chrome()driver.get('')#在请求url上必须要有要在url后面加冒号，比如获取时加:8888driver.get(':8888')#.format(':8888')#判断url是否是xml格式的，还要判断网页的路径，是否有链接地址selenium.executable.browserdriver.open('')#验证的文件路径是driver.quit()withdriver.quit()asselenium:text=selenium.quit()获取页面地址就这么简单。

0

2022-04-07

可采集文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

可采集文章(可采集文章的页面地址或者是抓取文章中的每个网页)

0 个评论

发起人

AI时代内容工厂

可采集文章(可采集文章的页面地址或者是抓取文章中的每个网页)

0 个评论

发起人

相关问题