python抓取动态网页(2.利用selenium+phantomJS模拟浏览器来抓取动态(图))

优采云 发布时间: 2022-01-04 01:10

  python抓取动态网页(2.利用selenium+phantomJS模拟浏览器来抓取动态(图))

  网页分为静态网页和动态网页。静态网页就是我们平时爬取的网页,但也有一些网页来自动态网页。比如今日头条的网站就是动态的。遵循静态网页的方法。爬行是不可能的。所以我们要学习如何从动态网页中提取信息。

  网页抓取主要有两种方式:

  1.找到动态网页的请求地址

  2.使用selenium+phantomJS模拟浏览器抓取动态网页

  今天讲第一种方法,后面会写一篇文章文章讲解第二种方法。

  (提示:这里有个福利:关注转发后可以私聊获取python基础、python web开发、python爬虫、机器学习、数据挖掘、深度学习等信息)

  今天的内容主要包括几个方面:

  如何区分静态网页和动态网页-如何获取动态网页的真实请求地址-一个简单的动态网页抓取示例

  下面解释:

  1.如何区分静态网页和动态网页

  有两个主要区别:

  首先看网页是否有语法;

  其次看网页中的内容是否与网页框架中的内容相匹配。

  如何打开网页的语言代码?

  方法:(1)按[win+F12]会弹出一个页面(2)在弹出的页面中找到[元素],点击查看网页语法代码。< /@1) p>

  静态网页识别示例说明(以知乎网站为例):

  第一:静态网页上一般没有的语法,如下图:

  

  第二:网页的语法代码对应网页上的内容,如下图:

  

  动态网页识别示例说明(以今日头条网站为例):

  第一:动态网页的语法必须如下图所示:

  

  动态网页的语法

  第二:网页的语法代码与网页内容不对应(找不到任何文字对应),如下图:

  

  找不到文字对应

  至此,读者已经掌握了静态和动态网站的区别。判断一个网页的动态和静态是基于上面解释的两种方法。

  2.如何获取动态网页的真实请求地址(以今日头条为例):

  方法步骤如下:

  (1)按【win+F12】,找到【网络】,点击

  (2)找到【XHR】,点击【win+F5】刷新

  

  (3)左下角[name]对应的focus/等就是网页内容的存储位置,比如我们点击focus/项,点击[预览]在【名称】的右边,然后点击中间的【数据】,会弹出如下网页的文字,发现文字内容对应新闻、社会、娱乐、体育、军事、名人内容在电脑端标题顶部图标。

  

  (4)对于动态内容的抓取,找到动态网页的请求地址很重要。方法:在[名称]右侧找到[headers],点击,可以看到[Request] below URL],这个URL就是请求的URL,如下图:

  

  3.一个简单的动态网络爬虫示例(爬取热门搜索的标题和链接):

  今天教大家如何爬取动态网页的内容,并用少量代码告诉大家一个简单的例子,帮助初学者或没学过的朋友快速理解和掌握。

  抓取以下 [pc_hot_search] 搜索最多的内容:

  

  (1)示例代码如下:

  

  (2)运行结果截图:

  

  注意:作者代码中[Test Only]的输出非常重要。我们可以根据输出结果状态分析下一段代码是如何编写或布局的。记住作者教你的不是代码示例项目,而是教你如何分析问题,让你有潜在的编程思维。

  有时候你会发现自己想做一个项目,不看教程文档就无法开始。是什么原因?

  这是因为你没有这种分析和思考如何写代码。

  今天的内容到此结束。喜欢的朋友关注转发一波。更多精彩内容等着你。希望今天的内容对读者有所帮助。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线