python抓取动态网页(2.利用selenium+phantomJS模拟浏览器来抓取动态(图))

优采云发布时间: 2022-01-04 01:10

　　网页分为静态网页和动态网页。静态网页就是我们平时爬取的网页，但也有一些网页来自动态网页。比如今日头条的网站就是动态的。遵循静态网页的方法。爬行是不可能的。所以我们要学习如何从动态网页中提取信息。

　　网页抓取主要有两种方式：

　　1.找到动态网页的请求地址

　　2.使用selenium+phantomJS模拟浏览器抓取动态网页

　　今天讲第一种方法，后面会写一篇文章文章讲解第二种方法。

　　（提示：这里有个福利：关注转发后可以私聊获取python基础、python web开发、python爬虫、机器学习、数据挖掘、深度学习等信息）

　　今天的内容主要包括几个方面：

　　如何区分静态网页和动态网页-如何获取动态网页的真实请求地址-一个简单的动态网页抓取示例

　　下面解释：

　　1.如何区分静态网页和动态网页

　　有两个主要区别：

　　首先看网页是否有语法；

　　其次看网页中的内容是否与网页框架中的内容相匹配。

　　如何打开网页的语言代码？

　　方法：（1）按[win+F12]会弹出一个页面（2）在弹出的页面中找到[元素]，点击查看网页语法代码。< /@1） p>

　　静态网页识别示例说明（以知乎网站为例）：

　　第一：静态网页上一般没有的语法，如下图：

　　第二：网页的语法代码对应网页上的内容，如下图：

　　动态网页识别示例说明（以今日头条网站为例）：

　　第一：动态网页的语法必须如下图所示：

　　动态网页的语法

　　第二：网页的语法代码与网页内容不对应（找不到任何文字对应），如下图：

　　找不到文字对应

　　至此，读者已经掌握了静态和动态网站的区别。判断一个网页的动态和静态是基于上面解释的两种方法。

　　2.如何获取动态网页的真实请求地址（以今日头条为例）：

　　方法步骤如下：

　　(1）按【win+F12】，找到【网络】，点击

　　(2）找到【XHR】，点击【win+F5】刷新

　　(3）左下角[name]对应的focus/等就是网页内容的存储位置，比如我们点击focus/项，点击[预览]在【名称】的右边，然后点击中间的【数据】，会弹出如下网页的文字，发现文字内容对应新闻、社会、娱乐、体育、军事、名人内容在电脑端标题顶部图标。

　　(4）对于动态内容的抓取，找到动态网页的请求地址很重要。方法：在[名称]右侧找到[headers]，点击，可以看到[Request] below URL]，这个URL就是请求的URL，如下图：

　　3.一个简单的动态网络爬虫示例（爬取热门搜索的标题和链接）：

　　今天教大家如何爬取动态网页的内容，并用少量代码告诉大家一个简单的例子，帮助初学者或没学过的朋友快速理解和掌握。

　　抓取以下 [pc_hot_search] 搜索最多的内容：

　　(1）示例代码如下：

　　(2）运行结果截图：

　　注意：作者代码中[Test Only]的输出非常重要。我们可以根据输出结果状态分析下一段代码是如何编写或布局的。记住作者教你的不是代码示例项目，而是教你如何分析问题，让你有潜在的编程思维。

　　有时候你会发现自己想做一个项目，不看教程文档就无法开始。是什么原因？

　　这是因为你没有这种分析和思考如何写代码。

　　今天的内容到此结束。喜欢的朋友关注转发一波。更多精彩内容等着你。希望今天的内容对读者有所帮助。

0

2022-01-04

python抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

python抓取动态网页(2.利用selenium+phantomJS模拟浏览器来抓取动态(图))

0 个评论

发起人