如何抓取网页flash(如何抓取网页中的动态网页源码中特定的特定内容)
优采云 发布时间: 2022-03-30 17:05如何抓取网页flash(如何抓取网页中的动态网页源码中特定的特定内容)
背景
很多时候,很多人需要在网络上抓取一些特定的内容。
但是,除了之前介绍的内容之外,您还想从某些静态网页中提取某些内容,例如:
[教程] Python版本爬行网络并提取网页所需的信息
和
[教程] C#版本爬行网络并提取来自网页所需的信息
另外,有些人会发现自己要抓取的网页内容不在网页的源代码中。
所以,在这一点上,我不知道该怎么做。
在这里,我们来解释一下如何爬取所谓的动态网页中的特定内容。
必备知识
在阅读本文之前,您需要具备相关的基础知识:
1.爬取网页,模拟登录等相关逻辑
如果您不熟悉它,则可以参考:
[组织]爬网网页的逻辑/过程和预防措施,分析网页内容和模拟登录网站
2.学会使用工具,例如IE9的F12,抓住相应的网页执行过程
对于那些不熟悉的人,请参阅:
[教程]教导您如何使用工具(IE9 2)的f1来分析模拟登录的内部逻辑进程网站(百度首页))
3.对于正常的静态网页,如何提取所需内容
对于那些不熟悉的人,您可以参考:
(1) python版本:
[教程] Python版本爬行网络并提取网页所需的信息
(2) c#版本:
[教程] C#版本爬行网络并提取来自网页所需的信息
什么是动态网页
这里所谓的动态网页是相对于那些静态网页而言的。
这里所说的静态网页是指通过浏览器查看网页源代码时,你看到的网页源代码中的内容与网页上显示的内容相对应。
也就是说,当我想得到某个网页上显示的内容时,我可以通过查找网页的源代码找到对应的部分。
动态网页,相反,如果要获取动态网页中的具体内容,直接查看网页源代码是找不到的。
动态网页中的动态内容从何而来?
所以,这里有一个问题:
所谓动态网页中的动态内容从何而来?
一般来说,它是通过其他方式生成或获取的。
据我所知,有几个:
由本地 Javascript 脚本生成
如果你用IE9的F12来分析访问一个url的过程,你会发现很可能涉及到,
在网页正常完整显示之前,这段时间会访问很多javascript脚本,简称js脚本或js。
这些js脚本实现了很多动态的交互内容。
其中,对于一些你想抓取的内容,有时候,这些js脚本是动态执行的,最后计算出来的。
通过访问另一个url地址获得
很多时候,有些内容是访问另一个url地址后返回的数据;
如何获取我要抓取的动态内容
其实对于如何爬取需要的动态内容,简单来说,有一个解决方案:
根据您通过工具分析的结果,查找相应的数据并提取它;
但是,有时可以直接在分析结果的过程中提取该数据,有时它可以通过JS计算。
想要抓住数据,它由JS脚本生成
虽然由JS脚本执行生成最终动态内容,但是对于您要刮的数据:
想要通过访问另一个URL来获得刮除数据
如果要抓住的相应内容是访问另一个URL地址和返回的数据,那么它非常简单,还需要访问此URL,然后获取相应的返回内容,从中提取您想要的数据。
总结
同一句话,不管你访问的内容是如何生成的,最后你还是可以用工具来分析对应的内容是如何从零开始生成的。
然后用代码模拟这个过程,最后提取出你需要的内容;
具体示例演示见:
【教程】以网易博文的最新读者信息为例,教大家如何抓取动态网页的内容。