网页中flash数据抓取(以糗事百科网站数据为例(解析json.6+pycharm5))

优采云发布时间: 2021-10-21 00:02

　　这里是一个简单的介绍。以捕获网站静态和动态数据为例。实验环境为win10+python3.6+pycharm5.0。主要内容如下：

　　抓取网站的静态数据（数据在网页源码中）：以尴尬百科网站的数据为例

　　1.这里假设我们抓取的数据如下，主要包括用户昵称、内容、搞笑数、评论数4个字段，如下：

　　对应的网页源码如下，里面收录了我们需要的数据：

　　2. 对应网页结构，主要代码如下，很简单，主要使用requests+BeautifulSoup，其中requests用于请求页面，BeautifulSoup用于解析页面：

　　程序截图如下，已成功抓取数据：

　　抓取网站的动态数据（数据不在网页源代码中，而是在json等文件中）：以人人贷网站的数据为例

　　1. 这里假设我们正在爬取债券数据，主要包括年利率、贷款标题、期限、金额、进度5个字段。截图如下：

　　当你打开网页的源代码时，你会发现数据并不在网页的源代码中。按F12抓包分析时，可以在一个json文件中找到，如下：

　　2. 得到json文件的url后，我们就可以爬取相应的数据了。这里使用的包与上面的类似。因为是json文件，所以也用到了json包（解析json）。主要内容如下：

　　程序截图如下，已经成功抓取数据：

　　至此，这两种数据的抓取到此结束，包括静态数据和动态数据。总的来说，这两个例子并不难。它们都是入门级爬虫。网页结构比较简单。最重要的是做抓包分析，分析提取页面。熟悉之后就可以使用scrapy了。数据爬取的框架可以更方便、更高效。当然，如果抓取到的页面比较复杂，比如验证码、加密等，这个时候就需要仔细分析了。网上也有一些教程可以参考。如果你有兴趣，可以搜索一下，希望上面分享的内容对你有所帮助。

　　前几天写了一个爬虫，使用path、re、BeautifulSoup来爬取B站python视频，但是这个爬虫有一个缺陷，就是无法获取视频的图片信息，你试一下就会发现它根本没有返回里面的结果。今天就通过分析 Ajax 获得它。

　　分析页面

　　url = \':///x/web-interface/search/type?jsonp=jsonp&&search_type=video&highlight=1&keyword=python&page={}\'.format(page)

　　点击搜索，会出现这个网址，或者点击下一页

　　然后就构造这个请求。需要注意的是最后一个参数是不能加的。

　　代码实战

　　代码中的一些解释已经很清楚了，这里再复习一下

　　re.sub()

　　这个函数传入五个参数，前三个是必须传入的pattern,repl,string

　　第一个是正则表达式中的模式字符串

　　第二个是要替换的字符串

　　第三个是文本字符串和剩下的两个可选参数，一个是count，一个是flag。

　　如果需要良好的学习交流环境，那么可以考虑Python学习交流群：548377875；

　　如果需要系统的学习资料，那么可以考虑Python学习交流群：548377875。

　　第一种将时间戳转换为标准格式的方法

　　第二种方法

　　以上就是本次的全部内容。继续练习，继续努力！

0

2021-10-21

网页中flash数据抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页中flash数据抓取(以糗事百科网站数据为例(解析json.6+pycharm5))

0 个评论

发起人

AI时代内容工厂

网页中flash数据抓取(以糗事百科网站数据为例(解析json.6+pycharm5))

0 个评论

发起人

相关问题