网页中flash数据抓取(以糗事百科网站数据为例(解析json.6+pycharm5))
优采云 发布时间: 2021-10-21 00:02网页中flash数据抓取(以糗事百科网站数据为例(解析json.6+pycharm5))
这里是一个简单的介绍。以捕获网站静态和动态数据为例。实验环境为win10+python3.6+pycharm5.0。主要内容如下:
抓取网站的静态数据(数据在网页源码中):以尴尬百科网站的数据为例
1.这里假设我们抓取的数据如下,主要包括用户昵称、内容、搞笑数、评论数4个字段,如下:
对应的网页源码如下,里面收录了我们需要的数据:
2. 对应网页结构,主要代码如下,很简单,主要使用requests+BeautifulSoup,其中requests用于请求页面,BeautifulSoup用于解析页面:
程序截图如下,已成功抓取数据:
抓取网站的动态数据(数据不在网页源代码中,而是在json等文件中):以人人贷网站的数据为例
1. 这里假设我们正在爬取债券数据,主要包括年利率、贷款标题、期限、金额、进度5个字段。截图如下:
当你打开网页的源代码时,你会发现数据并不在网页的源代码中。按F12抓包分析时,可以在一个json文件中找到,如下:
2. 得到json文件的url后,我们就可以爬取相应的数据了。这里使用的包与上面的类似。因为是json文件,所以也用到了json包(解析json)。主要内容如下:
程序截图如下,已经成功抓取数据:
至此,这两种数据的抓取到此结束,包括静态数据和动态数据。总的来说,这两个例子并不难。它们都是入门级爬虫。网页结构比较简单。最重要的是做抓包分析,分析提取页面。熟悉之后就可以使用scrapy了。数据爬取的框架可以更方便、更高效。当然,如果抓取到的页面比较复杂,比如验证码、加密等,这个时候就需要仔细分析了。网上也有一些教程可以参考。如果你有兴趣,可以搜索一下,希望上面分享的内容对你有所帮助。
前几天写了一个爬虫,使用path、re、BeautifulSoup来爬取B站python视频,但是这个爬虫有一个缺陷,就是无法获取视频的图片信息,你试一下就会发现它根本没有返回里面的结果。今天就通过分析 Ajax 获得它。
分析页面
url = \':///x/web-interface/search/type?jsonp=jsonp&&search_type=video&highlight=1&keyword=python&page={}\'.format(page)
点击搜索,会出现这个网址,或者点击下一页
然后就构造这个请求。需要注意的是最后一个参数是不能加的。
代码实战
代码中的一些解释已经很清楚了,这里再复习一下
re.sub()
这个函数传入五个参数,前三个是必须传入的pattern,repl,string
第一个是正则表达式中的模式字符串
第二个是要替换的字符串
第三个是文本字符串和剩下的两个可选参数,一个是count,一个是flag。
如果需要良好的学习交流环境,那么可以考虑Python学习交流群:548377875;
如果需要系统的学习资料,那么可以考虑Python学习交流群:548377875。
第一种将时间戳转换为标准格式的方法
第二种方法
以上就是本次的全部内容。继续练习,继续努力!