python抓取动态网页(AJAX动态加载网页一什么是动态网页J哥一向注重理论与实践)

优采云 发布时间: 2021-11-03 14:22

  python抓取动态网页(AJAX动态加载网页一什么是动态网页J哥一向注重理论与实践)

  AJAX 动态加载网页

  一

  什么是动态网页

  J哥一向注重理论与实践的结合,知道发生了什么也必须知道为什么,这样他才能在没有变化的情况下应对所有的变化。

  所谓动态网页,是指一种与静态网页相对的网页编程技术。对于静态网页,随着html代码的生成,页面的内容和显示效果基本不会发生变化——除非你修改页面代码。这不是动态网页的情况。虽然页面代码没有改变,但显示的内容会随着时间、环境或数据库操作的结果而改变。——来源百度百科

  动态网页具有工作量少、内容更新快、功能更齐全的特点。被很多公司采用,如购动、速食宝、速食等。

  二

  什么是 AJAX

  随着人们对动态网页的加载速度要求越来越高,AJAX 技术应运而生,成为许多网站的首选。AJAX 是一种用于创建快速动态网页的技术,通过在后台与服务器进行少量数据交换,使网页可以异步更新。这意味着可以在不重新加载整个网页的情况下更新网页的某些部分。

  三

  如何抓取AJAX动态加载的网页

  1. 分析界面

  只要有数据发送,就一定有请求发送到服务器。我们只需要找出它静默加载的页面的真实请求。特点:爬取速度快,爬取数据干净,部分网站比较难解析。

  2. 硒

  什么是硒?它最初是一个自动化测试工具,但被广泛的用户抓取。是一个可以用代码操作浏览器的工具,比如控制浏览器的下滑,模拟鼠标点击等。 特点:代码比较简单,爬取速度慢,IP容易被封。

  项目实践

  理论这么多,老实说,J哥也不想这么啰嗦。但是,这些东西经常被问到,所以把它们写下来。下次有人问,就送他这个文章,一劳永逸!

  

  好,让我们回到王*敏*感*词*的部分。作为资深*敏*感*词*,王*敏*感*词*深知,研究*敏*感*词*多年来公开的开庭信息和执行信息,对于提升业务能力具有重要作用。于是他兴高采烈地打开了法庭信息公开网页。

  它看起来像这样:

  

  然后,他按照J哥之前写的爬虫介绍文章抓取数据,成功提取到第一页。他异常兴奋。

  

  紧接着,他又加了一个for循环,想着花几分钟把这个网站2164页共32457条宣判数据提取到excel中。

  然后,就没有了。你也应该知道,看了前面的理论部分,这是一个AJAX动态加载的网页。无论你如何点击下一页,url都不会改变。如果你不相信我,我就给你看。左上角的url像山一样矗立在那里:

  一

  解析接口

  既然如此,那我们就开始爬虫的正确姿势,先用解析接口的方法来写爬虫。

  首先,找到真正的要求。右键勾选,点击Network,选择XHR,刷新网页,在Name列表中选择jsp文件。没错,就是这么简单,真正的要求就藏在里面。

  我们仔细看看这个jsp,这简直就是宝藏。有真实的请求url、post请求方法、Headers、Form Data,From Data代表传递给url的参数。通过改变参数,我们可以得到数据!为了安全起见,我为我的 Cookie 做了马赛克。机智的朋友可能已经发现我顺便给自己打了广告。

  

  让我们仔细看看这些参数, pagesnum 参数不只是代表页数!王*敏*感*词*顿时恍然大悟,原来他思考的那一页,竟然翻到了这里!穿越千山万水,终于找到了你!我们尝试点击翻页,发现只有 pagesnum 参数会发生变化。

  

  既然找到了,赶紧抓起来吧。J哥以闪电般的速度打开了PyCharm,导入了爬虫需要的库。

  1from urllib.parse import urlencode

2import csv

3import random

4import requests

5import traceback

6from time import sleep

7from lxml import etree    #lxml为第三方网页解析库,强大且速度快

  构造一个真正的请求并添加标题。J哥没有把他的User-Agent和Cookie贴在这里,主要是一向胆小的J哥被吓到了。

   1base_url = 'http://www.hshfy.sh.cn/shfy/gweb2017/ktgg_search_content.jsp?'  #这里要换成对应Ajax请求中的链接

2

3headers = {

4    'Connection': 'keep-alive',

5    'Accept': '*/*',

6    'X-Requested-With': 'XMLHttpRequest',

7    'User-Agent': '你的User-Agent',

8    'Origin': 'http://www.hshfy.sh.cn',

9    'Referer': 'http://www.hshfy.sh.cn/shfy/gweb2017/ktgg_search.jsp?zd=splc',

10    'Accept-Language': 'zh-CN,zh;q=0.9',

11    'Content-Type': 'application/x-www-form-urlencoded',

12    'Cookie': '你的Cookie'

13}

  构造get_page函数,参数为page,即页数。创建字典类型的表单数据,并使用post请求网页数据。这里一定要注意返回数据的解码,编码为'gbk',否则返回数据会乱码!另外,我还优化了异常处理,防止意外。

   1def get_page(page):

2    n = 3

3    while True:

4        try:

5            sleep(random.uniform(1, 2))  # 随机出现1-2之间的数,包含小数

6            data = {

7                'yzm': 'yxAH',

8                'ft':'',

9                'ktrqks': '2020-05-22',

10                'ktrqjs': '2020-06-22',

11                'spc':'',

12                'yg':'',

13                'bg':'',

14                'ah':'',

15                'pagesnum': page

16            }

17            url = base_url + urlencode(data)

18            print(url)

19            try:

20                response = requests.request("POST",url, headers = headers)

21                #print(response)

22                if response.status_code == 200:

23                    re = response.content.decode('gbk')

24                    # print(re)

25                    return re  # 解析内容

26            except requests.ConnectionError as e:

27                print('Error', e.args)  # 输出异常信息

28        except (TimeoutError, Exception):

29            n -= 1

30            if n == 0:

31                print('请求3次均失败,放弃此url请求,检查请求条件')

32                return

33            else:

34                print('请求失败,重新请求')

35                continue

  构造parse_page函数解析返回的网页数据,用Xpath提取所有字段内容,并保存为csv格式。有人会问为什么J哥那么喜欢用Xpath,因为它简单好用!!!这么简单的网页结构,我做不了普通的大法安装。J兄弟,我做不到。

   1def parse_page(html):

2    try:

3        parse = etree.HTML(html)  # 解析网页

4        items = parse.xpath('//*[@id="report"]/tbody/tr')

5        for item in items[1:]:

6            item = {

7                'a': ''.join(item.xpath('./td[1]/font/text()')).strip(),

8                'b': ''.join(item.xpath('./td[2]/font/text()')).strip(),

9                'c': ''.join(item.xpath('./td[3]/text()')).strip(),

10                'd': ''.join(item.xpath('./td[4]/text()')).strip(),

11                'e': ''.join(item.xpath('./td[5]/text()')).strip(),

12                'f': ''.join(item.xpath('./td[6]/div/text()')).strip(),

13                'g': ''.join(item.xpath('./td[7]/div/text()')).strip(),

14                'h': ''.join(item.xpath('./td[8]/text()')).strip(),

15                'i': ''.join(item.xpath('./td[9]/text()')).strip()

16            }

17            #print(item)

18            try:

19                with open('./law.csv', 'a', encoding='utf_8_sig', newline='') as fp:

20                    # 'a'为追加模式(添加)

21                    # utf_8_sig格式导出csv不乱码

22                    fieldnames = ['a', 'b', 'c', 'd', 'e','f','g','h','i']

23                    writer = csv.DictWriter(fp,fieldnames)

24                    writer.writerow(item)

25            except Exception:

26                print(traceback.print_exc())  #代替print e 来输出详细的异常信息

27    except Exception:

28        print(traceback.print_exc())

  最后遍历页数,调用函数。OK完成!

  1    for page in range(1,5):  #这里设置想要爬取的页数

2        html = get_page(page)

3        #print(html)

4        print("第" + str(page) + "页提取完成")

  我们来看看最终的效果:

  二

  硒

  热衷学习的朋友可能还想看看Selenium是如何爬取AJAX动态加载网页的。J哥自然会满足你的好奇心。于是赶紧新建了一个py文件,准备趁势而上,用Selenium把这个网站爬下来。

  首先,导入相关库。

  1from lxml import etree

2import time

3from selenium import webdriver

4from selenium. webdriver.support.wait import WebDriverWait

5from selenium.webdriver.support import expected_conditions as EC

6from selenium.webdriver.common.by import By

  然后,使用chromedriver驱动打开这个网站。

  1def main():

2    # 爬取首页url

3    url = "http://www.hshfy.sh.cn/shfy/gweb2017/flws_list.jsp?ajlb=aYWpsYj3D8crCz"

4    # 定义谷歌webdriver

5    driver = webdriver.Chrome('./chromedriver')

6    driver.maximize_window()  # 将浏览器最大化

7    driver.get(url)

  所以,我惊讶地发现报告了一个错误。以CET-6英语的词汇储备,J哥居然听懂了!可能是我的驱动和浏览器版本不匹配,只支持79版本的浏览器。

  

  J兄很郁闷,因为我之前用Selenium没遇到过这个问题。J哥不甘心,打开谷歌浏览器查看版本号。

  

  我失去了它!他们都更新到了81版!遇到这种情况,请好奇的朋友,请等待J哥设置浏览器自动更新并重新下载最新驱动。下次你会听Selenium crawler。记得关注本公众号。不要错过刺激~

  结束语

  综上所述,对于网络爬虫的AJAX动态加载,一般有两种方式:解析接口;硒。J兄推荐解析接口的方式。如果是解析json数据,最好是爬取。如果你不知道如何使用Selenium,让我们使用Selenium。

  后台私信编辑器01获取完整项目代码`1

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线