js 抓取网页内容(如何获取动态网页数据的方法途径?途径 )

优采云 发布时间: 2022-01-28 10:09

  js 抓取网页内容(如何获取动态网页数据的方法途径?途径

)

  上一篇文章讲了抓取58网页的出租数据。有朋友问是不是这样从ajax请求生成的动态网页中抓取数据的。其实方法并不难。总结起来有两种方式:

  直接用python运行JavaScript代码 采集 返回数据

  使用python的第三方库对整个页面的html和javascript进行解释执行,生成最终的网页,然后采集data

  由于第一种方法python执行js代码很慢,操作也比较复杂,而第二种方法可以处理成静态网页采集数据,所以第二种方法比较常用

  第二种方式采集动态网页,这里主要用到了两个第三方库:Selenium和PhantomJS。Selenium 是一个强大的网络数据采集 工具,需要与第三方浏览器配合使用。PhantomJS 是一个将 网站 加载到内存中并在页面上执行 JavaScript 代码的浏览器,但不会将图形界面呈现给用户。通过结合 Selenium 和 PhantomJS,我们可以轻松解决采集动态页面数据的问题。具体安装方法请参考百度。

  这里以前面写的一个微信商城网页为例,说明如何获取动态网页数据。界面如下所示:

  

  该页面加载数据的过程如下: 静态网页中只有标题栏和底部标签栏。页面展示后,会通过ajax从服务器获取商品数据,用js展示。我要做的是通过 Selenium 和 PhantomJS 来获取它。产品数据。

  如果使用之前爬取静态网页的方法,代码是这样写的:

  

  运行上面的代码后,输出是这样的,产品列表为空

  

  使用 selenium 和 PhantomJS,代码是这样写的:

  

  运行上述代码后,通过ajax动态获取的数据也可以通过网络爬虫获取

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线