动态网页抓取(销量最高胸罩的所有评论数据(一)分析 )

优采云 发布时间: 2021-11-24 06:07

  动态网页抓取(销量最高胸罩的所有评论数据(一)分析

)

  CSDN爬虫(六)-动态网页爬取的两种策略概述

  第二种方案是分析页面,找到对应的请求接口,直接获取数据。

  本文将首先使用Selenium爬取CSDN评论模块的数据;然后使用第二种方法对CSDN评论模块的数据进行分析爬取;另外,看看网上很火的“爬虫京东文胸评论分析中国杯……”,我们还尝试爬取了“最畅销文胸的所有评论数据”。有好处=_+

  方案一:使用Selenium模拟浏览器获取动态网页数据,下载需要的jar和浏览器驱动。注:其实这是一个难点。Selenium 需要的jar、浏览器驱动、浏览器版本需要匹配。如果它们不匹配,就会出现各种问题。文章 最后给出我在测试中成功使用的jar包和驱动下载的版本。版本匹配请参考这个文章:; 我用的是chrome浏览器,chromedriver下载地址(不用翻墙):。

  将下载好的驱动放到谷歌浏览器的安装目录下,如下图

  

  导入jar包,具体步骤不再详述。如下所示

  

  编写测试代码

  package com.wgyscsf.spider;

import org.openqa.selenium.WebDriver;

import org.openqa.selenium.chrome.ChromeDriver;

/**

* @author 高远

* 编写日期 2016-11-13下午9:02:01

* 邮箱 wgyscsf@163.com

* 博客 http://blog.csdn.net/wgyscsf

* TODO

*/

public class SeleniumTest {

public static void main(String[] args) {

// 第一步: 设置chromedriver地址。一定要指定驱动的位置。

System.setProperty("webdriver.chrome.driver",

"C:\\Program Files (x86)\\Google\\Chrome\\Application\\chromedriver.exe");

// 第二步:初始化驱动

WebDriver driver = new ChromeDriver();

// 第三步:获取目标网页

driver.get("http://blog.csdn.net/wgyscsf/article/details/52835845");

// 第四步:解析。以下就可以进行解了。使用webMagic、jsoup等进行必要的解析。

System.out.println("Page title is: " + driver.getTitle());

System.out.println("Page title is: " + driver.getPageSource());

}

}

  结果分析

  

  

  方案二:分析页面(使用Chrome浏览器进行演示)获取所需的API。案例一:获取CSDN博客文章详情的评论API(上面分析的那个) 步骤:

  打开要分析的网页:

  按F12,选择网络,刷新页面。如下所示

  

  这里需要我们一一分析,找到我们需要的API。这里有一个技巧:我们可以使用Filter,如下所示。进行信息过滤。

  

  比如我们要分析和获取评论信息,第一个想法是这个接口的名字可能是Comment...这样可以快速定位和找到我们需要的信息。

  

  不负众望,我们真的找到了。看来我们的想法和CSDN的开发者是一致的:评论应该以评论的英文commnet命名!

  

  复制找到完整的API地址:

  

  

  案例2:获取京东最畅销bra的所有评论信息。步骤: 打开需要分析的网页:按F12(不要忘记选择产品评论然后刷新),选择网络,刷新页面。如下所示

  

  这里需要我们一一分析,找到我们需要的API。这里有一个技巧:我们可以使用Filter,如下所示。进行信息过滤。

  比如我们要分析获取评论信息,第一个想法就是这个js的名字可能是Comment...这样可以快速定位和找到我们需要的信息。

  

  不负众望,我们真的找到了。看来我们的想法和CSDN的开发者是一致的:评论应该以评论的英文commnet命名!

  

  复制找到完整的API地址:,链接有好处=_+

  

  操作代码(所有代码已经迁移到github,欢迎star)

  点击获取

  个人公众号,及时更新技术文章

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线