java爬虫抓取网页数据( 每一个步骤我都是进行独立封装起来,方便复用 )

优采云 发布时间: 2021-12-21 10:19

  java爬虫抓取网页数据(

每一个步骤我都是进行独立封装起来,方便复用

)

  Java爬虫基于Jsoup抓取网页数据

  前言

  本文主要介绍简单使用Jsoup抓取网页数据

  框架 SpringBoot + Jsoup

  我独立封装了每一步,方便复用(重要的说三遍)

  我独立封装了每一步,方便复用(重要的说三遍)

  我独立封装了每一步,方便复用(重要的说三遍)

  这是广告:技术交流群796794009 SpringBoot技术交流群; --小武

  一.准备

  创建一个SpringBoot项目,引入Jsoup依赖

  

org.jsoup

jsoup

1.13.1

  二.代码(使用Jsoup的核心是两步)

  第一步

  通过Jsoup的connect(url).get()获取当前页面信息;方法

  url 是你要获取的网页地址

  返回的是一个文档

   public Document getDoc(String url){

Document doc;

try {

doc = Jsoup.connect(url).get();

} catch (IOException e) {

log.error("出现异常:{}", e.getMessage());

return null;

}

return doc;

}

  第二步

  通过Document中的select方法获取标签(Elements)信息

  特别说明1:使用select方法获取Element的集合,需要遍历获取Element

  特别说明2:link.attr("abs:src")中的abs:指的是绝对路径,现在很多页面的src都没有域名

   private Map listUrl(Document doc){

// Map

Map map = new HashMap(16);

// 获取图片标签

Elements links = doc.select("img[src]");

for (Element link : links){

System.out.println("名称 : " + link.text());

System.out.println("链接 : " + link.attr("abs:src"));

map.put(link.absUrl("abs:src"), link.text());

}

return map;

}

  三.效果

  这是我博客中的一段图片数据文章

  

  爬虫项目地址

  个人爬虫项目,仅供学习参考:

  使用环境jdk1.8、MySQL8.0

  注意:本项目仅提供4个接口

  特别说明:第四个接口不建议大家尝试大网站,大网站接口获取时间太长

  禁止利用本项目做一切*敏*感*词*,仅供学习参考

  如图所示:

  

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线