java爬虫抓取网页数据( 每一个步骤我都是进行独立封装起来,方便复用 )

优采云发布时间: 2021-12-21 10:19

　　java爬虫抓取网页数据(

每一个步骤我都是进行独立封装起来,方便复用

)

　　Java爬虫基于Jsoup抓取网页数据

　　前言

　　本文主要介绍简单使用Jsoup抓取网页数据

　　框架 SpringBoot + Jsoup

　　我独立封装了每一步，方便复用（重要的说三遍）

　　这是广告：技术交流群796794009 SpringBoot技术交流群； --小武

　　一.准备

　　创建一个SpringBoot项目，引入Jsoup依赖

org.jsoup

jsoup

1.13.1

　　二.代码（使用Jsoup的核心是两步）

　　第一步

　　通过Jsoup的connect(url).get()获取当前页面信息；方法

　　url 是你要获取的网页地址

　　返回的是一个文档

　　 public Document getDoc(String url){

Document doc;

try {

doc = Jsoup.connect(url).get();

} catch (IOException e) {

log.error("出现异常:{}", e.getMessage());

return null;

}

return doc;

}

　　第二步

　　通过Document中的select方法获取标签（Elements）信息

　　特别说明1：使用select方法获取Element的集合，需要遍历获取Element

　　特别说明2：link.attr("abs:src")中的abs：指的是绝对路径，现在很多页面的src都没有域名

　　 private Map listUrl(Document doc){

// Map

Map map = new HashMap(16);

// 获取图片标签

Elements links = doc.select("img[src]");

for (Element link : links){

System.out.println("名称 : " + link.text());

System.out.println("链接 : " + link.attr("abs:src"));

map.put(link.absUrl("abs:src"), link.text());

}

return map;

}

　　三.效果

　　这是我博客中的一段图片数据文章

　　爬虫项目地址

　　个人爬虫项目，仅供学习参考：

　　使用环境jdk1.8、MySQL8.0

　　注意：本项目仅提供4个接口

　　特别说明：第四个接口不建议大家尝试大网站，大网站接口获取时间太长

　　禁止利用本项目做一切*敏*感*词*，仅供学习参考

　　如图所示：

0

2021-12-21

java爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java爬虫抓取网页数据( 每一个步骤我都是进行独立封装起来,方便复用 )

0 个评论

发起人

AI时代内容工厂

java爬虫抓取网页数据( 每一个步骤我都是进行独立封装起来,方便复用 )

0 个评论

发起人

相关问题